input: make it more modular
[picodrive.git] / platform / uiq2 / blit.s
1 @ assembly "optimized" blitter and copy functions\r
2 @ all pointers must be word-aligned\r
3 \r
4 @ (c) Copyright 2006, notaz\r
5 @ All Rights Reserved\r
6 \r
7 \r
8 @ Convert 0000bbb0 ggg0rrr0\r
9 @ to      0000rrr0 ggg0bbb0\r
10 \r
11 @ r2,r3 - scratch, lr = 0x000F000F\r
12 .macro convRGB444 reg\r
13     and     r2,   \reg, lr         @ r2=red\r
14     and     r3,   \reg, lr, lsl #8 @ r3=blue\r
15     and     \reg, \reg, lr, lsl #4 @ green stays in place\r
16     orr     \reg, \reg, r2, lsl #8 @ add red back\r
17     orr     \reg, \reg, r3, lsr #8 @ add blue back\r
18 .endm\r
19 \r
20 .global vidConvCpyRGB444 @ void *to, void *from, int pixels\r
21 \r
22 vidConvCpyRGB444:\r
23     stmfd   sp!, {r4-r11,lr}\r
24 \r
25     mov     r12, r2, lsr #4 @ repeats\r
26     mov     lr, #0xF0000\r
27     orr     lr, lr, #0xF    @ lr == pattern 0x000F000F\r
28 \r
29 \r
30 .loopRGB444:\r
31         subs    r12, r12, #1\r
32 \r
33     @ I first thought storing multiple registers would be faster,\r
34     @ but this doesn't seem to be the case, probably because of\r
35     @ slow video memory we are dealing with\r
36         ldmia   r1!, {r4-r11}\r
37     convRGB444 r4\r
38     str     r4, [r0], #4\r
39     convRGB444 r5\r
40     str     r5, [r0], #4\r
41     convRGB444 r6\r
42     str     r6, [r0], #4\r
43     convRGB444 r7\r
44     str     r7, [r0], #4\r
45     convRGB444 r8\r
46     str     r8, [r0], #4\r
47     convRGB444 r9\r
48     str     r9, [r0], #4\r
49     convRGB444 r10\r
50     str     r10, [r0], #4\r
51     convRGB444 r11\r
52     str     r11, [r0], #4\r
53 \r
54     bgt     .loopRGB444\r
55 \r
56 \r
57     ldmfd   sp!, {r4-r11,lr}\r
58     bx      lr\r
59 \r
60 \r
61 @ Convert 0000bbb0 ggg0rrr0\r
62 @ to      rrr00ggg 000bbb00\r
63 \r
64 @ r2,r3 - scratch, lr = 0x07800780\r
65 .macro convRGB565 reg\r
66     and     r2,   \reg, lr,  lsr #7  @ r2=red\r
67     and     r3,   \reg, lr,  lsl #1  @ r3=blue\r
68     and     \reg, lr,   \reg,lsl #3  @ green stays, but needs shifting\r
69     orr     \reg, \reg, r2,  lsl #12 @ add red back\r
70     orr     \reg, \reg, r3,  lsr #7  @ add blue back\r
71 .endm\r
72 \r
73 .global vidConvCpyRGB565 @ void *to, void *from, int pixels\r
74 \r
75 vidConvCpyRGB565:\r
76     stmfd   sp!, {r4-r11,lr}\r
77 \r
78     mov     r12, r2, lsr #4 @ repeats\r
79     mov     lr, #0x07800000\r
80     orr     lr, lr, #0x780  @ lr == pattern 0x07800780\r
81 \r
82 .loopRGB565:\r
83         subs    r12, r12, #1\r
84 \r
85         ldmia   r1!, {r4-r11}\r
86     convRGB565 r4\r
87     str     r4, [r0], #4\r
88     convRGB565 r5\r
89     str     r5, [r0], #4\r
90     convRGB565 r6\r
91     str     r6, [r0], #4\r
92     convRGB565 r7\r
93     str     r7, [r0], #4\r
94     convRGB565 r8\r
95     str     r8, [r0], #4\r
96     convRGB565 r9\r
97     str     r9, [r0], #4\r
98     convRGB565 r10\r
99     str     r10, [r0], #4\r
100     convRGB565 r11\r
101     str     r11, [r0], #4\r
102 \r
103     bgt     .loopRGB565\r
104 \r
105     ldmfd   sp!, {r4-r11,lr}\r
106     bx      lr\r
107 \r
108 \r
109 @ Convert 0000bbb0 ggg0rrr0 0000bbb0 ggg0rrr0\r
110 @ to      00000000 rrr00000 ggg00000 bbb00000 ...\r
111 \r
112 @ r2,r3 - scratch, lr = 0x0000F000\r
113 @ rin - src reg, rout - dest reg (can be same for both; rout can be r3)\r
114 .macro convRGB32_l rout rin\r
115     and     r2,    \rin,  lr,   lsr #12 @ r2=red\r
116     and     r3,    \rin,  lr,   lsr #4  @ r3=blue\r
117     orr     r2,    r3,    r2,   lsl #24\r
118     and     \rout, lr,    \rin, lsl #8  @ green stays, but needs shifting\r
119     orr     \rout, \rout, r2,   lsr #4  @ add red+blue back\r
120 .endm\r
121 \r
122 @ r2,r3 - scratch, lr = 0x0000F000\r
123 @ rin - src reg, rout - dest reg (can be same for both; rout can be r3)\r
124 .macro convRGB32_h rout rin\r
125     and     r2,    \rin,  lr,   lsl #4  @ r2=red\r
126     mov     r3,    \rin,        lsr #24 @ r3=blue\r
127     orr     r2,    r3,    r2\r
128     and     \rout, lr,    \rin, lsr #8  @ green\r
129     orr     \rout, \rout, r2,   lsl #4\r
130 .endm\r
131 \r
132 @ slightly faster conversion, saves 1 opcode, writes output\r
133 @ lr =  0x00F000F0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
134 .macro convRGB32_2 rin rethigh=0\r
135     and     r2,  lr, \rin, lsr #4 @ blue\r
136     and     r3,  \rin, lr\r
137     orr     r2,  r2,   r3, lsl #8         @ g0b0g0b0\r
138 \r
139     mov     r3,  r2,  lsl #16             @ g0b00000\r
140     and     \rin,lr,  \rin, ror #12       @ 00r000r0 (reversed)\r
141     orr     r3,  r3,  \rin, lsr #16       @ g0b000r0\r
142     mov     r3,  r3,  ror #16             @ r3=low\r
143 \r
144     str     r3, [r0], #4\r
145 \r
146     mov     r2,  r2,  lsr #16\r
147 .if \rethigh\r
148     orr     \rin,r2,  \rin, lsl #16\r
149 .else\r
150     orr     r2,  r2,  \rin, lsl #16\r
151     str     r2, [r0], #4\r
152 .endif\r
153 .endm\r
154 \r
155 \r
156 .global vidConvCpyRGB32 @ void *to, void *from, int pixels\r
157 \r
158 vidConvCpyRGB32:\r
159     stmfd   sp!, {r4-r7,lr}\r
160 \r
161     mov     r12, r2, lsr #3 @ repeats\r
162     mov     lr, #0x00F00000\r
163     orr     lr, lr, #0x00F0\r
164 \r
165 .loopRGB32:\r
166         subs    r12, r12, #1\r
167 \r
168         ldmia   r1!, {r4-r7}\r
169     convRGB32_2 r4\r
170     convRGB32_2 r5\r
171     convRGB32_2 r6\r
172     convRGB32_2 r7\r
173 \r
174     bgt     .loopRGB32\r
175 \r
176     ldmfd   sp!, {r4-r7,lr}\r
177     bx      lr\r
178 \r
179 \r
180 @ -------- M2 stuff ---------\r
181 \r
182 .bss\r
183 tmpstore1d: .long\r
184 \r
185 .text\r
186 tmpstore1:  .long tmpstore1d\r
187 \r
188 \r
189 @ r3 - scratch, ru - reg with 2 pixels from upper col, rl - ... lower col\r
190 .macro rot_str16_90 ru rl\r
191     mov     r3, \rl,lsl #16\r
192     mov     r3, r3, lsr #16\r
193     orr     r3, r3, \ru, lsl #16\r
194     str     r3, [r0], #208*2\r
195     mov     r3, \ru,lsr #16\r
196     mov     r3, r3, lsl #16\r
197     orr     r3, r3, \rl, lsr #16\r
198     str     r3, [r0], #208*2\r
199 .endm\r
200 \r
201 \r
202 .global vidConvCpyM2_16_90 @ void *to, void *from, int width\r
203 \r
204 vidConvCpyM2_16_90:\r
205     stmfd   sp!, {r4-r11,lr}\r
206 \r
207     ldr     r4, =tmpstore1\r
208     str     sp, [r4]               @ save sp, we will need sp reg..\r
209     mov     sp, r0                 @ .. to store our dst\r
210 \r
211     @ crashing beyond this point will be fatal (phone reboots), as Symbian OS expects sp to always point to stack\r
212 \r
213     sub     r2,  r2, #1\r
214     mov     r12, #0x00670000\r
215     orr     r12, r12, r2, lsl #24\r
216     orr     r12, r12, r2           @ r12 == ((208-2)/2 << 16) | ((width-1)<<24) | (width-1)\r
217 \r
218     add     r0,  r0, #206*2\r
219     add     r1,  r1, #8*2          @ skip left border\r
220     add     lr,  r1, #328*2\r
221 \r
222 .loopM2_16_90:\r
223         subs    r12, r12, #1<<24\r
224 \r
225         ldmia   r1!, {r4-r7}\r
226         ldmia   lr!, {r8-r11}\r
227     rot_str16_90 r4 r8\r
228     rot_str16_90 r5 r9\r
229     rot_str16_90 r6 r10\r
230     rot_str16_90 r7 r11\r
231 \r
232     bpl     .loopM2_16_90\r
233 \r
234     add     r12, r12, #1<<24\r
235     subs    r12, r12, #0x00010000\r
236     bmi     .loopM2_16_90_end\r
237 \r
238     add     r0,  sp,  r12, lsr #14 @ calculate new dst pointer\r
239     orr     r12, r12, r12, lsl #24 @ restore the width counter\r
240 \r
241     @ skip remaining pixels on these 2 lines\r
242     mov     r4, #328/8-1         @ width of mode2 in line_pixels/8\r
243     sub     r4, r4, r12, lsr #24\r
244     add     r1, lr, r4,  lsl #4  @ skip src pixels\r
245     add     lr, r1, #328*2\r
246     b       .loopM2_16_90\r
247 \r
248 .loopM2_16_90_end:\r
249     @ restore sp\r
250     ldr     r4, =tmpstore1\r
251     ldr     sp, [r4]\r
252 \r
253     ldmfd   sp!, {r4-r11,lr}\r
254     bx      lr\r
255 \r
256 \r
257 \r
258 @ r3 - scratch, ru - reg with 2 pixels from upper col, rl - ... lower col (for right-to-left copies)\r
259 .macro rot_str16_270 ru rl\r
260     mov     r3, \rl,lsr #16\r
261     mov     r3, r3, lsl #16\r
262     orr     r3, r3, \ru, lsr #16\r
263     str     r3, [r0], #208*2\r
264     mov     r3, \ru,lsl #16\r
265     mov     r3, r3, lsr #16\r
266     orr     r3, r3, \rl, lsl #16\r
267     str     r3, [r0], #208*2\r
268 .endm\r
269 \r
270 \r
271 .global vidConvCpyM2_16_270 @ void *to, void *from, int width\r
272 \r
273 vidConvCpyM2_16_270:\r
274     stmfd   sp!, {r4-r11,lr}\r
275 \r
276     ldr     r4, =tmpstore1\r
277     str     sp, [r4]               @ save sp, we will need sp reg to store our dst\r
278 \r
279     sub     r2,  r2, #1\r
280     mov     r12, #0x00670000\r
281     orr     r12, r12, r2, lsl #24\r
282     orr     r12, r12, r2           @ r12 == ((208-2)/2 << 16) | ((width-1)<<24) | (width-1)\r
283 \r
284     add     r1,  r1, #328*2        @ skip left border+1line\r
285     add     lr,  r1, #328*2\r
286     add     sp,  r0, #206*2        @ adjust for algo\r
287 \r
288 .loopM2_16_270:\r
289         subs    r12, r12, #1<<24\r
290 \r
291         ldmdb   r1!, {r4-r7}\r
292         ldmdb   lr!, {r8-r11}\r
293     rot_str16_270 r7 r11           @ update the screen in incrementing direction, reduces tearing slightly\r
294     rot_str16_270 r6 r10\r
295     rot_str16_270 r5 r9\r
296     rot_str16_270 r4 r8\r
297 \r
298     bpl     .loopM2_16_270\r
299 \r
300     add     r12, r12, #1<<24\r
301     subs    r12, r12, #0x00010000\r
302     bmi     .loopM2_16_90_end      @ same end as in 90\r
303 \r
304     sub     r0,  sp,  r12, lsr #14 @ calculate new dst pointer\r
305     orr     r12, r12, r12, lsl #24 @ restore the width counter\r
306 \r
307     @ skip remaining pixels on these 2 lines\r
308     mov     r4, #328/8-1         @ width of mode2 in line_pixels/8\r
309     sub     r4, r4, r12, lsr #24\r
310     sub     r1, lr, r4,  lsl #4  @ skip src pixels\r
311     add     r1, r1, #328*2*2\r
312     add     lr, r1, #328*2\r
313     b       .loopM2_16_270\r
314 \r
315 \r
316 \r
317 .global vidConvCpyM2_RGB32_90 @ void *to, void *from, int width\r
318 \r
319 vidConvCpyM2_RGB32_90:\r
320     stmfd   sp!, {r4-r10,lr}\r
321 \r
322     mov     lr, #0x00F00000\r
323     orr     lr, lr, #0x00F0\r
324 \r
325     mov     r12, #208/4            @ row counter\r
326     mov     r10, r2, lsl #2        @ we do 2 pixel wide copies\r
327 \r
328     add     r8,  r0, #208*4        @ parallel line\r
329     add     r1,  r1, #0x21000\r
330     add     r1,  r1, #0x00280      @ r1+=328*207*2+8*2\r
331     mov     r9,  r1\r
332 \r
333 .loopM2RGB32_90:\r
334         subs    r12, r12, #1\r
335 \r
336     @ at first this loop was written differently: src pixels were fetched with ldm's and\r
337     @ dest was not sequential. It ran nearly 2 times slower. It seems it is very important\r
338     @ to do sequential memory access on those items, which we have more (to offload addressing bus?).\r
339 \r
340     ldr     r4, [r1], #-328*2\r
341     ldr     r5, [r1], #-328*2\r
342     ldr     r6, [r1], #-328*2\r
343     ldr     r7, [r1], #-328*2\r
344 \r
345     convRGB32_2 r4, 1\r
346     convRGB32_2 r5, 1\r
347     convRGB32_2 r6, 1\r
348     convRGB32_2 r7, 1\r
349 \r
350     str     r4, [r8], #4\r
351     str     r5, [r8], #4\r
352     str     r6, [r8], #4\r
353     str     r7, [r8], #4\r
354 \r
355     bne     .loopM2RGB32_90\r
356 \r
357     subs    r10, r10, #1\r
358     ldmeqfd sp!, {r4-r10,pc}        @ return\r
359 \r
360     mov     r12, #208/4             @ restore row counter\r
361     mov     r0,  r8                 @ set new dst pointer\r
362     add     r8,  r0,  #208*4\r
363     add     r9,  r9,  #2*2          @ fix src pointer\r
364     mov     r1,  r9\r
365     b       .loopM2RGB32_90\r
366 \r
367 \r
368 \r
369 @ converter for vidConvCpyM2_RGB32_270\r
370 @ lr =  0x00F000F0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
371 .macro convRGB32_3 rin\r
372     and     r2,  lr, \rin, lsr #4 @ blue\r
373     and     r3,  \rin, lr\r
374     orr     r2,  r2,   r3, lsl #8         @ g0b0g0b0\r
375 \r
376     mov     r3,  r2,  lsl #16             @ g0b00000\r
377     and     \rin,lr,  \rin, ror #12       @ 00r000r0 (reversed)\r
378     orr     r3,  r3,  \rin, lsr #16       @ g0b000r0\r
379 \r
380     mov     r2,  r2,  lsr #16\r
381     orr     r2,  r2,  \rin, lsl #16\r
382     str     r2, [r0], #4\r
383 \r
384     mov     \rin,r3,  ror #16             @ r3=low\r
385 .endm\r
386 \r
387 \r
388 .global vidConvCpyM2_RGB32_270 @ void *to, void *from, int width\r
389 \r
390 vidConvCpyM2_RGB32_270:\r
391     stmfd   sp!, {r4-r10,lr}\r
392 \r
393     mov     lr, #0x00F00000\r
394     orr     lr, lr, #0x00F0\r
395 \r
396     mov     r12, #208/4            @ row counter\r
397     mov     r10, r2, lsl #2        @ we do 2 pixel wide copies (right to left)\r
398 \r
399     add     r8,  r0, #208*4        @ parallel line\r
400     add     r1,  r1, #326*2\r
401     mov     r9,  r1\r
402 \r
403 .loopM2RGB32_270:\r
404         subs    r12, r12, #1\r
405 \r
406     ldr     r4, [r1], #328*2\r
407     ldr     r5, [r1], #328*2\r
408     ldr     r6, [r1], #328*2\r
409     ldr     r7, [r1], #328*2\r
410 \r
411     convRGB32_3 r4\r
412     convRGB32_3 r5\r
413     convRGB32_3 r6\r
414     convRGB32_3 r7\r
415 \r
416     str     r4, [r8], #4\r
417     str     r5, [r8], #4\r
418     str     r6, [r8], #4\r
419     str     r7, [r8], #4\r
420 \r
421     bne     .loopM2RGB32_270\r
422 \r
423     subs    r10, r10, #1\r
424     ldmeqfd sp!, {r4-r10,pc}        @ return\r
425 \r
426     mov     r12, #208/4             @ restore row counter\r
427     mov     r0,  r8                 @ set new dst pointer\r
428     add     r8,  r0,  #208*4\r
429     sub     r9,  r9,  #2*2          @ fix src pointer\r
430     mov     r1,  r9\r
431     b       .loopM2RGB32_270\r
432 \r