[picodrive.git] / platform / uiq3 / engine / blit.s

@ some color conversion and blitting routines\r
\r
@ (c) Copyright 2006, notaz\r
@ All Rights Reserved\r
\r
\r
@ Convert 0000bbb0 ggg0rrr0 0000bbb0 ggg0rrr0\r
@ to      00000000 rrr00000 ggg00000 bbb00000 ...\r
\r
@ lr =  0x00e000e0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
@ if sh==2, r8=0x00404040 (sh!=0 destroys flags!)\r
.macro convRGB32_2 rin sh=0\r
    and     r2,  lr, \rin, lsr #4 @ blue\r
    and     r3,  \rin, lr\r
    orr     r2,  r2,   r3, lsl #8         @ g0b0g0b0\r
\r
    mov     r3,  r2,  lsl #16             @ g0b00000\r
    and     \rin,lr,  \rin, ror #12       @ 00r000r0 (reversed)\r
    orr     r3,  r3,  \rin, lsr #16       @ g0b000r0\r
.if \sh == 1\r
    mov     r3,  r3,  ror #17             @ shadow mode\r
.elseif \sh == 2\r
    adds    r3,  r3,  #0x40000000         @ green\r
    orrcs   r3,  r3,  #0xe0000000\r
    mov     r3,  r3,  ror #8\r
    adds    r3,  r3,  #0x40000000\r
    orrcs   r3,  r3,  #0xe0000000\r
    mov     r3,  r3,  ror #16\r
    adds    r3,  r3,  #0x40000000\r
    orrcs   r3,  r3,  #0xe0000000\r
    mov     r3,  r3,  ror #24\r
    orr     r3,  r3,   r3, lsr #3\r
.else\r
    mov     r3,  r3,  ror #16             @ r3=low\r
    orr     r3,  r3,   r3, lsr #3\r
.endif\r
\r
    str     r3, [r0], #4\r
\r
    mov     r2,  r2,  lsr #16\r
    orr     r2,  r2,  \rin, lsl #16\r
.if \sh == 1\r
    mov     r2,  r2,  lsr #1\r
.elseif \sh == 2\r
    mov     r2,  r2,  ror #8\r
    adds    r2,  r2,  #0x40000000         @ blue\r
    orrcs   r2,  r2,  #0xe0000000\r
    mov     r2,  r2,  ror #8\r
    adds    r2,  r2,  #0x40000000\r
    orrcs   r2,  r2,  #0xe0000000\r
    mov     r2,  r2,  ror #8\r
    adds    r2,  r2,  #0x40000000\r
    orrcs   r2,  r2,  #0xe0000000\r
    mov     r2,  r2,  ror #8\r
    orr     r2,  r2,   r2,  lsr #3\r
.else\r
    orr     r2,  r2,   r2,  lsr #3\r
.endif\r
\r
    str     r2, [r0], #4\r
.endm\r
\r
\r
.global vidConvCpyRGB32 @ void *to, void *from, int pixels\r
\r
vidConvCpyRGB32:\r
    stmfd   sp!, {r4-r7,lr}\r
\r
    mov     r12, r2, lsr #3 @ repeats\r
    mov     lr, #0x00e00000\r
    orr     lr, lr, #0x00e0\r
\r
.loopRGB32:\r
    subs    r12, r12, #1\r
\r
    ldmia    r1!, {r4-r7}\r
    convRGB32_2 r4\r
    convRGB32_2 r5\r
    convRGB32_2 r6\r
    convRGB32_2 r7\r
\r
    bgt     .loopRGB32\r
\r
    ldmfd   sp!, {r4-r7,lr}\r
    bx      lr\r
\r
\r
.global vidConvCpyRGB32sh @ void *to, void *from, int pixels\r
\r
vidConvCpyRGB32sh:\r
    stmfd   sp!, {r4-r7,lr}\r
\r
    mov     r12, r2, lsr #3 @ repeats\r
    mov     lr, #0x00e00000\r
    orr     lr, lr, #0x00e0\r
\r
.loopRGB32sh:\r
    subs    r12, r12, #1\r
\r
    ldmia    r1!, {r4-r7}\r
    convRGB32_2 r4, 1\r
    convRGB32_2 r5, 1\r
    convRGB32_2 r6, 1\r
    convRGB32_2 r7, 1\r
\r
    bgt     .loopRGB32sh\r
\r
    ldmfd   sp!, {r4-r7,lr}\r
    bx      lr\r
\r
\r
.global vidConvCpyRGB32hi @ void *to, void *from, int pixels\r
\r
vidConvCpyRGB32hi:\r
    stmfd   sp!, {r4-r7,lr}\r
\r
    mov     r12, r2, lsr #3 @ repeats\r
    mov     lr, #0x00e00000\r
    orr     lr, lr, #0x00e0\r
\r
.loopRGB32hi:\r
     ldmia    r1!, {r4-r7}\r
    convRGB32_2 r4, 2\r
    convRGB32_2 r5, 2\r
    convRGB32_2 r6, 2\r
    convRGB32_2 r7, 2\r
\r
    subs    r12, r12, #1\r
    bgt     .loopRGB32hi\r
\r
    ldmfd   sp!, {r4-r7,lr}\r
    bx      lr\r
\r
\r
@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
\r
@ -------- M2 stuff ---------\r
/*\r
.global vidConvCpy_90 @ void *to, void *from, int width\r
\r
vidConvCpy_90:\r
    stmfd   sp!, {r4-r10,lr}\r
\r
    mov     lr, #0x00F00000\r
    orr     lr, lr, #0x00F0\r
\r
    mov     r12, #224/4            @ row counter\r
    mov     r10, r2, lsl #2        @ we do 2 pixel wide copies\r
\r
    add     r8,  r0, #256*4        @ parallel line\r
    add     r1,  r1, #0x23000\r
    add     r1,  r1, #0x00B80      @ r1+=328*223*2+8*2\r
    mov     r9,  r1\r
\r
    mov     r4,  #0                @ fill bottom border\r
    mov     r5,  #0\r
    mov     r6,  #0\r
    mov     r7,  #0\r
    stmia   r0!, {r4-r7}\r
    stmia   r0!, {r4-r7}\r
    stmia   r8!, {r4-r7}\r
    stmia   r8!, {r4-r7}\r
\r
.loopM2RGB32_90:\r
	subs    r12, r12, #1\r
\r
    @ at first this loop was written differently: src pixels were fetched with ldm's and\r
    @ dest was not sequential. It ran nearly 2 times slower. It seems it is very important\r
    @ to do sequential memory access on those items, which we have more (to offload addressing bus?).\r
\r
    ldr     r4, [r1], #-328*2\r
    ldr     r5, [r1], #-328*2\r
    ldr     r6, [r1], #-328*2\r
    ldr     r7, [r1], #-328*2\r
\r
    convRGB32_2 r4, 1\r
    convRGB32_2 r5, 1\r
    convRGB32_2 r6, 1\r
    convRGB32_2 r7, 1\r
\r
    str     r4, [r8], #4\r
    str     r5, [r8], #4\r
    str     r6, [r8], #4\r
    str     r7, [r8], #4\r
\r
    bne     .loopM2RGB32_90\r
\r
    mov     r4,  #0                @ top border\r
    mov     r5,  #0\r
    mov     r6,  #0\r
    stmia   r0!, {r4-r6,r12}\r
    stmia   r0!, {r4-r6,r12}\r
    stmia   r8!, {r4-r6,r12}\r
    stmia   r8!, {r4-r6,r12}\r
\r
    subs    r10, r10, #1\r
    ldmeqfd sp!, {r4-r10,pc}        @ return\r
\r
    add     r0,  r8,  #16*4         @ set new dst pointer\r
    add     r8,  r0,  #256*4\r
    add     r9,  r9,  #2*2          @ fix src pointer\r
    mov     r1,  r9\r
\r
    stmia   r0!, {r4-r6,r12}        @ bottom border\r
    stmia   r0!, {r4-r6,r12}\r
    stmia   r8!, {r4-r6,r12}\r
    stmia   r8!, {r4-r6,r12}\r
\r
    mov     r12, #224/4             @ restore row counter\r
    b       .loopM2RGB32_90\r
\r
\r
\r
@ converter for vidConvCpy_270\r
@ lr =  0x00F000F0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
.macro convRGB32_3 rin\r
    and     r2,  lr, \rin, lsr #4 @ blue\r
    and     r3,  \rin, lr\r
    orr     r2,  r2,   r3, lsl #8         @ g0b0g0b0\r
\r
    mov     r3,  r2,  lsl #16             @ g0b00000\r
    and     \rin,lr,  \rin, ror #12       @ 00r000r0 (reversed)\r
    orr     r3,  r3,  \rin, lsr #16       @ g0b000r0\r
\r
    mov     r2,  r2,  lsr #16\r
    orr     r2,  r2,  \rin, lsl #16\r
    str     r2, [r0], #4\r
\r
    mov     \rin,r3,  ror #16             @ r3=low\r
.endm\r
*/\r
@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
\r
\r
@ takes byte-sized pixels from r3-r6, fetches from pal and stores to r7,r8,r10,lr\r
@ r2=pal\r
.macro mode2_4pix shift\r
    and     r7, r11, r3, lsr #\shift\r
    ldr     r7, [r2, r7, lsl #2]\r
\r
    and     r8, r11, r4, lsr #\shift\r
    ldr     r8, [r2, r8, lsl #2]\r
\r
    and     r10,r11, r5, lsr #\shift\r
    ldr     r10,[r2, r10,lsl #2]\r
\r
    and     lr, r11, r6, lsr #\shift\r
    ldr     lr, [r2, lr, lsl #2]\r
.endm\r
\r
@ r2=pal, r11=0xff\r
.macro mode2_4pix_getpix0 dreg sreg\r
    and     \dreg, r11, \sreg\r
    ldr     \dreg, [r2, \dreg, lsl #2]\r
.endm\r
\r
.macro mode2_4pix_getpix1 dreg sreg\r
    and     \dreg, r11, \sreg, lsr #8\r
    ldr     \dreg, [r2, \dreg, lsl #2]\r
.endm\r
\r
.macro mode2_4pix_getpix2 dreg sreg\r
    and     \dreg, r11, \sreg, lsr #16\r
    ldr     \dreg, [r2, \dreg, lsl #2]\r
.endm\r
\r
.macro mode2_4pix_getpix3 dreg sreg\r
    and     \dreg, r11, \sreg, lsr #24\r
    ldr     \dreg, [r2, \dreg, lsl #2]\r
.endm\r
\r
@ takes byte-sized pixels from reg, fetches from pal and stores to r3-r6\r
@ r11=0xFF, r2=pal\r
.macro mode2_4pix2_0 reg\r
    mode2_4pix_getpix0 r3, \reg\r
    mode2_4pix_getpix1 r4, \reg\r
    mode2_4pix_getpix2 r5, \reg\r
    mode2_4pix_getpix3 r6, \reg\r
.endm\r
\r
@ ...\r
.macro mode2_4pix2_180 reg\r
    mode2_4pix_getpix3 r3, \reg\r
    mode2_4pix_getpix2 r4, \reg\r
    mode2_4pix_getpix1 r5, \reg\r
    mode2_4pix_getpix0 r6, \reg\r
.endm\r
\r
@ takes byte-sized pixels from reg, fetches from pal and stores to r3-r5\r
@ r11=0xFF, r2=pal, r10=0xfcfcfc, r6=tmp\r
.macro mode2_4pix_to3 reg is180\r
.if \is180\r
    mode2_4pix_getpix3 r3, \reg\r
    mode2_4pix_getpix2 r4, \reg\r
.else\r
    mode2_4pix_getpix0 r3, \reg     @ gathering loads cause a weird-hang\r
    mode2_4pix_getpix1 r4, \reg\r
.endif\r
\r
    sub     r3, r3,  r3, lsr #2     @ r3 *= 0.75\r
    add     r3, r3,  r4, lsr #2     @ r3 += r4 * 0.25\r
    and     r3, r3,  r10\r
\r
.if \is180\r
    mode2_4pix_getpix1 r5, \reg\r
    mode2_4pix_getpix0 r6, \reg\r
.else\r
    mode2_4pix_getpix2 r5, \reg\r
    mode2_4pix_getpix3 r6, \reg\r
.endif\r
\r
    mov     r4, r4,  lsr #1\r
    add     r4, r4,  r5, lsr #1     @ r4 = (r4 + r5) / 2;\r
@    and     r4, r4,  r10\r
    sub     r6, r6,  r6, lsr #2     @ r6 *= 0.75\r
    add     r5, r6,  r5, lsr #2     @ r5 = r6 + r5 * 0.25\r
    and     r5, r5,  r10\r
.endm\r
\r
\r
@ void *to, void *from, void *pal, int width\r
.macro vidConvCpyM2_landscape is270\r
    stmfd   sp!, {r4-r11,lr}\r
\r
    mov     r11, #0xff\r
\r
    mov     r12, #(224/4-1)<<16    @ row counter\r
    orr     r12, r12, r3, lsl #1   @ we do 4 pixel wide copies (right to left)\r
\r
.if \is270\r
    add     r1,  r1, #324\r
.else\r
    add     r1,  r1, #0x11c00\r
    add     r1,  r1, #0x00308      @ 328*224+8\r
.endif\r
    mov     r9,  r1\r
\r
    mov     r3,  #0                @ fill top border\r
    mov     r4,  #0\r
    mov     r5,  #0\r
    mov     r6,  #0\r
    stmia   r0!, {r3-r6}\r
    stmia   r0!, {r3-r6}\r
    add     r7,  r0, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
    add     r7,  r7, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
    add     r7,  r7, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
\r
0: @ .loopM2RGB32_270:\r
	subs    r12, r12, #1<<16\r
\r
.if \is270\r
    ldr     r3, [r1], #328\r
    ldr     r4, [r1], #328\r
    ldr     r5, [r1], #328\r
    ldr     r6, [r1], #328\r
.else\r
    ldr     r3, [r1, #-328]!\r
    ldr     r4, [r1, #-328]!\r
    ldr     r5, [r1, #-328]!\r
    ldr     r6, [r1, #-328]!\r
.endif\r
\r
.if \is270\r
    mode2_4pix 24\r
.else\r
    mode2_4pix  0\r
.endif\r
    stmia   r0, {r7,r8,r10,lr}\r
    add     r0, r0, #256*4\r
\r
.if \is270\r
    mode2_4pix 16\r
.else\r
    mode2_4pix  8\r
.endif\r
    stmia   r0, {r7,r8,r10,lr}\r
    add     r0, r0, #256*4\r
\r
.if \is270\r
    mode2_4pix  8\r
.else\r
    mode2_4pix 16\r
.endif\r
    stmia   r0, {r7,r8,r10,lr}\r
    add     r0, r0, #256*4\r
\r
.if \is270\r
    mode2_4pix  0\r
.else\r
    mode2_4pix 24\r
.endif\r
    stmia   r0!,{r7,r8,r10,lr}\r
    sub     r0, r0, #256*4*3\r
\r
    bpl     0b @ .loopM2RGB32_270\r
\r
    mov     r3,  #0                @ bottom border\r
    mov     r4,  #0\r
    mov     r5,  #0\r
    mov     r6,  #0\r
    stmia   r0!, {r3-r6}\r
    stmia   r0!, {r3-r6}\r
    add     r0,  r0, #256*4-8*4\r
    stmia   r0!, {r3-r6}\r
    stmia   r0!, {r3-r6}\r
    add     r0,  r0, #256*4-8*4\r
    stmia   r0!, {r3-r6}\r
    stmia   r0!, {r3-r6}\r
    add     r0,  r0, #256*4-8*4\r
    stmia   r0!, {r3-r6}\r
    nop                             @ phone crashes if this is commented out. Do I stress it too much?\r
    stmia   r0!, {r3-r6}\r
\r
    add     r12, r12, #1<<16\r
    subs    r12, r12, #1\r
    ldmeqfd sp!, {r4-r11,pc}        @ return\r
\r
    add     r0,  r0, #16*4\r
.if \is270\r
    sub     r9,  r9, #4            @ fix src pointer\r
.else\r
    add     r9,  r9, #4\r
.endif\r
    mov     r1,  r9\r
\r
    stmia   r0!, {r3-r6}            @ top border\r
    stmia   r0!, {r3-r6}\r
    add     r7,  r0, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
    add     r7,  r7, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
    add     r7,  r7, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
\r
    orr     r12, r12, #(224/4-1)<<16 @ restore row counter\r
    b       0b @ .loopM2RGB32_270\r
.endm\r
\r
\r
.global vidConvCpy_90 @ void *to, void *from, void *pal, int width\r
\r
vidConvCpy_90:\r
    vidConvCpyM2_landscape 0\r
\r
\r
.global vidConvCpy_270 @ void *to, void *from, void *pal, int width\r
\r
vidConvCpy_270:\r
    vidConvCpyM2_landscape 1\r
\r
\r
.global vidConvCpy_center_0 @ void *to, void *from, void *pal\r
\r
vidConvCpy_center_0:\r
    stmfd   sp!, {r4-r6,r11,lr}\r
\r
    mov     r11, #0xff\r
    add     r1,  r1, #8     @ not border (centering 32col here)\r
\r
    mov     r12, #(240/4-1)<<16\r
    orr     r12, r12, #224\r
\r
.loopRGB32_c0:\r
    ldr     lr, [r1], #4\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix2_0 lr\r
    stmia   r0!, {r3-r6}\r
    bpl     .loopRGB32_c0\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r6,r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    add     r1,  r1, #88\r
    orr     r12, #(240/4-1)<<16\r
    b       .loopRGB32_c0\r
\r
\r
.global vidConvCpy_center_180 @ void *to, void *from, void *pal\r
\r
vidConvCpy_center_180:\r
    stmfd   sp!, {r4-r6,r11,lr}\r
\r
    mov     r11, #0xff\r
    add     r1,  r1, #0x11c00\r
    add     r1,  r1, #0x002B8 @ #328*224-72\r
\r
    mov     r12, #(240/4-1)<<16\r
    orr     r12, r12, #224\r
\r
.loopRGB32_c180:\r
    ldr     lr, [r1, #-4]!\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix2_180 lr\r
    stmia   r0!, {r3-r6}\r
    bpl     .loopRGB32_c180\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r6,r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    sub     r1,  r1, #88\r
    orr     r12, #(240/4-1)<<16\r
    b       .loopRGB32_c180\r
\r
\r
@ note: the following code assumes that (pal[x] & 0x030303) == 0\r
\r
.global vidConvCpy_center2_40c_0 @ void *to, void *from, void *pal, int lines\r
\r
vidConvCpy_center2_40c_0:\r
    stmfd   sp!, {r4-r6,r10,r11,lr}\r
\r
    mov     r11, #0xff\r
    mov     r10, #0xfc\r
    orr     r10, r10, lsl #8\r
    orr     r10, r10, lsl #8\r
    add     r1,  r1, #8     @ border\r
\r
    mov     r12, #(240/3-1)<<16\r
    orr     r12, r12, r3\r
\r
.loopRGB32_c2_40c_0:\r
    ldr     lr, [r1], #4\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix_to3 lr, 0\r
\r
    stmia   r0!, {r3-r5}\r
    bpl     .loopRGB32_c2_40c_0\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r6,r10,r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    add     r1,  r1, #8\r
    orr     r12, #(240/3-1)<<16\r
    b       .loopRGB32_c2_40c_0\r
\r
\r
.global vidConvCpy_center2_40c_180 @ void *to, void *from, void *pal, int lines\r
\r
vidConvCpy_center2_40c_180:\r
    stmfd   sp!, {r4-r6,r10,r11,lr}\r
\r
    mov     r11, #0xff\r
    mov     r10, #0xfc\r
    orr     r10, r10, lsl #8\r
    orr     r10, r10, lsl #8\r
\r
    mov     r4,  #328\r
    mla     r1,  r3, r4, r1\r
@    add     r1,  r1, #0x11000\r
@    add     r1,  r1, #0x00f00 @ #328*224\r
\r
    mov     r12, #(240/3-1)<<16\r
    orr     r12, r12, r3\r
\r
.loop_c2_40c_180:\r
    ldr     lr, [r1, #-4]!\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix_to3 lr, 1\r
\r
    stmia   r0!, {r3-r5}\r
    bpl     .loop_c2_40c_180\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r6,r10,r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    sub     r1,  r1, #8\r
    orr     r12, #(240/3-1)<<16\r
    b       .loop_c2_40c_180\r
\r
\r
.global vidConvCpy_center2_32c_0 @ void *to, void *from, void *pal, int lines\r
\r
vidConvCpy_center2_32c_0:\r
    stmfd   sp!, {r4-r11,lr}\r
\r
    mov     r10, #0xfc\r
    orr     r10, r10, lsl #8\r
    orr     r10, r10, lsl #8\r
    mov     r11, #0xff\r
    add     r1,  r1, #8     @ border\r
\r
    mov     r12, #(240/15-1)<<16\r
    orr     r12, r12, r3\r
\r
.loop_c2_32c_0:\r
    ldmia   r1!, {r7-r9,lr}\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix2_0 r7\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix2_0 r8\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix2_0 r9\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix_to3 lr, 0\r
    stmia   r0!, {r3-r5}\r
    bpl     .loop_c2_32c_0\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    add     r1,  r1, #64+8\r
    orr     r12, #(240/15-1)<<16\r
    b       .loop_c2_32c_0\r
\r
\r
.global vidConvCpy_center2_32c_180 @ void *to, void *from, void *pal, int lines\r
\r
vidConvCpy_center2_32c_180:\r
    stmfd   sp!, {r4-r11,lr}\r
\r
    mov     r10, #0xfc\r
    orr     r10, r10, lsl #8\r
    orr     r10, r10, lsl #8\r
    mov     r11, #0xff\r
\r
    mov     r4,  #328\r
    mla     r1,  r3, r4, r1\r
@    add     r1,  r1, #0x11000\r
@    add     r1,  r1, #0x00f00 @ #328*224\r
\r
    mov     r12, #(240/15-1)<<16\r
    orr     r12, r12, r3\r
\r
.loop_c2_32c_180:\r
    ldmdb   r1!, {r7-r9,lr}\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix2_180 lr\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix2_180 r9\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix2_180 r8\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix_to3 r7, 1\r
    stmia   r0!, {r3-r5}\r
    bpl     .loop_c2_32c_180\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    sub     r1,  r1, #64+8\r
    orr     r12, #(240/15-1)<<16\r
    b       .loop_c2_32c_180\r
\r
\r
@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
\r
\r
.global vidClear @ void *to, int lines\r
\r
vidClear:\r
    stmfd   sp!, {lr}\r
    mov     r12, #240/16-1\r
    orr     r12, r1, r12, lsl #16\r
    mov     r1, #0\r
    mov     r2, #0\r
    mov     r3, #0\r
    mov     lr, #0\r
\r
.loopVidClear:\r
	subs    r12, r12, #1<<16\r
\r
    stmia   r0!, {r1-r3,lr}\r
    stmia   r0!, {r1-r3,lr}\r
    stmia   r0!, {r1-r3,lr}\r
    stmia   r0!, {r1-r3,lr}\r
    bpl     .loopVidClear\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {pc}        @ return\r
    add     r0,  r0, #16*4\r
    orr     r12, #(240/16-1)<<16\r
    b       .loopVidClear\r
\r
Commit	Line	Data
	1	@ some color conversion and blitting routines\r
	2	\r
	3	@ (c) Copyright 2006, notaz\r
	4	@ All Rights Reserved\r
	5	\r
	6	\r
	7	@ Convert 0000bbb0 ggg0rrr0 0000bbb0 ggg0rrr0\r
	8	@ to 00000000 rrr00000 ggg00000 bbb00000 ...\r
	9	\r
	10	@ lr = 0x00e000e0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
	11	@ if sh==2, r8=0x00404040 (sh!=0 destroys flags!)\r
	12	.macro convRGB32_2 rin sh=0\r
	13	and r2, lr, \rin, lsr #4 @ blue\r
	14	and r3, \rin, lr\r
	15	orr r2, r2, r3, lsl #8 @ g0b0g0b0\r
	16	\r
	17	mov r3, r2, lsl #16 @ g0b00000\r
	18	and \rin,lr, \rin, ror #12 @ 00r000r0 (reversed)\r
	19	orr r3, r3, \rin, lsr #16 @ g0b000r0\r
	20	.if \sh == 1\r
	21	mov r3, r3, ror #17 @ shadow mode\r
	22	.elseif \sh == 2\r
	23	adds r3, r3, #0x40000000 @ green\r
	24	orrcs r3, r3, #0xe0000000\r
	25	mov r3, r3, ror #8\r
	26	adds r3, r3, #0x40000000\r
	27	orrcs r3, r3, #0xe0000000\r
	28	mov r3, r3, ror #16\r
	29	adds r3, r3, #0x40000000\r
	30	orrcs r3, r3, #0xe0000000\r
	31	mov r3, r3, ror #24\r
	32	orr r3, r3, r3, lsr #3\r
	33	.else\r
	34	mov r3, r3, ror #16 @ r3=low\r
	35	orr r3, r3, r3, lsr #3\r
	36	.endif\r
	37	\r
	38	str r3, [r0], #4\r
	39	\r
	40	mov r2, r2, lsr #16\r
	41	orr r2, r2, \rin, lsl #16\r
	42	.if \sh == 1\r
	43	mov r2, r2, lsr #1\r
	44	.elseif \sh == 2\r
	45	mov r2, r2, ror #8\r
	46	adds r2, r2, #0x40000000 @ blue\r
	47	orrcs r2, r2, #0xe0000000\r
	48	mov r2, r2, ror #8\r
	49	adds r2, r2, #0x40000000\r
	50	orrcs r2, r2, #0xe0000000\r
	51	mov r2, r2, ror #8\r
	52	adds r2, r2, #0x40000000\r
	53	orrcs r2, r2, #0xe0000000\r
	54	mov r2, r2, ror #8\r
	55	orr r2, r2, r2, lsr #3\r
	56	.else\r
	57	orr r2, r2, r2, lsr #3\r
	58	.endif\r
	59	\r
	60	str r2, [r0], #4\r
	61	.endm\r
	62	\r
	63	\r
	64	.global vidConvCpyRGB32 @ void to, void from, int pixels\r
	65	\r
	66	vidConvCpyRGB32:\r
	67	stmfd sp!, {r4-r7,lr}\r
	68	\r
	69	mov r12, r2, lsr #3 @ repeats\r
	70	mov lr, #0x00e00000\r
	71	orr lr, lr, #0x00e0\r
	72	\r
	73	.loopRGB32:\r
	74	subs r12, r12, #1\r
	75	\r
	76	ldmia r1!, {r4-r7}\r
	77	convRGB32_2 r4\r
	78	convRGB32_2 r5\r
	79	convRGB32_2 r6\r
	80	convRGB32_2 r7\r
	81	\r
	82	bgt .loopRGB32\r
	83	\r
	84	ldmfd sp!, {r4-r7,lr}\r
	85	bx lr\r
	86	\r
	87	\r
	88	.global vidConvCpyRGB32sh @ void to, void from, int pixels\r
	89	\r
	90	vidConvCpyRGB32sh:\r
	91	stmfd sp!, {r4-r7,lr}\r
	92	\r
	93	mov r12, r2, lsr #3 @ repeats\r
	94	mov lr, #0x00e00000\r
	95	orr lr, lr, #0x00e0\r
	96	\r
	97	.loopRGB32sh:\r
	98	subs r12, r12, #1\r
	99	\r
	100	ldmia r1!, {r4-r7}\r
	101	convRGB32_2 r4, 1\r
	102	convRGB32_2 r5, 1\r
	103	convRGB32_2 r6, 1\r
	104	convRGB32_2 r7, 1\r
	105	\r
	106	bgt .loopRGB32sh\r
	107	\r
	108	ldmfd sp!, {r4-r7,lr}\r
	109	bx lr\r
	110	\r
	111	\r
	112	.global vidConvCpyRGB32hi @ void to, void from, int pixels\r
	113	\r
	114	vidConvCpyRGB32hi:\r
	115	stmfd sp!, {r4-r7,lr}\r
	116	\r
	117	mov r12, r2, lsr #3 @ repeats\r
	118	mov lr, #0x00e00000\r
	119	orr lr, lr, #0x00e0\r
	120	\r
	121	.loopRGB32hi:\r
	122	ldmia r1!, {r4-r7}\r
	123	convRGB32_2 r4, 2\r
	124	convRGB32_2 r5, 2\r
	125	convRGB32_2 r6, 2\r
	126	convRGB32_2 r7, 2\r
	127	\r
	128	subs r12, r12, #1\r
	129	bgt .loopRGB32hi\r
	130	\r
	131	ldmfd sp!, {r4-r7,lr}\r
	132	bx lr\r
	133	\r
	134	\r
	135	@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
	136	\r
	137	@ -------- M2 stuff ---------\r
	138	/*\r
	139	.global vidConvCpy_90 @ void to, void from, int width\r
	140	\r
	141	vidConvCpy_90:\r
	142	stmfd sp!, {r4-r10,lr}\r
	143	\r
	144	mov lr, #0x00F00000\r
	145	orr lr, lr, #0x00F0\r
	146	\r
	147	mov r12, #224/4 @ row counter\r
	148	mov r10, r2, lsl #2 @ we do 2 pixel wide copies\r
	149	\r
	150	add r8, r0, #256*4 @ parallel line\r
	151	add r1, r1, #0x23000\r
	152	add r1, r1, #0x00B80 @ r1+=3282232+8*2\r
	153	mov r9, r1\r
	154	\r
	155	mov r4, #0 @ fill bottom border\r
	156	mov r5, #0\r
	157	mov r6, #0\r
	158	mov r7, #0\r
	159	stmia r0!, {r4-r7}\r
	160	stmia r0!, {r4-r7}\r
	161	stmia r8!, {r4-r7}\r
	162	stmia r8!, {r4-r7}\r
	163	\r
	164	.loopM2RGB32_90:\r
	165	subs r12, r12, #1\r
	166	\r
	167	@ at first this loop was written differently: src pixels were fetched with ldm's and\r
	168	@ dest was not sequential. It ran nearly 2 times slower. It seems it is very important\r
	169	@ to do sequential memory access on those items, which we have more (to offload addressing bus?).\r
	170	\r
	171	ldr r4, [r1], #-328*2\r
	172	ldr r5, [r1], #-328*2\r
	173	ldr r6, [r1], #-328*2\r
	174	ldr r7, [r1], #-328*2\r
	175	\r
	176	convRGB32_2 r4, 1\r
	177	convRGB32_2 r5, 1\r
	178	convRGB32_2 r6, 1\r
	179	convRGB32_2 r7, 1\r
	180	\r
	181	str r4, [r8], #4\r
	182	str r5, [r8], #4\r
	183	str r6, [r8], #4\r
	184	str r7, [r8], #4\r
	185	\r
	186	bne .loopM2RGB32_90\r
	187	\r
	188	mov r4, #0 @ top border\r
	189	mov r5, #0\r
	190	mov r6, #0\r
	191	stmia r0!, {r4-r6,r12}\r
	192	stmia r0!, {r4-r6,r12}\r
	193	stmia r8!, {r4-r6,r12}\r
	194	stmia r8!, {r4-r6,r12}\r
	195	\r
	196	subs r10, r10, #1\r
	197	ldmeqfd sp!, {r4-r10,pc} @ return\r
	198	\r
	199	add r0, r8, #16*4 @ set new dst pointer\r
	200	add r8, r0, #256*4\r
	201	add r9, r9, #2*2 @ fix src pointer\r
	202	mov r1, r9\r
	203	\r
	204	stmia r0!, {r4-r6,r12} @ bottom border\r
	205	stmia r0!, {r4-r6,r12}\r
	206	stmia r8!, {r4-r6,r12}\r
	207	stmia r8!, {r4-r6,r12}\r
	208	\r
	209	mov r12, #224/4 @ restore row counter\r
	210	b .loopM2RGB32_90\r
	211	\r
	212	\r
	213	\r
	214	@ converter for vidConvCpy_270\r
	215	@ lr = 0x00F000F0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
	216	.macro convRGB32_3 rin\r
	217	and r2, lr, \rin, lsr #4 @ blue\r
	218	and r3, \rin, lr\r
	219	orr r2, r2, r3, lsl #8 @ g0b0g0b0\r
	220	\r
	221	mov r3, r2, lsl #16 @ g0b00000\r
	222	and \rin,lr, \rin, ror #12 @ 00r000r0 (reversed)\r
	223	orr r3, r3, \rin, lsr #16 @ g0b000r0\r
	224	\r
	225	mov r2, r2, lsr #16\r
	226	orr r2, r2, \rin, lsl #16\r
	227	str r2, [r0], #4\r
	228	\r
	229	mov \rin,r3, ror #16 @ r3=low\r
	230	.endm\r
	231	*/\r
	232	@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
	233	\r
	234	\r
	235	@ takes byte-sized pixels from r3-r6, fetches from pal and stores to r7,r8,r10,lr\r
	236	@ r2=pal\r
	237	.macro mode2_4pix shift\r
	238	and r7, r11, r3, lsr #\shift\r
	239	ldr r7, [r2, r7, lsl #2]\r
	240	\r
	241	and r8, r11, r4, lsr #\shift\r
	242	ldr r8, [r2, r8, lsl #2]\r
	243	\r
	244	and r10,r11, r5, lsr #\shift\r
	245	ldr r10,[r2, r10,lsl #2]\r
	246	\r
	247	and lr, r11, r6, lsr #\shift\r
	248	ldr lr, [r2, lr, lsl #2]\r
	249	.endm\r
	250	\r
	251	@ r2=pal, r11=0xff\r
	252	.macro mode2_4pix_getpix0 dreg sreg\r
	253	and \dreg, r11, \sreg\r
	254	ldr \dreg, [r2, \dreg, lsl #2]\r
	255	.endm\r
	256	\r
	257	.macro mode2_4pix_getpix1 dreg sreg\r
	258	and \dreg, r11, \sreg, lsr #8\r
	259	ldr \dreg, [r2, \dreg, lsl #2]\r
	260	.endm\r
	261	\r
	262	.macro mode2_4pix_getpix2 dreg sreg\r
	263	and \dreg, r11, \sreg, lsr #16\r
	264	ldr \dreg, [r2, \dreg, lsl #2]\r
	265	.endm\r
	266	\r
	267	.macro mode2_4pix_getpix3 dreg sreg\r
	268	and \dreg, r11, \sreg, lsr #24\r
	269	ldr \dreg, [r2, \dreg, lsl #2]\r
	270	.endm\r
	271	\r
	272	@ takes byte-sized pixels from reg, fetches from pal and stores to r3-r6\r
	273	@ r11=0xFF, r2=pal\r
	274	.macro mode2_4pix2_0 reg\r
	275	mode2_4pix_getpix0 r3, \reg\r
	276	mode2_4pix_getpix1 r4, \reg\r
	277	mode2_4pix_getpix2 r5, \reg\r
	278	mode2_4pix_getpix3 r6, \reg\r
	279	.endm\r
	280	\r
	281	@ ...\r
	282	.macro mode2_4pix2_180 reg\r
	283	mode2_4pix_getpix3 r3, \reg\r
	284	mode2_4pix_getpix2 r4, \reg\r
	285	mode2_4pix_getpix1 r5, \reg\r
	286	mode2_4pix_getpix0 r6, \reg\r
	287	.endm\r
	288	\r
	289	@ takes byte-sized pixels from reg, fetches from pal and stores to r3-r5\r
	290	@ r11=0xFF, r2=pal, r10=0xfcfcfc, r6=tmp\r
	291	.macro mode2_4pix_to3 reg is180\r
	292	.if \is180\r
	293	mode2_4pix_getpix3 r3, \reg\r
	294	mode2_4pix_getpix2 r4, \reg\r
	295	.else\r
	296	mode2_4pix_getpix0 r3, \reg @ gathering loads cause a weird-hang\r
	297	mode2_4pix_getpix1 r4, \reg\r
	298	.endif\r
	299	\r
	300	sub r3, r3, r3, lsr #2 @ r3 *= 0.75\r
	301	add r3, r3, r4, lsr #2 @ r3 += r4 * 0.25\r
	302	and r3, r3, r10\r
	303	\r
	304	.if \is180\r
	305	mode2_4pix_getpix1 r5, \reg\r
	306	mode2_4pix_getpix0 r6, \reg\r
	307	.else\r
	308	mode2_4pix_getpix2 r5, \reg\r
	309	mode2_4pix_getpix3 r6, \reg\r
	310	.endif\r
	311	\r
	312	mov r4, r4, lsr #1\r
	313	add r4, r4, r5, lsr #1 @ r4 = (r4 + r5) / 2;\r
	314	@ and r4, r4, r10\r
	315	sub r6, r6, r6, lsr #2 @ r6 *= 0.75\r
	316	add r5, r6, r5, lsr #2 @ r5 = r6 + r5 * 0.25\r
	317	and r5, r5, r10\r
	318	.endm\r
	319	\r
	320	\r
	321	@ void to, void from, void *pal, int width\r
	322	.macro vidConvCpyM2_landscape is270\r
	323	stmfd sp!, {r4-r11,lr}\r
	324	\r
	325	mov r11, #0xff\r
	326	\r
	327	mov r12, #(224/4-1)<<16 @ row counter\r
	328	orr r12, r12, r3, lsl #1 @ we do 4 pixel wide copies (right to left)\r
	329	\r
	330	.if \is270\r
	331	add r1, r1, #324\r
	332	.else\r
	333	add r1, r1, #0x11c00\r
	334	add r1, r1, #0x00308 @ 328*224+8\r
	335	.endif\r
	336	mov r9, r1\r
	337	\r
	338	mov r3, #0 @ fill top border\r
	339	mov r4, #0\r
	340	mov r5, #0\r
	341	mov r6, #0\r
	342	stmia r0!, {r3-r6}\r
	343	stmia r0!, {r3-r6}\r
	344	add r7, r0, #2564-84\r
	345	stmia r7!, {r3-r6}\r
	346	stmia r7!, {r3-r6}\r
	347	add r7, r7, #2564-84\r
	348	stmia r7!, {r3-r6}\r
	349	stmia r7!, {r3-r6}\r
	350	add r7, r7, #2564-84\r
	351	stmia r7!, {r3-r6}\r
	352	stmia r7!, {r3-r6}\r
	353	\r
	354	0: @ .loopM2RGB32_270:\r
	355	subs r12, r12, #1<<16\r
	356	\r
	357	.if \is270\r
	358	ldr r3, [r1], #328\r
	359	ldr r4, [r1], #328\r
	360	ldr r5, [r1], #328\r
	361	ldr r6, [r1], #328\r
	362	.else\r
	363	ldr r3, [r1, #-328]!\r
	364	ldr r4, [r1, #-328]!\r
	365	ldr r5, [r1, #-328]!\r
	366	ldr r6, [r1, #-328]!\r
	367	.endif\r
	368	\r
	369	.if \is270\r
	370	mode2_4pix 24\r
	371	.else\r
	372	mode2_4pix 0\r
	373	.endif\r
	374	stmia r0, {r7,r8,r10,lr}\r
	375	add r0, r0, #256*4\r
	376	\r
	377	.if \is270\r
	378	mode2_4pix 16\r
	379	.else\r
	380	mode2_4pix 8\r
	381	.endif\r
	382	stmia r0, {r7,r8,r10,lr}\r
	383	add r0, r0, #256*4\r
	384	\r
	385	.if \is270\r
	386	mode2_4pix 8\r
	387	.else\r
	388	mode2_4pix 16\r
	389	.endif\r
	390	stmia r0, {r7,r8,r10,lr}\r
	391	add r0, r0, #256*4\r
	392	\r
	393	.if \is270\r
	394	mode2_4pix 0\r
	395	.else\r
	396	mode2_4pix 24\r
	397	.endif\r
	398	stmia r0!,{r7,r8,r10,lr}\r
	399	sub r0, r0, #25643\r
	400	\r
	401	bpl 0b @ .loopM2RGB32_270\r
	402	\r
	403	mov r3, #0 @ bottom border\r
	404	mov r4, #0\r
	405	mov r5, #0\r
	406	mov r6, #0\r
	407	stmia r0!, {r3-r6}\r
	408	stmia r0!, {r3-r6}\r
	409	add r0, r0, #2564-84\r
	410	stmia r0!, {r3-r6}\r
	411	stmia r0!, {r3-r6}\r
	412	add r0, r0, #2564-84\r
	413	stmia r0!, {r3-r6}\r
	414	stmia r0!, {r3-r6}\r
	415	add r0, r0, #2564-84\r
	416	stmia r0!, {r3-r6}\r
	417	nop @ phone crashes if this is commented out. Do I stress it too much?\r
	418	stmia r0!, {r3-r6}\r
	419	\r
	420	add r12, r12, #1<<16\r
	421	subs r12, r12, #1\r
	422	ldmeqfd sp!, {r4-r11,pc} @ return\r
	423	\r
	424	add r0, r0, #16*4\r
	425	.if \is270\r
	426	sub r9, r9, #4 @ fix src pointer\r
	427	.else\r
	428	add r9, r9, #4\r
	429	.endif\r
	430	mov r1, r9\r
	431	\r
	432	stmia r0!, {r3-r6} @ top border\r
	433	stmia r0!, {r3-r6}\r
	434	add r7, r0, #2564-84\r
	435	stmia r7!, {r3-r6}\r
	436	stmia r7!, {r3-r6}\r
	437	add r7, r7, #2564-84\r
	438	stmia r7!, {r3-r6}\r
	439	stmia r7!, {r3-r6}\r
	440	add r7, r7, #2564-84\r
	441	stmia r7!, {r3-r6}\r
	442	stmia r7!, {r3-r6}\r
	443	\r
	444	orr r12, r12, #(224/4-1)<<16 @ restore row counter\r
	445	b 0b @ .loopM2RGB32_270\r
	446	.endm\r
	447	\r
	448	\r
	449	.global vidConvCpy_90 @ void to, void from, void *pal, int width\r
	450	\r
	451	vidConvCpy_90:\r
	452	vidConvCpyM2_landscape 0\r
	453	\r
	454	\r
	455	.global vidConvCpy_270 @ void to, void from, void *pal, int width\r
	456	\r
	457	vidConvCpy_270:\r
	458	vidConvCpyM2_landscape 1\r
	459	\r
	460	\r
	461	.global vidConvCpy_center_0 @ void to, void from, void *pal\r
	462	\r
	463	vidConvCpy_center_0:\r
	464	stmfd sp!, {r4-r6,r11,lr}\r
	465	\r
	466	mov r11, #0xff\r
	467	add r1, r1, #8 @ not border (centering 32col here)\r
	468	\r
	469	mov r12, #(240/4-1)<<16\r
	470	orr r12, r12, #224\r
	471	\r
	472	.loopRGB32_c0:\r
	473	ldr lr, [r1], #4\r
	474	subs r12, r12, #1<<16\r
	475	\r
	476	mode2_4pix2_0 lr\r
	477	stmia r0!, {r3-r6}\r
	478	bpl .loopRGB32_c0\r
	479	\r
	480	sub r12, r12, #1\r
	481	adds r12, r12, #1<<16\r
	482	ldmeqfd sp!, {r4-r6,r11,pc} @ return\r
	483	add r0, r0, #16*4\r
	484	add r1, r1, #88\r
	485	orr r12, #(240/4-1)<<16\r
	486	b .loopRGB32_c0\r
	487	\r
	488	\r
	489	.global vidConvCpy_center_180 @ void to, void from, void *pal\r
	490	\r
	491	vidConvCpy_center_180:\r
	492	stmfd sp!, {r4-r6,r11,lr}\r
	493	\r
	494	mov r11, #0xff\r
	495	add r1, r1, #0x11c00\r
	496	add r1, r1, #0x002B8 @ #328*224-72\r
	497	\r
	498	mov r12, #(240/4-1)<<16\r
	499	orr r12, r12, #224\r
	500	\r
	501	.loopRGB32_c180:\r
	502	ldr lr, [r1, #-4]!\r
	503	subs r12, r12, #1<<16\r
	504	\r
	505	mode2_4pix2_180 lr\r
	506	stmia r0!, {r3-r6}\r
	507	bpl .loopRGB32_c180\r
	508	\r
	509	sub r12, r12, #1\r
	510	adds r12, r12, #1<<16\r
	511	ldmeqfd sp!, {r4-r6,r11,pc} @ return\r
	512	add r0, r0, #16*4\r
	513	sub r1, r1, #88\r
	514	orr r12, #(240/4-1)<<16\r
	515	b .loopRGB32_c180\r
	516	\r
	517	\r
	518	@ note: the following code assumes that (pal[x] & 0x030303) == 0\r
	519	\r
	520	.global vidConvCpy_center2_40c_0 @ void to, void from, void *pal, int lines\r
	521	\r
	522	vidConvCpy_center2_40c_0:\r
	523	stmfd sp!, {r4-r6,r10,r11,lr}\r
	524	\r
	525	mov r11, #0xff\r
	526	mov r10, #0xfc\r
	527	orr r10, r10, lsl #8\r
	528	orr r10, r10, lsl #8\r
	529	add r1, r1, #8 @ border\r
	530	\r
	531	mov r12, #(240/3-1)<<16\r
	532	orr r12, r12, r3\r
	533	\r
	534	.loopRGB32_c2_40c_0:\r
	535	ldr lr, [r1], #4\r
	536	subs r12, r12, #1<<16\r
	537	\r
	538	mode2_4pix_to3 lr, 0\r
	539	\r
	540	stmia r0!, {r3-r5}\r
	541	bpl .loopRGB32_c2_40c_0\r
	542	\r
	543	sub r12, r12, #1\r
	544	adds r12, r12, #1<<16\r
	545	ldmeqfd sp!, {r4-r6,r10,r11,pc} @ return\r
	546	add r0, r0, #16*4\r
	547	add r1, r1, #8\r
	548	orr r12, #(240/3-1)<<16\r
	549	b .loopRGB32_c2_40c_0\r
	550	\r
	551	\r
	552	.global vidConvCpy_center2_40c_180 @ void to, void from, void *pal, int lines\r
	553	\r
	554	vidConvCpy_center2_40c_180:\r
	555	stmfd sp!, {r4-r6,r10,r11,lr}\r
	556	\r
	557	mov r11, #0xff\r
	558	mov r10, #0xfc\r
	559	orr r10, r10, lsl #8\r
	560	orr r10, r10, lsl #8\r
	561	\r
	562	mov r4, #328\r
	563	mla r1, r3, r4, r1\r
	564	@ add r1, r1, #0x11000\r
	565	@ add r1, r1, #0x00f00 @ #328*224\r
	566	\r
	567	mov r12, #(240/3-1)<<16\r
	568	orr r12, r12, r3\r
	569	\r
	570	.loop_c2_40c_180:\r
	571	ldr lr, [r1, #-4]!\r
	572	subs r12, r12, #1<<16\r
	573	\r
	574	mode2_4pix_to3 lr, 1\r
	575	\r
	576	stmia r0!, {r3-r5}\r
	577	bpl .loop_c2_40c_180\r
	578	\r
	579	sub r12, r12, #1\r
	580	adds r12, r12, #1<<16\r
	581	ldmeqfd sp!, {r4-r6,r10,r11,pc} @ return\r
	582	add r0, r0, #16*4\r
	583	sub r1, r1, #8\r
	584	orr r12, #(240/3-1)<<16\r
	585	b .loop_c2_40c_180\r
	586	\r
	587	\r
	588	.global vidConvCpy_center2_32c_0 @ void to, void from, void *pal, int lines\r
	589	\r
	590	vidConvCpy_center2_32c_0:\r
	591	stmfd sp!, {r4-r11,lr}\r
	592	\r
	593	mov r10, #0xfc\r
	594	orr r10, r10, lsl #8\r
	595	orr r10, r10, lsl #8\r
	596	mov r11, #0xff\r
	597	add r1, r1, #8 @ border\r
	598	\r
	599	mov r12, #(240/15-1)<<16\r
	600	orr r12, r12, r3\r
	601	\r
	602	.loop_c2_32c_0:\r
	603	ldmia r1!, {r7-r9,lr}\r
	604	subs r12, r12, #1<<16\r
	605	\r
	606	mode2_4pix2_0 r7\r
	607	stmia r0!, {r3-r6}\r
	608	mode2_4pix2_0 r8\r
	609	stmia r0!, {r3-r6}\r
	610	mode2_4pix2_0 r9\r
	611	stmia r0!, {r3-r6}\r
	612	mode2_4pix_to3 lr, 0\r
	613	stmia r0!, {r3-r5}\r
	614	bpl .loop_c2_32c_0\r
	615	\r
	616	sub r12, r12, #1\r
	617	adds r12, r12, #1<<16\r
	618	ldmeqfd sp!, {r4-r11,pc} @ return\r
	619	add r0, r0, #16*4\r
	620	add r1, r1, #64+8\r
	621	orr r12, #(240/15-1)<<16\r
	622	b .loop_c2_32c_0\r
	623	\r
	624	\r
	625	.global vidConvCpy_center2_32c_180 @ void to, void from, void *pal, int lines\r
	626	\r
	627	vidConvCpy_center2_32c_180:\r
	628	stmfd sp!, {r4-r11,lr}\r
	629	\r
	630	mov r10, #0xfc\r
	631	orr r10, r10, lsl #8\r
	632	orr r10, r10, lsl #8\r
	633	mov r11, #0xff\r
	634	\r
	635	mov r4, #328\r
	636	mla r1, r3, r4, r1\r
	637	@ add r1, r1, #0x11000\r
	638	@ add r1, r1, #0x00f00 @ #328*224\r
	639	\r
	640	mov r12, #(240/15-1)<<16\r
	641	orr r12, r12, r3\r
	642	\r
	643	.loop_c2_32c_180:\r
	644	ldmdb r1!, {r7-r9,lr}\r
	645	subs r12, r12, #1<<16\r
	646	\r
	647	mode2_4pix2_180 lr\r
	648	stmia r0!, {r3-r6}\r
	649	mode2_4pix2_180 r9\r
	650	stmia r0!, {r3-r6}\r
	651	mode2_4pix2_180 r8\r
	652	stmia r0!, {r3-r6}\r
	653	mode2_4pix_to3 r7, 1\r
	654	stmia r0!, {r3-r5}\r
	655	bpl .loop_c2_32c_180\r
	656	\r
	657	sub r12, r12, #1\r
	658	adds r12, r12, #1<<16\r
	659	ldmeqfd sp!, {r4-r11,pc} @ return\r
	660	add r0, r0, #16*4\r
	661	sub r1, r1, #64+8\r
	662	orr r12, #(240/15-1)<<16\r
	663	b .loop_c2_32c_180\r
	664	\r
	665	\r
	666	@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
	667	\r
	668	\r
	669	.global vidClear @ void *to, int lines\r
	670	\r
	671	vidClear:\r
	672	stmfd sp!, {lr}\r
	673	mov r12, #240/16-1\r
	674	orr r12, r1, r12, lsl #16\r
	675	mov r1, #0\r
	676	mov r2, #0\r
	677	mov r3, #0\r
	678	mov lr, #0\r
	679	\r
	680	.loopVidClear:\r
	681	subs r12, r12, #1<<16\r
	682	\r
	683	stmia r0!, {r1-r3,lr}\r
	684	stmia r0!, {r1-r3,lr}\r
	685	stmia r0!, {r1-r3,lr}\r
	686	stmia r0!, {r1-r3,lr}\r
	687	bpl .loopVidClear\r
	688	\r
	689	sub r12, r12, #1\r
	690	adds r12, r12, #1<<16\r
	691	ldmeqfd sp!, {pc} @ return\r
	692	add r0, r0, #16*4\r
	693	orr r12, #(240/16-1)<<16\r
	694	b .loopVidClear\r
	695	\r