[picodrive.git] / platform / uiq3 / engine / blit.s

@ vim:filetype=armasm\r
@ some color conversion and blitting routines\r
\r
@ (c) Copyright 2006, notaz\r
@ All Rights Reserved\r
\r
\r
@ Convert 0000bbb0 ggg0rrr0 0000bbb0 ggg0rrr0\r
@ to      00000000 rrr00000 ggg00000 bbb00000 ...\r
\r
@ lr =  0x00e000e0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
@ if sh==2, r8=0x00404040 (sh!=0 destroys flags!)\r
.macro convRGB32_2 rin sh=0\r
    and     r2,  lr, \rin, lsr #4 @ blue\r
    and     r3,  \rin, lr\r
    orr     r2,  r2,   r3, lsl #8         @ g0b0g0b0\r
\r
    mov     r3,  r2,  lsl #16             @ g0b00000\r
    and     \rin,lr,  \rin, ror #12       @ 00r000r0 (reversed)\r
    orr     r3,  r3,  \rin, lsr #16       @ g0b000r0\r
.if \sh == 1\r
    mov     r3,  r3,  ror #17             @ shadow mode\r
.elseif \sh == 2\r
    adds    r3,  r3,  #0x40000000         @ green\r
    orrcs   r3,  r3,  #0xe0000000\r
    mov     r3,  r3,  ror #8\r
    adds    r3,  r3,  #0x40000000\r
    orrcs   r3,  r3,  #0xe0000000\r
    mov     r3,  r3,  ror #16\r
    adds    r3,  r3,  #0x40000000\r
    orrcs   r3,  r3,  #0xe0000000\r
    mov     r3,  r3,  ror #24\r
    orr     r3,  r3,   r3, lsr #3\r
.else\r
    mov     r3,  r3,  ror #16             @ r3=low\r
    orr     r3,  r3,   r3, lsr #3\r
.endif\r
\r
    str     r3, [r0], #4\r
\r
    mov     r2,  r2,  lsr #16\r
    orr     r2,  r2,  \rin, lsl #16\r
.if \sh == 1\r
    mov     r2,  r2,  lsr #1\r
.elseif \sh == 2\r
    mov     r2,  r2,  ror #8\r
    adds    r2,  r2,  #0x40000000         @ blue\r
    orrcs   r2,  r2,  #0xe0000000\r
    mov     r2,  r2,  ror #8\r
    adds    r2,  r2,  #0x40000000\r
    orrcs   r2,  r2,  #0xe0000000\r
    mov     r2,  r2,  ror #8\r
    adds    r2,  r2,  #0x40000000\r
    orrcs   r2,  r2,  #0xe0000000\r
    mov     r2,  r2,  ror #8\r
    orr     r2,  r2,   r2,  lsr #3\r
.else\r
    orr     r2,  r2,   r2,  lsr #3\r
.endif\r
\r
    str     r2, [r0], #4\r
.endm\r
\r
\r
.global vidConvCpyRGB32 @ void *to, void *from, int pixels\r
\r
vidConvCpyRGB32:\r
    stmfd   sp!, {r4-r7,lr}\r
\r
    mov     r12, r2, lsr #3 @ repeats\r
    mov     lr, #0x00e00000\r
    orr     lr, lr, #0x00e0\r
\r
.loopRGB32:\r
    subs    r12, r12, #1\r
\r
    ldmia    r1!, {r4-r7}\r
    convRGB32_2 r4\r
    convRGB32_2 r5\r
    convRGB32_2 r6\r
    convRGB32_2 r7\r
\r
    bgt     .loopRGB32\r
\r
    ldmfd   sp!, {r4-r7,lr}\r
    bx      lr\r
\r
\r
.global vidConvCpyRGB32sh @ void *to, void *from, int pixels\r
\r
vidConvCpyRGB32sh:\r
    stmfd   sp!, {r4-r7,lr}\r
\r
    mov     r12, r2, lsr #3 @ repeats\r
    mov     lr, #0x00e00000\r
    orr     lr, lr, #0x00e0\r
\r
.loopRGB32sh:\r
    subs    r12, r12, #1\r
\r
    ldmia    r1!, {r4-r7}\r
    convRGB32_2 r4, 1\r
    convRGB32_2 r5, 1\r
    convRGB32_2 r6, 1\r
    convRGB32_2 r7, 1\r
\r
    bgt     .loopRGB32sh\r
\r
    ldmfd   sp!, {r4-r7,lr}\r
    bx      lr\r
\r
\r
.global vidConvCpyRGB32hi @ void *to, void *from, int pixels\r
\r
vidConvCpyRGB32hi:\r
    stmfd   sp!, {r4-r7,lr}\r
\r
    mov     r12, r2, lsr #3 @ repeats\r
    mov     lr, #0x00e00000\r
    orr     lr, lr, #0x00e0\r
\r
.loopRGB32hi:\r
     ldmia    r1!, {r4-r7}\r
    convRGB32_2 r4, 2\r
    convRGB32_2 r5, 2\r
    convRGB32_2 r6, 2\r
    convRGB32_2 r7, 2\r
\r
    subs    r12, r12, #1\r
    bgt     .loopRGB32hi\r
\r
    ldmfd   sp!, {r4-r7,lr}\r
    bx      lr\r
\r
\r
@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
\r
@ -------- M2 stuff ---------\r
/*\r
.global vidConvCpy_90 @ void *to, void *from, int width\r
\r
vidConvCpy_90:\r
    stmfd   sp!, {r4-r10,lr}\r
\r
    mov     lr, #0x00F00000\r
    orr     lr, lr, #0x00F0\r
\r
    mov     r12, #224/4            @ row counter\r
    mov     r10, r2, lsl #2        @ we do 2 pixel wide copies\r
\r
    add     r8,  r0, #256*4        @ parallel line\r
    add     r1,  r1, #0x23000\r
    add     r1,  r1, #0x00B80      @ r1+=328*223*2+8*2\r
    mov     r9,  r1\r
\r
    mov     r4,  #0                @ fill bottom border\r
    mov     r5,  #0\r
    mov     r6,  #0\r
    mov     r7,  #0\r
    stmia   r0!, {r4-r7}\r
    stmia   r0!, {r4-r7}\r
    stmia   r8!, {r4-r7}\r
    stmia   r8!, {r4-r7}\r
\r
.loopM2RGB32_90:\r
	subs    r12, r12, #1\r
\r
    @ at first this loop was written differently: src pixels were fetched with ldm's and\r
    @ dest was not sequential. It ran nearly 2 times slower. It seems it is very important\r
    @ to do sequential memory access on those items, which we have more (to offload addressing bus?).\r
\r
    ldr     r4, [r1], #-328*2\r
    ldr     r5, [r1], #-328*2\r
    ldr     r6, [r1], #-328*2\r
    ldr     r7, [r1], #-328*2\r
\r
    convRGB32_2 r4, 1\r
    convRGB32_2 r5, 1\r
    convRGB32_2 r6, 1\r
    convRGB32_2 r7, 1\r
\r
    str     r4, [r8], #4\r
    str     r5, [r8], #4\r
    str     r6, [r8], #4\r
    str     r7, [r8], #4\r
\r
    bne     .loopM2RGB32_90\r
\r
    mov     r4,  #0                @ top border\r
    mov     r5,  #0\r
    mov     r6,  #0\r
    stmia   r0!, {r4-r6,r12}\r
    stmia   r0!, {r4-r6,r12}\r
    stmia   r8!, {r4-r6,r12}\r
    stmia   r8!, {r4-r6,r12}\r
\r
    subs    r10, r10, #1\r
    ldmeqfd sp!, {r4-r10,pc}        @ return\r
\r
    add     r0,  r8,  #16*4         @ set new dst pointer\r
    add     r8,  r0,  #256*4\r
    add     r9,  r9,  #2*2          @ fix src pointer\r
    mov     r1,  r9\r
\r
    stmia   r0!, {r4-r6,r12}        @ bottom border\r
    stmia   r0!, {r4-r6,r12}\r
    stmia   r8!, {r4-r6,r12}\r
    stmia   r8!, {r4-r6,r12}\r
\r
    mov     r12, #224/4             @ restore row counter\r
    b       .loopM2RGB32_90\r
\r
\r
\r
@ converter for vidConvCpy_270\r
@ lr =  0x00F000F0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
.macro convRGB32_3 rin\r
    and     r2,  lr, \rin, lsr #4 @ blue\r
    and     r3,  \rin, lr\r
    orr     r2,  r2,   r3, lsl #8         @ g0b0g0b0\r
\r
    mov     r3,  r2,  lsl #16             @ g0b00000\r
    and     \rin,lr,  \rin, ror #12       @ 00r000r0 (reversed)\r
    orr     r3,  r3,  \rin, lsr #16       @ g0b000r0\r
\r
    mov     r2,  r2,  lsr #16\r
    orr     r2,  r2,  \rin, lsl #16\r
    str     r2, [r0], #4\r
\r
    mov     \rin,r3,  ror #16             @ r3=low\r
.endm\r
*/\r
@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
\r
\r
@ takes byte-sized pixels from r3-r6, fetches from pal and stores to r7,r8,r10,lr\r
@ r2=pal\r
.macro mode2_4pix shift\r
    and     r7, r11, r3, lsr #\shift\r
    ldr     r7, [r2, r7, lsl #2]\r
\r
    and     r8, r11, r4, lsr #\shift\r
    ldr     r8, [r2, r8, lsl #2]\r
\r
    and     r10,r11, r5, lsr #\shift\r
    ldr     r10,[r2, r10,lsl #2]\r
\r
    and     lr, r11, r6, lsr #\shift\r
    ldr     lr, [r2, lr, lsl #2]\r
.endm\r
\r
@ r2=pal, r11=0xff\r
.macro mode2_4pix_getpix0 dreg sreg\r
    and     \dreg, r11, \sreg\r
    ldr     \dreg, [r2, \dreg, lsl #2]\r
.endm\r
\r
.macro mode2_4pix_getpix1 dreg sreg\r
    and     \dreg, r11, \sreg, lsr #8\r
    ldr     \dreg, [r2, \dreg, lsl #2]\r
.endm\r
\r
.macro mode2_4pix_getpix2 dreg sreg\r
    and     \dreg, r11, \sreg, lsr #16\r
    ldr     \dreg, [r2, \dreg, lsl #2]\r
.endm\r
\r
.macro mode2_4pix_getpix3 dreg sreg\r
    and     \dreg, r11, \sreg, lsr #24\r
    ldr     \dreg, [r2, \dreg, lsl #2]\r
.endm\r
\r
@ takes byte-sized pixels from reg, fetches from pal and stores to r3-r6\r
@ r11=0xFF, r2=pal\r
.macro mode2_4pix2_0 reg\r
    mode2_4pix_getpix0 r3, \reg\r
    mode2_4pix_getpix1 r4, \reg\r
    mode2_4pix_getpix2 r5, \reg\r
    mode2_4pix_getpix3 r6, \reg\r
.endm\r
\r
@ ...\r
.macro mode2_4pix2_180 reg\r
    mode2_4pix_getpix3 r3, \reg\r
    mode2_4pix_getpix2 r4, \reg\r
    mode2_4pix_getpix1 r5, \reg\r
    mode2_4pix_getpix0 r6, \reg\r
.endm\r
\r
@ takes byte-sized pixels from reg, fetches from pal and stores to r3-r5\r
@ r11=0xFF, r2=pal, r10=0xfcfcfc, r6=tmp\r
.macro mode2_4pix_to3 reg is180\r
.if \is180\r
    mode2_4pix_getpix3 r3, \reg\r
    mode2_4pix_getpix2 r4, \reg\r
.else\r
    mode2_4pix_getpix0 r3, \reg     @ gathering loads cause a weird-hang\r
    mode2_4pix_getpix1 r4, \reg\r
.endif\r
\r
    sub     r3, r3,  r3, lsr #2     @ r3 *= 0.75\r
    add     r3, r3,  r4, lsr #2     @ r3 += r4 * 0.25\r
    and     r3, r3,  r10\r
\r
.if \is180\r
    mode2_4pix_getpix1 r5, \reg\r
    mode2_4pix_getpix0 r6, \reg\r
.else\r
    mode2_4pix_getpix2 r5, \reg\r
    mode2_4pix_getpix3 r6, \reg\r
.endif\r
\r
    mov     r4, r4,  lsr #1\r
    add     r4, r4,  r5, lsr #1     @ r4 = (r4 + r5) / 2;\r
@    and     r4, r4,  r10\r
    sub     r6, r6,  r6, lsr #2     @ r6 *= 0.75\r
    add     r5, r6,  r5, lsr #2     @ r5 = r6 + r5 * 0.25\r
    and     r5, r5,  r10\r
.endm\r
\r
\r
@ void *to, void *from, void *pal, int width\r
.macro vidConvCpyM2_landscape is270\r
    stmfd   sp!, {r4-r11,lr}\r
\r
    mov     r11, #0xff\r
\r
    mov     r12, #(224/4-1)<<16    @ row counter\r
    orr     r12, r12, r3, lsl #1   @ we do 4 pixel wide copies (right to left)\r
\r
.if \is270\r
    add     r1,  r1, #324\r
.else\r
    add     r1,  r1, #0x11c00\r
    add     r1,  r1, #0x00308      @ 328*224+8\r
.endif\r
    mov     r9,  r1\r
\r
    mov     r3,  #0                @ fill top border\r
    mov     r4,  #0\r
    mov     r5,  #0\r
    mov     r6,  #0\r
    stmia   r0!, {r3-r6}\r
    stmia   r0!, {r3-r6}\r
    add     r7,  r0, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
    add     r7,  r7, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
    add     r7,  r7, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
\r
0: @ .loopM2RGB32_270:\r
	subs    r12, r12, #1<<16\r
\r
.if \is270\r
    ldr     r3, [r1], #328\r
    ldr     r4, [r1], #328\r
    ldr     r5, [r1], #328\r
    ldr     r6, [r1], #328\r
.else\r
    ldr     r3, [r1, #-328]!\r
    ldr     r4, [r1, #-328]!\r
    ldr     r5, [r1, #-328]!\r
    ldr     r6, [r1, #-328]!\r
.endif\r
\r
.if \is270\r
    mode2_4pix 24\r
.else\r
    mode2_4pix  0\r
.endif\r
    stmia   r0, {r7,r8,r10,lr}\r
    add     r0, r0, #256*4\r
\r
.if \is270\r
    mode2_4pix 16\r
.else\r
    mode2_4pix  8\r
.endif\r
    stmia   r0, {r7,r8,r10,lr}\r
    add     r0, r0, #256*4\r
\r
.if \is270\r
    mode2_4pix  8\r
.else\r
    mode2_4pix 16\r
.endif\r
    stmia   r0, {r7,r8,r10,lr}\r
    add     r0, r0, #256*4\r
\r
.if \is270\r
    mode2_4pix  0\r
.else\r
    mode2_4pix 24\r
.endif\r
    stmia   r0!,{r7,r8,r10,lr}\r
    sub     r0, r0, #256*4*3\r
\r
    bpl     0b @ .loopM2RGB32_270\r
\r
    mov     r3,  #0                @ bottom border\r
    mov     r4,  #0\r
    mov     r5,  #0\r
    mov     r6,  #0\r
    stmia   r0!, {r3-r6}\r
    stmia   r0!, {r3-r6}\r
    add     r0,  r0, #256*4-8*4\r
    stmia   r0!, {r3-r6}\r
    stmia   r0!, {r3-r6}\r
    add     r0,  r0, #256*4-8*4\r
    stmia   r0!, {r3-r6}\r
    stmia   r0!, {r3-r6}\r
    add     r0,  r0, #256*4-8*4\r
    stmia   r0!, {r3-r6}\r
    nop                             @ phone crashes if this is commented out. Do I stress it too much?\r
    stmia   r0!, {r3-r6}\r
\r
    add     r12, r12, #1<<16\r
    subs    r12, r12, #1\r
    ldmeqfd sp!, {r4-r11,pc}        @ return\r
\r
    add     r0,  r0, #16*4\r
.if \is270\r
    sub     r9,  r9, #4            @ fix src pointer\r
.else\r
    add     r9,  r9, #4\r
.endif\r
    mov     r1,  r9\r
\r
    stmia   r0!, {r3-r6}            @ top border\r
    stmia   r0!, {r3-r6}\r
    add     r7,  r0, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
    add     r7,  r7, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
    add     r7,  r7, #256*4-8*4\r
    stmia   r7!, {r3-r6}\r
    stmia   r7!, {r3-r6}\r
\r
    orr     r12, r12, #(224/4-1)<<16 @ restore row counter\r
    b       0b @ .loopM2RGB32_270\r
.endm\r
\r
\r
.global vidConvCpy_90 @ void *to, void *from, void *pal, int width\r
\r
vidConvCpy_90:\r
    vidConvCpyM2_landscape 0\r
\r
\r
.global vidConvCpy_270 @ void *to, void *from, void *pal, int width\r
\r
vidConvCpy_270:\r
    vidConvCpyM2_landscape 1\r
\r
\r
.global vidConvCpy_center_0 @ void *to, void *from, void *pal\r
\r
vidConvCpy_center_0:\r
    stmfd   sp!, {r4-r6,r11,lr}\r
\r
    mov     r11, #0xff\r
    add     r1,  r1, #8     @ not border (centering 32col here)\r
\r
    mov     r12, #(240/4-1)<<16\r
    orr     r12, r12, #224\r
\r
.loopRGB32_c0:\r
    ldr     lr, [r1], #4\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix2_0 lr\r
    stmia   r0!, {r3-r6}\r
    bpl     .loopRGB32_c0\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r6,r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    add     r1,  r1, #88\r
    orr     r12, #(240/4-1)<<16\r
    b       .loopRGB32_c0\r
\r
\r
.global vidConvCpy_center_180 @ void *to, void *from, void *pal\r
\r
vidConvCpy_center_180:\r
    stmfd   sp!, {r4-r6,r11,lr}\r
\r
    mov     r11, #0xff\r
    add     r1,  r1, #0x11c00\r
    add     r1,  r1, #0x002B8 @ #328*224-72\r
\r
    mov     r12, #(240/4-1)<<16\r
    orr     r12, r12, #224\r
\r
.loopRGB32_c180:\r
    ldr     lr, [r1, #-4]!\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix2_180 lr\r
    stmia   r0!, {r3-r6}\r
    bpl     .loopRGB32_c180\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r6,r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    sub     r1,  r1, #88\r
    orr     r12, #(240/4-1)<<16\r
    b       .loopRGB32_c180\r
\r
\r
@ note: the following code assumes that (pal[x] & 0x030303) == 0\r
\r
.global vidConvCpy_center2_40c_0 @ void *to, void *from, void *pal, int lines\r
\r
vidConvCpy_center2_40c_0:\r
    stmfd   sp!, {r4-r6,r10,r11,lr}\r
\r
    mov     r11, #0xff\r
    mov     r10, #0xfc\r
    orr     r10, r10, lsl #8\r
    orr     r10, r10, lsl #8\r
    add     r1,  r1, #8     @ border\r
\r
    mov     r12, #(240/3-1)<<16\r
    orr     r12, r12, r3\r
\r
.loopRGB32_c2_40c_0:\r
    ldr     lr, [r1], #4\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix_to3 lr, 0\r
\r
    stmia   r0!, {r3-r5}\r
    bpl     .loopRGB32_c2_40c_0\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r6,r10,r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    add     r1,  r1, #8\r
    orr     r12, #(240/3-1)<<16\r
    b       .loopRGB32_c2_40c_0\r
\r
\r
.global vidConvCpy_center2_40c_180 @ void *to, void *from, void *pal, int lines\r
\r
vidConvCpy_center2_40c_180:\r
    stmfd   sp!, {r4-r6,r10,r11,lr}\r
\r
    mov     r11, #0xff\r
    mov     r10, #0xfc\r
    orr     r10, r10, lsl #8\r
    orr     r10, r10, lsl #8\r
\r
    mov     r4,  #328\r
    mla     r1,  r3, r4, r1\r
@    add     r1,  r1, #0x11000\r
@    add     r1,  r1, #0x00f00 @ #328*224\r
\r
    mov     r12, #(240/3-1)<<16\r
    orr     r12, r12, r3\r
\r
.loop_c2_40c_180:\r
    ldr     lr, [r1, #-4]!\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix_to3 lr, 1\r
\r
    stmia   r0!, {r3-r5}\r
    bpl     .loop_c2_40c_180\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r6,r10,r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    sub     r1,  r1, #8\r
    orr     r12, #(240/3-1)<<16\r
    b       .loop_c2_40c_180\r
\r
\r
.global vidConvCpy_center2_32c_0 @ void *to, void *from, void *pal, int lines\r
\r
vidConvCpy_center2_32c_0:\r
    stmfd   sp!, {r4-r11,lr}\r
\r
    mov     r10, #0xfc\r
    orr     r10, r10, lsl #8\r
    orr     r10, r10, lsl #8\r
    mov     r11, #0xff\r
    add     r1,  r1, #8     @ border\r
\r
    mov     r12, #(240/15-1)<<16\r
    orr     r12, r12, r3\r
\r
.loop_c2_32c_0:\r
    ldmia   r1!, {r7-r9,lr}\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix2_0 r7\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix2_0 r8\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix2_0 r9\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix_to3 lr, 0\r
    stmia   r0!, {r3-r5}\r
    bpl     .loop_c2_32c_0\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    add     r1,  r1, #64+8\r
    orr     r12, #(240/15-1)<<16\r
    b       .loop_c2_32c_0\r
\r
\r
.global vidConvCpy_center2_32c_180 @ void *to, void *from, void *pal, int lines\r
\r
vidConvCpy_center2_32c_180:\r
    stmfd   sp!, {r4-r11,lr}\r
\r
    mov     r10, #0xfc\r
    orr     r10, r10, lsl #8\r
    orr     r10, r10, lsl #8\r
    mov     r11, #0xff\r
\r
    mov     r4,  #328\r
    mla     r1,  r3, r4, r1\r
@    add     r1,  r1, #0x11000\r
@    add     r1,  r1, #0x00f00 @ #328*224\r
\r
    mov     r12, #(240/15-1)<<16\r
    orr     r12, r12, r3\r
\r
.loop_c2_32c_180:\r
    ldmdb   r1!, {r7-r9,lr}\r
	subs    r12, r12, #1<<16\r
\r
    mode2_4pix2_180 lr\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix2_180 r9\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix2_180 r8\r
    stmia   r0!, {r3-r6}\r
    mode2_4pix_to3 r7, 1\r
    stmia   r0!, {r3-r5}\r
    bpl     .loop_c2_32c_180\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {r4-r11,pc} @ return\r
    add     r0,  r0, #16*4\r
    sub     r1,  r1, #64+8\r
    orr     r12, #(240/15-1)<<16\r
    b       .loop_c2_32c_180\r
\r
\r
@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
\r
\r
.global vidClear @ void *to, int lines\r
\r
vidClear:\r
    stmfd   sp!, {lr}\r
    mov     r12, #240/16-1\r
    orr     r12, r1, r12, lsl #16\r
    mov     r1, #0\r
    mov     r2, #0\r
    mov     r3, #0\r
    mov     lr, #0\r
\r
.loopVidClear:\r
	subs    r12, r12, #1<<16\r
\r
    stmia   r0!, {r1-r3,lr}\r
    stmia   r0!, {r1-r3,lr}\r
    stmia   r0!, {r1-r3,lr}\r
    stmia   r0!, {r1-r3,lr}\r
    bpl     .loopVidClear\r
\r
	sub     r12, r12, #1\r
	adds    r12, r12, #1<<16\r
    ldmeqfd sp!, {pc}        @ return\r
    add     r0,  r0, #16*4\r
    orr     r12, #(240/16-1)<<16\r
    b       .loopVidClear\r
\r
@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
\r
.equ EExecSetExceptionHandler, (90)\r
\r
.global my_SetExceptionHandler\r
\r
my_SetExceptionHandler:\r
    mov     ip, lr\r
    swi     EExecSetExceptionHandler\r
\r
Commit	Line	Data
	1	@ vim:filetype=armasm\r
	2	@ some color conversion and blitting routines\r
	3	\r
	4	@ (c) Copyright 2006, notaz\r
	5	@ All Rights Reserved\r
	6	\r
	7	\r
	8	@ Convert 0000bbb0 ggg0rrr0 0000bbb0 ggg0rrr0\r
	9	@ to 00000000 rrr00000 ggg00000 bbb00000 ...\r
	10	\r
	11	@ lr = 0x00e000e0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
	12	@ if sh==2, r8=0x00404040 (sh!=0 destroys flags!)\r
	13	.macro convRGB32_2 rin sh=0\r
	14	and r2, lr, \rin, lsr #4 @ blue\r
	15	and r3, \rin, lr\r
	16	orr r2, r2, r3, lsl #8 @ g0b0g0b0\r
	17	\r
	18	mov r3, r2, lsl #16 @ g0b00000\r
	19	and \rin,lr, \rin, ror #12 @ 00r000r0 (reversed)\r
	20	orr r3, r3, \rin, lsr #16 @ g0b000r0\r
	21	.if \sh == 1\r
	22	mov r3, r3, ror #17 @ shadow mode\r
	23	.elseif \sh == 2\r
	24	adds r3, r3, #0x40000000 @ green\r
	25	orrcs r3, r3, #0xe0000000\r
	26	mov r3, r3, ror #8\r
	27	adds r3, r3, #0x40000000\r
	28	orrcs r3, r3, #0xe0000000\r
	29	mov r3, r3, ror #16\r
	30	adds r3, r3, #0x40000000\r
	31	orrcs r3, r3, #0xe0000000\r
	32	mov r3, r3, ror #24\r
	33	orr r3, r3, r3, lsr #3\r
	34	.else\r
	35	mov r3, r3, ror #16 @ r3=low\r
	36	orr r3, r3, r3, lsr #3\r
	37	.endif\r
	38	\r
	39	str r3, [r0], #4\r
	40	\r
	41	mov r2, r2, lsr #16\r
	42	orr r2, r2, \rin, lsl #16\r
	43	.if \sh == 1\r
	44	mov r2, r2, lsr #1\r
	45	.elseif \sh == 2\r
	46	mov r2, r2, ror #8\r
	47	adds r2, r2, #0x40000000 @ blue\r
	48	orrcs r2, r2, #0xe0000000\r
	49	mov r2, r2, ror #8\r
	50	adds r2, r2, #0x40000000\r
	51	orrcs r2, r2, #0xe0000000\r
	52	mov r2, r2, ror #8\r
	53	adds r2, r2, #0x40000000\r
	54	orrcs r2, r2, #0xe0000000\r
	55	mov r2, r2, ror #8\r
	56	orr r2, r2, r2, lsr #3\r
	57	.else\r
	58	orr r2, r2, r2, lsr #3\r
	59	.endif\r
	60	\r
	61	str r2, [r0], #4\r
	62	.endm\r
	63	\r
	64	\r
	65	.global vidConvCpyRGB32 @ void to, void from, int pixels\r
	66	\r
	67	vidConvCpyRGB32:\r
	68	stmfd sp!, {r4-r7,lr}\r
	69	\r
	70	mov r12, r2, lsr #3 @ repeats\r
	71	mov lr, #0x00e00000\r
	72	orr lr, lr, #0x00e0\r
	73	\r
	74	.loopRGB32:\r
	75	subs r12, r12, #1\r
	76	\r
	77	ldmia r1!, {r4-r7}\r
	78	convRGB32_2 r4\r
	79	convRGB32_2 r5\r
	80	convRGB32_2 r6\r
	81	convRGB32_2 r7\r
	82	\r
	83	bgt .loopRGB32\r
	84	\r
	85	ldmfd sp!, {r4-r7,lr}\r
	86	bx lr\r
	87	\r
	88	\r
	89	.global vidConvCpyRGB32sh @ void to, void from, int pixels\r
	90	\r
	91	vidConvCpyRGB32sh:\r
	92	stmfd sp!, {r4-r7,lr}\r
	93	\r
	94	mov r12, r2, lsr #3 @ repeats\r
	95	mov lr, #0x00e00000\r
	96	orr lr, lr, #0x00e0\r
	97	\r
	98	.loopRGB32sh:\r
	99	subs r12, r12, #1\r
	100	\r
	101	ldmia r1!, {r4-r7}\r
	102	convRGB32_2 r4, 1\r
	103	convRGB32_2 r5, 1\r
	104	convRGB32_2 r6, 1\r
	105	convRGB32_2 r7, 1\r
	106	\r
	107	bgt .loopRGB32sh\r
	108	\r
	109	ldmfd sp!, {r4-r7,lr}\r
	110	bx lr\r
	111	\r
	112	\r
	113	.global vidConvCpyRGB32hi @ void to, void from, int pixels\r
	114	\r
	115	vidConvCpyRGB32hi:\r
	116	stmfd sp!, {r4-r7,lr}\r
	117	\r
	118	mov r12, r2, lsr #3 @ repeats\r
	119	mov lr, #0x00e00000\r
	120	orr lr, lr, #0x00e0\r
	121	\r
	122	.loopRGB32hi:\r
	123	ldmia r1!, {r4-r7}\r
	124	convRGB32_2 r4, 2\r
	125	convRGB32_2 r5, 2\r
	126	convRGB32_2 r6, 2\r
	127	convRGB32_2 r7, 2\r
	128	\r
	129	subs r12, r12, #1\r
	130	bgt .loopRGB32hi\r
	131	\r
	132	ldmfd sp!, {r4-r7,lr}\r
	133	bx lr\r
	134	\r
	135	\r
	136	@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
	137	\r
	138	@ -------- M2 stuff ---------\r
	139	/*\r
	140	.global vidConvCpy_90 @ void to, void from, int width\r
	141	\r
	142	vidConvCpy_90:\r
	143	stmfd sp!, {r4-r10,lr}\r
	144	\r
	145	mov lr, #0x00F00000\r
	146	orr lr, lr, #0x00F0\r
	147	\r
	148	mov r12, #224/4 @ row counter\r
	149	mov r10, r2, lsl #2 @ we do 2 pixel wide copies\r
	150	\r
	151	add r8, r0, #256*4 @ parallel line\r
	152	add r1, r1, #0x23000\r
	153	add r1, r1, #0x00B80 @ r1+=3282232+8*2\r
	154	mov r9, r1\r
	155	\r
	156	mov r4, #0 @ fill bottom border\r
	157	mov r5, #0\r
	158	mov r6, #0\r
	159	mov r7, #0\r
	160	stmia r0!, {r4-r7}\r
	161	stmia r0!, {r4-r7}\r
	162	stmia r8!, {r4-r7}\r
	163	stmia r8!, {r4-r7}\r
	164	\r
	165	.loopM2RGB32_90:\r
	166	subs r12, r12, #1\r
	167	\r
	168	@ at first this loop was written differently: src pixels were fetched with ldm's and\r
	169	@ dest was not sequential. It ran nearly 2 times slower. It seems it is very important\r
	170	@ to do sequential memory access on those items, which we have more (to offload addressing bus?).\r
	171	\r
	172	ldr r4, [r1], #-328*2\r
	173	ldr r5, [r1], #-328*2\r
	174	ldr r6, [r1], #-328*2\r
	175	ldr r7, [r1], #-328*2\r
	176	\r
	177	convRGB32_2 r4, 1\r
	178	convRGB32_2 r5, 1\r
	179	convRGB32_2 r6, 1\r
	180	convRGB32_2 r7, 1\r
	181	\r
	182	str r4, [r8], #4\r
	183	str r5, [r8], #4\r
	184	str r6, [r8], #4\r
	185	str r7, [r8], #4\r
	186	\r
	187	bne .loopM2RGB32_90\r
	188	\r
	189	mov r4, #0 @ top border\r
	190	mov r5, #0\r
	191	mov r6, #0\r
	192	stmia r0!, {r4-r6,r12}\r
	193	stmia r0!, {r4-r6,r12}\r
	194	stmia r8!, {r4-r6,r12}\r
	195	stmia r8!, {r4-r6,r12}\r
	196	\r
	197	subs r10, r10, #1\r
	198	ldmeqfd sp!, {r4-r10,pc} @ return\r
	199	\r
	200	add r0, r8, #16*4 @ set new dst pointer\r
	201	add r8, r0, #256*4\r
	202	add r9, r9, #2*2 @ fix src pointer\r
	203	mov r1, r9\r
	204	\r
	205	stmia r0!, {r4-r6,r12} @ bottom border\r
	206	stmia r0!, {r4-r6,r12}\r
	207	stmia r8!, {r4-r6,r12}\r
	208	stmia r8!, {r4-r6,r12}\r
	209	\r
	210	mov r12, #224/4 @ restore row counter\r
	211	b .loopM2RGB32_90\r
	212	\r
	213	\r
	214	\r
	215	@ converter for vidConvCpy_270\r
	216	@ lr = 0x00F000F0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
	217	.macro convRGB32_3 rin\r
	218	and r2, lr, \rin, lsr #4 @ blue\r
	219	and r3, \rin, lr\r
	220	orr r2, r2, r3, lsl #8 @ g0b0g0b0\r
	221	\r
	222	mov r3, r2, lsl #16 @ g0b00000\r
	223	and \rin,lr, \rin, ror #12 @ 00r000r0 (reversed)\r
	224	orr r3, r3, \rin, lsr #16 @ g0b000r0\r
	225	\r
	226	mov r2, r2, lsr #16\r
	227	orr r2, r2, \rin, lsl #16\r
	228	str r2, [r0], #4\r
	229	\r
	230	mov \rin,r3, ror #16 @ r3=low\r
	231	.endm\r
	232	*/\r
	233	@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
	234	\r
	235	\r
	236	@ takes byte-sized pixels from r3-r6, fetches from pal and stores to r7,r8,r10,lr\r
	237	@ r2=pal\r
	238	.macro mode2_4pix shift\r
	239	and r7, r11, r3, lsr #\shift\r
	240	ldr r7, [r2, r7, lsl #2]\r
	241	\r
	242	and r8, r11, r4, lsr #\shift\r
	243	ldr r8, [r2, r8, lsl #2]\r
	244	\r
	245	and r10,r11, r5, lsr #\shift\r
	246	ldr r10,[r2, r10,lsl #2]\r
	247	\r
	248	and lr, r11, r6, lsr #\shift\r
	249	ldr lr, [r2, lr, lsl #2]\r
	250	.endm\r
	251	\r
	252	@ r2=pal, r11=0xff\r
	253	.macro mode2_4pix_getpix0 dreg sreg\r
	254	and \dreg, r11, \sreg\r
	255	ldr \dreg, [r2, \dreg, lsl #2]\r
	256	.endm\r
	257	\r
	258	.macro mode2_4pix_getpix1 dreg sreg\r
	259	and \dreg, r11, \sreg, lsr #8\r
	260	ldr \dreg, [r2, \dreg, lsl #2]\r
	261	.endm\r
	262	\r
	263	.macro mode2_4pix_getpix2 dreg sreg\r
	264	and \dreg, r11, \sreg, lsr #16\r
	265	ldr \dreg, [r2, \dreg, lsl #2]\r
	266	.endm\r
	267	\r
	268	.macro mode2_4pix_getpix3 dreg sreg\r
	269	and \dreg, r11, \sreg, lsr #24\r
	270	ldr \dreg, [r2, \dreg, lsl #2]\r
	271	.endm\r
	272	\r
	273	@ takes byte-sized pixels from reg, fetches from pal and stores to r3-r6\r
	274	@ r11=0xFF, r2=pal\r
	275	.macro mode2_4pix2_0 reg\r
	276	mode2_4pix_getpix0 r3, \reg\r
	277	mode2_4pix_getpix1 r4, \reg\r
	278	mode2_4pix_getpix2 r5, \reg\r
	279	mode2_4pix_getpix3 r6, \reg\r
	280	.endm\r
	281	\r
	282	@ ...\r
	283	.macro mode2_4pix2_180 reg\r
	284	mode2_4pix_getpix3 r3, \reg\r
	285	mode2_4pix_getpix2 r4, \reg\r
	286	mode2_4pix_getpix1 r5, \reg\r
	287	mode2_4pix_getpix0 r6, \reg\r
	288	.endm\r
	289	\r
	290	@ takes byte-sized pixels from reg, fetches from pal and stores to r3-r5\r
	291	@ r11=0xFF, r2=pal, r10=0xfcfcfc, r6=tmp\r
	292	.macro mode2_4pix_to3 reg is180\r
	293	.if \is180\r
	294	mode2_4pix_getpix3 r3, \reg\r
	295	mode2_4pix_getpix2 r4, \reg\r
	296	.else\r
	297	mode2_4pix_getpix0 r3, \reg @ gathering loads cause a weird-hang\r
	298	mode2_4pix_getpix1 r4, \reg\r
	299	.endif\r
	300	\r
	301	sub r3, r3, r3, lsr #2 @ r3 *= 0.75\r
	302	add r3, r3, r4, lsr #2 @ r3 += r4 * 0.25\r
	303	and r3, r3, r10\r
	304	\r
	305	.if \is180\r
	306	mode2_4pix_getpix1 r5, \reg\r
	307	mode2_4pix_getpix0 r6, \reg\r
	308	.else\r
	309	mode2_4pix_getpix2 r5, \reg\r
	310	mode2_4pix_getpix3 r6, \reg\r
	311	.endif\r
	312	\r
	313	mov r4, r4, lsr #1\r
	314	add r4, r4, r5, lsr #1 @ r4 = (r4 + r5) / 2;\r
	315	@ and r4, r4, r10\r
	316	sub r6, r6, r6, lsr #2 @ r6 *= 0.75\r
	317	add r5, r6, r5, lsr #2 @ r5 = r6 + r5 * 0.25\r
	318	and r5, r5, r10\r
	319	.endm\r
	320	\r
	321	\r
	322	@ void to, void from, void *pal, int width\r
	323	.macro vidConvCpyM2_landscape is270\r
	324	stmfd sp!, {r4-r11,lr}\r
	325	\r
	326	mov r11, #0xff\r
	327	\r
	328	mov r12, #(224/4-1)<<16 @ row counter\r
	329	orr r12, r12, r3, lsl #1 @ we do 4 pixel wide copies (right to left)\r
	330	\r
	331	.if \is270\r
	332	add r1, r1, #324\r
	333	.else\r
	334	add r1, r1, #0x11c00\r
	335	add r1, r1, #0x00308 @ 328*224+8\r
	336	.endif\r
	337	mov r9, r1\r
	338	\r
	339	mov r3, #0 @ fill top border\r
	340	mov r4, #0\r
	341	mov r5, #0\r
	342	mov r6, #0\r
	343	stmia r0!, {r3-r6}\r
	344	stmia r0!, {r3-r6}\r
	345	add r7, r0, #2564-84\r
	346	stmia r7!, {r3-r6}\r
	347	stmia r7!, {r3-r6}\r
	348	add r7, r7, #2564-84\r
	349	stmia r7!, {r3-r6}\r
	350	stmia r7!, {r3-r6}\r
	351	add r7, r7, #2564-84\r
	352	stmia r7!, {r3-r6}\r
	353	stmia r7!, {r3-r6}\r
	354	\r
	355	0: @ .loopM2RGB32_270:\r
	356	subs r12, r12, #1<<16\r
	357	\r
	358	.if \is270\r
	359	ldr r3, [r1], #328\r
	360	ldr r4, [r1], #328\r
	361	ldr r5, [r1], #328\r
	362	ldr r6, [r1], #328\r
	363	.else\r
	364	ldr r3, [r1, #-328]!\r
	365	ldr r4, [r1, #-328]!\r
	366	ldr r5, [r1, #-328]!\r
	367	ldr r6, [r1, #-328]!\r
	368	.endif\r
	369	\r
	370	.if \is270\r
	371	mode2_4pix 24\r
	372	.else\r
	373	mode2_4pix 0\r
	374	.endif\r
	375	stmia r0, {r7,r8,r10,lr}\r
	376	add r0, r0, #256*4\r
	377	\r
	378	.if \is270\r
	379	mode2_4pix 16\r
	380	.else\r
	381	mode2_4pix 8\r
	382	.endif\r
	383	stmia r0, {r7,r8,r10,lr}\r
	384	add r0, r0, #256*4\r
	385	\r
	386	.if \is270\r
	387	mode2_4pix 8\r
	388	.else\r
	389	mode2_4pix 16\r
	390	.endif\r
	391	stmia r0, {r7,r8,r10,lr}\r
	392	add r0, r0, #256*4\r
	393	\r
	394	.if \is270\r
	395	mode2_4pix 0\r
	396	.else\r
	397	mode2_4pix 24\r
	398	.endif\r
	399	stmia r0!,{r7,r8,r10,lr}\r
	400	sub r0, r0, #25643\r
	401	\r
	402	bpl 0b @ .loopM2RGB32_270\r
	403	\r
	404	mov r3, #0 @ bottom border\r
	405	mov r4, #0\r
	406	mov r5, #0\r
	407	mov r6, #0\r
	408	stmia r0!, {r3-r6}\r
	409	stmia r0!, {r3-r6}\r
	410	add r0, r0, #2564-84\r
	411	stmia r0!, {r3-r6}\r
	412	stmia r0!, {r3-r6}\r
	413	add r0, r0, #2564-84\r
	414	stmia r0!, {r3-r6}\r
	415	stmia r0!, {r3-r6}\r
	416	add r0, r0, #2564-84\r
	417	stmia r0!, {r3-r6}\r
	418	nop @ phone crashes if this is commented out. Do I stress it too much?\r
	419	stmia r0!, {r3-r6}\r
	420	\r
	421	add r12, r12, #1<<16\r
	422	subs r12, r12, #1\r
	423	ldmeqfd sp!, {r4-r11,pc} @ return\r
	424	\r
	425	add r0, r0, #16*4\r
	426	.if \is270\r
	427	sub r9, r9, #4 @ fix src pointer\r
	428	.else\r
	429	add r9, r9, #4\r
	430	.endif\r
	431	mov r1, r9\r
	432	\r
	433	stmia r0!, {r3-r6} @ top border\r
	434	stmia r0!, {r3-r6}\r
	435	add r7, r0, #2564-84\r
	436	stmia r7!, {r3-r6}\r
	437	stmia r7!, {r3-r6}\r
	438	add r7, r7, #2564-84\r
	439	stmia r7!, {r3-r6}\r
	440	stmia r7!, {r3-r6}\r
	441	add r7, r7, #2564-84\r
	442	stmia r7!, {r3-r6}\r
	443	stmia r7!, {r3-r6}\r
	444	\r
	445	orr r12, r12, #(224/4-1)<<16 @ restore row counter\r
	446	b 0b @ .loopM2RGB32_270\r
	447	.endm\r
	448	\r
	449	\r
	450	.global vidConvCpy_90 @ void to, void from, void *pal, int width\r
	451	\r
	452	vidConvCpy_90:\r
	453	vidConvCpyM2_landscape 0\r
	454	\r
	455	\r
	456	.global vidConvCpy_270 @ void to, void from, void *pal, int width\r
	457	\r
	458	vidConvCpy_270:\r
	459	vidConvCpyM2_landscape 1\r
	460	\r
	461	\r
	462	.global vidConvCpy_center_0 @ void to, void from, void *pal\r
	463	\r
	464	vidConvCpy_center_0:\r
	465	stmfd sp!, {r4-r6,r11,lr}\r
	466	\r
	467	mov r11, #0xff\r
	468	add r1, r1, #8 @ not border (centering 32col here)\r
	469	\r
	470	mov r12, #(240/4-1)<<16\r
	471	orr r12, r12, #224\r
	472	\r
	473	.loopRGB32_c0:\r
	474	ldr lr, [r1], #4\r
	475	subs r12, r12, #1<<16\r
	476	\r
	477	mode2_4pix2_0 lr\r
	478	stmia r0!, {r3-r6}\r
	479	bpl .loopRGB32_c0\r
	480	\r
	481	sub r12, r12, #1\r
	482	adds r12, r12, #1<<16\r
	483	ldmeqfd sp!, {r4-r6,r11,pc} @ return\r
	484	add r0, r0, #16*4\r
	485	add r1, r1, #88\r
	486	orr r12, #(240/4-1)<<16\r
	487	b .loopRGB32_c0\r
	488	\r
	489	\r
	490	.global vidConvCpy_center_180 @ void to, void from, void *pal\r
	491	\r
	492	vidConvCpy_center_180:\r
	493	stmfd sp!, {r4-r6,r11,lr}\r
	494	\r
	495	mov r11, #0xff\r
	496	add r1, r1, #0x11c00\r
	497	add r1, r1, #0x002B8 @ #328*224-72\r
	498	\r
	499	mov r12, #(240/4-1)<<16\r
	500	orr r12, r12, #224\r
	501	\r
	502	.loopRGB32_c180:\r
	503	ldr lr, [r1, #-4]!\r
	504	subs r12, r12, #1<<16\r
	505	\r
	506	mode2_4pix2_180 lr\r
	507	stmia r0!, {r3-r6}\r
	508	bpl .loopRGB32_c180\r
	509	\r
	510	sub r12, r12, #1\r
	511	adds r12, r12, #1<<16\r
	512	ldmeqfd sp!, {r4-r6,r11,pc} @ return\r
	513	add r0, r0, #16*4\r
	514	sub r1, r1, #88\r
	515	orr r12, #(240/4-1)<<16\r
	516	b .loopRGB32_c180\r
	517	\r
	518	\r
	519	@ note: the following code assumes that (pal[x] & 0x030303) == 0\r
	520	\r
	521	.global vidConvCpy_center2_40c_0 @ void to, void from, void *pal, int lines\r
	522	\r
	523	vidConvCpy_center2_40c_0:\r
	524	stmfd sp!, {r4-r6,r10,r11,lr}\r
	525	\r
	526	mov r11, #0xff\r
	527	mov r10, #0xfc\r
	528	orr r10, r10, lsl #8\r
	529	orr r10, r10, lsl #8\r
	530	add r1, r1, #8 @ border\r
	531	\r
	532	mov r12, #(240/3-1)<<16\r
	533	orr r12, r12, r3\r
	534	\r
	535	.loopRGB32_c2_40c_0:\r
	536	ldr lr, [r1], #4\r
	537	subs r12, r12, #1<<16\r
	538	\r
	539	mode2_4pix_to3 lr, 0\r
	540	\r
	541	stmia r0!, {r3-r5}\r
	542	bpl .loopRGB32_c2_40c_0\r
	543	\r
	544	sub r12, r12, #1\r
	545	adds r12, r12, #1<<16\r
	546	ldmeqfd sp!, {r4-r6,r10,r11,pc} @ return\r
	547	add r0, r0, #16*4\r
	548	add r1, r1, #8\r
	549	orr r12, #(240/3-1)<<16\r
	550	b .loopRGB32_c2_40c_0\r
	551	\r
	552	\r
	553	.global vidConvCpy_center2_40c_180 @ void to, void from, void *pal, int lines\r
	554	\r
	555	vidConvCpy_center2_40c_180:\r
	556	stmfd sp!, {r4-r6,r10,r11,lr}\r
	557	\r
	558	mov r11, #0xff\r
	559	mov r10, #0xfc\r
	560	orr r10, r10, lsl #8\r
	561	orr r10, r10, lsl #8\r
	562	\r
	563	mov r4, #328\r
	564	mla r1, r3, r4, r1\r
	565	@ add r1, r1, #0x11000\r
	566	@ add r1, r1, #0x00f00 @ #328*224\r
	567	\r
	568	mov r12, #(240/3-1)<<16\r
	569	orr r12, r12, r3\r
	570	\r
	571	.loop_c2_40c_180:\r
	572	ldr lr, [r1, #-4]!\r
	573	subs r12, r12, #1<<16\r
	574	\r
	575	mode2_4pix_to3 lr, 1\r
	576	\r
	577	stmia r0!, {r3-r5}\r
	578	bpl .loop_c2_40c_180\r
	579	\r
	580	sub r12, r12, #1\r
	581	adds r12, r12, #1<<16\r
	582	ldmeqfd sp!, {r4-r6,r10,r11,pc} @ return\r
	583	add r0, r0, #16*4\r
	584	sub r1, r1, #8\r
	585	orr r12, #(240/3-1)<<16\r
	586	b .loop_c2_40c_180\r
	587	\r
	588	\r
	589	.global vidConvCpy_center2_32c_0 @ void to, void from, void *pal, int lines\r
	590	\r
	591	vidConvCpy_center2_32c_0:\r
	592	stmfd sp!, {r4-r11,lr}\r
	593	\r
	594	mov r10, #0xfc\r
	595	orr r10, r10, lsl #8\r
	596	orr r10, r10, lsl #8\r
	597	mov r11, #0xff\r
	598	add r1, r1, #8 @ border\r
	599	\r
	600	mov r12, #(240/15-1)<<16\r
	601	orr r12, r12, r3\r
	602	\r
	603	.loop_c2_32c_0:\r
	604	ldmia r1!, {r7-r9,lr}\r
	605	subs r12, r12, #1<<16\r
	606	\r
	607	mode2_4pix2_0 r7\r
	608	stmia r0!, {r3-r6}\r
	609	mode2_4pix2_0 r8\r
	610	stmia r0!, {r3-r6}\r
	611	mode2_4pix2_0 r9\r
	612	stmia r0!, {r3-r6}\r
	613	mode2_4pix_to3 lr, 0\r
	614	stmia r0!, {r3-r5}\r
	615	bpl .loop_c2_32c_0\r
	616	\r
	617	sub r12, r12, #1\r
	618	adds r12, r12, #1<<16\r
	619	ldmeqfd sp!, {r4-r11,pc} @ return\r
	620	add r0, r0, #16*4\r
	621	add r1, r1, #64+8\r
	622	orr r12, #(240/15-1)<<16\r
	623	b .loop_c2_32c_0\r
	624	\r
	625	\r
	626	.global vidConvCpy_center2_32c_180 @ void to, void from, void *pal, int lines\r
	627	\r
	628	vidConvCpy_center2_32c_180:\r
	629	stmfd sp!, {r4-r11,lr}\r
	630	\r
	631	mov r10, #0xfc\r
	632	orr r10, r10, lsl #8\r
	633	orr r10, r10, lsl #8\r
	634	mov r11, #0xff\r
	635	\r
	636	mov r4, #328\r
	637	mla r1, r3, r4, r1\r
	638	@ add r1, r1, #0x11000\r
	639	@ add r1, r1, #0x00f00 @ #328*224\r
	640	\r
	641	mov r12, #(240/15-1)<<16\r
	642	orr r12, r12, r3\r
	643	\r
	644	.loop_c2_32c_180:\r
	645	ldmdb r1!, {r7-r9,lr}\r
	646	subs r12, r12, #1<<16\r
	647	\r
	648	mode2_4pix2_180 lr\r
	649	stmia r0!, {r3-r6}\r
	650	mode2_4pix2_180 r9\r
	651	stmia r0!, {r3-r6}\r
	652	mode2_4pix2_180 r8\r
	653	stmia r0!, {r3-r6}\r
	654	mode2_4pix_to3 r7, 1\r
	655	stmia r0!, {r3-r5}\r
	656	bpl .loop_c2_32c_180\r
	657	\r
	658	sub r12, r12, #1\r
	659	adds r12, r12, #1<<16\r
	660	ldmeqfd sp!, {r4-r11,pc} @ return\r
	661	add r0, r0, #16*4\r
	662	sub r1, r1, #64+8\r
	663	orr r12, #(240/15-1)<<16\r
	664	b .loop_c2_32c_180\r
	665	\r
	666	\r
	667	@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
	668	\r
	669	\r
	670	.global vidClear @ void *to, int lines\r
	671	\r
	672	vidClear:\r
	673	stmfd sp!, {lr}\r
	674	mov r12, #240/16-1\r
	675	orr r12, r1, r12, lsl #16\r
	676	mov r1, #0\r
	677	mov r2, #0\r
	678	mov r3, #0\r
	679	mov lr, #0\r
	680	\r
	681	.loopVidClear:\r
	682	subs r12, r12, #1<<16\r
	683	\r
	684	stmia r0!, {r1-r3,lr}\r
	685	stmia r0!, {r1-r3,lr}\r
	686	stmia r0!, {r1-r3,lr}\r
	687	stmia r0!, {r1-r3,lr}\r
	688	bpl .loopVidClear\r
	689	\r
	690	sub r12, r12, #1\r
	691	adds r12, r12, #1<<16\r
	692	ldmeqfd sp!, {pc} @ return\r
	693	add r0, r0, #16*4\r
	694	orr r12, #(240/16-1)<<16\r
	695	b .loopVidClear\r
	696	\r
	697	@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
	698	\r
	699	.equ EExecSetExceptionHandler, (90)\r
	700	\r
	701	.global my_SetExceptionHandler\r
	702	\r
	703	my_SetExceptionHandler:\r
	704	mov ip, lr\r
	705	swi EExecSetExceptionHandler\r
	706	\r