[picodrive.git] / platform / uiq2 / blit.s

@ assembly "optimized" blitter and copy functions\r
@ all pointers must be word-aligned\r
\r
@ (c) Copyright 2006, notaz\r
@ All Rights Reserved\r
\r
\r
@ Convert 0000bbb0 ggg0rrr0\r
@ to      0000rrr0 ggg0bbb0\r
\r
@ r2,r3 - scratch, lr = 0x000F000F\r
.macro convRGB444 reg\r
    and     r2,   \reg, lr         @ r2=red\r
    and     r3,   \reg, lr, lsl #8 @ r3=blue\r
    and     \reg, \reg, lr, lsl #4 @ green stays in place\r
    orr     \reg, \reg, r2, lsl #8 @ add red back\r
    orr     \reg, \reg, r3, lsr #8 @ add blue back\r
.endm\r
\r
.global vidConvCpyRGB444 @ void *to, void *from, int pixels\r
\r
vidConvCpyRGB444:\r
    stmfd   sp!, {r4-r11,lr}\r
\r
    mov     r12, r2, lsr #4 @ repeats\r
    mov     lr, #0xF0000\r
    orr     lr, lr, #0xF    @ lr == pattern 0x000F000F\r
\r
\r
.loopRGB444:\r
	subs    r12, r12, #1\r
\r
    @ I first thought storing multiple registers would be faster,\r
    @ but this doesn't seem to be the case, probably because of\r
    @ slow video memory we are dealing with\r
 	ldmia	r1!, {r4-r11}\r
    convRGB444 r4\r
    str     r4, [r0], #4\r
    convRGB444 r5\r
    str     r5, [r0], #4\r
    convRGB444 r6\r
    str     r6, [r0], #4\r
    convRGB444 r7\r
    str     r7, [r0], #4\r
    convRGB444 r8\r
    str     r8, [r0], #4\r
    convRGB444 r9\r
    str     r9, [r0], #4\r
    convRGB444 r10\r
    str     r10, [r0], #4\r
    convRGB444 r11\r
    str     r11, [r0], #4\r
\r
    bgt     .loopRGB444\r
\r
\r
    ldmfd   sp!, {r4-r11,lr}\r
    bx      lr\r
\r
\r
@ Convert 0000bbb0 ggg0rrr0\r
@ to      rrr00ggg 000bbb00\r
\r
@ r2,r3 - scratch, lr = 0x07800780\r
.macro convRGB565 reg\r
    and     r2,   \reg, lr,  lsr #7  @ r2=red\r
    and     r3,   \reg, lr,  lsl #1  @ r3=blue\r
    and     \reg, lr,   \reg,lsl #3  @ green stays, but needs shifting\r
    orr     \reg, \reg, r2,  lsl #12 @ add red back\r
    orr     \reg, \reg, r3,  lsr #7  @ add blue back\r
.endm\r
\r
.global vidConvCpyRGB565 @ void *to, void *from, int pixels\r
\r
vidConvCpyRGB565:\r
    stmfd   sp!, {r4-r11,lr}\r
\r
    mov     r12, r2, lsr #4 @ repeats\r
    mov     lr, #0x07800000\r
    orr     lr, lr, #0x780  @ lr == pattern 0x07800780\r
\r
.loopRGB565:\r
	subs    r12, r12, #1\r
\r
 	ldmia	r1!, {r4-r11}\r
    convRGB565 r4\r
    str     r4, [r0], #4\r
    convRGB565 r5\r
    str     r5, [r0], #4\r
    convRGB565 r6\r
    str     r6, [r0], #4\r
    convRGB565 r7\r
    str     r7, [r0], #4\r
    convRGB565 r8\r
    str     r8, [r0], #4\r
    convRGB565 r9\r
    str     r9, [r0], #4\r
    convRGB565 r10\r
    str     r10, [r0], #4\r
    convRGB565 r11\r
    str     r11, [r0], #4\r
\r
    bgt     .loopRGB565\r
\r
    ldmfd   sp!, {r4-r11,lr}\r
    bx      lr\r
\r
\r
@ Convert 0000bbb0 ggg0rrr0 0000bbb0 ggg0rrr0\r
@ to      00000000 rrr00000 ggg00000 bbb00000 ...\r
\r
@ r2,r3 - scratch, lr = 0x0000F000\r
@ rin - src reg, rout - dest reg (can be same for both; rout can be r3)\r
.macro convRGB32_l rout rin\r
    and     r2,    \rin,  lr,   lsr #12 @ r2=red\r
    and     r3,    \rin,  lr,   lsr #4  @ r3=blue\r
    orr     r2,    r3,    r2,   lsl #24\r
    and     \rout, lr,    \rin, lsl #8  @ green stays, but needs shifting\r
    orr     \rout, \rout, r2,   lsr #4  @ add red+blue back\r
.endm\r
\r
@ r2,r3 - scratch, lr = 0x0000F000\r
@ rin - src reg, rout - dest reg (can be same for both; rout can be r3)\r
.macro convRGB32_h rout rin\r
    and     r2,    \rin,  lr,   lsl #4  @ r2=red\r
    mov     r3,    \rin,        lsr #24 @ r3=blue\r
    orr     r2,    r3,    r2\r
    and     \rout, lr,    \rin, lsr #8  @ green\r
    orr     \rout, \rout, r2,   lsl #4\r
.endm\r
\r
@ slightly faster conversion, saves 1 opcode, writes output\r
@ lr =  0x00F000F0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
.macro convRGB32_2 rin rethigh=0\r
    and     r2,  lr, \rin, lsr #4 @ blue\r
    and     r3,  \rin, lr\r
    orr     r2,  r2,   r3, lsl #8         @ g0b0g0b0\r
\r
    mov     r3,  r2,  lsl #16             @ g0b00000\r
    and     \rin,lr,  \rin, ror #12       @ 00r000r0 (reversed)\r
    orr     r3,  r3,  \rin, lsr #16       @ g0b000r0\r
    mov     r3,  r3,  ror #16             @ r3=low\r
\r
    str     r3, [r0], #4\r
\r
    mov     r2,  r2,  lsr #16\r
.if \rethigh\r
    orr     \rin,r2,  \rin, lsl #16\r
.else\r
    orr     r2,  r2,  \rin, lsl #16\r
    str     r2, [r0], #4\r
.endif\r
.endm\r
\r
\r
.global vidConvCpyRGB32 @ void *to, void *from, int pixels\r
\r
vidConvCpyRGB32:\r
    stmfd   sp!, {r4-r7,lr}\r
\r
    mov     r12, r2, lsr #3 @ repeats\r
    mov     lr, #0x00F00000\r
    orr     lr, lr, #0x00F0\r
\r
.loopRGB32:\r
	subs    r12, r12, #1\r
\r
 	ldmia	r1!, {r4-r7}\r
    convRGB32_2 r4\r
    convRGB32_2 r5\r
    convRGB32_2 r6\r
    convRGB32_2 r7\r
\r
    bgt     .loopRGB32\r
\r
    ldmfd   sp!, {r4-r7,lr}\r
    bx      lr\r
\r
\r
@ -------- M2 stuff ---------\r
\r
.bss\r
tmpstore1d: .long\r
\r
.text\r
tmpstore1:  .long tmpstore1d\r
\r
\r
@ r3 - scratch, ru - reg with 2 pixels from upper col, rl - ... lower col\r
.macro rot_str16_90 ru rl\r
    mov     r3, \rl,lsl #16\r
    mov     r3, r3, lsr #16\r
    orr     r3, r3, \ru, lsl #16\r
    str     r3, [r0], #208*2\r
    mov     r3, \ru,lsr #16\r
    mov     r3, r3, lsl #16\r
    orr     r3, r3, \rl, lsr #16\r
    str     r3, [r0], #208*2\r
.endm\r
\r
\r
.global vidConvCpyM2_16_90 @ void *to, void *from, int width\r
\r
vidConvCpyM2_16_90:\r
    stmfd   sp!, {r4-r11,lr}\r
\r
    ldr     r4, =tmpstore1\r
    str     sp, [r4]               @ save sp, we will need sp reg..\r
    mov     sp, r0                 @ .. to store our dst\r
\r
    @ crashing beyond this point will be fatal (phone reboots), as Symbian OS expects sp to always point to stack\r
\r
    sub     r2,  r2, #1\r
    mov     r12, #0x00670000\r
    orr     r12, r12, r2, lsl #24\r
    orr     r12, r12, r2           @ r12 == ((208-2)/2 << 16) | ((width-1)<<24) | (width-1)\r
\r
    add     r0,  r0, #206*2\r
    add     r1,  r1, #8*2          @ skip left border\r
    add     lr,  r1, #328*2\r
\r
.loopM2_16_90:\r
	subs    r12, r12, #1<<24\r
\r
 	ldmia	r1!, {r4-r7}\r
 	ldmia	lr!, {r8-r11}\r
    rot_str16_90 r4 r8\r
    rot_str16_90 r5 r9\r
    rot_str16_90 r6 r10\r
    rot_str16_90 r7 r11\r
\r
    bpl     .loopM2_16_90\r
\r
    add     r12, r12, #1<<24\r
    subs    r12, r12, #0x00010000\r
    bmi     .loopM2_16_90_end\r
\r
    add     r0,  sp,  r12, lsr #14 @ calculate new dst pointer\r
    orr     r12, r12, r12, lsl #24 @ restore the width counter\r
\r
    @ skip remaining pixels on these 2 lines\r
    mov     r4, #328/8-1         @ width of mode2 in line_pixels/8\r
    sub     r4, r4, r12, lsr #24\r
    add     r1, lr, r4,  lsl #4  @ skip src pixels\r
    add     lr, r1, #328*2\r
    b       .loopM2_16_90\r
\r
.loopM2_16_90_end:\r
    @ restore sp\r
    ldr     r4, =tmpstore1\r
    ldr     sp, [r4]\r
\r
    ldmfd   sp!, {r4-r11,lr}\r
    bx      lr\r
\r
\r
\r
@ r3 - scratch, ru - reg with 2 pixels from upper col, rl - ... lower col (for right-to-left copies)\r
.macro rot_str16_270 ru rl\r
    mov     r3, \rl,lsr #16\r
    mov     r3, r3, lsl #16\r
    orr     r3, r3, \ru, lsr #16\r
    str     r3, [r0], #208*2\r
    mov     r3, \ru,lsl #16\r
    mov     r3, r3, lsr #16\r
    orr     r3, r3, \rl, lsl #16\r
    str     r3, [r0], #208*2\r
.endm\r
\r
\r
.global vidConvCpyM2_16_270 @ void *to, void *from, int width\r
\r
vidConvCpyM2_16_270:\r
    stmfd   sp!, {r4-r11,lr}\r
\r
    ldr     r4, =tmpstore1\r
    str     sp, [r4]               @ save sp, we will need sp reg to store our dst\r
\r
    sub     r2,  r2, #1\r
    mov     r12, #0x00670000\r
    orr     r12, r12, r2, lsl #24\r
    orr     r12, r12, r2           @ r12 == ((208-2)/2 << 16) | ((width-1)<<24) | (width-1)\r
\r
    add     r1,  r1, #328*2        @ skip left border+1line\r
    add     lr,  r1, #328*2\r
    add     sp,  r0, #206*2        @ adjust for algo\r
\r
.loopM2_16_270:\r
	subs    r12, r12, #1<<24\r
\r
 	ldmdb	r1!, {r4-r7}\r
 	ldmdb	lr!, {r8-r11}\r
    rot_str16_270 r7 r11           @ update the screen in incrementing direction, reduces tearing slightly\r
    rot_str16_270 r6 r10\r
    rot_str16_270 r5 r9\r
    rot_str16_270 r4 r8\r
\r
    bpl     .loopM2_16_270\r
\r
    add     r12, r12, #1<<24\r
    subs    r12, r12, #0x00010000\r
    bmi     .loopM2_16_90_end      @ same end as in 90\r
\r
    sub     r0,  sp,  r12, lsr #14 @ calculate new dst pointer\r
    orr     r12, r12, r12, lsl #24 @ restore the width counter\r
\r
    @ skip remaining pixels on these 2 lines\r
    mov     r4, #328/8-1         @ width of mode2 in line_pixels/8\r
    sub     r4, r4, r12, lsr #24\r
    sub     r1, lr, r4,  lsl #4  @ skip src pixels\r
    add     r1, r1, #328*2*2\r
    add     lr, r1, #328*2\r
    b       .loopM2_16_270\r
\r
\r
\r
.global vidConvCpyM2_RGB32_90 @ void *to, void *from, int width\r
\r
vidConvCpyM2_RGB32_90:\r
    stmfd   sp!, {r4-r10,lr}\r
\r
    mov     lr, #0x00F00000\r
    orr     lr, lr, #0x00F0\r
\r
    mov     r12, #208/4            @ row counter\r
    mov     r10, r2, lsl #2        @ we do 2 pixel wide copies\r
\r
    add     r8,  r0, #208*4        @ parallel line\r
    add     r1,  r1, #0x21000\r
    add     r1,  r1, #0x00280      @ r1+=328*207*2+8*2\r
    mov     r9,  r1\r
\r
.loopM2RGB32_90:\r
	subs    r12, r12, #1\r
\r
    @ at first this loop was written differently: src pixels were fetched with ldm's and\r
    @ dest was not sequential. It ran nearly 2 times slower. It seems it is very important\r
    @ to do sequential memory access on those items, which we have more (to offload addressing bus?).\r
\r
    ldr     r4, [r1], #-328*2\r
    ldr     r5, [r1], #-328*2\r
    ldr     r6, [r1], #-328*2\r
    ldr     r7, [r1], #-328*2\r
\r
    convRGB32_2 r4, 1\r
    convRGB32_2 r5, 1\r
    convRGB32_2 r6, 1\r
    convRGB32_2 r7, 1\r
\r
    str     r4, [r8], #4\r
    str     r5, [r8], #4\r
    str     r6, [r8], #4\r
    str     r7, [r8], #4\r
\r
    bne     .loopM2RGB32_90\r
\r
    subs    r10, r10, #1\r
    ldmeqfd sp!, {r4-r10,pc}        @ return\r
\r
    mov     r12, #208/4             @ restore row counter\r
    mov     r0,  r8                 @ set new dst pointer\r
    add     r8,  r0,  #208*4\r
    add     r9,  r9,  #2*2          @ fix src pointer\r
    mov     r1,  r9\r
    b       .loopM2RGB32_90\r
\r
\r
\r
@ converter for vidConvCpyM2_RGB32_270\r
@ lr =  0x00F000F0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
.macro convRGB32_3 rin\r
    and     r2,  lr, \rin, lsr #4 @ blue\r
    and     r3,  \rin, lr\r
    orr     r2,  r2,   r3, lsl #8         @ g0b0g0b0\r
\r
    mov     r3,  r2,  lsl #16             @ g0b00000\r
    and     \rin,lr,  \rin, ror #12       @ 00r000r0 (reversed)\r
    orr     r3,  r3,  \rin, lsr #16       @ g0b000r0\r
\r
    mov     r2,  r2,  lsr #16\r
    orr     r2,  r2,  \rin, lsl #16\r
    str     r2, [r0], #4\r
\r
    mov     \rin,r3,  ror #16             @ r3=low\r
.endm\r
\r
\r
.global vidConvCpyM2_RGB32_270 @ void *to, void *from, int width\r
\r
vidConvCpyM2_RGB32_270:\r
    stmfd   sp!, {r4-r10,lr}\r
\r
    mov     lr, #0x00F00000\r
    orr     lr, lr, #0x00F0\r
\r
    mov     r12, #208/4            @ row counter\r
    mov     r10, r2, lsl #2        @ we do 2 pixel wide copies (right to left)\r
\r
    add     r8,  r0, #208*4        @ parallel line\r
    add     r1,  r1, #326*2\r
    mov     r9,  r1\r
\r
.loopM2RGB32_270:\r
	subs    r12, r12, #1\r
\r
    ldr     r4, [r1], #328*2\r
    ldr     r5, [r1], #328*2\r
    ldr     r6, [r1], #328*2\r
    ldr     r7, [r1], #328*2\r
\r
    convRGB32_3 r4\r
    convRGB32_3 r5\r
    convRGB32_3 r6\r
    convRGB32_3 r7\r
\r
    str     r4, [r8], #4\r
    str     r5, [r8], #4\r
    str     r6, [r8], #4\r
    str     r7, [r8], #4\r
\r
    bne     .loopM2RGB32_270\r
\r
    subs    r10, r10, #1\r
    ldmeqfd sp!, {r4-r10,pc}        @ return\r
\r
    mov     r12, #208/4             @ restore row counter\r
    mov     r0,  r8                 @ set new dst pointer\r
    add     r8,  r0,  #208*4\r
    sub     r9,  r9,  #2*2          @ fix src pointer\r
    mov     r1,  r9\r
    b       .loopM2RGB32_270\r
\r
Commit	Line	Data
	1	@ assembly "optimized" blitter and copy functions\r
	2	@ all pointers must be word-aligned\r
	3	\r
	4	@ (c) Copyright 2006, notaz\r
	5	@ All Rights Reserved\r
	6	\r
	7	\r
	8	@ Convert 0000bbb0 ggg0rrr0\r
	9	@ to 0000rrr0 ggg0bbb0\r
	10	\r
	11	@ r2,r3 - scratch, lr = 0x000F000F\r
	12	.macro convRGB444 reg\r
	13	and r2, \reg, lr @ r2=red\r
	14	and r3, \reg, lr, lsl #8 @ r3=blue\r
	15	and \reg, \reg, lr, lsl #4 @ green stays in place\r
	16	orr \reg, \reg, r2, lsl #8 @ add red back\r
	17	orr \reg, \reg, r3, lsr #8 @ add blue back\r
	18	.endm\r
	19	\r
	20	.global vidConvCpyRGB444 @ void to, void from, int pixels\r
	21	\r
	22	vidConvCpyRGB444:\r
	23	stmfd sp!, {r4-r11,lr}\r
	24	\r
	25	mov r12, r2, lsr #4 @ repeats\r
	26	mov lr, #0xF0000\r
	27	orr lr, lr, #0xF @ lr == pattern 0x000F000F\r
	28	\r
	29	\r
	30	.loopRGB444:\r
	31	subs r12, r12, #1\r
	32	\r
	33	@ I first thought storing multiple registers would be faster,\r
	34	@ but this doesn't seem to be the case, probably because of\r
	35	@ slow video memory we are dealing with\r
	36	ldmia r1!, {r4-r11}\r
	37	convRGB444 r4\r
	38	str r4, [r0], #4\r
	39	convRGB444 r5\r
	40	str r5, [r0], #4\r
	41	convRGB444 r6\r
	42	str r6, [r0], #4\r
	43	convRGB444 r7\r
	44	str r7, [r0], #4\r
	45	convRGB444 r8\r
	46	str r8, [r0], #4\r
	47	convRGB444 r9\r
	48	str r9, [r0], #4\r
	49	convRGB444 r10\r
	50	str r10, [r0], #4\r
	51	convRGB444 r11\r
	52	str r11, [r0], #4\r
	53	\r
	54	bgt .loopRGB444\r
	55	\r
	56	\r
	57	ldmfd sp!, {r4-r11,lr}\r
	58	bx lr\r
	59	\r
	60	\r
	61	@ Convert 0000bbb0 ggg0rrr0\r
	62	@ to rrr00ggg 000bbb00\r
	63	\r
	64	@ r2,r3 - scratch, lr = 0x07800780\r
	65	.macro convRGB565 reg\r
	66	and r2, \reg, lr, lsr #7 @ r2=red\r
	67	and r3, \reg, lr, lsl #1 @ r3=blue\r
	68	and \reg, lr, \reg,lsl #3 @ green stays, but needs shifting\r
	69	orr \reg, \reg, r2, lsl #12 @ add red back\r
	70	orr \reg, \reg, r3, lsr #7 @ add blue back\r
	71	.endm\r
	72	\r
	73	.global vidConvCpyRGB565 @ void to, void from, int pixels\r
	74	\r
	75	vidConvCpyRGB565:\r
	76	stmfd sp!, {r4-r11,lr}\r
	77	\r
	78	mov r12, r2, lsr #4 @ repeats\r
	79	mov lr, #0x07800000\r
	80	orr lr, lr, #0x780 @ lr == pattern 0x07800780\r
	81	\r
	82	.loopRGB565:\r
	83	subs r12, r12, #1\r
	84	\r
	85	ldmia r1!, {r4-r11}\r
	86	convRGB565 r4\r
	87	str r4, [r0], #4\r
	88	convRGB565 r5\r
	89	str r5, [r0], #4\r
	90	convRGB565 r6\r
	91	str r6, [r0], #4\r
	92	convRGB565 r7\r
	93	str r7, [r0], #4\r
	94	convRGB565 r8\r
	95	str r8, [r0], #4\r
	96	convRGB565 r9\r
	97	str r9, [r0], #4\r
	98	convRGB565 r10\r
	99	str r10, [r0], #4\r
	100	convRGB565 r11\r
	101	str r11, [r0], #4\r
	102	\r
	103	bgt .loopRGB565\r
	104	\r
	105	ldmfd sp!, {r4-r11,lr}\r
	106	bx lr\r
	107	\r
	108	\r
	109	@ Convert 0000bbb0 ggg0rrr0 0000bbb0 ggg0rrr0\r
	110	@ to 00000000 rrr00000 ggg00000 bbb00000 ...\r
	111	\r
	112	@ r2,r3 - scratch, lr = 0x0000F000\r
	113	@ rin - src reg, rout - dest reg (can be same for both; rout can be r3)\r
	114	.macro convRGB32_l rout rin\r
	115	and r2, \rin, lr, lsr #12 @ r2=red\r
	116	and r3, \rin, lr, lsr #4 @ r3=blue\r
	117	orr r2, r3, r2, lsl #24\r
	118	and \rout, lr, \rin, lsl #8 @ green stays, but needs shifting\r
	119	orr \rout, \rout, r2, lsr #4 @ add red+blue back\r
	120	.endm\r
	121	\r
	122	@ r2,r3 - scratch, lr = 0x0000F000\r
	123	@ rin - src reg, rout - dest reg (can be same for both; rout can be r3)\r
	124	.macro convRGB32_h rout rin\r
	125	and r2, \rin, lr, lsl #4 @ r2=red\r
	126	mov r3, \rin, lsr #24 @ r3=blue\r
	127	orr r2, r3, r2\r
	128	and \rout, lr, \rin, lsr #8 @ green\r
	129	orr \rout, \rout, r2, lsl #4\r
	130	.endm\r
	131	\r
	132	@ slightly faster conversion, saves 1 opcode, writes output\r
	133	@ lr = 0x00F000F0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
	134	.macro convRGB32_2 rin rethigh=0\r
	135	and r2, lr, \rin, lsr #4 @ blue\r
	136	and r3, \rin, lr\r
	137	orr r2, r2, r3, lsl #8 @ g0b0g0b0\r
	138	\r
	139	mov r3, r2, lsl #16 @ g0b00000\r
	140	and \rin,lr, \rin, ror #12 @ 00r000r0 (reversed)\r
	141	orr r3, r3, \rin, lsr #16 @ g0b000r0\r
	142	mov r3, r3, ror #16 @ r3=low\r
	143	\r
	144	str r3, [r0], #4\r
	145	\r
	146	mov r2, r2, lsr #16\r
	147	.if \rethigh\r
	148	orr \rin,r2, \rin, lsl #16\r
	149	.else\r
	150	orr r2, r2, \rin, lsl #16\r
	151	str r2, [r0], #4\r
	152	.endif\r
	153	.endm\r
	154	\r
	155	\r
	156	.global vidConvCpyRGB32 @ void to, void from, int pixels\r
	157	\r
	158	vidConvCpyRGB32:\r
	159	stmfd sp!, {r4-r7,lr}\r
	160	\r
	161	mov r12, r2, lsr #3 @ repeats\r
	162	mov lr, #0x00F00000\r
	163	orr lr, lr, #0x00F0\r
	164	\r
	165	.loopRGB32:\r
	166	subs r12, r12, #1\r
	167	\r
	168	ldmia r1!, {r4-r7}\r
	169	convRGB32_2 r4\r
	170	convRGB32_2 r5\r
	171	convRGB32_2 r6\r
	172	convRGB32_2 r7\r
	173	\r
	174	bgt .loopRGB32\r
	175	\r
	176	ldmfd sp!, {r4-r7,lr}\r
	177	bx lr\r
	178	\r
	179	\r
	180	@ -------- M2 stuff ---------\r
	181	\r
	182	.bss\r
	183	tmpstore1d: .long\r
	184	\r
	185	.text\r
	186	tmpstore1: .long tmpstore1d\r
	187	\r
	188	\r
	189	@ r3 - scratch, ru - reg with 2 pixels from upper col, rl - ... lower col\r
	190	.macro rot_str16_90 ru rl\r
	191	mov r3, \rl,lsl #16\r
	192	mov r3, r3, lsr #16\r
	193	orr r3, r3, \ru, lsl #16\r
	194	str r3, [r0], #208*2\r
	195	mov r3, \ru,lsr #16\r
	196	mov r3, r3, lsl #16\r
	197	orr r3, r3, \rl, lsr #16\r
	198	str r3, [r0], #208*2\r
	199	.endm\r
	200	\r
	201	\r
	202	.global vidConvCpyM2_16_90 @ void to, void from, int width\r
	203	\r
	204	vidConvCpyM2_16_90:\r
	205	stmfd sp!, {r4-r11,lr}\r
	206	\r
	207	ldr r4, =tmpstore1\r
	208	str sp, [r4] @ save sp, we will need sp reg..\r
	209	mov sp, r0 @ .. to store our dst\r
	210	\r
	211	@ crashing beyond this point will be fatal (phone reboots), as Symbian OS expects sp to always point to stack\r
	212	\r
	213	sub r2, r2, #1\r
	214	mov r12, #0x00670000\r
	215	orr r12, r12, r2, lsl #24\r
	216	orr r12, r12, r2 @ r12 == ((208-2)/2 << 16) \| ((width-1)<<24) \| (width-1)\r
	217	\r
	218	add r0, r0, #206*2\r
	219	add r1, r1, #8*2 @ skip left border\r
	220	add lr, r1, #328*2\r
	221	\r
	222	.loopM2_16_90:\r
	223	subs r12, r12, #1<<24\r
	224	\r
	225	ldmia r1!, {r4-r7}\r
	226	ldmia lr!, {r8-r11}\r
	227	rot_str16_90 r4 r8\r
	228	rot_str16_90 r5 r9\r
	229	rot_str16_90 r6 r10\r
	230	rot_str16_90 r7 r11\r
	231	\r
	232	bpl .loopM2_16_90\r
	233	\r
	234	add r12, r12, #1<<24\r
	235	subs r12, r12, #0x00010000\r
	236	bmi .loopM2_16_90_end\r
	237	\r
	238	add r0, sp, r12, lsr #14 @ calculate new dst pointer\r
	239	orr r12, r12, r12, lsl #24 @ restore the width counter\r
	240	\r
	241	@ skip remaining pixels on these 2 lines\r
	242	mov r4, #328/8-1 @ width of mode2 in line_pixels/8\r
	243	sub r4, r4, r12, lsr #24\r
	244	add r1, lr, r4, lsl #4 @ skip src pixels\r
	245	add lr, r1, #328*2\r
	246	b .loopM2_16_90\r
	247	\r
	248	.loopM2_16_90_end:\r
	249	@ restore sp\r
	250	ldr r4, =tmpstore1\r
	251	ldr sp, [r4]\r
	252	\r
	253	ldmfd sp!, {r4-r11,lr}\r
	254	bx lr\r
	255	\r
	256	\r
	257	\r
	258	@ r3 - scratch, ru - reg with 2 pixels from upper col, rl - ... lower col (for right-to-left copies)\r
	259	.macro rot_str16_270 ru rl\r
	260	mov r3, \rl,lsr #16\r
	261	mov r3, r3, lsl #16\r
	262	orr r3, r3, \ru, lsr #16\r
	263	str r3, [r0], #208*2\r
	264	mov r3, \ru,lsl #16\r
	265	mov r3, r3, lsr #16\r
	266	orr r3, r3, \rl, lsl #16\r
	267	str r3, [r0], #208*2\r
	268	.endm\r
	269	\r
	270	\r
	271	.global vidConvCpyM2_16_270 @ void to, void from, int width\r
	272	\r
	273	vidConvCpyM2_16_270:\r
	274	stmfd sp!, {r4-r11,lr}\r
	275	\r
	276	ldr r4, =tmpstore1\r
	277	str sp, [r4] @ save sp, we will need sp reg to store our dst\r
	278	\r
	279	sub r2, r2, #1\r
	280	mov r12, #0x00670000\r
	281	orr r12, r12, r2, lsl #24\r
	282	orr r12, r12, r2 @ r12 == ((208-2)/2 << 16) \| ((width-1)<<24) \| (width-1)\r
	283	\r
	284	add r1, r1, #328*2 @ skip left border+1line\r
	285	add lr, r1, #328*2\r
	286	add sp, r0, #206*2 @ adjust for algo\r
	287	\r
	288	.loopM2_16_270:\r
	289	subs r12, r12, #1<<24\r
	290	\r
	291	ldmdb r1!, {r4-r7}\r
	292	ldmdb lr!, {r8-r11}\r
	293	rot_str16_270 r7 r11 @ update the screen in incrementing direction, reduces tearing slightly\r
	294	rot_str16_270 r6 r10\r
	295	rot_str16_270 r5 r9\r
	296	rot_str16_270 r4 r8\r
	297	\r
	298	bpl .loopM2_16_270\r
	299	\r
	300	add r12, r12, #1<<24\r
	301	subs r12, r12, #0x00010000\r
	302	bmi .loopM2_16_90_end @ same end as in 90\r
	303	\r
	304	sub r0, sp, r12, lsr #14 @ calculate new dst pointer\r
	305	orr r12, r12, r12, lsl #24 @ restore the width counter\r
	306	\r
	307	@ skip remaining pixels on these 2 lines\r
	308	mov r4, #328/8-1 @ width of mode2 in line_pixels/8\r
	309	sub r4, r4, r12, lsr #24\r
	310	sub r1, lr, r4, lsl #4 @ skip src pixels\r
	311	add r1, r1, #32822\r
	312	add lr, r1, #328*2\r
	313	b .loopM2_16_270\r
	314	\r
	315	\r
	316	\r
	317	.global vidConvCpyM2_RGB32_90 @ void to, void from, int width\r
	318	\r
	319	vidConvCpyM2_RGB32_90:\r
	320	stmfd sp!, {r4-r10,lr}\r
	321	\r
	322	mov lr, #0x00F00000\r
	323	orr lr, lr, #0x00F0\r
	324	\r
	325	mov r12, #208/4 @ row counter\r
	326	mov r10, r2, lsl #2 @ we do 2 pixel wide copies\r
	327	\r
	328	add r8, r0, #208*4 @ parallel line\r
	329	add r1, r1, #0x21000\r
	330	add r1, r1, #0x00280 @ r1+=3282072+8*2\r
	331	mov r9, r1\r
	332	\r
	333	.loopM2RGB32_90:\r
	334	subs r12, r12, #1\r
	335	\r
	336	@ at first this loop was written differently: src pixels were fetched with ldm's and\r
	337	@ dest was not sequential. It ran nearly 2 times slower. It seems it is very important\r
	338	@ to do sequential memory access on those items, which we have more (to offload addressing bus?).\r
	339	\r
	340	ldr r4, [r1], #-328*2\r
	341	ldr r5, [r1], #-328*2\r
	342	ldr r6, [r1], #-328*2\r
	343	ldr r7, [r1], #-328*2\r
	344	\r
	345	convRGB32_2 r4, 1\r
	346	convRGB32_2 r5, 1\r
	347	convRGB32_2 r6, 1\r
	348	convRGB32_2 r7, 1\r
	349	\r
	350	str r4, [r8], #4\r
	351	str r5, [r8], #4\r
	352	str r6, [r8], #4\r
	353	str r7, [r8], #4\r
	354	\r
	355	bne .loopM2RGB32_90\r
	356	\r
	357	subs r10, r10, #1\r
	358	ldmeqfd sp!, {r4-r10,pc} @ return\r
	359	\r
	360	mov r12, #208/4 @ restore row counter\r
	361	mov r0, r8 @ set new dst pointer\r
	362	add r8, r0, #208*4\r
	363	add r9, r9, #2*2 @ fix src pointer\r
	364	mov r1, r9\r
	365	b .loopM2RGB32_90\r
	366	\r
	367	\r
	368	\r
	369	@ converter for vidConvCpyM2_RGB32_270\r
	370	@ lr = 0x00F000F0, out: r3=lower_pix, r2=higher_pix; trashes rin\r
	371	.macro convRGB32_3 rin\r
	372	and r2, lr, \rin, lsr #4 @ blue\r
	373	and r3, \rin, lr\r
	374	orr r2, r2, r3, lsl #8 @ g0b0g0b0\r
	375	\r
	376	mov r3, r2, lsl #16 @ g0b00000\r
	377	and \rin,lr, \rin, ror #12 @ 00r000r0 (reversed)\r
	378	orr r3, r3, \rin, lsr #16 @ g0b000r0\r
	379	\r
	380	mov r2, r2, lsr #16\r
	381	orr r2, r2, \rin, lsl #16\r
	382	str r2, [r0], #4\r
	383	\r
	384	mov \rin,r3, ror #16 @ r3=low\r
	385	.endm\r
	386	\r
	387	\r
	388	.global vidConvCpyM2_RGB32_270 @ void to, void from, int width\r
	389	\r
	390	vidConvCpyM2_RGB32_270:\r
	391	stmfd sp!, {r4-r10,lr}\r
	392	\r
	393	mov lr, #0x00F00000\r
	394	orr lr, lr, #0x00F0\r
	395	\r
	396	mov r12, #208/4 @ row counter\r
	397	mov r10, r2, lsl #2 @ we do 2 pixel wide copies (right to left)\r
	398	\r
	399	add r8, r0, #208*4 @ parallel line\r
	400	add r1, r1, #326*2\r
	401	mov r9, r1\r
	402	\r
	403	.loopM2RGB32_270:\r
	404	subs r12, r12, #1\r
	405	\r
	406	ldr r4, [r1], #328*2\r
	407	ldr r5, [r1], #328*2\r
	408	ldr r6, [r1], #328*2\r
	409	ldr r7, [r1], #328*2\r
	410	\r
	411	convRGB32_3 r4\r
	412	convRGB32_3 r5\r
	413	convRGB32_3 r6\r
	414	convRGB32_3 r7\r
	415	\r
	416	str r4, [r8], #4\r
	417	str r5, [r8], #4\r
	418	str r6, [r8], #4\r
	419	str r7, [r8], #4\r
	420	\r
	421	bne .loopM2RGB32_270\r
	422	\r
	423	subs r10, r10, #1\r
	424	ldmeqfd sp!, {r4-r10,pc} @ return\r
	425	\r
	426	mov r12, #208/4 @ restore row counter\r
	427	mov r0, r8 @ set new dst pointer\r
	428	add r8, r0, #208*4\r
	429	sub r9, r9, #2*2 @ fix src pointer\r
	430	mov r1, r9\r
	431	b .loopM2RGB32_270\r
	432	\r