gcc 4.2 warning fixes
[picodrive.git] / Pico / Draw.s
index e31ba0b..f310253 100644 (file)
@@ -1,11 +1,12 @@
 @ vim:filetype=armasm\r
 \r
-@ assembly "optimized" version of some funtions from draw.c\r
+@ ARM assembly versions of some funtions from draw.c\r
 @ this is highly specialized, be careful if changing related C code!\r
 \r
-@ (c) Copyright 2007, Grazvydas "notaz" Ignotas\r
+@ (c) Copyright 2007-2008, Grazvydas "notaz" Ignotas\r
 @ All Rights Reserved\r
 \r
+.include "port_config.s"\r
 \r
 .extern Pico\r
 .extern PicoOpt\r
@@ -15,6 +16,7 @@
 .extern rendstatus\r
 .extern DrawLineDest\r
 .extern DrawStripInterlace\r
+.extern HighCacheS_ptr\r
 \r
 \r
 @ helper\r
 .endif\r
     ldreqb  r4, [r1,#\offs]\r
     orrne   r4, r3, r4\r
-    strneb  r4, [r1,#\offs]\r
-    tsteq   r4, #0x80\r
     andeq   r4, r4, #0x3f\r
-    streqb  r4, [r1,#\offs]\r
+    strb    r4, [r1,#\offs]\r
 .endm\r
 \r
 @ TileNormShHP (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r12: register with helper pattern 0xf, touches r3 high bits\r
 .else\r
     ands    r4, r12, r2\r
 .endif\r
-    beq     3f\r
+    beq     0f\r
     cmp     r4, #0xe\r
-    beq     2f\r
-    bgt     1f\r
-    orr     r4, r3, r4\r
-    strb    r4, [r1,#\ofs]\r
-    b       3f\r
-1:\r
-    ldrb    r4, [r1,#\ofs]        @ 2ci\r
-    orr     r4, r4, #0xc0\r
-    strb    r4, [r1,#\ofs]\r
-    b       3f\r
-2:\r
-    ldrb    r4, [r1,#\ofs]        @ 2ci\r
-    bic     r4, r4, #0xc0\r
-    orr     r4, r4, #0x80\r
+    ldrgeb  r4, [r1,#\ofs]\r
+    orrlt   r4, r3, r4            @ normal\r
+\r
+    biceq   r4, r4, #0xc0         @ hilight\r
+    orreq   r4, r4, #0x80\r
+    orrgt   r4, r4, #0xc0         @ shadow\r
+\r
     strb    r4, [r1,#\ofs]\r
-3:\r
+0:\r
 .endm\r
 \r
 @ TileFlipSh (r1=pdest, r2=pixels8, r3=pal) r4,r7: scratch, r0=sx, r12: register with helper pattern 0xf\r
     TileDoShGenPixel 16,  7 @ #0x000f0000\r
 .endm\r
 \r
+.macro TileDoShGenPixel_noop shift ofs\r
+.if \shift\r
+    and     r4, r12, r2, lsr #\shift\r
+.else\r
+    and     r4, r12, r2\r
+.endif\r
+    sub     r7, r4, #1\r
+    cmp     r7, #0xd\r
+    orrcc   r4, r3, r4           @ 0-0xc (was 1-0xd)\r
+    strccb  r4, [r1,#\ofs]\r
+.endm\r
+\r
+.macro TileFlipSh_noop\r
+    TileDoShGenPixel_noop 16,  0 @ #0x000f0000\r
+    TileDoShGenPixel_noop 20,  1 @ #0x00f00000\r
+    TileDoShGenPixel_noop 24,  2 @ #0x0f000000\r
+    TileDoShGenPixel_noop 28,  3 @ #0xf0000000\r
+    TileDoShGenPixel_noop  0,  4 @ #0x0000000f\r
+    TileDoShGenPixel_noop  4,  5 @ #0x000000f0\r
+    TileDoShGenPixel_noop  8,  6 @ #0x00000f00\r
+    TileDoShGenPixel_noop 12,  7 @ #0x0000f000\r
+.endm\r
+\r
+.macro TileNormSh_noop\r
+    TileDoShGenPixel_noop 12,  0 @ #0x0000f000\r
+    TileDoShGenPixel_noop  8,  1 @ #0x00000f00\r
+    TileDoShGenPixel_noop  4,  2 @ #0x000000f0\r
+    TileDoShGenPixel_noop  0,  3 @ #0x0000000f\r
+    TileDoShGenPixel_noop 28,  4 @ #0xf0000000\r
+    TileDoShGenPixel_noop 24,  5 @ #0x0f000000\r
+    TileDoShGenPixel_noop 20,  6 @ #0x00f00000\r
+    TileDoShGenPixel_noop 16,  7 @ #0x000f0000\r
+.endm\r
+\r
+.macro TileDoShGenPixel_onlyop_lp shift ofs\r
+.if \shift\r
+    ands    r7, r12, r2, lsr #\shift\r
+.else\r
+    ands    r7, r12, r2\r
+.endif\r
+    ldrneb  r4, [r1,#\ofs]\r
+    tstne   r4, #0x40\r
+    beq     0f\r
+\r
+    cmp     r7, #0xe\r
+    biceq   r4, r4, #0xc0         @ hilight\r
+    orreq   r4, r4, #0x80\r
+    orrgt   r4, r4, #0xc0         @ shadow\r
+    strgeb  r4, [r1,#\ofs]\r
+0:\r
+.endm\r
+\r
+.macro TileFlipSh_onlyop_lp\r
+    TileDoShGenPixel_onlyop_lp 16,  0 @ #0x000f0000\r
+    TileDoShGenPixel_onlyop_lp 20,  1 @ #0x00f00000\r
+    TileDoShGenPixel_onlyop_lp 24,  2 @ #0x0f000000\r
+    TileDoShGenPixel_onlyop_lp 28,  3 @ #0xf0000000\r
+    TileDoShGenPixel_onlyop_lp  0,  4 @ #0x0000000f\r
+    TileDoShGenPixel_onlyop_lp  4,  5 @ #0x000000f0\r
+    TileDoShGenPixel_onlyop_lp  8,  6 @ #0x00000f00\r
+    TileDoShGenPixel_onlyop_lp 12,  7 @ #0x0000f000\r
+.endm\r
+\r
+.macro TileNormSh_onlyop_lp\r
+    TileDoShGenPixel_onlyop_lp 12,  0 @ #0x0000f000\r
+    TileDoShGenPixel_onlyop_lp  8,  1 @ #0x00000f00\r
+    TileDoShGenPixel_onlyop_lp  4,  2 @ #0x000000f0\r
+    TileDoShGenPixel_onlyop_lp  0,  3 @ #0x0000000f\r
+    TileDoShGenPixel_onlyop_lp 28,  4 @ #0xf0000000\r
+    TileDoShGenPixel_onlyop_lp 24,  5 @ #0x0f000000\r
+    TileDoShGenPixel_onlyop_lp 20,  6 @ #0x00f00000\r
+    TileDoShGenPixel_onlyop_lp 16,  7 @ #0x000f0000\r
+.endm\r
+\r
 \r
 @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
 \r
@@ -317,11 +384,18 @@ DrawLayer:
     add     r8, r8, r9, lsr #8   @ tilex+=cellskip\r
     add     r7, r7, r9, lsr #5   @ dx+=cellskip<<3;\r
     sub     r10,r10,r9, lsl #16  @ cells-=cellskip\r
-    mvn     r9, #0               @ r9=prevcode=-1\r
 \r
     @ cache some stuff to avoid mem access\r
+.if OVERRIDE_HIGHCOL\r
+    ldr     r11,=HighCol\r
+    mov     r0, #0xf\r
+    ldr     r11,[r11]\r
+.else\r
     ldr     r11,=HighCol\r
     mov     r0, #0xf\r
+.endif\r
+\r
+    mvn     r9, #0               @ r9=prevcode=-1\r
     add     r1, r11, r7         @ r1=pdest\r
 \r
 \r
@@ -436,8 +510,8 @@ DrawLayer:
 .DrawStrip_vsscroll:\r
     rsb     r8, r3, #0\r
     mov     r8, r8, lsr #3        @ r8=tilex=(-ts->hscroll)>>3\r
-    bic     r8, r8, #0xff000000\r
-    orr     r8, r8, r5, lsl #25   @ r8=(xmask[31:25]|had_output[24]|tilex[23:0])\r
+    bic     r8, r8, #0x3fc00000\r
+    orr     r8, r8, r5, lsl #25   @ r8=(xmask[31:25]|had_output[24]|tilex[21:0])\r
 \r
     ldr     r4, =Scanline\r
     orr     r5, r1, r10, lsl #24\r
@@ -463,13 +537,19 @@ DrawLayer:
     add     r8, r8, r9, lsr #8   @ tilex+=cellskip\r
     add     r7, r7, r9, lsr #5   @ dx+=cellskip<<3;\r
     add     r10,r10,r9, lsl #16  @ cell+=cellskip\r
-    mvn     r9, #0               @ r9=prevcode=-1\r
 \r
     @ cache some stuff to avoid mem access\r
+.if OVERRIDE_HIGHCOL\r
     ldr     r11,=HighCol\r
     mov     r0, #0xf\r
-    add     r1, r11, r7         @ r1=pdest\r
+    ldr     r11,[r11]\r
+.else\r
+    ldr     r11,=HighCol\r
+    mov     r0, #0xf\r
+.endif\r
 \r
+    mvn     r9, #0               @ r9=prevcode=-1\r
+    add     r1, r11, r7          @ r1=pdest\r
 \r
     @ r4 & r7 are scratch in this loop\r
 .dsloop_vs_subr1:\r
@@ -490,9 +570,9 @@ DrawLayer:
     ldrh    r7, [r7]              @ r7=vscroll\r
 \r
     bic     r10,r10,#0xff         @ clear old ty\r
-    and     r4, r5, #0xff0000\r
-    add     r4, r4, r7, lsl #16\r
-    and     r4, r4, r5, lsl #16   @ r4=line<<16\r
+    and     r4, r5, #0xff0000     @ scanline\r
+    add     r4, r4, r7, lsl #16   @ ... += vscroll\r
+    and     r4, r4, r5, lsl #16   @ ... &= ymask\r
     and     r7, r4, #0x70000\r
     orr     r10,r10,r7, lsr #15   @ new ty\r
 \r
@@ -515,7 +595,7 @@ DrawLayer:
     beq     .DrawStrip_vs_samecode @ we know stuff about this tile already\r
 \r
     mov     r9, r7          @ remember code\r
-    orr     r8, r8, #1<<24  @ seen non hi-prio tile\r
+    orr     r8, r8, #(1<<24)@ seen non hi-prio tile\r
 \r
     movs    r2, r9, lsl #20 @ if (code&0x1000)\r
     mov     r2, r2, lsl #1\r
@@ -589,7 +669,7 @@ DrawLayer:
     b       .dsloop_vs\r
 \r
 .dsloop_vs_exit:\r
-    tst     r8, #1<<24 @ seen non hi-prio tile\r
+    tst     r8, #(1<<24) @ seen non hi-prio tile\r
     ldreq   r1, =rendstatus\r
     mov     r0, #0\r
     ldreq   r2, [r1]\r
@@ -639,10 +719,18 @@ DrawLayer:
 BackFill:\r
     stmfd   sp!, {r4-r9,lr}\r
 \r
+.if OVERRIDE_HIGHCOL\r
+    ldr     lr, =HighCol\r
+    mov     r0, r0, lsl #26\r
+    ldr     lr, [lr]\r
+    mov     r0, r0, lsr #26\r
+    add     lr, lr, #8\r
+.else\r
     ldr     lr, =(HighCol+8)\r
-\r
     mov     r0, r0, lsl #26\r
     mov     r0, r0, lsr #26\r
+.endif\r
+\r
     orr     r0, r0, r1, lsl #6\r
     orr     r0, r0, r0, lsl #8\r
     orr     r0, r0, r0, lsl #16\r
@@ -680,9 +768,15 @@ DrawTilesFromCache:
     stmfd   sp!, {r4-r8,r11,lr}\r
 \r
     @ cache some stuff to avoid mem access\r
+.if OVERRIDE_HIGHCOL\r
     ldr     r11,=HighCol\r
-    ldr     lr, =(Pico+0x10000) @ lr=Pico.vram\r
     mov     r12,#0xf\r
+    ldr     r11,[r11]\r
+.else\r
+    ldr     r11,=HighCol\r
+    mov     r12,#0xf\r
+.endif\r
+    ldr     lr, =(Pico+0x10000) @ lr=Pico.vram\r
 \r
     mvn     r5, #0         @ r5=prevcode=-1\r
     ands    r8, r1, #1\r
@@ -770,39 +864,25 @@ DrawTilesFromCache:
     b       .dtfc_loop\r
 \r
 .dtfc_shadow_blank:\r
-    ldrb    r4, [r1]        @ 1ci\r
-    ldrb    r12,[r1,#1]\r
-    tst     r4, #0x80\r
-    andeq   r4, r4,#0x3f\r
-    streqb  r4, [r1]\r
-    tst     r12,#0x80\r
-    ldrb    r4, [r1,#2]\r
-    andeq   r12,r12,#0x3f\r
-    streqb  r12,[r1,#1]\r
-    tst     r4, #0x80\r
-    ldrb    r12,[r1,#3]\r
-    andeq   r4, r4,#0x3f\r
-    streqb  r4, [r1,#2]\r
-    tst     r12,#0x80\r
-    ldrb    r4, [r1,#4]\r
-    andeq   r12,r12,#0x3f\r
-    streqb  r12,[r1,#3]\r
-    tst     r4, #0x80\r
-    ldrb    r12,[r1,#5]\r
-    andeq   r4, r4,#0x3f\r
-    streqb  r4, [r1,#4]\r
-    tst     r12,#0x80\r
-    ldrb    r4, [r1,#6]\r
-    andeq   r12,r12,#0x3f\r
-    streqb  r12,[r1,#5]\r
-    tst     r4, #0x80\r
-    ldrb    r12,[r1,#7]\r
-    andeq   r4, r4,#0x3f\r
-    streqb  r4, [r1,#6]\r
-    tst     r12,#0x80\r
-    andeq   r12,r12,#0x3f\r
-    streqb  r12,[r1,#7]\r
-    mov     r12, #0xf\r
+    tst     r1, #1\r
+    ldrneb  r4, [r1]\r
+    mov     r6, #0x3f\r
+    and     r4, r4, #0x3f\r
+    strneb  r4, [r1], #1\r
+    ldrh    r4, [r1]\r
+    orr     r6, r6, r6, lsl #8\r
+    and     r4, r4, r6\r
+    strh    r4, [r1], #2\r
+    ldrh    r4, [r1]\r
+    and     r4, r4, r6\r
+    strh    r4, [r1], #2\r
+    ldrh    r4, [r1]\r
+    and     r4, r4, r6\r
+    strh    r4, [r1], #2\r
+    ldrh    r4, [r1]\r
+    and     r4, r4, r6\r
+    streqh  r4, [r1]\r
+    strneb  r4, [r1]\r
     b       .dtfc_loop\r
 \r
 .dtfc_cut_tile:\r
@@ -837,48 +917,45 @@ DrawTilesFromCache:
     str     r2, [r1]\r
 \r
     add     r1, r11,#8\r
-    mov     r3, #320/4\r
-    mov     r7, #0x80\r
-    orr     r7, r7, r7, lsl #8\r
-    orr     r7, r7, r7, lsl #16\r
+    mov     r3, #320/4/4\r
     mov     r6, #0x3f\r
     orr     r6, r6, r6, lsl #8\r
     orr     r6, r6, r6, lsl #16\r
 .dtfc_loop_shprep:\r
+    ldmia   r1, {r2,r4,r5,r7}\r
     subs    r3, r3, #1\r
-    bmi     .dtfc_loop      @ done\r
-    ldr     r2, [r1]\r
-    tst     r2, r7\r
-    andeq   r2, r2, r6\r
-    streq   r2, [r1], #4\r
-    beq     .dtfc_loop_shprep\r
-    tst     r2,     #0x80000000\r
-    biceq   r2, r2, #0xc0000000\r
-    tst     r2,     #0x00800000\r
-    biceq   r2, r2, #0x00c00000\r
-    tst     r2,     #0x00008000\r
-    biceq   r2, r2, #0x0000c000\r
-    tst     r2,     #0x00000080\r
-    biceq   r2, r2, #0x000000c0\r
-    str     r2, [r1], #4\r
-    b       .dtfc_loop_shprep\r
+    and     r2, r2, r6\r
+    and     r4, r4, r6\r
+    and     r5, r5, r6\r
+    and     r7, r7, r6\r
+    stmia   r1!,{r2,r4,r5,r7}\r
+    bne     .dtfc_loop_shprep\r
+\r
+    mvn     r5, #0         @ r5=prevcode=-1\r
+    b       .dtfc_loop\r
 \r
 .pool\r
 \r
 @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
 \r
 \r
-.global DrawSpritesFromCache @ int *hc, int sh\r
+.global DrawSpritesFromCache @ int *hc, int maxwidth, int prio, int sh\r
 \r
 DrawSpritesFromCache:\r
     stmfd   sp!, {r4-r11,lr}\r
 \r
     @ cache some stuff to avoid mem access\r
+.if OVERRIDE_HIGHCOL\r
+    ldr     r11,=HighCol\r
+    mov     r12,#0xf\r
+    ldr     r11,[r11]\r
+.else\r
     ldr     r11,=HighCol\r
+    mov     r12,#0xf\r
+.endif\r
     ldr     lr, =(Pico+0x10000) @ lr=Pico.vram\r
-    mov     r6, r1, lsl #31\r
+    mov     r6, r3, lsl #31\r
     orr     r6, r6, #1<<30\r
-    mov     r12,#0xf\r
 \r
     mov     r10, r0\r
 \r
@@ -964,6 +1041,9 @@ DrawSpritesFromCache:
     b       .dsfc_inloop\r
 \r
 .dsfc_shadow:\r
+    tst     r9, #0x80000000\r
+    beq     .dsfc_shadow_lowpri\r
+\r
     cmp     r2, r2, ror #4\r
     beq     .dsfc_singlec_sh\r
 \r
@@ -991,6 +1071,18 @@ DrawSpritesFromCache:
     TileSingleSh\r
     b       .dsfc_inloop\r
 \r
+.dsfc_shadow_lowpri:\r
+    tst     r9, #0x10000\r
+    bne     .dsfc_TileFlip_sh_lp\r
+\r
+.dsfc_TileNorm_sh_lp:\r
+    TileNormSh_onlyop_lp\r
+    b       .dsfc_inloop\r
+\r
+.dsfc_TileFlip_sh_lp:\r
+    TileFlipSh_onlyop_lp\r
+    b       .dsfc_inloop\r
+\r
 .pool\r
 \r
 @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
@@ -998,11 +1090,12 @@ DrawSpritesFromCache:
 @ + 0  :    hhhhvvvv ab--hhvv yyyyyyyy yyyyyyyy // a: offscreen h, b: offs. v, h: horiz. size\r
 @ + 4  :    xxxxxxxx xxxxxxxx pccvhnnn nnnnnnnn // x: x coord + 8\r
 \r
-.global DrawSprite @ unsigned int *sprite, int **hc, int sh\r
+.global DrawSprite @ unsigned int *sprite, int sh, int acc_sprites\r
 \r
 DrawSprite:\r
     stmfd   sp!, {r4-r9,r11,lr}\r
 \r
+    orr     r8, r2, r1, lsl #4\r
     ldr     r3, [r0]        @ sprite[0]\r
     ldr     r7, =Scanline\r
     mov     r6, r3, lsr #28\r
@@ -1016,44 +1109,53 @@ DrawSprite:
     ldr     r9, [r0, #4]\r
     sub     r7, r7, r4, asr #16 @ r7=row=Scanline-sy\r
 \r
-    tst     r2, r2\r
     mov     r2, r9, asr #16 @ r2=sx\r
-    bic     r9, r9, #0xfe000000\r
-    orrne   r9, r9, #1<<31  @ r9=code|(sh<<31)\r
+    mov     r9, r9, lsl #16\r
+    mov     r9, r9, lsr #16\r
+    orr     r9, r9, r8, lsl #27 @ r9=code|sh[31]|as[27]\r
 \r
     tst     r9, #0x1000\r
     movne   r4, r5, lsl #3\r
     subne   r4, r4, #1\r
     subne   r7, r4, r7      @ if (code&0x1000) row=(height<<3)-1-row; // Flip Y\r
 \r
-    mov     r8, r9, lsl #21\r
-    mov     r8, r8, lsr #21\r
-    add     r8, r8, r7, lsr #3 @ tile+=row>>3; // Tile number increases going down\r
-    \r
+    add     r8, r9, r7, lsr #3 @ tile+=row>>3; // Tile number increases going down\r
     tst     r9, #0x0800\r
     mlane   r8, r5, r6, r8  @ if (code&0x0800) { tile+=delta*(width-1);\r
     rsbne   r5, r5, #0      @ delta=-delta; } // r5=delta now\r
 \r
-    mov     r8, r8, lsl #4\r
+    mov     r8, r8, lsl #21\r
+    mov     r8, r8, lsr #17\r
     and     r7, r7, #7\r
     add     r8, r8, r7, lsl #1 @ tile+=(row&7)<<1; // Tile address\r
 \r
     tst     r9, #0x8000\r
-    bne     .dspr_cache       @ if(code&0x8000) // high priority - cache it\r
-\r
+    tsteq   r9, #(1<<27)\r
+    bne     .dspr_cache       @ if(code&0x8000) || as\r
+    tst     r6, #0x4000\r
+    tstne   r6, #0x2000\r
+    tstne   r9, #(1<<31)\r
+    bne     .dspr_cache       @ (sh && pal == 0x30)\r
+\r
+.dspr_continue:\r
     @ cache some stuff to avoid mem access\r
+.if OVERRIDE_HIGHCOL\r
     ldr     r11,=HighCol\r
-    ldr     lr, =(Pico+0x10000) @ lr=Pico.vram\r
     mov     r12,#0xf\r
+    ldr     r11,[r11]\r
+.else\r
+    ldr     r11,=HighCol\r
+    mov     r12,#0xf\r
+.endif\r
+    ldr     lr, =(Pico+0x10000) @ lr=Pico.vram\r
 \r
     mov     r5, r5, lsl #4     @ delta<<=4; // Delta of address\r
     and     r4, r9, #0x6000\r
     orr     r9, r9, r4, lsl #16\r
-    orr     r9, r9, #0x10000000 @ r9=scc1 ???? ... <code> (s=shadow/hilight, cc=pal)\r
+    orrs    r9, r9, #0x10000000 @ r9=scc1 a??? ... <code> (s=shadow/hilight, cc=pal, a=acc_spr)\r
 \r
-    tst     r9, #1<<31\r
     mov     r3, r4, lsr #9     @ r3=pal=((code>>9)&0x30);\r
-    orrne   r3, r3, #0x40      @ shadow by default\r
+    orrmi   r3, r3, #0x40      @ shadow by default\r
 \r
     add     r6, r6, #1         @ inc now\r
     adds    r0, r2, #0         @ mov sx to r0 and set ZV flags\r
@@ -1097,6 +1199,10 @@ DrawSprite:
     TileFlip r12\r
     b       .dspr_loop\r
 \r
+.dspr_singlec_sh:\r
+    cmp     r2, #0xe0000000\r
+    bcs     .dspr_loop          @ operator tileline, ignore\r
+\r
 .dspr_SingleColor:\r
     and     r4, r2, #0xf\r
     orr     r4, r3, r4\r
@@ -1119,44 +1225,38 @@ DrawSprite:
 \r
     @ (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r12: helper pattern\r
 .dspr_TileNorm_sh:\r
-    TileNormSh\r
+    TileNormSh_noop\r
     b       .dspr_loop\r
 \r
 .dspr_TileFlip_sh:\r
-    TileFlipSh\r
-    b       .dspr_loop\r
-\r
-.dspr_singlec_sh:\r
-    cmp     r2, #0xe0000000\r
-    bcc     .dspr_SingleColor   @ normal tileline\r
-    tst     r2, #0x10000000\r
-    bne     .dspr_sh_sh\r
-    TileSingleHi\r
-    b       .dspr_loop\r
-\r
-.dspr_sh_sh:\r
-    TileSingleSh\r
+    TileFlipSh_noop\r
     b       .dspr_loop\r
 \r
 \r
 .dspr_cache:\r
-    @ *(*hc)++ = (tile<<16)|((code&0x0800)<<5)|((sx<<6)&0x0000ffc0)|((code>>9)&0x30)|((sprite[0]>>24)&0xf);\r
+    @ *HighCacheS_ptr++ = ((code&0x8000)<<16)|(tile<<16)|((code&0x0800)<<5)|((sx<<6)&0x0000ffc0)|pal|((sprite[0]>>16)&0xf);\r
+    ldr     r1, =HighCacheS_ptr\r
     mov     r4, r8, lsl #16     @ tile\r
     tst     r9, #0x0800\r
     orrne   r4, r4, #0x10000    @ code&0x0800\r
-    mov     r2, r2, lsl #22\r
-    orr     r4, r4, r2, lsr #16 @ (sx<<6)&0x0000ffc0\r
-    and     r2, r9, #0x6000\r
-    orr     r4, r4, r2, lsr #9  @ (code>>9)&0x30\r
+    mov     r0, r2, lsl #22\r
+    orr     r4, r4, r0, lsr #16 @ (sx<<6)&0x0000ffc0\r
+    and     r0, r9, #0x6000\r
+    orr     r4, r4, r0, lsr #9  @ (code>>9)&0x30\r
     mov     r3, r3, lsl #12\r
-    ldr     r2, [r1]\r
     orr     r4, r4, r3, lsr #28 @ (sprite[0]>>24)&0xf\r
 \r
-    str     r4, [r2], #4\r
-    str     r2, [r1]\r
+    ldr     r0, [r1]\r
+    tst     r9, #0x8000\r
+    orrne   r4, r4, #0x80000000 @ prio\r
 \r
-    ldmfd   sp!, {r4-r9,r11,lr}\r
-    bx      lr\r
+    str     r4, [r0], #4\r
+    str     r0, [r1]\r
+\r
+    and     r0, r9, #(1<<27)    @ as\r
+    teqne   r0,     #(1<<27)    @ (code&0x8000) && !as\r
+    ldmnefd sp!, {r4-r9,r11,pc}\r
+    b       .dspr_continue      @ draw anyway if accurate sprites enabled\r
 \r
 @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
 \r
@@ -1186,33 +1286,38 @@ DrawWindow:
 \r
     ldr     r6, =rendstatus\r
     ldr     lr, =(Pico+0x10000) @ lr=Pico.vram\r
-    ldrb    r6, [r6]\r
+    ldr     r6, [r6]\r
 \r
     @ fetch the first code now\r
     ldrh    r7, [lr, r12]\r
 \r
     ands    r6, r6, #2            @ we care about bit 1 only\r
     orr     r6, r6, r2\r
-    bne     .dw_no_sameprio\r
 \r
-    cmp     r2, r7, lsr #15\r
-    ldmnefd sp!, {r4-r11,pc}      @ assume that whole window uses same priority\r
+    teqne   r2, r7, lsr #15       @ do prio bits differ?\r
+    ldmnefd sp!, {r4-r11,pc}      @ yes, assume that whole window uses same priority\r
 \r
-.dw_no_sameprio:\r
     orr     r6, r6, r3, lsl #8    @ shadow mode\r
 \r
     sub     r8, r1, r0\r
-    mov     r8, r8, lsl #1        @ cells\r
-\r
-    mvn     r9, #0                @ r9=prevcode=-1\r
 \r
     @ cache some stuff to avoid mem access\r
+.if OVERRIDE_HIGHCOL\r
+    ldr     r11,=HighCol\r
+    mov     r8, r8, lsl #1        @ cells\r
+    ldr     r11,[r11]\r
+    mvn     r9, #0                @ r9=prevcode=-1\r
+    add     r11,r11,#8\r
+.else\r
     ldr     r11,=(HighCol+8)\r
-    add     r1, r11, r0, lsl #4 @ r1=pdest\r
+    mov     r8, r8, lsl #1        @ cells\r
+    mvn     r9, #0                @ r9=prevcode=-1\r
+.endif\r
+    add     r1, r11, r0, lsl #4   @ r1=pdest\r
     mov     r0, #0xf\r
     b       .dwloop_enter\r
 \r
-    @ r4,r5 & r7 are scratch in this loop\r
+    @ r4,r5 are scratch in this loop\r
 .dwloop:\r
     add     r1, r1, #8\r
 .dwloop_nor1:\r
@@ -1278,24 +1383,13 @@ DrawWindow:
     orreq   r3, r3, #0x40\r
     beq     .dw_shadow_done\r
     ldr     r4, [r1]\r
-    tst     r4, #0x00000080\r
-    biceq   r4, r4, #0x000000c0\r
-    tst     r4, #0x00008000\r
-    biceq   r4, r4, #0x0000c000\r
-    tst     r4, #0x00800000\r
-    biceq   r4, r4, #0x00c00000\r
-    tst     r4, #0x80000000\r
-    biceq   r4, r4, #0xc0000000\r
+    mov     r5, #0x3f\r
+    orr     r5, r5, r5, lsl #8\r
+    orr     r5, r5, r5, lsl #16\r
+    and     r4, r4, r5\r
     str     r4, [r1]\r
     ldr     r4, [r1,#4]\r
-    tst     r4, #0x00000080\r
-    biceq   r4, r4, #0x000000c0\r
-    tst     r4, #0x00008000\r
-    biceq   r4, r4, #0x0000c000\r
-    tst     r4, #0x00800000\r
-    biceq   r4, r4, #0x00c00000\r
-    tst     r4, #0x80000000\r
-    biceq   r4, r4, #0xc0000000\r
+    and     r4, r4, r5\r
     str     r4, [r1,#4]\r
     b       .dw_shadow_done\r
 \r
@@ -1405,15 +1499,29 @@ FinalizeLineBGR444:
     bne     .fl_loopcpBGR444_hi\r
 \r
     sub     r3, r4, #0x40*3*2\r
+    mov     r6, #1\r
 \r
 \r
 .fl_noshBGR444:\r
-    ldr     r1, =(HighCol+8)\r
+    ldr     r12,=rendstatus\r
+    eors    r6, r6, #1          @ sh is 0\r
+    ldr     r12,[r12]\r
     mov     lr, #0xff\r
+    tstne   r12,#(1<<2)         @ and PDRAW_ACC_SPRITES\r
+\r
+.if OVERRIDE_HIGHCOL\r
+    ldr     r1, =HighCol\r
+    movne   lr, #0x3f\r
+    ldr     r1, [r1]\r
     mov     lr, lr, lsl #1\r
+    add     r1, r1, #8\r
+.else\r
+    ldr     r1, =(HighCol+8)\r
+    movne   lr, #0x3f\r
+    mov     lr, lr, lsl #1\r
+.endif\r
 \r
 .fl_loopBGR444:\r
-\r
     ldr     r12, [r1], #4\r
     subs    r2, r2, #1\r
 \r
@@ -1423,11 +1531,10 @@ FinalizeLineBGR444:
     ldrh    r5, [r3, r5]\r
     and     r6, lr, r12, lsr #15\r
     ldrh    r6, [r3, r6]\r
+    and     r12,lr, r12, lsr #23\r
+    ldrh    r12,[r3, r12]              @ 1c.i.\r
     orr     r4, r4, r5, lsl #16\r
-\r
-    and     r5, lr, r12, lsr #23\r
-    ldrh    r5, [r3, r5]              @ 2c.i.\r
-    orr     r5, r6, r5, lsl #16\r
+    orr     r5, r6, r12,lsl #16\r
 \r
     stmia   r0!, {r4,r5}\r
     bne     .fl_loopBGR444\r
@@ -1480,14 +1587,16 @@ FinalizeLineBGR444:
     orr     \reg, \reg, r3           @ add blue back\r
 .endm\r
 \r
+.global vidConvCpyRGB565\r
+\r
 vidConvCpyRGB565: @ void *to, void *from, int pixels\r
     stmfd   sp!, {r4-r9,lr}\r
 \r
-    mov     r12, r2, lsr #3 @ repeats\r
+    mov     r12, r2, lsr #3  @ repeats\r
     mov     lr, #0x001c0000\r
     orr     lr, lr,  #0x01c  @ lr == pattern 0x001c001c\r
     mov     r8, #0x00030000\r
-    orr     r8, r8,  #0x003  @ lr == pattern 0x001c001c\r
+    orr     r8, r8,  #0x003\r
 \r
 .loopRGB565:\r
     ldmia   r1!, {r4-r7}\r
@@ -1560,14 +1669,29 @@ FinalizeLineRGB555:
     bne     .fl_loopcpRGB555_hi\r
 \r
     sub     r3, r3, #0x40*2\r
+    mov     r6, #1\r
 \r
 .fl_noshRGB555:\r
+    ldr     r12,=rendstatus\r
+    eors    r6, r6, #1          @ sh is 0\r
+    ldr     r12,[r12]\r
+    mov     lr, #0xff\r
+    tstne   r12,#(1<<2)         @ and PDRAW_ACC_SPRITES\r
+    movne   lr, #0x3f\r
+\r
+.if OVERRIDE_HIGHCOL\r
+    ldr     r1, =HighCol\r
+    ldr     r0, =DrawLineDest\r
+    ldr     r1, [r1]\r
+    ldr     r0, [r0]\r
+    add     r1, r1, #8\r
+.else\r
     ldr     r0, =DrawLineDest\r
     ldr     r1, =(HighCol+8)\r
     ldr     r0, [r0]\r
+.endif\r
 \r
     ldrb    r12, [r8, #12]\r
-    mov     lr, #0xff\r
     mov     lr, lr, lsl #1\r
 \r
     tst     r12, #1\r
@@ -1582,8 +1706,14 @@ FinalizeLineRGB555:
     addeq   r0, r0, #32*2\r
 \r
 .fl_no32colRGB555:\r
-.fl_loopRGB555:\r
 \r
+.if UNALIGNED_DRAWLINEDEST\r
+    @ this is basically for Gizmondo, which has unaligned odd lines in the framebuffer\r
+    tst     r0, #2\r
+    bne     .fl_RGB555u\r
+.endif\r
+\r
+.fl_loopRGB555:\r
     ldr     r12, [r1], #4\r
     ldr     r7,  [r1], #4\r
 \r
@@ -1605,12 +1735,12 @@ FinalizeLineRGB555:
     ldrh    r6, [r3, r6]\r
     and     r12,lr, r7, lsr #15\r
     ldrh    r12,[r3, r12]\r
+    and     r7, lr, r7, lsr #23\r
+    ldrh    r7, [r3, r7]\r
     orr     r8, r8, r6, lsl #16\r
 \r
-    and     r6, lr, r7, lsr #23\r
-    ldrh    r6, [r3, r6]             @ 1 cycle interlock here (r6)\r
     subs    r2, r2, #1\r
-    orr     r12,r12, r6, lsl #16\r
+    orr     r12,r12, r7, lsl #16\r
 \r
     stmia   r0!, {r4,r5,r8,r12}\r
     bne     .fl_loopRGB555\r
@@ -1624,6 +1754,11 @@ FinalizeLineRGB555:
     mov     r9, #0x3900 @ f800 07e0 001f | e000 0780 001c | 3800 01e0 0007\r
     orr     r9, r9, #0x00e7\r
 \r
+.if UNALIGNED_DRAWLINEDEST\r
+    tst     r0, #2\r
+    bne     .fl_32scale_RGB555u\r
+.endif\r
+\r
 .fl_loop32scale_RGB555:\r
     ldr     r12, [r1], #4\r
     ldr     r7,  [r1], #4\r
@@ -1680,6 +1815,121 @@ FinalizeLineRGB555:
     ldmfd   sp!, {r4-r8,lr}\r
     bx      lr\r
 \r
+.if UNALIGNED_DRAWLINEDEST\r
+    @ unaligned versions of loops\r
+    @ warning: starts drawing 2bytes before dst\r
+\r
+.fl_RGB555u:\r
+    sub     r0, r0, #2              @ initial adjustment\r
+    mov     r8, #0\r
+\r
+.fl_loopRGB555u:\r
+    ldr     r12, [r1], #4\r
+    ldr     r7,  [r1], #4\r
+\r
+    and     r6, lr, r12,lsl #1\r
+    ldrh    r6, [r3, r6]\r
+    and     r5, lr, r12,lsr #7\r
+    ldrh    r5, [r3, r5]\r
+    orr     r4, r8, r6, lsl #16\r
+\r
+    and     r6, lr, r12,lsr #15\r
+    ldrh    r6, [r3, r6]\r
+    and     r8, lr, r12,lsr #23\r
+    ldrh    r8, [r3, r8]\r
+    orr     r5, r5, r6, lsl #16\r
+\r
+    and     r6, lr, r7, lsl #1\r
+    ldrh    r6, [r3, r6]\r
+    and     r12,lr, r7, lsr #7\r
+    ldrh    r12,[r3, r12]\r
+    orr     r6, r8, r6, lsl #16\r
+\r
+    and     r8, lr, r7, lsr #15\r
+    ldrh    r8, [r3, r8]\r
+    and     r7, lr, r7, lsr #23\r
+\r
+    subs    r2, r2, #1\r
+    orr     r12,r12,r8, lsl #16\r
+    ldrh    r8, [r3, r7]\r
+\r
+    stmia   r0!, {r4,r5,r6,r12}\r
+    bne     .fl_loopRGB555u\r
+\r
+    strh    r8, [r0], #2\r
+\r
+    ldmfd   sp!, {r4-r8,lr}\r
+    bx      lr\r
+\r
+\r
+.fl_32scale_RGB555u:\r
+    sub     r0, r0, #2              @ initial adjustment\r
+    mov     r4, #0\r
+\r
+    @ r9  f800 07e0 001f | e000 0780 001c | 3800 01e0 0007\r
+.fl_loop32scale_RGB555u:\r
+    ldr     r12, [r1], #4\r
+    ldr     r7,  [r1], #4\r
+\r
+    and     r6, lr, r12,lsl #1\r
+    ldrh    r6, [r3, r6]\r
+    and     r5, lr, r12,lsr #7\r
+    ldrh    r5, [r3, r5]\r
+    and     r6, r6, r9, lsl #2\r
+    orr     r4, r4, r6, lsl #16       @ r4 = pix_d -1, 0\r
+\r
+    and     r5, r5, r9, lsl #2\r
+    sub     r8, r5, r5, lsr #2        @ r8 = 3/4 pix_s 1\r
+    add     r6, r8, r6, lsr #2        @ r6 = (1/4 pix_s 0) + (3/4 pix_s 1)\r
+    orr     r5, r6, r5, lsl #15\r
+\r
+    and     r6, lr, r12,lsr #15\r
+    ldrh    r6, [r3, r6]\r
+    and     r12,lr, r12,lsr #23\r
+    ldrh    r12,[r3, r12]\r
+    and     r6, r6, r9, lsl #2\r
+    add     r5, r5, r6, lsl #15       @ r5 = pix_d 1, 2\r
+\r
+    and     r8, lr, r7, lsl #1\r
+    ldrh    r8, [r3, r8]\r
+    and     r10,lr, r7, lsr #7\r
+    ldrh    r10,[r3, r10]\r
+    and     r12,r12,r9, lsl #2\r
+    sub     r6, r6, r6, lsr #2        @ r6 = 3/4 pix_s 2\r
+    add     r6, r6, r12,lsr #2\r
+    orr     r6, r6, r12,lsl #16       @ r6 = pix_d 3, 4\r
+\r
+    and     r8, r8, r9, lsl #2\r
+    and     r10,r10,r9, lsl #2\r
+    sub     r12,r10,r10,lsr #2        @ r12 = 3/4 pix_s 5\r
+    orr     r8, r8, r8, lsl #14\r
+    add     r8, r8, r12,lsl #16       @ r8 = pix_d 5, 6\r
+    and     r12,lr, r7, lsr #15\r
+    ldrh    r12,[r3, r12]\r
+    and     r7, lr, r7, lsr #23\r
+    ldrh    r7, [r3, r7]\r
+    and     r12,r12,r9, lsl #2\r
+    add     r10,r10,r12\r
+    mov     r10,r10,    lsr #1\r
+    sub     r12,r12,r12,lsr #2        @ r12 = 3/4 pix_s 6\r
+    orr     r10,r10,r12,lsl #16\r
+    and     r7, r7, r9, lsl #2\r
+    add     r10,r10,r7, lsl #14       @ r10 = pix_d 7, 8\r
+\r
+    subs    r2, r2, #1\r
+\r
+    stmia   r0!, {r4,r5,r6,r8,r10}\r
+    mov     r4, r7\r
+    bne     .fl_loop32scale_RGB555u\r
+\r
+    strh    r4, [r0], #2\r
+\r
+    ldmfd   sp!, {r9,r10}\r
+    ldmfd   sp!, {r4-r8,lr}\r
+    bx      lr\r
+\r
+.endif @ UNALIGNED_DRAWLINEDEST\r
+\r
 \r
 @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
 \r