renderer patch for DBZ - Buyuu Retsuden
[picodrive.git] / Pico / Draw.s
index 7643c3d..5032f15 100644 (file)
@@ -14,7 +14,6 @@
 .extern HighSprZ\r
 .extern rendstatus\r
 .extern DrawLineDest\r
-.extern DrawStripVSRam\r
 .extern DrawStripInterlace\r
 \r
 \r
@@ -70,7 +69,7 @@
     streqb  r4, [r1,#\offs]\r
 .endm\r
 \r
-@ TileNorm (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r12: register with helper pattern 0xf, touches r3 high bits\r
+@ TileNormShHP (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r12: register with helper pattern 0xf, touches r3 high bits\r
 .macro TileNormShHP\r
     TilePixelShHP 12, 0         @ #0x0000f000\r
     TilePixelShHP  8, 1         @ #0x00000f00\r
@@ -82,7 +81,7 @@
     TilePixelShHP 16, 7         @ #0x000f0000\r
 .endm\r
 \r
-@ TileFlip (r1=pdest, r2=pixels8, r3=pal) r4: scratch, pat: register with helper pattern 0xf\r
+@ TileFlipShHP (r1=pdest, r2=pixels8, r3=pal) r4: scratch, pat: register with helper pattern 0xf\r
 .macro TileFlipShHP\r
     TilePixelShHP 16, 0         @ #0x000f0000\r
     TilePixelShHP 20, 1         @ #0x00f00000\r
@@ -293,7 +292,6 @@ DrawLayer:
     add     r12, r12, r4, lsl r10  @ nametab+=(ts.line>>3)<<shift[width];\r
 \r
     @ ldmia   r0, {r1,r2,r3,r5,r6,r9} @ r2=line, r3=ts->hscroll, r5=ts->xmask, r6=ts->hc, r9=ts->cells\r
-@    mov     r12,r1,  lsl #1 @ r12=(ts->nametab<<1) (halfword compliant)\r
 \r
     and     r10,r2,  #7\r
     mov     r10,r10, lsl #1 @ r10=ty=(ts->line&7)<<1;\r
@@ -308,7 +306,7 @@ DrawLayer:
 \r
     tst     r9, #1<<31\r
     mov     r3, #0\r
-    orrne   r10,r10, #1<<23 @ r10=(cells<<24|sh<<23|hi_not_empty<<22|ty)\r
+    orrne   r10,r10, #1<<23 @ r10=(cells<<24|sh<<23|hi_not_empty<<22|had_output<<21|ty)\r
     movne   r3, #0x40       @ default to shadowed pal on sh mode\r
 \r
     mvn     r9, #0          @ r9=prevcode=-1\r
@@ -344,6 +342,7 @@ DrawLayer:
     beq     .DrawStrip_samecode @ we know stuff about this tile already\r
 \r
     mov     r9, r7          @ remember code\r
+    orr     r10, r10, #1<<21 @ seen non hi-prio tile\r
 \r
     movs    r2, r9, lsl #20 @ if (code&0x1000)\r
     mov     r2, r2, lsl #1\r
@@ -365,16 +364,17 @@ DrawLayer:
     beq     .DrawStrip_SingleColor @ tileline singlecolor \r
 \r
     tst     r9, #0x0800\r
-    beq     .DrawStrip_TileNorm\r
+    bne     .DrawStrip_TileFlip\r
 \r
     @ (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r0: helper pattern\r
-    TileFlip r0\r
-    b       .dsloop\r
-\r
 .DrawStrip_TileNorm:\r
     TileNorm r0\r
     b       .dsloop\r
 \r
+.DrawStrip_TileFlip:\r
+    TileFlip r0\r
+    b       .dsloop\r
+\r
 .DrawStrip_SingleColor:\r
     and     r4, r2, #0xf\r
     orr     r4, r3, r4\r
@@ -388,6 +388,20 @@ DrawLayer:
     strneb  r4, [r1], #1       @ have a remaining unaligned pixel?\r
     b       .dsloop_subr1\r
 \r
+.DrawStrip_hiprio_maybempt:\r
+    cmp     r7, r9\r
+    beq     .dsloop         @ must've been empty, otherwise we wouldn't get here\r
+    movs    r2, r7, lsl #20 @ if (code&0x1000)\r
+    mov     r2, r2, lsl #1\r
+    add     r2, r2, r10, lsl #17\r
+    mov     r2, r2, lsr #17\r
+    eorcs   r2, r2, #0x0e   @ if (code&0x1000) addr^=0xe;\r
+    ldr     r2, [lr, r2, lsl #1] @ pack=*(unsigned int *)(Pico.vram+addr); // Get 8 pixels\r
+    mov     r9, r7          @ remember code\r
+    tst     r2, r2\r
+    beq     .dsloop\r
+    orr     r10, r10, #1<<22\r
+\r
 .DrawStrip_hiprio:\r
     tst     r10, #0x00c00000\r
     beq     .DrawStrip_hiprio_maybempt\r
@@ -400,9 +414,159 @@ DrawLayer:
     mov     r0, #0xf\r
     b       .dsloop\r
 \r
-.DrawStrip_hiprio_maybempt:\r
+.dsloop_exit:\r
+    tst     r10, #1<<21 @ seen non hi-prio tile\r
+    ldreq   r1, =rendstatus\r
+    mov     r0, #0\r
+    ldreq   r2, [r1]\r
+    str     r0, [r6]    @ terminate the cache list\r
+    orreq   r2, r2, #0x40 @ had a layer with all hi-prio tiles\r
+    streq   r2, [r1]\r
+\r
+    ldmfd   sp!, {r4-r11,lr}\r
+    bx      lr\r
+\r
+@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
+\r
+.DrawStrip_vsscroll:\r
+    rsb     r8, r3, #0\r
+    mov     r8, r8, lsr #3        @ r8=tilex=(-ts->hscroll)>>3\r
+    bic     r8, r8, #0xff000000\r
+    orr     r8, r8, r5, lsl #25   @ r8=(xmask[31:25]|had_output[24]|tilex[15:0])\r
+\r
+    ldr     r4, =Scanline\r
+    orr     r5, r1, r10, lsl #24\r
+    ldr     r4, [r4]\r
+    sub     r1, r3, #1\r
+    orr     r5, r5, r4, lsl #16   @ r5=(shift_width[31:24]|scanline[23:16]|ymask[15:0])\r
+    and     r1, r1, #7\r
+    add     r7, r1, #1            @ r7=dx=((ts->hscroll-1)&7)+1\r
+\r
+    mov     r10,r9, lsl #16\r
+    tst     r0, r0\r
+    orrne   r10,r10, #0x8000\r
+    tst     r9, #1<<31\r
+    mov     r3, #0\r
+    orr     r10,r10, #0xff000000 @ will be adjusted on entering loop\r
+    orrne   r10,r10, #1<<23 @ r10=(cells[31:24]|sh[23]|hi_not_empty[22]|cells_max[21:16]|plane[15]|ty[14:0])\r
+    movne   r3, #0x40       @ default to shadowed pal on sh mode\r
+\r
+    mvn     r9, #0          @ r9=prevcode=-1\r
+\r
+    @ cache some stuff to avoid mem access\r
+    ldr     r11,=HighCol\r
+    mov     r0, #0xf\r
+    add     r1, r11, r7         @ r1=pdest\r
+\r
+    cmp     r7, #8\r
+    subne   r10,r10, #0x01000000 @ have hscroll, start with negative cell\r
+\r
+\r
+    @ r4 & r7 are scratch in this loop\r
+.dsloop_vs_subr1:\r
+    sub     r1, r1, #8\r
+.dsloop_vs: @ 40-41 times\r
+    add     r10,r10, #0x01000000\r
+    and     r4, r10, #0x003f0000\r
+    cmp     r4, r10, asr #8\r
+    ble     .dsloop_vs_exit\r
+\r
+    @ calc offset and read tileline code to r7, also calc ty\r
+    add     r7, lr, #0x012000\r
+    add     r7, r7, #0x000180     @ r7=Pico.vsram (Pico+0x22180)\r
+    add     r7, r7, r10,asr #23   @ vsram + ((cell&~1)<<1)\r
+    bic     r7, r7, #3\r
+    tst     r10,#0x8000           @ plane1?\r
+    addne   r7, r7, #2\r
+    ldrh    r7, [r7]              @ r7=vscroll\r
+\r
+    bic     r10,r10,#0xff         @ clear old ty\r
+    and     r4, r5, #0xff0000\r
+    add     r4, r4, r7, lsl #16\r
+    and     r4, r4, r5, lsl #16   @ r4=line<<16\r
+    and     r7, r4, #0x70000\r
+    orr     r10,r10,r7, lsr #15   @ new ty\r
+\r
+    mov     r4, r4, lsr #19\r
+    mov     r7, r5, lsr #24\r
+    mov     r4, r4, lsl r7        @ nametabadd\r
+\r
+    and     r7, r8, r8, lsr #25\r
+    add     r7, lr, r7, lsl #1    @ Pico.vram+((tilex&ts->xmask) as halfwords)\r
+    add     r7, r7, r4, lsl #1\r
+    ldrh    r7, [r7, r12]         @ r7=code (int, but from unsigned, no sign extend)\r
+\r
+    add     r1, r1, #8\r
+    add     r8, r8, #1\r
+\r
+    tst     r7, #0x8000\r
+    bne     .DrawStrip_vs_hiprio\r
+\r
     cmp     r7, r9\r
-    beq     .dsloop         @ must've been empty, otherwise we wouldn't get here\r
+    beq     .DrawStrip_vs_samecode @ we know stuff about this tile already\r
+\r
+    mov     r9, r7          @ remember code\r
+    orr     r8, r8, #1<<24  @ seen non hi-prio tile\r
+\r
+    movs    r2, r9, lsl #20 @ if (code&0x1000)\r
+    mov     r2, r2, lsl #1\r
+    add     r2, r2, r10, lsl #17\r
+    mov     r2, r2, lsr #17\r
+    eorcs   r2, r2, #0x0e   @ if (code&0x1000) addr^=0xe;\r
+\r
+    ldr     r2, [lr, r2, lsl #1] @ pack=*(unsigned int *)(Pico.vram+addr); // Get 8 pixels\r
+\r
+    bic     r7, r3, #0x3f\r
+    and     r3, r9, #0x6000\r
+    add     r3, r7, r3, lsr #9 @ r3=pal=((code&0x6000)>>9);\r
+\r
+.DrawStrip_vs_samecode:\r
+    tst     r2, r2\r
+    beq     .dsloop_vs              @ tileline blank\r
+\r
+    cmp     r2, r2, ror #4\r
+    beq     .DrawStrip_vs_SingleColor @ tileline singlecolor \r
+\r
+    tst     r9, #0x0800\r
+    bne     .DrawStrip_vs_TileFlip\r
+\r
+    @ (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r0: helper pattern\r
+.DrawStrip_vs_TileNorm:\r
+    TileNorm r0\r
+    b       .dsloop_vs\r
+\r
+.DrawStrip_vs_TileFlip:\r
+    TileFlip r0\r
+    b       .dsloop_vs\r
+\r
+.DrawStrip_vs_SingleColor:\r
+    and     r4, r2, #0xf\r
+    orr     r4, r3, r4\r
+    orr     r4, r4, r4, lsl #8\r
+    tst     r1, #1             @ not aligned?\r
+    strneb  r4, [r1], #1\r
+    streqh  r4, [r1], #2\r
+    strh    r4, [r1], #2\r
+    strh    r4, [r1], #2\r
+    strh    r4, [r1], #2\r
+    strneb  r4, [r1], #1       @ have a remaining unaligned pixel?\r
+    b       .dsloop_vs_subr1\r
+\r
+.DrawStrip_vs_hiprio:\r
+    tst     r10, #0x00c00000\r
+    beq     .DrawStrip_vs_hiprio_maybempt\r
+    sub     r0, r1, r11\r
+    orr     r7, r7, r0,  lsl #16\r
+    orr     r7, r7, r10, lsl #25 @ (ty<<25)\r
+    tst     r7, #0x1000\r
+    eorne   r7, r7, #7<<26  @ if(code&0x1000) cval^=7<<26;\r
+    str     r7, [r6], #4    @ cache hi priority tile\r
+    mov     r0, #0xf\r
+    b       .dsloop_vs\r
+\r
+.DrawStrip_vs_hiprio_maybempt:\r
+    cmp     r7, r9\r
+    beq     .dsloop_vs         @ must've been empty, otherwise we wouldn't get here\r
     movs    r2, r7, lsl #20 @ if (code&0x1000)\r
     mov     r2, r2, lsl #1\r
     add     r2, r2, r10, lsl #17\r
@@ -412,41 +576,23 @@ DrawLayer:
     mov     r9, r7          @ remember code\r
     tst     r2, r2\r
     orrne   r10, r10, #1<<22\r
-    bne     .DrawStrip_hiprio\r
-    b       .dsloop\r
+    bne     .DrawStrip_vs_hiprio\r
+    b       .dsloop_vs\r
 \r
-.dsloop_exit:\r
+.dsloop_vs_exit:\r
+    tst     r8, #1<<24 @ seen non hi-prio tile\r
+    ldreq   r1, =rendstatus\r
     mov     r0, #0\r
+    ldreq   r2, [r1]\r
     str     r0, [r6]    @ terminate the cache list\r
+    orreq   r2, r2, #0x40 @ had a layer with all hi-prio tiles\r
+    streq   r2, [r1]\r
 \r
     ldmfd   sp!, {r4-r11,lr}\r
     bx      lr\r
 \r
 \r
-.DrawStrip_vsscroll:\r
-    @ shit, we have 2-cell column based vscroll\r
-    @ let the c code handle this (for now)\r
-\r
-    @   int nametab; // 0x00\r
-    @   int line;    // 0x04\r
-    @   int hscroll; // 0x08\r
-    @   int xmask;   // 0x0C\r
-    @   int *hc;     // 0x10 (pointer to cache buffer)\r
-    @   int cells;   // 0x14\r
-\r
-    sub     sp, sp, #6*4\r
-    orr     r2, r1, r10, lsl #24 @ ts.line=ymask|(shift[width]<<24); // save some stuff instead of line\r
-    mov     r1, r0               @ plane\r
-    mov     r0, r12, lsr #1      @ halfwords\r
-    and     r9, r9, #0xff\r
-    stmia   sp, {r0,r2,r3,r5,r6,r9}\r
-\r
-    mov     r0, sp\r
-    bl      DrawStripVSRam @ struct TileStrip *ts, int plane\r
-\r
-    add     sp, sp, #6*4\r
-    ldmfd   sp!, {r4-r11,lr}\r
-    bx      lr\r
+@ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
 \r
 @ interlace mode 2? Sonic 2?\r
 .DrawStrip_interlace:\r
@@ -519,26 +665,28 @@ BackFill:
 @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
 \r
 \r
-.global DrawTilesFromCache @ int *hc, int sh\r
+.global DrawTilesFromCache @ int *hc, int sh, int rlim\r
 \r
 DrawTilesFromCache:\r
     stmfd   sp!, {r4-r8,r11,lr}\r
 \r
-    mvn     r5, #0         @ r5=prevcode=-1\r
-    mov     r8, r1\r
-\r
     @ cache some stuff to avoid mem access\r
     ldr     r11,=HighCol\r
     ldr     lr, =(Pico+0x10000) @ lr=Pico.vram\r
     mov     r12,#0xf\r
 \r
+    mvn     r5, #0         @ r5=prevcode=-1\r
+    ands    r8, r1, #1\r
+    orr     r8, r8, r2, lsl #1\r
+    bne     .dtfc_check_rendflags\r
+\r
     @ scratch: r4, r7\r
 .dtfc_loop:\r
     ldr     r6, [r0], #4    @ read code\r
     movs    r1, r6, lsr #16 @ r1=dx;\r
     ldmeqfd sp!, {r4-r8,r11,pc} @ dx is never zero, this must be a terminator, return\r
-    bic     r1, r1, #0xfe00\r
-    add     r1, r11, r1     @ r1=pdest\r
+    bic     r4, r1, #0xfe00\r
+    add     r1, r11, r4     @ r1=pdest\r
 \r
     mov     r7, r6, lsl #16\r
     cmp     r5, r7, lsr #16\r
@@ -556,7 +704,10 @@ DrawTilesFromCache:
     ldr     r2, [lr, r2, lsl #1] @ pack=*(unsigned int *)(Pico.vram+addr); // Get 8 pixels\r
 \r
 .dtfc_samecode:\r
-    tst     r8, r8\r
+    rsbs    r4, r4, r8, lsr #1\r
+    bmi     .dtfc_cut_tile\r
+\r
+    tst     r8, #1\r
     bne     .dtfc_shadow\r
 \r
     tst     r2, r2\r
@@ -566,16 +717,17 @@ DrawTilesFromCache:
     beq     .dtfc_SingleColor @ tileline singlecolor \r
 \r
     tst     r5, #0x0800\r
-    beq     .dtfc_TileNorm\r
+    bne     .dtfc_TileFlip\r
 \r
     @ (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r12: helper pattern\r
-    TileFlip r12\r
-    b       .dtfc_loop\r
-\r
 .dtfc_TileNorm:\r
     TileNorm r12\r
     b       .dtfc_loop\r
 \r
+.dtfc_TileFlip:\r
+    TileFlip r12\r
+    b       .dtfc_loop\r
+\r
 .dtfc_SingleColor:\r
     and     r4, r2, #0xf\r
     orr     r4, r3, r4\r
@@ -597,16 +749,17 @@ DrawTilesFromCache:
     beq     .dtfc_SingleColor @ tileline singlecolor \r
 \r
     tst     r5, #0x0800\r
-    beq     .dtfc_TileNormShHP\r
+    bne     .dtfc_TileFlipShHP\r
 \r
     @ (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r12: helper pattern\r
-    TileFlipShHP\r
-    b       .dtfc_loop\r
-\r
 .dtfc_TileNormShHP:\r
     TileNormShHP\r
     b       .dtfc_loop\r
 \r
+.dtfc_TileFlipShHP:\r
+    TileFlipShHP\r
+    b       .dtfc_loop\r
+\r
 .dtfc_shadow_blank:\r
     ldrb    r4, [r1]        @ 1ci\r
     ldrb    r12,[r1,#1]\r
@@ -643,6 +796,64 @@ DrawTilesFromCache:
     mov     r12, #0xf\r
     b       .dtfc_loop\r
 \r
+.dtfc_cut_tile:\r
+    add     r4, r4, #7      @ 0-6\r
+    mov     r4, r4, lsl #2\r
+    mov     r12,#0xf<<28\r
+    mov     r12,r12,asr r4\r
+    mov     r2, r2, ror #16\r
+    tst     r5, #0x0800     @ flipped?\r
+    mvnne   r12,r12\r
+    and     r2, r2, r12\r
+    mov     r2, r2, ror #16\r
+    mov     r12,#0xf\r
+    tst     r8, #1\r
+    bne     .dtfc_shadow\r
+    tst     r2, r2\r
+    beq     .dtfc_loop\r
+    tst     r5, #0x0800\r
+    beq     .dtfc_TileNorm\r
+    b       .dtfc_TileFlip\r
+\r
+@ check if we have detected layer covered with hi-prio tiles:\r
+.dtfc_check_rendflags:\r
+    ldr     r1, =rendstatus\r
+    ldr     r2, [r1]\r
+    tst     r2, #0xc0\r
+    beq     .dtfc_loop\r
+    bic     r8, r8, #1      @ sh/hi mode off\r
+    tst     r2, #0x80\r
+    bne     .dtfc_loop      @ already processed\r
+    orr     r2, r2, #0x80\r
+    str     r2, [r1]\r
+\r
+    add     r1, r11,#8\r
+    mov     r3, #320/4\r
+    mov     r7, #0x80\r
+    orr     r7, r7, r7, lsl #8\r
+    orr     r7, r7, r7, lsl #16\r
+    mov     r6, #0x3f\r
+    orr     r6, r6, r6, lsl #8\r
+    orr     r6, r6, r6, lsl #16\r
+.dtfc_loop_shprep:\r
+    subs    r3, r3, #1\r
+    bmi     .dtfc_loop      @ done\r
+    ldr     r2, [r1]\r
+    tst     r2, r7\r
+    andeq   r2, r2, r6\r
+    streq   r2, [r1], #4\r
+    beq     .dtfc_loop_shprep\r
+    tst     r2,     #0x80000000\r
+    biceq   r2, r2, #0xc0000000\r
+    tst     r2,     #0x00800000\r
+    biceq   r2, r2, #0x00c00000\r
+    tst     r2,     #0x00008000\r
+    biceq   r2, r2, #0x0000c000\r
+    tst     r2,     #0x00000080\r
+    biceq   r2, r2, #0x000000c0\r
+    str     r2, [r1], #4\r
+    b       .dtfc_loop_shprep\r
+\r
 .pool\r
 \r
 @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@\r
@@ -719,16 +930,17 @@ DrawSpritesFromCache:
     beq     .dsfc_SingleColor @ tileline singlecolor \r
 \r
     tst     r9, #0x10000\r
-    beq     .dsfc_TileNorm\r
+    bne     .dsfc_TileFlip\r
 \r
     @ TileFlip (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r12: helper pattern\r
-    TileFlip r12\r
-    b       .dsfc_inloop\r
-\r
 .dsfc_TileNorm:\r
     TileNorm r12\r
     b       .dsfc_inloop\r
 \r
+.dsfc_TileFlip:\r
+    TileFlip r12\r
+    b       .dsfc_inloop\r
+\r
 .dsfc_SingleColor:\r
     tst     r0, #1              @ not aligned?\r
     and     r4, r2, #0xf\r
@@ -747,16 +959,17 @@ DrawSpritesFromCache:
     beq     .dsfc_singlec_sh\r
 \r
     tst     r9, #0x10000\r
-    beq     .dsfc_TileNorm_sh\r
+    bne     .dsfc_TileFlip_sh\r
 \r
     @ (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r12: helper pattern\r
-    TileFlipSh\r
-    b       .dsfc_inloop\r
-\r
 .dsfc_TileNorm_sh:\r
     TileNormSh\r
     b       .dsfc_inloop\r
 \r
+.dsfc_TileFlip_sh:\r
+    TileFlipSh\r
+    b       .dsfc_inloop\r
+\r
 .dsfc_singlec_sh:\r
     cmp     r2, #0xe0000000\r
     bcc     .dsfc_SingleColor   @ normal singlecolor tileline (carry inverted in ARM)\r
@@ -863,17 +1076,18 @@ DrawSprite:
     beq     .dspr_SingleColor @ tileline singlecolor \r
 \r
     tst     r9, #0x0800\r
-    beq     .dspr_TileNorm\r
+    bne     .dspr_TileFlip\r
 \r
     @ (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r12: helper pattern\r
-    TileFlip r12\r
-    b       .dspr_loop\r
-\r
 @ scratch: r4, r7\r
 .dspr_TileNorm:\r
     TileNorm r12\r
     b       .dspr_loop\r
 \r
+.dspr_TileFlip:\r
+    TileFlip r12\r
+    b       .dspr_loop\r
+\r
 .dspr_SingleColor:\r
     and     r4, r2, #0xf\r
     orr     r4, r3, r4\r
@@ -892,16 +1106,17 @@ DrawSprite:
     beq     .dspr_singlec_sh\r
 \r
     tst     r9, #0x0800\r
-    beq     .dspr_TileNorm_sh\r
+    bne     .dspr_TileFlip_sh\r
 \r
     @ (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r12: helper pattern\r
-    TileFlipSh\r
-    b       .dspr_loop\r
-\r
 .dspr_TileNorm_sh:\r
     TileNormSh\r
     b       .dspr_loop\r
 \r
+.dspr_TileFlip_sh:\r
+    TileFlipSh\r
+    b       .dspr_loop\r
+\r
 .dspr_singlec_sh:\r
     cmp     r2, #0xe0000000\r
     bcc     .dspr_SingleColor   @ normal tileline\r
@@ -1029,16 +1244,17 @@ DrawWindow:
     beq     .dw_SingleColor @ tileline singlecolor \r
 \r
     tst     r9, #0x0800\r
-    beq     .dw_TileNorm\r
+    bne     .dw_TileFlip\r
 \r
     @ (r1=pdest, r2=pixels8, r3=pal) r4: scratch, r0: helper pattern\r
-    TileFlip r0\r
-    b       .dwloop\r
-\r
 .dw_TileNorm:\r
     TileNorm r0\r
     b       .dwloop\r
 \r
+.dw_TileFlip:\r
+    TileFlip r0\r
+    b       .dwloop\r
+\r
 .dw_SingleColor:\r
     and     r4, r0, r2         @ #0x0000000f\r
     orr     r4, r3, r4\r