platform ps2, handle audio similar to psp
[picodrive.git] / pico / draw.c
index 0dd682c..387f3a4 100644 (file)
@@ -1,11 +1,12 @@
-// This is part of Pico Library\r
-\r
-// (c) Copyright 2004 Dave, All rights reserved.\r
-// (c) Copyright 2006-2008 notaz, All rights reserved.\r
-// Free for non-commercial use.\r
-\r
-// For commercial use, separate licencing terms must be obtained.\r
-\r
+/*\r
+ * line renderer\r
+ * (c) Copyright Dave, 2004\r
+ * (C) notaz, 2006-2010\r
+ * (C) irixxxx, 2019-2024\r
+ *\r
+ * This work is licensed under the terms of MAME license.\r
+ * See COPYING file in the top-level directory.\r
+ */\r
 /*\r
  * The renderer has 4 modes now:\r
  * - normal\r
  * - "sonic mode" for midline palette changes (8bit mode only)\r
  * - accurate sprites (AS) [+ s/h]\r
  *\r
- * AS and s/h both use upper bits for both priority and shadow/hilight flags.\r
+ * s/h uses upper bits for both priority and shadow/hilight flags.\r
  * "sonic mode" is autodetected, shadow/hilight is enabled by emulated game.\r
  * AS is enabled by user and takes priority over "sonic mode".\r
  *\r
  * since renderer always draws line in 8bit mode, there are 2 spare bits:\r
- * b \ mode: s/h             as        sonic\r
- * 00        normal          -         pal index\r
- * 01        shadow          -         pal index\r
- * 10        hilight+op spr  spr       pal index\r
- * 11        shadow +op spr  -         pal index\r
+ * b \ mode: s/h                    sonic\r
+ * 00        normal                 pal index\r
+ * 01        hilight                pal index\r
+ * 10        shadow                 pal index\r
+ * 11        hilight|shadow=normal  pal index\r
+ *\r
+ * sprite s/h can only be correctly done after the plane rendering s/h state is\r
+ * known since the s/h result changes if there's at least one high prio plane.\r
+ * sprite op rendering is deferred until this is known, and hilight is used as\r
+ * mark since it can't occur before sprite ops:\r
+ * x1        op marker              pal index\r
+ *\r
+ * low prio s/h rendering:\r
+ * - plane and non-op sprite pixels have shadow\r
+ * - s/h sprite op pixel rendering is marked with hilight (deferred)\r
+ * high prio s/h rendering:\r
+ * - plane and non-op sprite pixels are normal\r
+ * - all s/h sprite op pixels (either marked or high prio) are rendered\r
  *\r
  * not handled properly:\r
- * - hilight op on shadow tile\r
- * - AS + s/h (s/h sprite flag interferes with and cleared by AS code)\r
+ * - high prio s/h sprite op overlapping low prio sprite shows sprite, not A,B,G\r
+ * - in debug sprite-masked, transparent high-prio sprite px don't remove shadow\r
  */\r
 \r
 #include "pico_int.h"\r
+#include <platform/common/upscale.h>\r
+\r
+#define FORCE  // layer forcing via debug register?\r
 \r
 int (*PicoScanBegin)(unsigned int num) = NULL;\r
 int (*PicoScanEnd)  (unsigned int num) = NULL;\r
 \r
 static unsigned char DefHighCol[8+320+8];\r
-unsigned char *HighCol = DefHighCol;\r
-static unsigned char *HighColBase = DefHighCol;\r
-static int HighColIncrement;\r
+unsigned char *HighColBase = DefHighCol;\r
+int HighColIncrement;\r
 \r
-static unsigned int DefOutBuff[320*2/2];\r
-void *DrawLineDest = DefOutBuff; // pointer to dest buffer where to draw this line to\r
+static u16 DefOutBuff[320*2] ALIGNED(4);\r
 void *DrawLineDestBase = DefOutBuff;\r
 int DrawLineDestIncrement;\r
 \r
-static int  HighCacheA[41+1];   // caches for high layers\r
-static int  HighCacheB[41+1];\r
-int  HighPreSpr[80*2+1]; // slightly preprocessed sprites\r
+static u32 HighCacheA[41*2+1]; // caches for high layers\r
+static u32 HighCacheB[41*2+1];\r
+static s32 HighPreSpr[128*2*2]; // slightly preprocessed sprites (2 banks a 128)\r
+static int HighPreSprBank;\r
+\r
+u32 VdpSATCache[2*128];  // VDP sprite cache (1st 32 sprite attr bits)\r
+\r
+// NB don't change any defines without checking their usage in ASM\r
+\r
+#if defined(USE_BGR555)\r
+#define PXCONV(t)   ((t & 0x000e000e)<< 1) | ((t & 0x00e000e0)<<2) | ((t & 0x0e000e00)<<3)\r
+#define PXMASKL     0x04210421  // 0x0c630c63, LSB for all colours\r
+#define PXMASKH     0x39ce39ce  // 0x3def3def, all but MSB for all colours\r
+#elif defined(USE_BGR565)\r
+#define PXCONV(t)   ((t & 0x000e000e)<< 1) | ((t & 0x00e000e0)<<3) | ((t & 0x0e000e00)<<4)\r
+#define PXMASKL     0x08610861  // 0x18e318e3\r
+#define PXMASKH     0x738e738e  // 0x7bef7bef\r
+#else // RGB565\r
+#define PXCONV(t)   ((t & 0x000e000e)<<12) | ((t & 0x00e000e0)<<3) | ((t & 0x0e000e00)>>7)\r
+#define PXMASKL     0x08610861  // 0x18e318e3\r
+#define PXMASKH     0x738e738e  // 0x7bef7bef\r
+#endif\r
+\r
+#define LF_PLANE   (1 << 0) // must be = 1\r
+#define LF_SH      (1 << 1) // must be = 2\r
+//#define LF_FORCE   (1 << 2)\r
+\r
+#define LF_PLANE_A 0\r
+#define LF_PLANE_B 1\r
 \r
 #define SPRL_HAVE_HI     0x80 // have hi priority sprites\r
 #define SPRL_HAVE_LO     0x40 // *lo*\r
 #define SPRL_MAY_HAVE_OP 0x20 // may have operator sprites on the line\r
 #define SPRL_LO_ABOVE_HI 0x10 // low priority sprites may be on top of hi\r
-unsigned char HighLnSpr[240][3 + MAX_LINE_SPRITES]; // sprite_count, ^flags, tile_count, [spritep]...\r
+#define SPRL_HAVE_X      0x08 // have sprites with x != 0\r
+#define SPRL_TILE_OVFL   0x04 // tile limit exceeded on previous line\r
+#define SPRL_HAVE_MASK0  0x02 // have sprite with x == 0 in 1st slot\r
+#define SPRL_MASKED      0x01 // lo prio masking by sprite with x == 0 active\r
 \r
-int rendstatus, rendstatus_old;\r
+// sprite cache. stores results of sprite parsing for each display line:\r
+// [visible_sprites_count, sprl_flags, tile_count, sprites_processed, sprite_idx[sprite_count], last_width]\r
+unsigned char HighLnSpr[240][4+MAX_LINE_SPRITES+1];\r
+\r
+int rendstatus_old;\r
 int rendlines;\r
-int DrawScanline;\r
-int PicoDrawMask = -1;\r
 \r
 static int skip_next_line=0;\r
 \r
-//unsigned short ppt[] = { 0x0f11, 0x0ff1, 0x01f1, 0x011f, 0x01ff, 0x0f1f, 0x0f0e, 0x0e7c };\r
-\r
 struct TileStrip\r
 {\r
   int nametab; // Position in VRAM of name table (for this tile line)\r
   int line;    // Line number in pixels 0x000-0x3ff within the virtual tilemap\r
   int hscroll; // Horizontal scroll value in pixels for the line\r
   int xmask;   // X-Mask (0x1f - 0x7f) for horizontal wraparound in the tilemap\r
-  int *hc;     // cache for high tile codes and their positions\r
+  u32 *hc;     // cache for high tile codes and their positions\r
   int cells;   // cells (tiles) to draw (32 col mode doesn't need to update whole 320)\r
 };\r
 \r
 // stuff available in asm:\r
 #ifdef _ASM_DRAW_C\r
-void DrawWindow(int tstart, int tend, int prio, int sh);\r
-void DrawAllSprites(unsigned char *sprited, int prio, int sh);\r
-void DrawTilesFromCache(int *hc, int sh, int rlim);\r
-void DrawSpritesSHi(unsigned char *sprited);\r
-void DrawLayer(int plane_sh, int *hcache, int cellskip, int maxcells);\r
-void FinalizeLineBGR444(int sh, int line);\r
+void DrawWindow(int tstart, int tend, int prio, int sh,\r
+                struct PicoEState *est);\r
+void DrawAllSprites(unsigned char *sprited, int prio, int sh,\r
+                    struct PicoEState *est);\r
+void DrawTilesFromCache(u32 *hc, int sh, int rlim,\r
+                    struct PicoEState *est);\r
+void DrawSpritesSHi(unsigned char *sprited, struct PicoEState *est);\r
+void DrawLayer(int plane_sh, u32 *hcache, int cellskip, int maxcells,\r
+               struct PicoEState *est);\r
 void *blockcpy(void *dst, const void *src, size_t n);\r
 void blockcpy_or(void *dst, void *src, size_t n, int pat);\r
 #else\r
@@ -88,202 +135,305 @@ void blockcpy_or(void *dst, void *src, size_t n, int pat);
 void blockcpy_or(void *dst, void *src, size_t n, int pat)\r
 {\r
   unsigned char *pd = dst, *ps = src;\r
-  for (; n; n--)\r
-    *pd++ = (unsigned char) (*ps++ | pat);\r
+  if (dst > src) {\r
+    for (pd += n, ps += n; n; n--)\r
+      *--pd = (unsigned char) (*--ps | pat);\r
+  } else\r
+    for (; n; n--)\r
+      *pd++ = (unsigned char) (*ps++ | pat);\r
 }\r
-#define blockcpy memcpy\r
+#define blockcpy memmove\r
 #endif\r
 \r
-\r
-#define TileNormMaker(funcname,pix_func)                     \\r
-static int funcname(int sx,int addr,int pal)                 \\r
+#define TileNormMaker_(pix_func,ret)                         \\r
 {                                                            \\r
-  unsigned char *pd = HighCol+sx;                            \\r
-  unsigned int pack=0; unsigned int t=0;                     \\r
-                                                             \\r
-  pack=*(unsigned int *)(Pico.vram+addr); /* Get 8 pixels */ \\r
-  if (pack)                                                  \\r
-  {                                                          \\r
-    t=(pack&0x0000f000)>>12; pix_func(0);                    \\r
-    t=(pack&0x00000f00)>> 8; pix_func(1);                    \\r
-    t=(pack&0x000000f0)>> 4; pix_func(2);                    \\r
-    t=(pack&0x0000000f)    ; pix_func(3);                    \\r
-    t=(pack&0xf0000000)>>28; pix_func(4);                    \\r
-    t=(pack&0x0f000000)>>24; pix_func(5);                    \\r
-    t=(pack&0x00f00000)>>20; pix_func(6);                    \\r
-    t=(pack&0x000f0000)>>16; pix_func(7);                    \\r
-    return 0;                                                \\r
-  }                                                          \\r
+  unsigned char t;                                           \\r
                                                              \\r
-  return 1; /* Tile blank */                                 \\r
+  t = (pack&0x0000f000)>>12; pix_func(0);                    \\r
+  t = (pack&0x00000f00)>> 8; pix_func(1);                    \\r
+  t = (pack&0x000000f0)>> 4; pix_func(2);                    \\r
+  t = (pack&0x0000000f)    ; pix_func(3);                    \\r
+  t = (pack&0xf0000000)>>28; pix_func(4);                    \\r
+  t = (pack&0x0f000000)>>24; pix_func(5);                    \\r
+  t = (pack&0x00f00000)>>20; pix_func(6);                    \\r
+  t = (pack&0x000f0000)>>16; pix_func(7);                    \\r
+  return ret;                                                \\r
 }\r
 \r
-\r
-#define TileFlipMaker(funcname,pix_func)                     \\r
-static int funcname(int sx,int addr,int pal)                 \\r
+#define TileFlipMaker_(pix_func,ret)                         \\r
 {                                                            \\r
-  unsigned char *pd = HighCol+sx;                            \\r
-  unsigned int pack=0; unsigned int t=0;                     \\r
-                                                             \\r
-  pack=*(unsigned int *)(Pico.vram+addr); /* Get 8 pixels */ \\r
-  if (pack)                                                  \\r
-  {                                                          \\r
-    t=(pack&0x000f0000)>>16; pix_func(0);                    \\r
-    t=(pack&0x00f00000)>>20; pix_func(1);                    \\r
-    t=(pack&0x0f000000)>>24; pix_func(2);                    \\r
-    t=(pack&0xf0000000)>>28; pix_func(3);                    \\r
-    t=(pack&0x0000000f)    ; pix_func(4);                    \\r
-    t=(pack&0x000000f0)>> 4; pix_func(5);                    \\r
-    t=(pack&0x00000f00)>> 8; pix_func(6);                    \\r
-    t=(pack&0x0000f000)>>12; pix_func(7);                    \\r
-    return 0;                                                \\r
-  }                                                          \\r
+  unsigned char t;                                           \\r
                                                              \\r
-  return 1; /* Tile blank */                                 \\r
+  t = (pack&0x000f0000)>>16; pix_func(0);                    \\r
+  t = (pack&0x00f00000)>>20; pix_func(1);                    \\r
+  t = (pack&0x0f000000)>>24; pix_func(2);                    \\r
+  t = (pack&0xf0000000)>>28; pix_func(3);                    \\r
+  t = (pack&0x0000000f)    ; pix_func(4);                    \\r
+  t = (pack&0x000000f0)>> 4; pix_func(5);                    \\r
+  t = (pack&0x00000f00)>> 8; pix_func(6);                    \\r
+  t = (pack&0x0000f000)>>12; pix_func(7);                    \\r
+  return ret;                                                \\r
 }\r
 \r
+#define TileNormMaker(funcname, pix_func) \\r
+static void funcname(unsigned char *pd, unsigned int pack, unsigned char pal) \\r
+TileNormMaker_(pix_func,)\r
 \r
-#ifdef _ASM_DRAW_C_AMIPS\r
-int TileNorm(int sx,int addr,int pal);\r
-int TileFlip(int sx,int addr,int pal);\r
-#else\r
+#define TileFlipMaker(funcname, pix_func) \\r
+static void funcname(unsigned char *pd, unsigned int pack, unsigned char pal) \\r
+TileFlipMaker_(pix_func,)\r
 \r
-#define pix_just_write(x) \\r
-  if (t) pd[x]=pal|t\r
+#define TileNormMakerAS(funcname, pix_func) \\r
+static unsigned funcname(unsigned m, unsigned char *pd, unsigned int pack, unsigned char pal) \\r
+TileNormMaker_(pix_func,m)\r
 \r
-TileNormMaker(TileNorm,pix_just_write)\r
-TileFlipMaker(TileFlip,pix_just_write)\r
+#define TileFlipMakerAS(funcname, pix_func) \\r
+static unsigned funcname(unsigned m, unsigned char *pd, unsigned int pack, unsigned char pal) \\r
+TileFlipMaker_(pix_func,m)\r
 \r
-#endif\r
+// draw layer or non-s/h sprite pixels (no operator colors)\r
+#define pix_just_write(x) \\r
+  if (likely(t)) pd[x]=pal|t\r
+\r
+TileNormMaker(TileNorm, pix_just_write)\r
+TileFlipMaker(TileFlip, pix_just_write)\r
 \r
 #ifndef _ASM_DRAW_C\r
 \r
-// draw a sprite pixel, process operator colors\r
+// draw low prio sprite non-s/h pixels in s/h mode\r
+#define pix_nonsh(x) \\r
+  if (likely(t)) { \\r
+    pd[x]=pal|t; \\r
+    if (unlikely(t==0xe)) pd[x]&=~0x80; /* disable shadow for color 14 (hw bug?) */ \\r
+  }\r
+\r
+TileNormMaker(TileNormNonSH, pix_nonsh)\r
+TileFlipMaker(TileFlipNonSH, pix_nonsh)\r
+\r
+// draw sprite pixels, process operator colors\r
 #define pix_sh(x) \\r
-  if (!t); \\r
-  else if (t>=0xe) pd[x]=(pd[x]&0x3f)|(t<<6); /* c0 shadow, 80 hilight */ \\r
-  else pd[x]=pal|t\r
+  if (likely(t)) \\r
+    pd[x]=(likely(t<0xe) ? pal|t : pd[x]|((t-1)<<6))\r
 \r
 TileNormMaker(TileNormSH, pix_sh)\r
 TileFlipMaker(TileFlipSH, pix_sh)\r
 \r
-// draw a sprite pixel, mark operator colors\r
+// draw sprite pixels, mark but don't process operator colors\r
 #define pix_sh_markop(x) \\r
-  if (!t); \\r
-  else if (t>=0xe) pd[x]|=0x80; \\r
-  else pd[x]=pal|t\r
+  if (likely(t)) \\r
+    pd[x]=(likely(t<0xe) ? pal|t : pd[x]|0x40)\r
 \r
 TileNormMaker(TileNormSH_markop, pix_sh_markop)\r
 TileFlipMaker(TileFlipSH_markop, pix_sh_markop)\r
 \r
-// process operator pixels only, apply only on low pri tiles and other op pixels\r
+#endif\r
+\r
+// draw low prio sprite operator pixels if visible (i.e. marked)\r
 #define pix_sh_onlyop(x) \\r
-  if (t>=0xe && (pd[x]&0xc0)) \\r
-    pd[x]=(pd[x]&0x3f)|(t<<6); /* c0 shadow, 80 hilight */ \\r
+  if (unlikely(t>=0xe && (pd[x]&0x40))) \\r
+    pd[x]=(pd[x]&~0x40)|((t-1)<<6)\r
+\r
+#ifndef _ASM_DRAW_C\r
 \r
 TileNormMaker(TileNormSH_onlyop_lp, pix_sh_onlyop)\r
 TileFlipMaker(TileFlipSH_onlyop_lp, pix_sh_onlyop)\r
 \r
 #endif\r
 \r
-// draw a sprite pixel (AS)\r
+// AS: sprite mask bits in m shifted to bits 8-15, see DrawSpritesHiAS\r
+\r
+// draw high prio sprite pixels (AS)\r
 #define pix_as(x) \\r
-  if (t && !(pd[x]&0x80)) pd[x]=pal|t\r
+  if (likely(t && (m & (1<<(x+8))))) \\r
+    m &= ~(1<<(x+8)), pd[x] = pal|t\r
+\r
+TileNormMakerAS(TileNormAS, pix_as)\r
+TileFlipMakerAS(TileFlipAS, pix_as)\r
+\r
+// draw high prio sprite pixels, process operator colors (AS)\r
+// NB sprite+planes: h+s->n, h+[nh]->h, s+[nhs]->s, hence mask h before op\r
+#define pix_sh_as(x) \\r
+  if (likely(t && (m & (1<<(x+8))))) { \\r
+    m &= ~(1<<(x+8)); \\r
+    pd[x]=(likely(t<0xe) ? pal|t : (pd[x]&~0x40)|((t-1)<<6)); \\r
+  }\r
 \r
-TileNormMaker(TileNormAS, pix_as)\r
-TileFlipMaker(TileFlipAS, pix_as)\r
+TileNormMakerAS(TileNormSH_AS, pix_sh_as)\r
+TileFlipMakerAS(TileFlipSH_AS, pix_sh_as)\r
 \r
-// draw a sprite pixel, skip operator colors (AS)\r
-#define pix_sh_as_noop(x) \\r
-  if (t && t < 0xe && !(pd[x]&0x80)) pd[x]=pal|t\r
+// draw only sprite operator pixels (AS)\r
+#define pix_sh_as_onlyop(x) \\r
+  if (likely(t && (m & (1<<(x+8))))) { \\r
+    m &= ~(1<<(x+8)); \\r
+    pix_sh_onlyop(x); \\r
+  }\r
 \r
-TileNormMaker(TileNormAS_noop, pix_sh_as_noop)\r
-TileFlipMaker(TileFlipAS_noop, pix_sh_as_noop)\r
+TileNormMakerAS(TileNormSH_AS_onlyop_lp, pix_sh_as_onlyop)\r
+TileFlipMakerAS(TileFlipSH_AS_onlyop_lp, pix_sh_as_onlyop)\r
 \r
-// mark pixel as sprite pixel (AS)\r
+// mark low prio sprite pixels (AS)\r
 #define pix_sh_as_onlymark(x) \\r
-  if (t) pd[x]|=0x80\r
-\r
-TileNormMaker(TileNormAS_onlymark, pix_sh_as_onlymark)\r
-TileFlipMaker(TileFlipAS_onlymark, pix_sh_as_onlymark)\r
+  if (likely(t)) m &= ~(1<<(x+8))\r
+\r
+TileNormMakerAS(TileNormAS_onlymark, pix_sh_as_onlymark)\r
+TileFlipMakerAS(TileFlipAS_onlymark, pix_sh_as_onlymark)\r
+\r
+#ifdef FORCE\r
+// NB s/h already resolved by non-forced drawing\r
+// forced both layer draw (through debug reg)\r
+#define pix_and(x) \\r
+  pal |= 0xc0; /* leave s/h bits untouched in pixel "and" */ \\r
+  pd[x] &= pal|t\r
+\r
+TileNormMaker(TileNorm_and, pix_and)\r
+TileFlipMaker(TileFlip_and, pix_and)\r
+\r
+// forced sprite draw (through debug reg)\r
+#define pix_sh_as_and(x) \\r
+  pal |= 0xc0; /* leave s/h bits untouched in pixel "and" */ \\r
+  if (likely(m & (1<<(x+8)))) { \\r
+    m &= ~(1<<(x+8)); \\r
+    /* if (!t) pd[x] |= 0x40; as per titan hw notes? */ \\r
+    pd[x] &= pal|t; \\r
+  }\r
 \r
+TileNormMakerAS(TileNormSH_AS_and, pix_sh_as_and)\r
+TileFlipMakerAS(TileFlipSH_AS_and, pix_sh_as_and)\r
+#endif\r
 \r
 // --------------------------------------------\r
 \r
 #ifndef _ASM_DRAW_C\r
-static void DrawStrip(struct TileStrip *ts, int plane_sh, int cellskip)\r
+#define DrawTile(mask) {                                               \\r
+  if (code!=oldcode) {                                                 \\r
+    oldcode = code;                                                    \\r
+                                                                       \\r
+    pack = 0;                                                          \\r
+    if (code != blank) {                                               \\r
+      /* Get tile address/2: */                                                \\r
+      u32 addr = ((code&0x7ff)<<4) + ty;                               \\r
+      if (code & 0x1000) addr ^= 0xe; /* Y-flip */                     \\r
+                                                                       \\r
+      pal = ((code>>9)&0x30) | sh; /* shadow */                                \\r
+                                                                       \\r
+      pack = CPU_LE2(*(u32 *)(PicoMem.vram + addr));                   \\r
+      if (!pack)                                                       \\r
+        blank = code;                                                  \\r
+    }                                                                  \\r
+  }                                                                    \\r
+                                                                       \\r
+  if (code & 0x8000) { /* (un-forced) high priority tile */            \\r
+    if (sh | (pack&mask)) {                                            \\r
+      code |= (dx<<16) | (ty<<25);                                     \\r
+      if (code & 0x1000) code ^= 0xe<<25;                              \\r
+      *hc++ = code, *hc++ = pack&mask; /* cache it */                  \\r
+    }                                                                  \\r
+  } else if (pack&mask) {                                              \\r
+    if (code & 0x0800) TileFlip(pd + dx, pack&mask, pal);              \\r
+    else               TileNorm(pd + dx, pack&mask, pal);              \\r
+  }                                                                    \\r
+}\r
+\r
+static void DrawStrip(struct TileStrip *ts, int lflags, int cellskip)\r
 {\r
-  int tilex,dx,ty,code=0,addr=0,cells;\r
-  int oldcode=-1,blank=-1; // The tile we know is blank\r
-  int pal=0,sh;\r
+  unsigned char *pd = Pico.est.HighCol;\r
+  u32 *hc = ts->hc;\r
+  int tilex, dx, ty, cells;\r
+  u32 code, oldcode = -1, blank = -1; // The tile we know is blank\r
+  unsigned int pal = 0, pack = 0, sh, mask = ~0;\r
 \r
   // Draw tiles across screen:\r
-  sh=(plane_sh<<5)&0x40;\r
+  sh = (lflags & LF_SH) << 6; // shadow\r
   tilex=((-ts->hscroll)>>3)+cellskip;\r
   ty=(ts->line&7)<<1; // Y-Offset into tile\r
   dx=((ts->hscroll-1)&7)+1;\r
   cells = ts->cells - cellskip;\r
-  if(dx != 8) cells++; // have hscroll, need to draw 1 cell more\r
   dx+=cellskip<<3;\r
 \r
-  for (; cells > 0; dx+=8,tilex++,cells--)\r
+  if (dx & 7) {\r
+    code = PicoMem.vram[ts->nametab + (tilex & ts->xmask)];\r
+    mask = 0xffffffff<<((dx&7)*4);\r
+    if (code & 0x0800) mask = 0xffffffff>>((dx&7)*4);\r
+    mask = (~mask << 16) | (~mask >> 16);\r
+\r
+    DrawTile(mask);\r
+    dx += 8, tilex++, cells--;\r
+  }\r
+\r
+//  int force = (lflags&LF_FORCE) << 13;\r
+  for (; cells > 0; dx+=8, tilex++, cells--)\r
   {\r
-    int zero=0;\r
-\r
-    code=Pico.vram[ts->nametab+(tilex&ts->xmask)];\r
-    if (code==blank) continue;\r
-    if (code>>15) { // high priority tile\r
-      int cval = code | (dx<<16) | (ty<<25);\r
-      if(code&0x1000) cval^=7<<26;\r
-      *ts->hc++ = cval; // cache it\r
-      continue;\r
-    }\r
+    code = PicoMem.vram[ts->nametab + (tilex & ts->xmask)];\r
+//    code &= ~force; // forced always draw everything\r
 \r
-    if (code!=oldcode) {\r
-      oldcode = code;\r
-      // Get tile address/2:\r
-      addr=(code&0x7ff)<<4;\r
-      addr+=ty;\r
-      if (code&0x1000) addr^=0xe; // Y-flip\r
+    if (code == blank && !((code & 0x8000) && sh))\r
+      continue;\r
 \r
-      pal=((code>>9)&0x30)|sh;\r
-    }\r
+    DrawTile(~0);\r
+  }\r
 \r
-    if (code&0x0800) zero=TileFlip(dx,addr,pal);\r
-    else             zero=TileNorm(dx,addr,pal);\r
+  if (dx & 7) {\r
+    code = PicoMem.vram[ts->nametab + (tilex & ts->xmask)];\r
+//    code &= ~force; // forced always draw everything\r
+    if (!(code == blank && !((code & 0x8000) && sh))) {\r
+      mask = 0xffffffff<<((dx&7)*4);\r
+      if (code & 0x0800) mask = 0xffffffff>>((dx&7)*4);\r
+      mask = (mask << 16) | (mask >> 16);\r
 \r
-    if (zero) blank=code; // We know this tile is blank now\r
+      DrawTile(mask);\r
+    }\r
   }\r
 \r
   // terminate the cache list\r
-  *ts->hc = 0;\r
+  *hc = 0;\r
+\r
   // if oldcode wasn't changed, it means all layer is hi priority\r
-  if (oldcode == -1) rendstatus |= PDRAW_PLANE_HI_PRIO;\r
+  if (oldcode == -1) Pico.est.rendstatus |= PDRAW_PLANE_HI_PRIO;\r
 }\r
 \r
 // this is messy\r
-void DrawStripVSRam(struct TileStrip *ts, int plane_sh, int cellskip)\r
+static void DrawStripVSRam(struct TileStrip *ts, int plane_sh, int cellskip)\r
 {\r
-  int tilex,dx,code=0,addr=0,cell=0;\r
-  int oldcode=-1,blank=-1; // The tile we know is blank\r
-  int pal=0,scan=DrawScanline;\r
+  unsigned char *pd = Pico.est.HighCol;\r
+  u32 *hc = ts->hc;\r
+  int tilex, dx, ty = 0, addr = 0, cell = 0, nametabadd = 0;\r
+  u32 oldcode = -1, blank = -1; // The tile we know is blank\r
+  unsigned int pal = 0, scan = Pico.est.DrawScanline, sh, plane;\r
 \r
   // Draw tiles across screen:\r
+  sh = (plane_sh & LF_SH) << 6; // shadow\r
+  plane = (plane_sh & LF_PLANE); // plane to draw\r
   tilex=(-ts->hscroll)>>3;\r
   dx=((ts->hscroll-1)&7)+1;\r
-  if(dx != 8) cell--; // have hscroll, start with negative cell\r
+  if (ts->hscroll & 0x0f) {\r
+    int adj = ((ts->hscroll ^ dx) >> 3) & 1;\r
+    cell -= adj + 1;\r
+    ts->cells -= adj;\r
+    PicoMem.vsram[0x3e] = PicoMem.vsram[0x3f] = plane_sh >> 16;\r
+  }\r
   cell+=cellskip;\r
   tilex+=cellskip;\r
   dx+=cellskip<<3;\r
 \r
+//  int force = (plane_sh&LF_FORCE) << 13;\r
+  if ((cell&1)==1)\r
+  {\r
+    int line,vscroll;\r
+    vscroll = PicoMem.vsram[plane + (cell&0x3e)];\r
+\r
+    // Find the line in the name table\r
+    line=(vscroll+scan)&ts->line&0xffff; // ts->line is really ymask ..\r
+    nametabadd=(line>>3)<<(ts->line>>24);    // .. and shift[width]\r
+    ty=(line&7)<<1; // Y-Offset into tile\r
+  }\r
   for (; cell < ts->cells; dx+=8,tilex++,cell++)\r
   {\r
-    int zero=0,nametabadd,ty;\r
+    u32 code, pack;\r
 \r
-    //if((cell&1)==0)\r
+    if ((cell&1)==0)\r
     {\r
       int line,vscroll;\r
-      vscroll=Pico.vsram[(plane_sh&1)+(cell&~1)];\r
+      vscroll = PicoMem.vsram[plane + (cell&0x3e)];\r
 \r
       // Find the line in the name table\r
       line=(vscroll+scan)&ts->line&0xffff; // ts->line is really ymask ..\r
@@ -291,92 +441,136 @@ void DrawStripVSRam(struct TileStrip *ts, int plane_sh, int cellskip)
       ty=(line&7)<<1; // Y-Offset into tile\r
     }\r
 \r
-    code=Pico.vram[ts->nametab+nametabadd+(tilex&ts->xmask)];\r
-    if (code==blank) continue;\r
-    if (code>>15) { // high priority tile\r
-      int cval = code | (dx<<16) | (ty<<25);\r
-      if(code&0x1000) cval^=7<<26;\r
-      *ts->hc++ = cval; // cache it\r
+    code= PicoMem.vram[ts->nametab + nametabadd + (tilex & ts->xmask)];\r
+//    code &= ~force; // forced always draw everything\r
+    code |= ty<<25; // add ty since that can change pixel row for every 2nd tile\r
+\r
+    if (code == blank && !((code & 0x8000) && sh))\r
       continue;\r
-    }\r
 \r
     if (code!=oldcode) {\r
       oldcode = code;\r
       // Get tile address/2:\r
-      addr=(code&0x7ff)<<4;\r
-      if (code&0x1000) addr+=14-ty; else addr+=ty; // Y-flip\r
+      addr = (code&0x7ff)<<4;\r
 \r
-      pal=((code>>9)&0x30)|((plane_sh<<5)&0x40);\r
+      pal = ((code>>9)&0x30) | sh; // shadow\r
     }\r
 \r
-    if (code&0x0800) zero=TileFlip(dx,addr,pal);\r
-    else             zero=TileNorm(dx,addr,pal);\r
-\r
-    if (zero) blank=code; // We know this tile is blank now\r
+    pack = (code & 0x1000 ? ty^0xe : ty); // Y-flip\r
+    pack = CPU_LE2(*(u32 *)(PicoMem.vram + addr+pack));\r
+    if (!pack)\r
+      blank = code;\r
+\r
+    if (code & 0x8000) { // (un-forced) high priority tile\r
+      code |= (dx<<16);\r
+      if (code & 0x1000) code ^= 0xe<<25;\r
+      *hc++ = code, *hc++ = pack; // cache it\r
+    } else if (code != blank) {\r
+      if (code & 0x0800) TileFlip(pd + dx, pack, pal);\r
+      else               TileNorm(pd + dx, pack, pal);\r
+    }\r
   }\r
 \r
   // terminate the cache list\r
-  *ts->hc = 0;\r
-  if (oldcode == -1) rendstatus |= PDRAW_PLANE_HI_PRIO;\r
+  *hc = 0;\r
+\r
+  if (oldcode == -1) Pico.est.rendstatus |= PDRAW_PLANE_HI_PRIO;\r
 }\r
 #endif\r
 \r
+#define DrawTileInterlace(mask) {                                      \\r
+  if (code!=oldcode) {                                                 \\r
+    oldcode = code;                                                    \\r
+                                                                       \\r
+    pack = 0;                                                          \\r
+    if (code != blank) {                                               \\r
+      /* Get tile address/2: */                                                \\r
+      u32 addr = ((code&0x3ff)<<5) + ty;                               \\r
+      if (code & 0x1000) addr ^= 0x1e; /* Y-flip */                    \\r
+                                                                       \\r
+      pal = ((code>>9)&0x30) | sh; /* shadow */                                \\r
+                                                                       \\r
+      pack = CPU_LE2(*(u32 *)(PicoMem.vram + addr));                   \\r
+      if (!pack)                                                       \\r
+        blank = code;                                                  \\r
+    }                                                                  \\r
+  }                                                                    \\r
+                                                                       \\r
+  if (code & 0x8000) { /* high priority tile */                                \\r
+    if (sh | (pack&mask)) {                                            \\r
+      code = (code&0xfc00) | ((code&0x3ff)<<1) | (dx<<16) | (ty<<25);  \\r
+      if (code & 0x1000) code ^= 0x1e<<25;                             \\r
+      *hc++ = code, *hc++ = pack&mask; /* cache it */                  \\r
+    }                                                                  \\r
+  } else if (pack&mask) {                                              \\r
+    if (code & 0x0800) TileFlip(pd + dx, pack&mask, pal);              \\r
+    else               TileNorm(pd + dx, pack&mask, pal);              \\r
+  }                                                                    \\r
+}\r
+\r
 #ifndef _ASM_DRAW_C\r
 static\r
 #endif\r
-void DrawStripInterlace(struct TileStrip *ts)\r
+void DrawStripInterlace(struct TileStrip *ts, int plane_sh)\r
 {\r
-  int tilex=0,dx=0,ty=0,code=0,addr=0,cells;\r
-  int oldcode=-1,blank=-1; // The tile we know is blank\r
-  int pal=0;\r
+  unsigned char *pd = Pico.est.HighCol;\r
+  u32 *hc = ts->hc;\r
+  int tilex = 0, dx = 0, ty = 0, cells;\r
+  u32 code, oldcode = -1, blank = -1; // The tile we know is blank\r
+  unsigned int pal = 0, pack = 0, sh, mask = ~0;\r
 \r
   // Draw tiles across screen:\r
+  sh = (plane_sh & LF_SH) << 6; // shadow\r
   tilex=(-ts->hscroll)>>3;\r
   ty=(ts->line&15)<<1; // Y-Offset into tile\r
   dx=((ts->hscroll-1)&7)+1;\r
   cells = ts->cells;\r
-  if(dx != 8) cells++; // have hscroll, need to draw 1 cell more\r
 \r
+  if (dx & 7) {\r
+    code = PicoMem.vram[ts->nametab + (tilex & ts->xmask)];\r
+    mask = 0xffffffff<<(dx*4);\r
+    if (code & 0x0800) mask = 0xffffffff>>(dx*4);\r
+    mask = (~mask << 16) | (~mask >> 16);\r
+\r
+    DrawTileInterlace(mask);\r
+    dx += 8, tilex++, cells--;\r
+  }\r
+\r
+//  int force = (plane_sh&LF_FORCE) << 13;\r
   for (; cells; dx+=8,tilex++,cells--)\r
   {\r
-    int zero=0;\r
-\r
-    code=Pico.vram[ts->nametab+(tilex&ts->xmask)];\r
-    if (code==blank) continue;\r
-    if (code>>15) { // high priority tile\r
-      int cval = (code&0xfc00) | (dx<<16) | (ty<<25);\r
-      cval|=(code&0x3ff)<<1;\r
-      if(code&0x1000) cval^=0xf<<26;\r
-      *ts->hc++ = cval; // cache it\r
-      continue;\r
-    }\r
+    u32 code = PicoMem.vram[ts->nametab + (tilex & ts->xmask)];\r
+//    code &= ~force; // forced always draw everything\r
 \r
-    if (code!=oldcode) {\r
-      oldcode = code;\r
-      // Get tile address/2:\r
-      addr=(code&0x7ff)<<5;\r
-      if (code&0x1000) addr+=30-ty; else addr+=ty; // Y-flip\r
+    if (code == blank && !(code & 0x8000))\r
+      continue;\r
 \r
-//      pal=Pico.cram+((code>>9)&0x30);\r
-      pal=((code>>9)&0x30);\r
-    }\r
+    DrawTileInterlace(~0);\r
+  }\r
 \r
-    if (code&0x0800) zero=TileFlip(dx,addr,pal);\r
-    else             zero=TileNorm(dx,addr,pal);\r
+  if (dx & 7) {\r
+    code = PicoMem.vram[ts->nametab + (tilex & ts->xmask)];\r
+//    code &= ~force; // forced always draw everything\r
+    if (!(code == blank && !((code & 0x8000) && sh))) {\r
+      mask = 0xffffffff<<((dx&7)*4);\r
+      if (code & 0x0800) mask = 0xffffffff>>((dx&7)*4);\r
+      mask = (mask << 16) | (mask >> 16);\r
 \r
-    if (zero) blank=code; // We know this tile is blank now\r
+      DrawTileInterlace(mask);\r
+    }\r
   }\r
 \r
   // terminate the cache list\r
-  *ts->hc = 0;\r
+  *hc = 0;\r
 }\r
 \r
 // --------------------------------------------\r
 \r
 #ifndef _ASM_DRAW_C\r
-static void DrawLayer(int plane_sh, int *hcache, int cellskip, int maxcells)\r
+static void DrawLayer(int plane_sh, u32 *hcache, int cellskip, int maxcells,\r
+  struct PicoEState *est)\r
 {\r
-  struct PicoVideo *pvid=&Pico.video;\r
+  struct PicoVideo *pvid=&est->Pico->video;\r
   const char shift[4]={5,6,5,7}; // 32,64 or 128 sized tilemaps (2 is invalid)\r
   struct TileStrip ts;\r
   int width, height, ymask;\r
@@ -393,40 +587,50 @@ static void DrawLayer(int plane_sh, int *hcache, int cellskip, int maxcells)
 \r
   ts.xmask=(1<<shift[width])-1; // X Mask in tiles (0x1f-0x7f)\r
   ymask=(height<<8)|0xff;       // Y Mask in pixels\r
-  if(width == 1)   ymask&=0x1ff;\r
-  else if(width>1) ymask =0x0ff;\r
+  switch (width) {\r
+    case 1: ymask &= 0x1ff; break;\r
+    case 2: ymask =  0x007; break;\r
+    case 3: ymask =  0x0ff; break;\r
+  }\r
 \r
   // Find name table:\r
-  if (plane_sh&1) ts.nametab=(pvid->reg[4]&0x07)<<12; // B\r
-  else            ts.nametab=(pvid->reg[2]&0x38)<< 9; // A\r
+  if (plane_sh&LF_PLANE) ts.nametab=(pvid->reg[4]&0x07)<<12; // B\r
+  else                   ts.nametab=(pvid->reg[2]&0x38)<< 9; // A\r
 \r
   htab=pvid->reg[13]<<9; // Horizontal scroll table address\r
-  if ( pvid->reg[11]&2)     htab+=DrawScanline<<1; // Offset by line\r
-  if ((pvid->reg[11]&1)==0) htab&=~0xf; // Offset by tile\r
-  htab+=plane_sh&1; // A or B\r
+  switch (pvid->reg[11]&3) {\r
+    case 1: htab += (est->DrawScanline<<1) &  0x0f; break;\r
+    case 2: htab += (est->DrawScanline<<1) & ~0x0f; break; // Offset by tile\r
+    case 3: htab += (est->DrawScanline<<1);         break; // Offset by line\r
+  }\r
+  htab+=plane_sh&LF_PLANE; // A or B\r
 \r
   // Get horizontal scroll value, will be masked later\r
-  ts.hscroll=Pico.vram[htab&0x7fff];\r
+  ts.hscroll = PicoMem.vram[htab & 0x7fff];\r
 \r
   if((pvid->reg[12]&6) == 6) {\r
     // interlace mode 2\r
-    vscroll=Pico.vsram[plane_sh&1]; // Get vertical scroll value\r
+    vscroll = PicoMem.vsram[plane_sh&LF_PLANE]; // Get vertical scroll value\r
 \r
     // Find the line in the name table\r
-    ts.line=(vscroll+(DrawScanline<<1))&((ymask<<1)|1);\r
+    ts.line=(vscroll+(est->DrawScanline<<1))&((ymask<<1)|1);\r
     ts.nametab+=(ts.line>>4)<<shift[width];\r
 \r
-    DrawStripInterlace(&ts);\r
-  } else ifpvid->reg[11]&4) {\r
+    DrawStripInterlace(&ts, plane_sh);\r
+  } else if (pvid->reg[11]&4) {\r
     // shit, we have 2-cell column based vscroll\r
     // luckily this doesn't happen too often\r
     ts.line=ymask|(shift[width]<<24); // save some stuff instead of line\r
+    // vscroll value for leftmost cells in case of hscroll not on 16px boundary\r
+    // XXX it's unclear what exactly the hw is doing. Continue reading where it\r
+    // stopped last seems to work best (H40: 0x50 (wrap->0x00), H32 0x40).\r
+    plane_sh |= PicoMem.vsram[(pvid->reg[12]&1?0x00:0x20) + (plane_sh&LF_PLANE)] << 16;\r
     DrawStripVSRam(&ts, plane_sh, cellskip);\r
   } else {\r
-    vscroll=Pico.vsram[plane_sh&1]; // Get vertical scroll value\r
+    vscroll = PicoMem.vsram[plane_sh&LF_PLANE]; // Get vertical scroll value\r
 \r
     // Find the line in the name table\r
-    ts.line=(vscroll+DrawScanline)&ymask;\r
+    ts.line=(vscroll+est->DrawScanline)&ymask;\r
     ts.nametab+=(ts.line>>3)<<shift[width];\r
 \r
     DrawStrip(&ts, plane_sh, cellskip);\r
@@ -437,9 +641,11 @@ static void DrawLayer(int plane_sh, int *hcache, int cellskip, int maxcells)
 // --------------------------------------------\r
 \r
 // tstart & tend are tile pair numbers\r
-static void DrawWindow(int tstart, int tend, int prio, int sh) // int *hcache\r
+static void DrawWindow(int tstart, int tend, int prio, int sh,\r
+                       struct PicoEState *est)\r
 {\r
-  struct PicoVideo *pvid=&Pico.video;\r
+  unsigned char *pd = est->HighCol;\r
+  struct PicoVideo *pvid = &est->Pico->video;\r
   int tilex,ty,nametab,code=0;\r
   int blank=-1; // The tile we know is blank\r
 \r
@@ -447,190 +653,183 @@ static void DrawWindow(int tstart, int tend, int prio, int sh) // int *hcache
   if (pvid->reg[12]&1)\r
   {\r
     nametab=(pvid->reg[3]&0x3c)<<9; // 40-cell mode\r
-    nametab+=(DrawScanline>>3)<<6;\r
+    nametab+=(est->DrawScanline>>3)<<6;\r
   }\r
   else\r
   {\r
     nametab=(pvid->reg[3]&0x3e)<<9; // 32-cell mode\r
-    nametab+=(DrawScanline>>3)<<5;\r
+    nametab+=(est->DrawScanline>>3)<<5;\r
   }\r
 \r
   tilex=tstart<<1;\r
 \r
-  if (!(rendstatus & PDRAW_WND_DIFF_PRIO)) {\r
-    // check the first tile code\r
-    code=Pico.vram[nametab+tilex];\r
-    // if the whole window uses same priority (what is often the case), we may be able to skip this field\r
-    if ((code>>15) != prio) return;\r
+  if (prio && !(est->rendstatus & PDRAW_WND_DIFF_PRIO)) {\r
+    // all tiles processed in low prio pass\r
+    return;\r
   }\r
 \r
   tend<<=1;\r
-  ty=(DrawScanline&7)<<1; // Y-Offset into tile\r
+  ty=(est->DrawScanline&7)<<1; // Y-Offset into tile\r
 \r
   // Draw tiles across screen:\r
   if (!sh)\r
   {\r
     for (; tilex < tend; tilex++)\r
     {\r
-      int addr=0,zero=0;\r
+      unsigned int pack;\r
+      int dx, addr;\r
       int pal;\r
 \r
-      code=Pico.vram[nametab+tilex];\r
-      if (code==blank) continue;\r
+      code = PicoMem.vram[nametab + tilex];\r
       if ((code>>15) != prio) {\r
-        rendstatus |= PDRAW_WND_DIFF_PRIO;\r
+        est->rendstatus |= PDRAW_WND_DIFF_PRIO;\r
         continue;\r
       }\r
-\r
-      pal=((code>>9)&0x30);\r
+      if (code==blank) continue;\r
 \r
       // Get tile address/2:\r
       addr=(code&0x7ff)<<4;\r
       if (code&0x1000) addr+=14-ty; else addr+=ty; // Y-flip\r
 \r
-      if (code&0x0800) zero=TileFlip(8+(tilex<<3),addr,pal);\r
-      else             zero=TileNorm(8+(tilex<<3),addr,pal);\r
+      pack = CPU_LE2(*(u32 *)(PicoMem.vram + addr));\r
+      if (!pack) {\r
+        blank = code;\r
+        continue;\r
+      }\r
 \r
-      if (zero) blank=code; // We know this tile is blank now\r
+      pal = ((code >> 9) & 0x30);\r
+      dx = 8 + (tilex << 3);\r
+\r
+      if (code & 0x0800) TileFlip(pd + dx, pack, pal);\r
+      else               TileNorm(pd + dx, pack, pal);\r
     }\r
   }\r
   else\r
   {\r
     for (; tilex < tend; tilex++)\r
     {\r
-      int addr=0,zero=0;\r
+      unsigned int pack;\r
+      int dx, addr;\r
       int pal;\r
 \r
-      code=Pico.vram[nametab+tilex];\r
-      if(code==blank) continue;\r
+      code = PicoMem.vram[nametab + tilex];\r
       if((code>>15) != prio) {\r
-        rendstatus |= PDRAW_WND_DIFF_PRIO;\r
+        est->rendstatus |= PDRAW_WND_DIFF_PRIO;\r
         continue;\r
       }\r
 \r
       pal=((code>>9)&0x30);\r
 \r
       if (prio) {\r
-        int *zb = (int *)(HighCol+8+(tilex<<3));\r
-        *zb++ &= 0xbfbfbfbf;\r
-        *zb   &= 0xbfbfbfbf;\r
+        int *zb = (int *)(est->HighCol+8+(tilex<<3));\r
+        *zb++ &= 0x7f7f7f7f;\r
+        *zb   &= 0x7f7f7f7f;\r
       } else {\r
-        pal |= 0x40;\r
+        pal |= 0x80;\r
       }\r
+      if(code==blank) continue;\r
 \r
       // Get tile address/2:\r
       addr=(code&0x7ff)<<4;\r
       if (code&0x1000) addr+=14-ty; else addr+=ty; // Y-flip\r
 \r
-      if (code&0x0800) zero=TileFlip(8+(tilex<<3),addr,pal);\r
-      else             zero=TileNorm(8+(tilex<<3),addr,pal);\r
+      pack = CPU_LE2(*(u32 *)(PicoMem.vram + addr));\r
+      if (!pack) {\r
+        blank = code;\r
+        continue;\r
+      }\r
+\r
+      dx = 8 + (tilex << 3);\r
 \r
-      if (zero) blank=code; // We know this tile is blank now\r
+      if (code & 0x0800) TileFlip(pd + dx, pack, pal);\r
+      else               TileNorm(pd + dx, pack, pal);\r
     }\r
   }\r
 }\r
 \r
 // --------------------------------------------\r
 \r
-static void DrawTilesFromCacheShPrep(void)\r
+static void DrawTilesFromCache(u32 *hc, int sh, int rlim, struct PicoEState *est)\r
 {\r
-  // as some layer has covered whole line with hi priority tiles,\r
-  // we can process whole line and then act as if sh/hi mode was off,\r
-  // but leave lo pri op sprite markers alone\r
-  int c = 320/4, *zb = (int *)(HighCol+8);\r
-  rendstatus |= PDRAW_SHHI_DONE;\r
-  while (c--)\r
-  {\r
-    *zb++ &= 0xbfbfbfbf;\r
-  }\r
-}\r
-\r
-static void DrawTilesFromCache(int *hc, int sh, int rlim)\r
-{\r
-  int code, addr, dx;\r
+  unsigned char *pd = est->HighCol;\r
+  u32 code, dx;\r
+  u32 pack;\r
   int pal;\r
 \r
   // *ts->hc++ = code | (dx<<16) | (ty<<25); // cache it\r
 \r
-  if (sh && (rendstatus & (PDRAW_SHHI_DONE|PDRAW_PLANE_HI_PRIO)))\r
+  if (sh && (est->rendstatus & (PDRAW_SHHI_DONE|PDRAW_PLANE_HI_PRIO)))\r
   {\r
-    if (!(rendstatus & PDRAW_SHHI_DONE))\r
-      DrawTilesFromCacheShPrep();\r
+    if (!(est->rendstatus & PDRAW_SHHI_DONE)) {\r
+      // as some layer has covered whole line with hi priority tiles,\r
+      // we can process whole line and then act as if sh/hi mode was off,\r
+      // but leave lo pri op sprite markers alone\r
+      int *zb = (int *)(Pico.est.HighCol+8);\r
+      int c = rlim / 4;\r
+      while (c--)\r
+      {\r
+        *zb++ &= 0x7f7f7f7f;\r
+      }\r
+      Pico.est.rendstatus |= PDRAW_SHHI_DONE;\r
+    }\r
     sh = 0;\r
   }\r
 \r
   if (!sh)\r
   {\r
-    short blank=-1; // The tile we know is blank\r
     while ((code=*hc++)) {\r
-      int zero;\r
-      if((short)code == blank) continue;\r
-      // Get tile address/2:\r
-      addr=(code&0x7ff)<<4;\r
-      addr+=(unsigned int)code>>25; // y offset into tile\r
-      dx=(code>>16)&0x1ff;\r
-\r
-      pal=((code>>9)&0x30);\r
-      if (rlim-dx < 0) goto last_cut_tile;\r
+      pack = *hc++;\r
+      if (rlim-dx < 0)\r
+        goto last_cut_tile;\r
+      if (!pack)\r
+        continue;\r
 \r
-      if (code&0x0800) zero=TileFlip(dx,addr,pal);\r
-      else             zero=TileNorm(dx,addr,pal);\r
+      dx = (code >> 16) & 0x1ff;\r
+      pal = ((code >> 9) & 0x30);\r
 \r
-      if (zero) blank=(short)code;\r
+      if (code & 0x0800) TileFlip(pd + dx, pack, pal);\r
+      else               TileNorm(pd + dx, pack, pal);\r
     }\r
   }\r
   else\r
   {\r
     while ((code=*hc++)) {\r
       unsigned char *zb;\r
-      // Get tile address/2:\r
-      addr=(code&0x7ff)<<4;\r
-      addr+=(unsigned int)code>>25; // y offset into tile\r
-      dx=(code>>16)&0x1ff;\r
-      zb = HighCol+dx;\r
-      *zb++ &= 0xbf; *zb++ &= 0xbf; *zb++ &= 0xbf; *zb++ &= 0xbf;\r
-      *zb++ &= 0xbf; *zb++ &= 0xbf; *zb++ &= 0xbf; *zb++ &= 0xbf;\r
 \r
-      pal=((code>>9)&0x30);\r
-      if (rlim-dx < 0) goto last_cut_tile;\r
+      dx = (code >> 16) & 0x1ff;\r
+      zb = est->HighCol+dx;\r
+      *zb++ &= 0x7f; *zb++ &= 0x7f; *zb++ &= 0x7f; *zb++ &= 0x7f;\r
+      *zb++ &= 0x7f; *zb++ &= 0x7f; *zb++ &= 0x7f; *zb++ &= 0x7f;\r
+\r
+      pack = *hc++;\r
+      if (rlim - dx < 0)\r
+        goto last_cut_tile;\r
+      if (!pack)\r
+        continue;\r
+\r
+      pal = ((code >> 9) & 0x30);\r
 \r
-      if (code&0x0800) TileFlip(dx,addr,pal);\r
-      else             TileNorm(dx,addr,pal);\r
+      if (code & 0x0800) TileFlip(pd + dx, pack, pal);\r
+      else               TileNorm(pd + dx, pack, pal);\r
     }\r
   }\r
   return;\r
 \r
 last_cut_tile:\r
+  // for vertical window cutoff\r
   {\r
-    unsigned int t, pack=*(unsigned int *)(Pico.vram+addr); // Get 8 pixels\r
-    unsigned char *pd = HighCol+dx;\r
-    if (!pack) return;\r
-    if (code&0x0800)\r
-    {\r
-      switch (rlim-dx+8)\r
-      {\r
-        case 7: t=pack&0x00000f00; if (t) pd[6]=(unsigned char)(pal|(t>> 8)); // "break" is left out intentionally\r
-        case 6: t=pack&0x000000f0; if (t) pd[5]=(unsigned char)(pal|(t>> 4));\r
-        case 5: t=pack&0x0000000f; if (t) pd[4]=(unsigned char)(pal|(t    ));\r
-        case 4: t=pack&0xf0000000; if (t) pd[3]=(unsigned char)(pal|(t>>28));\r
-        case 3: t=pack&0x0f000000; if (t) pd[2]=(unsigned char)(pal|(t>>24));\r
-        case 2: t=pack&0x00f00000; if (t) pd[1]=(unsigned char)(pal|(t>>20));\r
-        case 1: t=pack&0x000f0000; if (t) pd[0]=(unsigned char)(pal|(t>>16));\r
-        default: break;\r
-      }\r
-    }\r
-    else\r
-    {\r
-      switch (rlim-dx+8)\r
-      {\r
-        case 7: t=pack&0x00f00000; if (t) pd[6]=(unsigned char)(pal|(t>>20));\r
-        case 6: t=pack&0x0f000000; if (t) pd[5]=(unsigned char)(pal|(t>>24));\r
-        case 5: t=pack&0xf0000000; if (t) pd[4]=(unsigned char)(pal|(t>>28));\r
-        case 4: t=pack&0x0000000f; if (t) pd[3]=(unsigned char)(pal|(t    ));\r
-        case 3: t=pack&0x000000f0; if (t) pd[2]=(unsigned char)(pal|(t>> 4));\r
-        case 2: t=pack&0x00000f00; if (t) pd[1]=(unsigned char)(pal|(t>> 8));\r
-        case 1: t=pack&0x0000f000; if (t) pd[0]=(unsigned char)(pal|(t>>12));\r
-        default: break;\r
+    unsigned int t, mask;\r
+\r
+    // rlim-dx + 8 px to draw -> mask shift 8-(rlim-dx + 8)\r
+    t = -(rlim - dx);\r
+    if (t < 8) {\r
+      mask = 0xffffffff<<(t*4);\r
+      if (code & 0x0800) mask = 0xffffffff>>(t*4);\r
+      mask = (mask << 16) | (mask >> 16);\r
+\r
+      if (pack&mask) {\r
+        if (code & 0x0800) TileFlip(pd + dx, pack&mask, pal);\r
+        else               TileNorm(pd + dx, pack&mask, pal);\r
       }\r
     }\r
   }\r
@@ -641,14 +840,16 @@ last_cut_tile:
 // Index + 0  :    hhhhvvvv ab--hhvv yyyyyyyy yyyyyyyy // a: offscreen h, b: offs. v, h: horiz. size\r
 // Index + 4  :    xxxxxxxx xxxxxxxx pccvhnnn nnnnnnnn // x: x coord + 8\r
 \r
-static void DrawSprite(int *sprite, int sh)\r
+static void DrawSprite(s32 *sprite, int sh, int w)\r
 {\r
+  void (*fTileFunc)(unsigned char *pd, unsigned int pack, unsigned char pal);\r
+  unsigned char *pd = Pico.est.HighCol;\r
   int width=0,height=0;\r
-  int row=0,code=0;\r
+  int row=0;\r
+  s32 code=0;\r
   int pal;\r
   int tile=0,delta=0;\r
   int sx, sy;\r
-  int (*fTileFunc)(int sx,int addr,int pal);\r
 \r
   // parse the sprite data\r
   sy=sprite[0];\r
@@ -656,9 +857,9 @@ static void DrawSprite(int *sprite, int sh)
   sx=code>>16; // X\r
   width=sy>>28;\r
   height=(sy>>24)&7; // Width and height in tiles\r
-  sy=(sy<<16)>>16; // Y\r
+  sy=(s16)sy; // Y\r
 \r
-  row=DrawScanline-sy; // Row of the sprite we are on\r
+  row=Pico.est.DrawScanline-sy; // Row of the sprite we are on\r
 \r
   if (code&0x1000) row=(height<<3)-1-row; // Flip Y\r
 \r
@@ -670,29 +871,36 @@ static void DrawSprite(int *sprite, int sh)
   delta<<=4; // Delta of address\r
 \r
   pal=(code>>9)&0x30;\r
-  pal|=sh<<6;\r
+  pal|=sh<<7; // shadow\r
 \r
   if (sh && (code&0x6000) == 0x6000) {\r
     if(code&0x0800) fTileFunc=TileFlipSH_markop;\r
     else            fTileFunc=TileNormSH_markop;\r
+  } else if (sh) {\r
+    if(code&0x0800) fTileFunc=TileFlipNonSH;\r
+    else            fTileFunc=TileNormNonSH;\r
   } else {\r
     if(code&0x0800) fTileFunc=TileFlip;\r
     else            fTileFunc=TileNorm;\r
   }\r
 \r
+  if (w) width = w; // tile limit\r
   for (; width; width--,sx+=8,tile+=delta)\r
   {\r
+    unsigned int pack;\r
+\r
     if(sx<=0)   continue;\r
     if(sx>=328) break; // Offscreen\r
 \r
-    tile&=0x7fff; // Clip tile address\r
-    fTileFunc(sx,tile,pal);\r
+    pack = CPU_LE2(*(u32 *)(PicoMem.vram + (tile & 0x7fff)));\r
+    fTileFunc(pd + sx, pack, pal);\r
   }\r
 }\r
 #endif\r
 \r
-static void DrawSpriteInterlace(unsigned int *sprite)\r
+static void DrawSpriteInterlace(u32 *sprite)\r
 {\r
+  unsigned char *pd = Pico.est.HighCol;\r
   int width=0,height=0;\r
   int row=0,code=0;\r
   int pal;\r
@@ -700,15 +908,15 @@ static void DrawSpriteInterlace(unsigned int *sprite)
   int sx, sy;\r
 \r
   // parse the sprite data\r
-  sy=sprite[0];\r
+  sy=CPU_LE2(sprite[0]);\r
   height=sy>>24;\r
   sy=(sy&0x3ff)-0x100; // Y\r
   width=(height>>2)&3; height&=3;\r
   width++; height++; // Width and height in tiles\r
 \r
-  row=(DrawScanline<<1)-sy; // Row of the sprite we are on\r
+  row=(Pico.est.DrawScanline<<1)-sy; // Row of the sprite we are on\r
 \r
-  code=sprite[1];\r
+  code=CPU_LE2(sprite[1]);\r
   sx=((code>>16)&0x1ff)-0x78; // X\r
 \r
   if (code&0x1000) row^=(16<<height)-1; // Flip Y\r
@@ -725,47 +933,50 @@ static void DrawSpriteInterlace(unsigned int *sprite)
 \r
   for (; width; width--,sx+=8,tile+=delta)\r
   {\r
+    unsigned int pack;\r
+\r
     if(sx<=0)   continue;\r
     if(sx>=328) break; // Offscreen\r
 \r
-    tile&=0x7fff; // Clip tile address\r
-    if (code&0x0800) TileFlip(sx,tile,pal);\r
-    else             TileNorm(sx,tile,pal);\r
+    pack = CPU_LE2(*(u32 *)(PicoMem.vram + (tile & 0x7fff)));\r
+    if (code & 0x0800) TileFlip(pd + sx, pack, pal);\r
+    else               TileNorm(pd + sx, pack, pal);\r
   }\r
 }\r
 \r
 \r
-static void DrawAllSpritesInterlace(int pri, int sh)\r
+static NOINLINE void DrawAllSpritesInterlace(int pri, int sh)\r
 {\r
   struct PicoVideo *pvid=&Pico.video;\r
-  int i,u,table,link=0,sline=DrawScanline<<1;\r
-  unsigned int *sprites[80]; // Sprite index\r
+  int i,u,table,link=0,sline=Pico.est.DrawScanline<<1;\r
+  u32 *sprites[80]; // Sprite index\r
+  int max_sprites = pvid->reg[12]&1 ? 80 : 64;\r
 \r
   table=pvid->reg[5]&0x7f;\r
   if (pvid->reg[12]&1) table&=0x7e; // Lowest bit 0 in 40-cell mode\r
   table<<=8; // Get sprite table address/2\r
 \r
-  for (i=u=0; u < 80 && i < 21; u++)\r
+  for (i = u = 0; u < max_sprites && link < max_sprites; u++)\r
   {\r
-    unsigned int *sprite;\r
+    u32 *sprite;\r
     int code, sx, sy, height;\r
 \r
-    sprite=(unsigned int *)(Pico.vram+((table+(link<<2))&0x7ffc)); // Find sprite\r
+    sprite=(u32 *)(PicoMem.vram+((table+(link<<2))&0x7ffc)); // Find sprite\r
 \r
     // get sprite info\r
-    code = sprite[0];\r
-    sx = sprite[1];\r
+    code = CPU_LE2(sprite[0]);\r
+    sx = CPU_LE2(sprite[1]);\r
     if(((sx>>15)&1) != pri) goto nextsprite; // wrong priority sprite\r
 \r
     // check if it is on this line\r
     sy = (code&0x3ff)-0x100;\r
     height = (((code>>24)&3)+1)<<4;\r
-    if(sline < sy || sline >= sy+height) goto nextsprite; // no\r
+    if((sline < sy) | (sline >= sy+height)) goto nextsprite; // no\r
 \r
     // check if sprite is not hidden offscreen\r
     sx = (sx>>16)&0x1ff;\r
     sx -= 0x78; // Get X coordinate + 8\r
-    if(sx <= -8*3 || sx >= 328) goto nextsprite;\r
+    if((sx <= -8*3) | (sx >= 328)) goto nextsprite;\r
 \r
     // sprite is good, save it's pointer\r
     sprites[i++]=sprite;\r
@@ -790,52 +1001,48 @@ static void DrawAllSpritesInterlace(int pri, int sh)
  * Index + 0  :    hhhhvvvv ----hhvv yyyyyyyy yyyyyyyy // v, h: vert./horiz. size\r
  * Index + 4  :    xxxxxxxx xxxxxxxx pccvhnnn nnnnnnnn // x: x coord + 8\r
  */\r
-static void DrawSpritesSHi(unsigned char *sprited)\r
+static void DrawSpritesSHi(unsigned char *sprited, const struct PicoEState *est)\r
 {\r
-  int (*fTileFunc)(int sx,int addr,int pal);\r
+  static void (*tilefuncs[2][2][2])(unsigned char *, unsigned, unsigned char) = {\r
+    { {NULL,                 NULL},                 {TileNorm,   TileFlip} },\r
+    { {TileNormSH_onlyop_lp, TileFlipSH_onlyop_lp}, {TileNormSH, TileFlipSH} }\r
+  }; // [sh?][hi?][flip?]\r
+  void (*fTileFunc)(unsigned char *pd, unsigned int pack, unsigned char pal);\r
+  unsigned char *pd = Pico.est.HighCol;\r
   unsigned char *p;\r
-  int cnt;\r
+  int cnt, w;\r
 \r
   cnt = sprited[0] & 0x7f;\r
   if (cnt == 0) return;\r
 \r
-  p = &sprited[3];\r
+  p = &sprited[4];\r
+  if ((sprited[1] & (SPRL_TILE_OVFL|SPRL_HAVE_MASK0)) == (SPRL_TILE_OVFL|SPRL_HAVE_MASK0))\r
+    return; // masking effective due to tile overflow\r
 \r
   // Go through sprites backwards:\r
-  for (cnt--; cnt >= 0; cnt--)\r
+  w = p[cnt]; // possibly clipped width of last sprite\r
+  for (cnt--; cnt >= 0; cnt--, w = 0)\r
   {\r
-    int *sprite, code, pal, tile, sx, sy;\r
+    s32 *sprite, code;\r
+    int pal, tile, sx, sy;\r
     int offs, delta, width, height, row;\r
 \r
     offs = (p[cnt] & 0x7f) * 2;\r
-    sprite = HighPreSpr + offs;\r
+    sprite = est->HighPreSpr + offs;\r
     code = sprite[1];\r
     pal = (code>>9)&0x30;\r
 \r
-    if (pal == 0x30)\r
-    {\r
-      if (code & 0x8000) // hi priority\r
-      {\r
-        if (code&0x800) fTileFunc=TileFlipSH;\r
-        else            fTileFunc=TileNormSH;\r
-      } else {\r
-        if (code&0x800) fTileFunc=TileFlipSH_onlyop_lp;\r
-        else            fTileFunc=TileNormSH_onlyop_lp;\r
-      }\r
-    } else {\r
-      if (!(code & 0x8000)) continue; // non-operator low sprite, already drawn\r
-      if (code&0x800) fTileFunc=TileFlip;\r
-      else            fTileFunc=TileNorm;\r
-    }\r
+    fTileFunc = tilefuncs[pal == 0x30][!!(code & 0x8000)][!!(code & 0x800)];\r
+    if (fTileFunc == NULL) continue; // non-operator low sprite, already drawn\r
 \r
     // parse remaining sprite data\r
     sy=sprite[0];\r
     sx=code>>16; // X\r
     width=sy>>28;\r
     height=(sy>>24)&7; // Width and height in tiles\r
-    sy=(sy<<16)>>16; // Y\r
+    sy=(s16)sy; // Y\r
 \r
-    row=DrawScanline-sy; // Row of the sprite we are on\r
+    row=est->DrawScanline-sy; // Row of the sprite we are on\r
 \r
     if (code&0x1000) row=(height<<3)-1-row; // Flip Y\r
 \r
@@ -846,13 +1053,16 @@ static void DrawSpritesSHi(unsigned char *sprited)
     tile &= 0x7ff; tile<<=4; tile+=(row&7)<<1; // Tile address\r
     delta<<=4; // Delta of address\r
 \r
+    if (w) width = w; // tile limit\r
     for (; width; width--,sx+=8,tile+=delta)\r
     {\r
+      unsigned int pack;\r
+\r
       if(sx<=0)   continue;\r
       if(sx>=328) break; // Offscreen\r
 \r
-      tile&=0x7fff; // Clip tile address\r
-      fTileFunc(sx,tile,pal);\r
+      pack = CPU_LE2(*(u32 *)(PicoMem.vram + (tile & 0x7fff)));\r
+      fTileFunc(pd + sx, pack, pal);\r
     }\r
   }\r
 }\r
@@ -860,53 +1070,47 @@ static void DrawSpritesSHi(unsigned char *sprited)
 \r
 static void DrawSpritesHiAS(unsigned char *sprited, int sh)\r
 {\r
-  int (*fTileFunc)(int sx,int addr,int pal);\r
-  unsigned char *p;\r
-  int entry, cnt, sh_cnt = 0;\r
+  static unsigned (*tilefuncs[2][2][2])(unsigned, unsigned char *, unsigned, unsigned char) = {\r
+    { {TileNormAS_onlymark,     TileFlipAS_onlymark},     {TileNormAS,    TileFlipAS} },\r
+    { {TileNormSH_AS_onlyop_lp, TileFlipSH_AS_onlyop_lp}, {TileNormSH_AS, TileFlipSH_AS} }\r
+  }; // [sh?][hi?][flip?]\r
+  unsigned (*fTileFunc)(unsigned m, unsigned char *pd, unsigned int pack, unsigned char pal);\r
+  unsigned char *pd = Pico.est.HighCol;\r
+  unsigned char mb[sizeof(DefHighCol)/8];\r
+  unsigned char *p, *mp;\r
+  unsigned m;\r
+  int entry, cnt;\r
 \r
   cnt = sprited[0] & 0x7f;\r
   if (cnt == 0) return;\r
 \r
-  rendstatus |= PDRAW_SPR_LO_ON_HI;\r
-\r
-  p = &sprited[3];\r
+  memset(mb, 0xff, sizeof(mb));\r
+  p = &sprited[4];\r
+  if ((sprited[1] & (SPRL_TILE_OVFL|SPRL_HAVE_MASK0)) == (SPRL_TILE_OVFL|SPRL_HAVE_MASK0))\r
+    return; // masking effective due to tile overflow\r
 \r
   // Go through sprites:\r
   for (entry = 0; entry < cnt; entry++)\r
   {\r
-    int *sprite, code, pal, tile, sx, sy;\r
+    s32 *sprite, code;\r
+    int pal, tile, sx, sy;\r
     int offs, delta, width, height, row;\r
 \r
     offs = (p[entry] & 0x7f) * 2;\r
-    sprite = HighPreSpr + offs;\r
+    sprite = Pico.est.HighPreSpr + offs;\r
     code = sprite[1];\r
     pal = (code>>9)&0x30;\r
 \r
-    if (code & 0x8000) // hi priority\r
-    {\r
-      if (sh && pal == 0x30)\r
-      {\r
-        if (code&0x800) fTileFunc=TileFlipAS_noop;\r
-        else            fTileFunc=TileNormAS_noop;\r
-      } else {\r
-        if (code&0x800) fTileFunc=TileFlipAS;\r
-        else            fTileFunc=TileNormAS;\r
-      }\r
-    } else {\r
-      if (code&0x800) fTileFunc=TileFlipAS_onlymark;\r
-      else            fTileFunc=TileNormAS_onlymark;\r
-    }\r
-    if (sh && pal == 0x30)\r
-      p[sh_cnt++] = offs / 2; // re-save for sh/hi pass\r
+    fTileFunc = tilefuncs[(sh && pal == 0x30)][!!(code&0x8000)][!!(code&0x800)];\r
 \r
     // parse remaining sprite data\r
     sy=sprite[0];\r
     sx=code>>16; // X\r
     width=sy>>28;\r
     height=(sy>>24)&7; // Width and height in tiles\r
-    sy=(sy<<16)>>16; // Y\r
+    sy=(s16)sy; // Y\r
 \r
-    row=DrawScanline-sy; // Row of the sprite we are on\r
+    row=Pico.est.DrawScanline-sy; // Row of the sprite we are on\r
 \r
     if (code&0x1000) row=(height<<3)-1-row; // Flip Y\r
 \r
@@ -917,268 +1121,588 @@ static void DrawSpritesHiAS(unsigned char *sprited, int sh)
     tile &= 0x7ff; tile<<=4; tile+=(row&7)<<1; // Tile address\r
     delta<<=4; // Delta of address\r
 \r
-    pal |= 0x80;\r
-    for (; width; width--,sx+=8,tile+=delta)\r
+    if (entry+1 == cnt) width = p[entry+1]; // last sprite width limited?\r
+    while (sx <= 0 && width) width--, sx+=8, tile+=delta; // Offscreen\r
+    mp = mb+(sx>>3);\r
+    for (m = *mp; width; width--, sx+=8, tile+=delta, *mp++ = m, m >>= 8)\r
     {\r
-      if(sx<=0)   continue;\r
+      unsigned int pack;\r
+\r
       if(sx>=328) break; // Offscreen\r
 \r
-      tile&=0x7fff; // Clip tile address\r
-      fTileFunc(sx,tile,pal);\r
+      pack = CPU_LE2(*(u32 *)(PicoMem.vram + (tile & 0x7fff)));\r
+\r
+      m |= mp[1] << 8; // next mask byte\r
+      // shift mask bits to bits 8-15 for easier load/store handling\r
+      m = fTileFunc(m << (8-(sx&0x7)), pd + sx, pack, pal) >> (8-(sx&0x7));\r
+    } \r
+    *mp = m; // write last mask byte\r
+  }\r
+}\r
+\r
+#ifdef FORCE\r
+// NB lots of duplicate code, all for the sake of a small performance gain.\r
+\r
+static void DrawStripForced(struct TileStrip *ts, int cellskip)\r
+{\r
+  unsigned char *pd = Pico.est.HighCol;\r
+  int tilex, dx, ty, addr=0, cells;\r
+  u32 code = 0, oldcode = -1;\r
+  int pal = 0;\r
+\r
+  // Draw tiles across screen:\r
+  tilex=((-ts->hscroll)>>3)+cellskip;\r
+  ty=(ts->line&7)<<1; // Y-Offset into tile\r
+  dx=((ts->hscroll-1)&7)+1;\r
+  cells = ts->cells - cellskip;\r
+  if(dx != 8) cells++; // have hscroll, need to draw 1 cell more\r
+  dx+=cellskip<<3;\r
+\r
+  for (; cells > 0; dx+=8, tilex++, cells--)\r
+  {\r
+    u32 pack;\r
+\r
+    code = PicoMem.vram[ts->nametab + (tilex & ts->xmask)];\r
+\r
+    if (code!=oldcode) {\r
+      oldcode = code;\r
+      // Get tile address/2:\r
+      addr = ((code&0x7ff)<<4) + ty;\r
+      if (code & 0x1000) addr^=0xe; // Y-flip\r
+\r
+      pal = (code>>9)&0x30;\r
     }\r
+\r
+    pack = CPU_LE2(*(u32 *)(PicoMem.vram + addr));\r
+\r
+    if (code & 0x0800) TileFlip_and(pd + dx, pack, pal);\r
+    else               TileNorm_and(pd + dx, pack, pal);\r
+  }\r
+}\r
+\r
+static void DrawStripVSRamForced(struct TileStrip *ts, int plane_sh, int cellskip)\r
+{\r
+  unsigned char *pd = Pico.est.HighCol;\r
+  int tilex, dx, ty=0, addr=0, cell=0, nametabadd=0;\r
+  u32 code=0, oldcode=-1;\r
+  int pal=0, scan=Pico.est.DrawScanline, plane;\r
+\r
+  // Draw tiles across screen:\r
+  plane = plane_sh & LF_PLANE;\r
+  tilex=(-ts->hscroll)>>3;\r
+  dx=((ts->hscroll-1)&7)+1;\r
+  if (ts->hscroll & 0x0f) {\r
+    int adj = ((ts->hscroll ^ dx) >> 3) & 1;\r
+    cell -= adj + 1;\r
+    ts->cells -= adj;\r
+    PicoMem.vsram[0x3e] = PicoMem.vsram[0x3f] = plane_sh >> 16;\r
   }\r
+  cell+=cellskip;\r
+  tilex+=cellskip;\r
+  dx+=cellskip<<3;\r
 \r
-  if (!sh || !(sprited[1]&SPRL_MAY_HAVE_OP)) return;\r
+  if ((cell&1)==1)\r
+  {\r
+    int line,vscroll;\r
+    vscroll = PicoMem.vsram[plane + (cell&0x3e)];\r
 \r
-  /* nasty 1: remove 'sprite' flags */\r
+    // Find the line in the name table\r
+    line=(vscroll+scan)&ts->line&0xffff; // ts->line is really ymask ..\r
+    nametabadd=(line>>3)<<(ts->line>>24);    // .. and shift[width]\r
+    ty=(line&7)<<1; // Y-Offset into tile\r
+  }\r
+  for (; cell < ts->cells; dx+=8,tilex++,cell++)\r
   {\r
-    int c = 320/4/4, *zb = (int *)(HighCol+8);\r
-    while (c--)\r
+    unsigned int pack;\r
+\r
+    if ((cell&1)==0)\r
     {\r
-      *zb++ &= 0x7f7f7f7f; *zb++ &= 0x7f7f7f7f;\r
-      *zb++ &= 0x7f7f7f7f; *zb++ &= 0x7f7f7f7f;\r
+      int line,vscroll;\r
+      vscroll = PicoMem.vsram[plane + (cell&0x3e)];\r
+\r
+      // Find the line in the name table\r
+      line=(vscroll+scan)&ts->line&0xffff; // ts->line is really ymask ..\r
+      nametabadd=(line>>3)<<(ts->line>>24);    // .. and shift[width]\r
+      ty=(line&7)<<1; // Y-Offset into tile\r
     }\r
+\r
+    code=PicoMem.vram[ts->nametab+nametabadd+(tilex&ts->xmask)];\r
+\r
+    if (code!=oldcode) {\r
+      oldcode = code;\r
+      // Get tile address/2:\r
+      addr=(code&0x7ff)<<4;\r
+\r
+      pal = (code>>9)&0x30; // shadow\r
+    }\r
+\r
+    pack = code & 0x1000 ? ty^0xe : ty; // Y-flip\r
+    pack = CPU_LE2(*(u32 *)(PicoMem.vram + addr+pack));\r
+\r
+    if (code & 0x0800) TileFlip_and(pd + dx, pack, pal);\r
+    else               TileNorm_and(pd + dx, pack, pal);\r
+  }\r
+}\r
+\r
+void DrawStripInterlaceForced(struct TileStrip *ts)\r
+{\r
+  unsigned char *pd = Pico.est.HighCol;\r
+  int tilex = 0, dx = 0, ty = 0, cells;\r
+  int oldcode = -1;\r
+  unsigned int pal = 0, pack = 0;\r
+\r
+  // Draw tiles across screen:\r
+  tilex=(-ts->hscroll)>>3;\r
+  ty=(ts->line&15)<<1; // Y-Offset into tile\r
+  dx=((ts->hscroll-1)&7)+1;\r
+  cells = ts->cells;\r
+  if(dx != 8) cells++; // have hscroll, need to draw 1 cell more\r
+\r
+  for (; cells; dx+=8,tilex++,cells--)\r
+  {\r
+    u32 code = PicoMem.vram[ts->nametab + (tilex & ts->xmask)];\r
+\r
+    if (code!=oldcode) {\r
+      oldcode = code;\r
+\r
+      // Get tile address/2:\r
+      u32 addr = ((code&0x3ff)<<5) + ty;\r
+      if (code & 0x1000) addr ^= 0x1e; // Y-flip\r
+\r
+      pal = (code>>9)&0x30; // shadow\r
+\r
+      pack = CPU_LE2(*(u32 *)(PicoMem.vram + addr));\r
+    }\r
+\r
+    if (code & 0x0800) TileFlip_and(pd + dx, pack, pal);\r
+    else               TileNorm_and(pd + dx, pack, pal);\r
+  }\r
+}\r
+\r
+// XXX only duplicated to avoid ARM asm hassles\r
+static void DrawLayerForced(int plane_sh, int cellskip, int maxcells,\r
+  struct PicoEState *est)\r
+{\r
+  struct PicoVideo *pvid=&est->Pico->video;\r
+  const char shift[4]={5,6,5,7}; // 32,64 or 128 sized tilemaps (2 is invalid)\r
+  struct TileStrip ts;\r
+  int width, height, ymask;\r
+  int vscroll, htab;\r
+\r
+  ts.cells=maxcells;\r
+\r
+  // Work out the TileStrip to draw\r
+\r
+  // Work out the name table size: 32 64 or 128 tiles (0-3)\r
+  width=pvid->reg[16];\r
+  height=(width>>4)&3; width&=3;\r
+\r
+  ts.xmask=(1<<shift[width])-1; // X Mask in tiles (0x1f-0x7f)\r
+  ymask=(height<<8)|0xff;       // Y Mask in pixels\r
+  switch (width) {\r
+    case 1: ymask &= 0x1ff; break;\r
+    case 2: ymask =  0x007; break;\r
+    case 3: ymask =  0x0ff; break;\r
+  }\r
+\r
+  // Find name table:\r
+  if (plane_sh&1) ts.nametab=(pvid->reg[4]&0x07)<<12; // B\r
+  else            ts.nametab=(pvid->reg[2]&0x38)<< 9; // A\r
+\r
+  htab=pvid->reg[13]<<9; // Horizontal scroll table address\r
+  switch (pvid->reg[11]&3) {\r
+    case 1: htab += (est->DrawScanline<<1) &  0x0f; break;\r
+    case 2: htab += (est->DrawScanline<<1) & ~0x0f; break; // Offset by tile\r
+    case 3: htab += (est->DrawScanline<<1);         break; // Offset by line\r
+  }\r
+  htab+=plane_sh&1; // A or B\r
+\r
+  // Get horizontal scroll value, will be masked later\r
+  ts.hscroll = PicoMem.vram[htab & 0x7fff];\r
+\r
+  if((pvid->reg[12]&6) == 6) {\r
+    // interlace mode 2\r
+    vscroll = PicoMem.vsram[plane_sh & 1]; // Get vertical scroll value\r
+\r
+    // Find the line in the name table\r
+    ts.line=(vscroll+(est->DrawScanline<<1))&((ymask<<1)|1);\r
+    ts.nametab+=(ts.line>>4)<<shift[width];\r
+\r
+    DrawStripInterlaceForced(&ts);\r
+  } else if( pvid->reg[11]&4) {\r
+    // shit, we have 2-cell column based vscroll\r
+    // luckily this doesn't happen too often\r
+    ts.line=ymask|(shift[width]<<24); // save some stuff instead of line\r
+    // vscroll value for leftmost cells in case of hscroll not on 16px boundary\r
+    // XXX it's unclear what exactly the hw is doing. Continue reading where it\r
+    // stopped last seems to work best (H40: 0x50 (wrap->0x00), H32 0x40).\r
+    plane_sh |= PicoMem.vsram[(pvid->reg[12]&1?0x00:0x20) + (plane_sh&1)] << 16;\r
+    DrawStripVSRamForced(&ts, plane_sh, cellskip);\r
+  } else {\r
+    vscroll = PicoMem.vsram[plane_sh & 1]; // Get vertical scroll value\r
+\r
+    // Find the line in the name table\r
+    ts.line=(vscroll+est->DrawScanline)&ymask;\r
+    ts.nametab+=(ts.line>>3)<<shift[width];\r
+\r
+    DrawStripForced(&ts, cellskip);\r
+  }\r
+}\r
+\r
+static void DrawSpritesForced(unsigned char *sprited)\r
+{\r
+  unsigned (*fTileFunc)(unsigned m, unsigned char *pd, unsigned int pack, unsigned char pal);\r
+  unsigned char *pd = Pico.est.HighCol;\r
+  unsigned char mb[sizeof(DefHighCol)/8];\r
+  unsigned char *p, *mp;\r
+  unsigned m;\r
+  int entry, cnt;\r
+\r
+  cnt = sprited[0] & 0x7f;\r
+  if (cnt == 0) { memset(pd, 0, sizeof(DefHighCol)); return; }\r
+\r
+  memset(mb, 0xff, sizeof(mb));\r
+  p = &sprited[4];\r
+  if ((sprited[1] & (SPRL_TILE_OVFL|SPRL_HAVE_MASK0)) == (SPRL_TILE_OVFL|SPRL_HAVE_MASK0))\r
+    return; // masking effective due to tile overflow\r
+\r
+  // Go through sprites:\r
+  for (entry = 0; entry < cnt; entry++)\r
+  {\r
+    s32 *sprite, code;\r
+    int pal, tile, sx, sy;\r
+    int offs, delta, width, height, row;\r
+\r
+    offs = (p[entry] & 0x7f) * 2;\r
+    sprite = Pico.est.HighPreSpr + offs;\r
+    code = sprite[1];\r
+    pal = (code>>9)&0x30;\r
+\r
+    if (code&0x800) fTileFunc = TileFlipSH_AS_and;\r
+    else            fTileFunc = TileNormSH_AS_and;\r
+\r
+    // parse remaining sprite data\r
+    sy=sprite[0];\r
+    sx=code>>16; // X\r
+    width=sy>>28;\r
+    height=(sy>>24)&7; // Width and height in tiles\r
+    sy=(s16)sy; // Y\r
+\r
+    row=Pico.est.DrawScanline-sy; // Row of the sprite we are on\r
+\r
+    if (code&0x1000) row=(height<<3)-1-row; // Flip Y\r
+\r
+    tile=code + (row>>3); // Tile number increases going down\r
+    delta=height; // Delta to increase tile by going right\r
+    if (code&0x0800) { tile+=delta*(width-1); delta=-delta; } // Flip X\r
+\r
+    tile &= 0x7ff; tile<<=4; tile+=(row&7)<<1; // Tile address\r
+    delta<<=4; // Delta of address\r
+\r
+    if (entry+1 == cnt) width = p[entry+1]; // last sprite width limited?\r
+    while (sx <= 0 && width) width--, sx+=8, tile+=delta; // Offscreen\r
+    mp = mb+(sx>>3);\r
+    for (m = *mp; width; width--, sx+=8, tile+=delta, *mp++ = m, m >>= 8)\r
+    {\r
+      u32 pack;\r
+\r
+      if(sx>=328) break; // Offscreen\r
+\r
+      pack = CPU_LE2(*(u32 *)(PicoMem.vram + (tile & 0x7fff)));\r
+\r
+      m |= mp[1] << 8; // next mask byte\r
+      // shift mask bits to bits 8-15 for easier load/store handling\r
+      m = fTileFunc(m << (8-(sx&0x7)), pd + sx, pack, pal) >> (8-(sx&0x7));\r
+    } \r
+    *mp = m; // write last mask byte\r
   }\r
 \r
-  /* nasty 2: sh operator pass */\r
-  sprited[0] = sh_cnt;\r
-  DrawSpritesSHi(sprited);\r
+  // anything not covered by a sprite is off \r
+  // XXX Titan hw notes say that transparent pixels remove shadow. Is this also\r
+  // the case in areas where no sprites are displayed?\r
+  for (cnt = 1; cnt < sizeof(mb)-1; cnt++)\r
+    if (mb[cnt] == 0xff) {\r
+      *(u32 *)(pd+8*cnt+0) = 0;\r
+      *(u32 *)(pd+8*cnt+4) = 0;\r
+    } else if (mb[cnt])\r
+      for (m = 0; m < 8; m++)\r
+        if (mb[cnt] & (1<<m))\r
+          pd[8*cnt+m] = 0;\r
 }\r
+#endif\r
 \r
 \r
+// sprite info in SAT:\r
 // Index + 0  :    ----hhvv -lllllll -------y yyyyyyyy\r
 // Index + 4  :    -------x xxxxxxxx pccvhnnn nnnnnnnn\r
-// v\r
-// Index + 0  :    hhhhvvvv ----hhvv yyyyyyyy yyyyyyyy // v, h: vert./horiz. size\r
-// Index + 4  :    xxxxxxxx xxxxxxxx pccvhnnn nnnnnnnn // x: x coord + 8\r
+// sprite info in HighPreSpr:\r
+// Index + 0  :    hhhhvvvv -lllllll yyyyyyyy yyyyyyyy // v/h size, link, y\r
+// Index + 4  :    xxxxxxxx xxxxxxxx pccvhnnn nnnnnnnn // x+8, prio, palette, flip, tile\r
 \r
-void PrepareSprites(int full)\r
+// Sprite parsing 1 line in advance: determine sprites on line by Y pos\r
+static NOINLINE void ParseSprites(int max_lines, int limit)\r
 {\r
-  struct PicoVideo *pvid=&Pico.video;\r
+  const struct PicoEState *est=&Pico.est;\r
+  const struct PicoVideo *pvid=&est->Pico->video;\r
   int u,link=0,sh;\r
   int table=0;\r
-  int *pd = HighPreSpr;\r
-  int max_lines = 224, max_sprites = 80, max_width = 328;\r
+  s32 *pd = HighPreSpr + HighPreSprBank*2;\r
+  int max_sprites = 80, max_width = 328;\r
   int max_line_sprites = 20; // 20 sprites, 40 tiles\r
 \r
-  if (!(Pico.video.reg[12]&1))\r
+  // SAT scanning is one line ahead, but don't overshoot. Technically, SAT\r
+  // parsing for line 0 is on the last line of the previous frame.\r
+  int first_line = est->DrawScanline + !!est->DrawScanline;\r
+  if (max_lines > rendlines-1)\r
+    max_lines = rendlines-1;\r
+\r
+  // look-ahead SAT parsing for next line and sprite pixel fetching for current\r
+  // line are limited if display was disabled during HBLANK before current line\r
+  if (limit) limit = 16; // max sprites/pixels processed\r
+\r
+  if (!(pvid->reg[12]&1))\r
     max_sprites = 64, max_line_sprites = 16, max_width = 264;\r
-  if (PicoOpt & POPT_DIS_SPRITE_LIM)\r
+  if (*est->PicoOpt & POPT_DIS_SPRITE_LIM)\r
     max_line_sprites = MAX_LINE_SPRITES;\r
 \r
-  if (pvid->reg[1]&8) max_lines = 240;\r
-  sh = Pico.video.reg[0xC]&8; // shadow/hilight?\r
+  sh = pvid->reg[0xC]&8; // shadow/hilight?\r
 \r
   table=pvid->reg[5]&0x7f;\r
   if (pvid->reg[12]&1) table&=0x7e; // Lowest bit 0 in 40-cell mode\r
   table<<=8; // Get sprite table address/2\r
 \r
-  if (!full)\r
-  {\r
-    int pack;\r
-    // updates: tilecode, sx\r
-    for (u=0; u < max_sprites && (pack = *pd); u++, pd+=2)\r
-    {\r
-      unsigned int *sprite;\r
-      int code2, sx, sy, height;\r
-\r
-      sprite=(unsigned int *)(Pico.vram+((table+(link<<2))&0x7ffc)); // Find sprite\r
-\r
-      // parse sprite info\r
-      code2 = sprite[1];\r
-      sx = (code2>>16)&0x1ff;\r
-      sx -= 0x78; // Get X coordinate + 8\r
-      sy = (pack << 16) >> 16;\r
-      height = (pack >> 24) & 0xf;\r
+  for (u = first_line; u <= max_lines; u++)\r
+    *((int *)&HighLnSpr[u][0]) = 0;\r
 \r
-      if (sy < max_lines && sy + (height<<3) > DrawScanline && // sprite onscreen (y)?\r
-          (sx > -24 || sx < max_width))                   // onscreen x\r
-      {\r
-        int y = (sy >= DrawScanline) ? sy : DrawScanline;\r
-        int entry = ((pd - HighPreSpr) / 2) | ((code2>>8)&0x80);\r
-        for (; y < sy + (height<<3) && y < max_lines; y++)\r
-        {\r
-          int i, cnt;\r
-          cnt = HighLnSpr[y][0] & 0x7f;\r
-          if (cnt >= max_line_sprites) continue;              // sprite limit?\r
-\r
-          for (i = 0; i < cnt; i++)\r
-            if (((HighLnSpr[y][3+i] ^ entry) & 0x7f) == 0) goto found;\r
-\r
-          // this sprite was previously missing\r
-          HighLnSpr[y][3+cnt] = entry;\r
-          HighLnSpr[y][0] = cnt + 1;\r
-found:;\r
-          if (entry & 0x80)\r
-               HighLnSpr[y][1] |= SPRL_HAVE_HI;\r
-          else HighLnSpr[y][1] |= SPRL_HAVE_LO;\r
-        }\r
-      }\r
-\r
-      code2 &= ~0xfe000000;\r
-      code2 -=  0x00780000; // Get X coordinate + 8 in upper 16 bits\r
-      pd[1] = code2;\r
-\r
-      // Find next sprite\r
-      link=(sprite[0]>>16)&0x7f;\r
-      if (!link) break; // End of sprites\r
-    }\r
-  }\r
-  else\r
+  for (u = 0; u < max_sprites && link < max_sprites; u++)\r
   {\r
-    for (u = 0; u < max_lines; u++)\r
-      *((int *)&HighLnSpr[u][0]) = 0;\r
+    u32 *sprite;\r
+    int code, code2, sx, sy, hv, height, width;\r
 \r
-    for (u = 0; u < max_sprites; u++)\r
-    {\r
-      unsigned int *sprite;\r
-      int code, code2, sx, sy, hv, height, width;\r
-\r
-      sprite=(unsigned int *)(Pico.vram+((table+(link<<2))&0x7ffc)); // Find sprite\r
+    sprite=(u32 *)(PicoMem.vram+((table+(link<<2))&0x7ffc)); // Find sprite\r
 \r
-      // parse sprite info\r
-      code = sprite[0];\r
-      sy = (code&0x1ff)-0x80;\r
-      hv = (code>>24)&0xf;\r
-      height = (hv&3)+1;\r
+    // parse sprite info. the 1st half comes from the VDPs internal cache,\r
+    // the 2nd half is read from VRAM\r
+    code = CPU_LE2(VdpSATCache[2*link]); // normally same as sprite[0]\r
+    sy = (code&0x1ff)-0x80;\r
+    hv = (code>>24)&0xf;\r
+    height = (hv&3)+1;\r
+    width  = (hv>>2)+1;\r
 \r
-      width  = (hv>>2)+1;\r
-      code2 = sprite[1];\r
-      sx = (code2>>16)&0x1ff;\r
-      sx -= 0x78; // Get X coordinate + 8\r
+    code2 = CPU_LE2(sprite[1]);\r
+    sx = (code2>>16)&0x1ff;\r
+    sx -= 0x78; // Get X coordinate + 8\r
 \r
-      if (sy < max_lines && sy + (height<<3) > DrawScanline) // sprite onscreen (y)?\r
+    if (sy <= max_lines && sy + (height<<3) >= first_line) // sprite onscreen (y)?\r
+    {\r
+      int entry, y, w, sx_min, onscr_x, maybe_op = 0;\r
+      // omit look-ahead line if sprite parsing limit reached\r
+      int last_line = (limit && u >= 2*limit ? max_lines-1 : max_lines);\r
+\r
+      sx_min = 8-(width<<3);\r
+      onscr_x = sx_min < sx && sx < max_width;\r
+      if (sh && (code2 & 0x6000) == 0x6000)\r
+        maybe_op = SPRL_MAY_HAVE_OP;\r
+\r
+      entry = (((pd - HighPreSpr) / 2) & 0x7f) | ((code2>>8)&0x80);\r
+      y = (sy >= first_line) ? sy : first_line;\r
+      for (; y < sy + (height<<3) && y <= last_line; y++)\r
       {\r
-        int entry, y, sx_min, onscr_x, maybe_op = 0;\r
-\r
-        sx_min = 8-(width<<3);\r
-        onscr_x = sx_min < sx && sx < max_width;\r
-        if (sh && (code2 & 0x6000) == 0x6000)\r
-          maybe_op = SPRL_MAY_HAVE_OP;\r
-\r
-        entry = ((pd - HighPreSpr) / 2) | ((code2>>8)&0x80);\r
-        y = (sy >= DrawScanline) ? sy : DrawScanline;\r
-        for (; y < sy + (height<<3) && y < max_lines; y++)\r
-        {\r
-         unsigned char *p = &HighLnSpr[y][0];\r
-          int cnt = p[0];\r
-          if (cnt >= max_line_sprites) continue;              // sprite limit?\r
-\r
-          if (p[2] >= max_line_sprites*2) {        // tile limit?\r
-            p[0] |= 0x80;\r
-            continue;\r
-          }\r
-          p[2] += width;\r
-\r
-          if (sx == -0x78) {\r
-            if (cnt > 0)\r
-              p[0] |= 0x80; // masked, no more sprites for this line\r
-            continue;\r
-          }\r
-          // must keep the first sprite even if it's offscreen, for masking\r
-          if (cnt > 0 && !onscr_x) continue; // offscreen x\r
-\r
-          p[3+cnt] = entry;\r
-          p[0] = cnt + 1;\r
-          p[1] |= (entry & 0x80) ? SPRL_HAVE_HI : SPRL_HAVE_LO;\r
-          p[1] |= maybe_op; // there might be op sprites on this line\r
-          if (cnt > 0 && (code2 & 0x8000) && !(p[3+cnt-1]&0x80))\r
-            p[1] |= SPRL_LO_ABOVE_HI;\r
+        unsigned char *p = &HighLnSpr[y][0];\r
+        int cnt = p[0] & 0x7f;\r
+        if (p[1] & SPRL_MASKED) continue;               // masked?\r
+\r
+        if (p[3] >= max_line_sprites) continue;         // sprite limit?\r
+        p[3] ++;\r
+\r
+        w = width;\r
+        if (p[2] + width > max_line_sprites*2) {        // tile limit?\r
+          if (y+1 < 240) HighLnSpr[y+1][1] |= SPRL_TILE_OVFL;\r
+          if (p[2] >= max_line_sprites*2) continue;\r
+          w = max_line_sprites*2 - p[2];\r
         }\r
+        p[2] += w;\r
+\r
+        if (sx == -0x78) {\r
+          if (p[1] & (SPRL_HAVE_X|SPRL_TILE_OVFL))\r
+            p[1] |= SPRL_MASKED; // masked, no more sprites for this line\r
+          if (!(p[1] & SPRL_HAVE_X) && cnt == 0)\r
+            p[1] |= SPRL_HAVE_MASK0; // 1st sprite is masking\r
+        } else\r
+          p[1] |= SPRL_HAVE_X;\r
+\r
+        if (!onscr_x) continue; // offscreen x\r
+\r
+        // sprite is (partly) visible, store info for renderer\r
+        p[1] |= (entry & 0x80) ? SPRL_HAVE_HI : SPRL_HAVE_LO;\r
+        p[1] |= maybe_op; // there might be op sprites on this line\r
+        if (cnt > 0 && (code2 & 0x8000) && !(p[4+cnt-1]&0x80))\r
+          p[1] |= SPRL_LO_ABOVE_HI;\r
+\r
+        p[4+cnt] = entry;\r
+        p[5+cnt] = w; // width clipped by tile limit for sprite renderer\r
+        p[0] = (cnt + 1) | HighPreSprBank;\r
       }\r
+    }\r
 \r
-      *pd++ = (width<<28)|(height<<24)|(hv<<16)|((unsigned short)sy);\r
-      *pd++ = (sx<<16)|((unsigned short)code2);\r
+    *pd++ = (width<<28)|(height<<24)|(link<<16)|((u16)sy);\r
+    *pd++ = (sx<<16)|((u16)code2);\r
 \r
-      // Find next sprite\r
-      link=(code>>16)&0x7f;\r
-      if (!link) break; // End of sprites\r
+    // Find next sprite\r
+    link=(code>>16)&0x7f;\r
+    if (!link) break; // End of sprites\r
+  }\r
+  *pd = 0;\r
+\r
+  // fetching sprite pixels isn't done while display is disabled during HBLANK\r
+  if (limit) {\r
+    int w = 0;\r
+    unsigned char *sprited = &HighLnSpr[max_lines-1][0]; // current render line\r
+\r
+    for (u = 0; u < (sprited[0] & 0x7f); u++) {\r
+      s32 *sp = HighPreSpr + (sprited[4+u] & 0x7f) * 2 + HighPreSprBank*2;\r
+      int sw = sp[0] >> 28;\r
+      if (w + sw > limit) {\r
+        sprited[0] = u | HighPreSprBank;\r
+        sprited[4+u] = limit-w;\r
+        break;\r
+      }\r
+      w += sw;\r
     }\r
-    *pd = 0;\r
+  }\r
 \r
 #if 0\r
-    for (u = 0; u < max_lines; u++)\r
-    {\r
-      int y;\r
-      printf("c%03i: %2i, %2i: ", u, HighLnSpr[u][0] & 0x7f, HighLnSpr[u][2]);\r
-      for (y = 0; y < HighLnSpr[u][0] & 0x7f; y++)\r
-        printf(" %i", HighLnSpr[u][y+3]);\r
-      printf("\n");\r
+  for (u = first_line; u <= max_lines; u++)\r
+  {\r
+    int y;\r
+    printf("c%03i b%d: f %x c %2i/%2i w %2i: ", u, !!HighPreSprBank, HighLnSpr[u][1],\r
+           HighLnSpr[u][0] & 0x7f, HighLnSpr[u][3], HighLnSpr[u][2]);\r
+    for (y = 0; y < (HighLnSpr[u][0] & 0x7f); y++) {\r
+      s32 *sp = HighPreSpr + (HighLnSpr[u][y+4]&0x7f) * 2 + HighPreSprBank*2;\r
+      printf(" %i(%x/%x)", HighLnSpr[u][y+4],sp[0],sp[1]);\r
     }\r
-#endif\r
+    printf("\n");\r
   }\r
+#endif\r
+\r
+  HighPreSprBank ^= 0x80;\r
 }\r
 \r
 #ifndef _ASM_DRAW_C\r
-static void DrawAllSprites(unsigned char *sprited, int prio, int sh)\r
+static void DrawAllSprites(unsigned char *sprited, int prio, int sh,\r
+                           struct PicoEState *est)\r
 {\r
-  int rs = rendstatus;\r
   unsigned char *p;\r
-  int cnt;\r
-\r
-  if (rs & (PDRAW_SPRITES_MOVED|PDRAW_DIRTY_SPRITES)) {\r
-    //elprintf(EL_STATUS, "PrepareSprites(%i)", (rs>>4)&1);\r
-    PrepareSprites(rs & PDRAW_DIRTY_SPRITES);\r
-    rendstatus = rs & ~(PDRAW_SPRITES_MOVED|PDRAW_DIRTY_SPRITES);\r
-  }\r
+  int cnt, w;\r
 \r
   cnt = sprited[0] & 0x7f;\r
   if (cnt == 0) return;\r
 \r
-  p = &sprited[3];\r
+  p = &sprited[4];\r
+  if ((sprited[1] & (SPRL_TILE_OVFL|SPRL_HAVE_MASK0)) == (SPRL_TILE_OVFL|SPRL_HAVE_MASK0))\r
+    return; // masking effective due to tile overflow\r
 \r
   // Go through sprites backwards:\r
-  for (cnt--; cnt >= 0; cnt--)\r
+  w = p[cnt]; // possibly clipped width of last sprite\r
+  for (cnt--; cnt >= 0; cnt--, w = 0)\r
   {\r
-    int offs;\r
+    s32 *sp = est->HighPreSpr + (p[cnt]&0x7f) * 2;\r
     if ((p[cnt] >> 7) != prio) continue;\r
-    offs = (p[cnt]&0x7f) * 2;\r
-    DrawSprite(HighPreSpr + offs, sh);\r
+    DrawSprite(sp, sh, w);\r
   }\r
 }\r
 \r
 \r
 // --------------------------------------------\r
 \r
-void BackFill(int reg7, int sh)\r
+void BackFill(int bgc, int sh, struct PicoEState *est)\r
 {\r
-  unsigned int back;\r
+  u32 back = bgc;\r
 \r
   // Start with a blank scanline (background colour):\r
-  back=reg7&0x3f;\r
-  back|=sh<<6;\r
+  back|=sh<<7; // shadow\r
   back|=back<<8;\r
   back|=back<<16;\r
 \r
-  memset32((int *)(HighCol+8), back, 320/4);\r
+  memset32((int *)(est->HighCol+8), back, 320/4);\r
 }\r
 #endif\r
 \r
 // --------------------------------------------\r
 \r
-unsigned short HighPal[0x100];\r
+static u16 *BgcDMAbase;\r
+static u32 BgcDMAsrc, BgcDMAmask;\r
+static int BgcDMAlen, BgcDMAoffs;\r
 \r
 #ifndef _ASM_DRAW_C\r
-void PicoDoHighPal555(int sh)\r
+static\r
+#endif\r
+// handle DMA to background color\r
+void BgcDMA(struct PicoEState *est)\r
+{\r
+  u16 *pd=est->DrawLineDest;\r
+  int len = (est->Pico->video.reg[12]&1) ? 320 : 256;\r
+  // TODO for now handles the line as all background.\r
+  int xl = (len == 320 ? 38 : 33); // DMA slots during HSYNC\r
+  int upscale = (est->rendstatus & PDRAW_SOFTSCALE) && len < 320;\r
+  u16 *q = upscale ? DefOutBuff : pd;\r
+  int i, l = len;\r
+  u16 t;\r
+\r
+  if ((est->rendstatus & PDRAW_BORDER_32) && !upscale)\r
+    q += (320-len) / 2;\r
+\r
+  BgcDMAlen -= ((l-BgcDMAoffs)>>1)+xl;\r
+  if (BgcDMAlen <= 0) {\r
+    // partial line\r
+    l += 2*BgcDMAlen;\r
+    est->rendstatus &= ~PDRAW_BGC_DMA;\r
+  }\r
+\r
+  for (i = BgcDMAoffs; i < l; i += 2) {\r
+    // TODO use ps to overwrite only real bg pixels\r
+    t = BgcDMAbase[BgcDMAsrc++ & BgcDMAmask];\r
+    q[i] = q[i+1] = PXCONV(t);\r
+  }\r
+  BgcDMAsrc += xl; // HSYNC DMA\r
+  BgcDMAoffs = 0;\r
+\r
+  t = PXCONV(PicoMem.cram[Pico.video.reg[7] & 0x3f]);\r
+  while (i < len) q[i++] = t; // fill partial line with BG\r
+\r
+  if (upscale) {\r
+    switch (PicoIn.filter) {\r
+    case 3: h_upscale_bl4_4_5(pd, 320, q, 256, len, f_nop); break;\r
+    case 2: h_upscale_bl2_4_5(pd, 320, q, 256, len, f_nop); break;\r
+    case 1: h_upscale_snn_4_5(pd, 320, q, 256, len, f_nop); break;\r
+    default: h_upscale_nn_4_5(pd, 320, q, 256, len, f_nop); break;\r
+    }\r
+  }\r
+}\r
+\r
+// --------------------------------------------\r
+\r
+static void PicoDoHighPal555_8bit(int sh, int line, struct PicoEState *est)\r
 {\r
   unsigned int *spal, *dpal;\r
+  unsigned int cnt = (sh ? 1 : est->SonicPalCount+1);\r
   unsigned int t, i;\r
 \r
-  Pico.m.dirtyPal = 0;\r
+  // reset dirty only if there are no outstanding changes\r
+  if (est->Pico->m.dirtyPal == 2)\r
+    est->Pico->m.dirtyPal = 0;\r
 \r
-  spal = (void *)Pico.cram;\r
-  dpal = (void *)HighPal;\r
+  // In Sonic render mode palettes were backuped in SonicPal\r
+  spal = (void *)est->SonicPal;\r
+  dpal = (void *)est->HighPal;\r
 \r
-  for (i = 0; i < 0x40 / 2; i++) {\r
+  // additional palettes stored after in-frame changes\r
+  for (i = 0; i < cnt * 0x40 / 2; i++) {\r
     t = spal[i];\r
-#ifdef USE_BGR555\r
-    t = ((t & 0x000e000e)<< 1) | ((t & 0x00e000e0)<<3) | ((t & 0x0e000e00)<<4);\r
-#else\r
-    t = ((t & 0x000e000e)<<12) | ((t & 0x00e000e0)<<3) | ((t & 0x0e000e00)>>7);\r
-#endif\r
     // treat it like it was 4-bit per channel, since in s/h mode it somewhat is that.\r
     // otherwise intensity difference between this and s/h will be wrong\r
-    t |= (t >> 4) & 0x08610861; // 0x18e318e3\r
+    t = PXCONV(t);\r
+    t |= (t >> 4) & PXMASKL;\r
     dpal[i] = t;\r
   }\r
 \r
@@ -1186,86 +1710,105 @@ void PicoDoHighPal555(int sh)
   if (sh)\r
   {\r
     // shadowed pixels\r
-    for (i = 0; i < 0x40 / 2; i++)\r
-      dpal[0x40/2 | i] = dpal[0xc0/2 | i] = (dpal[i] >> 1) & 0x738e738e;\r
+    for (i = 0; i < 0x40 / 2; i++) {\r
+      dpal[0xc0/2 + i] = dpal[i];\r
+      dpal[0x80/2 + i] = (dpal[i] >> 1) & PXMASKH;\r
+    }\r
     // hilighted pixels\r
     for (i = 0; i < 0x40 / 2; i++) {\r
-      t = ((dpal[i] >> 1) & 0x738e738e) + 0x738e738e; // 0x7bef7bef;\r
-      t |= (t >> 4) & 0x08610861;\r
-      dpal[0x80/2 | i] = t;\r
+      t = ((dpal[i] >> 1) & PXMASKH) + PXMASKH;\r
+      t |= (t >> 4) & PXMASKL;\r
+      dpal[0x40/2 + i] = t;\r
     }\r
   }\r
 }\r
 \r
-#if 0\r
-static void FinalizeLineBGR444(int sh, int line)\r
+#ifndef _ASM_DRAW_C\r
+void PicoDoHighPal555(int sh, int line, struct PicoEState *est)\r
 {\r
-  unsigned short *pd=DrawLineDest;\r
-  unsigned char  *ps=HighCol+8;\r
-  unsigned short *pal=Pico.cram;\r
-  int len, i, t, mask=0xff;\r
+  unsigned int *spal, *dpal;\r
+  unsigned int t, i;\r
 \r
-  if (Pico.video.reg[12]&1) {\r
-    len = 320;\r
-  } else {\r
-    if(!(PicoOpt&POPT_DIS_32C_BORDER)) pd+=32;\r
-    len = 256;\r
-  }\r
-\r
-  if(sh) {\r
-    pal=HighPal;\r
-    if(Pico.m.dirtyPal) {\r
-      blockcpy(pal, Pico.cram, 0x40*2);\r
-      // shadowed pixels\r
-      for(i = 0x3f; i >= 0; i--)\r
-        pal[0x40|i] = pal[0xc0|i] = (unsigned short)((pal[i]>>1)&0x0777);\r
-      // hilighted pixels\r
-      for(i = 0x3f; i >= 0; i--) {\r
-        t=pal[i]&0xeee;t+=0x444;if(t&0x10)t|=0xe;if(t&0x100)t|=0xe0;if(t&0x1000)t|=0xe00;t&=0xeee;\r
-        pal[0x80|i]=(unsigned short)t;\r
-      }\r
-      Pico.m.dirtyPal = 0;\r
-    }\r
-  }\r
+  est->Pico->m.dirtyPal = 0;\r
 \r
-  if (!sh && (rendstatus & PDRAW_SPR_LO_ON_HI))\r
-    mask=0x3f; // accurate sprites\r
+  spal = (void *)PicoMem.cram;\r
+  dpal = (void *)est->HighPal;\r
 \r
-  for(i = 0; i < len; i++)\r
-    pd[i] = pal[ps[i] & mask];\r
-}\r
-#endif\r
+  for (i = 0; i < 0x40 / 2; i++) {\r
+    t = spal[i];\r
+    // treat it like it was 4-bit per channel, since in s/h mode it somewhat is that.\r
+    // otherwise intensity difference between this and s/h will be wrong\r
+    t = PXCONV(t);\r
+    t |= (t >> 4) & PXMASKL;\r
+    dpal[i] = dpal[0xc0/2 + i] = t;\r
+  }\r
 \r
+  // norm: xxx0, sh: 0xxx, hi: 0xxx + 7\r
+  if (sh)\r
+  {\r
+    // shadowed pixels\r
+    for (i = 0; i < 0x40 / 2; i++)\r
+      dpal[0x80/2 + i] = (dpal[i] >> 1) & PXMASKH;\r
+    // hilighted pixels\r
+    for (i = 0; i < 0x40 / 2; i++) {\r
+      t = ((dpal[i] >> 1) & PXMASKH) + PXMASKH;\r
+      t |= (t >> 4) & PXMASKL;\r
+      dpal[0x40/2 + i] = t;\r
+    }\r
+  }\r
+}\r
 \r
-void FinalizeLine555(int sh, int line)\r
+void FinalizeLine555(int sh, int line, struct PicoEState *est)\r
 {\r
-  unsigned short *pd=DrawLineDest;\r
-  unsigned char  *ps=HighCol+8;\r
-  unsigned short *pal=HighPal;\r
+  unsigned short *pd=est->DrawLineDest;\r
+  unsigned char  *ps=est->HighCol+8;\r
+  unsigned short *pal=est->HighPal;\r
   int len;\r
 \r
-  if (Pico.m.dirtyPal)\r
-    PicoDoHighPal555(sh);\r
+  if (DrawLineDestIncrement == 0)\r
+    return;\r
 \r
-  if (Pico.video.reg[12]&1) {\r
-    len = 320;\r
-  } else {\r
-    if (!(PicoOpt&POPT_DIS_32C_BORDER)) pd+=32;\r
-    len = 256;\r
-  }\r
+  if (est->rendstatus & PDRAW_BGC_DMA)\r
+    return BgcDMA(est);\r
 \r
-  {\r
-#ifndef PSP\r
-    int i, mask=0xff;\r
-    if (!sh && (rendstatus & PDRAW_SPR_LO_ON_HI))\r
-      mask=0x3f; // accurate sprites, upper bits are priority stuff\r
+  PicoDrawUpdateHighPal();\r
 \r
-    for (i = 0; i < len; i++)\r
-      pd[i] = pal[ps[i] & mask];\r
+  len = 256;\r
+  if (!(PicoIn.AHW & PAHW_8BIT) && (est->Pico->video.reg[12]&1))\r
+    len = 320;\r
+  else if ((PicoIn.AHW & PAHW_GG) && (est->Pico->m.hardware & PMS_HW_LCD))\r
+    len = 160;\r
+  else if ((PicoIn.AHW & PAHW_SMS) && (est->Pico->video.reg[0] & 0x20))\r
+    len -= 8, ps += 8;\r
+\r
+  if ((est->rendstatus & PDRAW_SOFTSCALE) && len < 320) {\r
+    if (len >= 240 && len <= 256) {\r
+      pd += (256-len)>>1;\r
+      switch (PicoIn.filter) {\r
+      case 3: h_upscale_bl4_4_5(pd, 320, ps, 256, len, f_pal); break;\r
+      case 2: h_upscale_bl2_4_5(pd, 320, ps, 256, len, f_pal); break;\r
+      case 1: h_upscale_snn_4_5(pd, 320, ps, 256, len, f_pal); break;\r
+      default: h_upscale_nn_4_5(pd, 320, ps, 256, len, f_pal); break;\r
+      }\r
+      if (est->rendstatus & PDRAW_32X_SCALE) { // 32X needs scaled CLUT data\r
+        unsigned char *psc = ps - 256, *pdc = psc;\r
+        rh_upscale_nn_4_5(pdc, 320, psc, 256, 256, f_nop);\r
+      }\r
+    } else if (len == 160)\r
+      switch (PicoIn.filter) {\r
+      case 3:\r
+      case 2: h_upscale_bl2_1_2(pd, 320, ps, 160, len, f_pal); break;\r
+      default: h_upscale_nn_1_2(pd, 320, ps, 160, len, f_pal); break;\r
+      }\r
+  } else {\r
+    if ((est->rendstatus & PDRAW_BORDER_32) && len < 320)\r
+      pd += (320-len) / 2;\r
+#if 1\r
+    h_copy(pd, 320, ps, 320, len, f_pal);\r
 #else\r
     extern void amips_clut(unsigned short *dst, unsigned char *src, unsigned short *pal, int count);\r
     extern void amips_clut_6bit(unsigned short *dst, unsigned char *src, unsigned short *pal, int count);\r
-    if (!sh && (rendstatus & PDRAW_SPR_LO_ON_HI))\r
+    if (!sh)\r
          amips_clut_6bit(pd, ps, pal, len);\r
     else amips_clut(pd, ps, pal, len);\r
 #endif\r
@@ -1273,58 +1816,74 @@ void FinalizeLine555(int sh, int line)
 }\r
 #endif\r
 \r
-static void FinalizeLine8bit(int sh, int line)\r
+void FinalizeLine8bit(int sh, int line, struct PicoEState *est)\r
 {\r
-  unsigned char *pd = DrawLineDest;\r
-  int len, rs = rendstatus;\r
-  static int dirty_count;\r
+  unsigned char *pd = est->DrawLineDest;\r
+  unsigned char *ps = est->HighCol+8;\r
+  int len;\r
+  static int dirty_line;\r
 \r
-  if (!sh && Pico.m.dirtyPal == 1)\r
+  // a hack for mid-frame palette changes\r
+  if (est->Pico->m.dirtyPal == 1)\r
   {\r
-    // a hack for mid-frame palette changes\r
-    if (!(rs & PDRAW_SONIC_MODE))\r
-         dirty_count = 1;\r
-    else dirty_count++;\r
-    rs |= PDRAW_SONIC_MODE;\r
-    rendstatus = rs;\r
-    if (dirty_count == 3) {\r
-      blockcpy(HighPal, Pico.cram, 0x40*2);\r
-    } else if (dirty_count == 11) {\r
-      blockcpy(HighPal+0x40, Pico.cram, 0x40*2);\r
+    // store a maximum of 3 additional palettes in SonicPal\r
+    if (est->SonicPalCount < 3 &&\r
+        (!(est->rendstatus & PDRAW_SONIC_MODE) || (line - dirty_line >= 4))) {\r
+      est->SonicPalCount ++;\r
+      dirty_line = line;\r
+      est->rendstatus |= PDRAW_SONIC_MODE;\r
     }\r
+    blockcpy(est->SonicPal+est->SonicPalCount*0x40, PicoMem.cram, 0x40*2);\r
+    est->Pico->m.dirtyPal = 2;\r
   }\r
 \r
-  if (Pico.video.reg[12]&1) {\r
+  len = 256;\r
+  if (!(PicoIn.AHW & PAHW_8BIT) && (est->Pico->video.reg[12]&1))\r
     len = 320;\r
+  else if ((PicoIn.AHW & PAHW_GG) && (est->Pico->m.hardware & PMS_HW_LCD))\r
+    len = 160;\r
+  else if ((PicoIn.AHW & PAHW_SMS) && (est->Pico->video.reg[0] & 0x20))\r
+    len -= 8, ps += 8;\r
+\r
+  if (DrawLineDestIncrement == 0)\r
+    pd = est->HighCol+8;\r
+\r
+  if ((est->rendstatus  & PDRAW_SOFTSCALE) && len < 320) {\r
+    unsigned char pal = 0;\r
+\r
+    if (!sh && (est->rendstatus & PDRAW_SONIC_MODE))\r
+      pal = est->SonicPalCount*0x40;\r
+    // Smoothing can't be used with CLUT, hence it's always Nearest Neighbour.\r
+    if (len >= 240)\r
+      // use reverse version since src and dest ptr may be the same.\r
+      rh_upscale_nn_4_5(pd, 320, ps, 256, len, f_or);\r
+    else\r
+      rh_upscale_nn_1_2(pd, 320, ps, 256, len, f_or);\r
   } else {\r
-    if (!(PicoOpt & POPT_DIS_32C_BORDER))\r
-      pd += 32;\r
-    len = 256;\r
-  }\r
-\r
-  if (!sh && (rs & PDRAW_SONIC_MODE)) {\r
-    if (dirty_count >= 11) {\r
-      blockcpy_or(pd, HighCol+8, len, 0x80);\r
-    } else {\r
-      blockcpy_or(pd, HighCol+8, len, 0x40);\r
-    }\r
-  } else {\r
-    blockcpy(pd, HighCol+8, len);\r
+    if ((est->rendstatus & PDRAW_BORDER_32) && len < 320)\r
+      pd += (320-len) / 2;\r
+    if (!sh && (est->rendstatus & PDRAW_SONIC_MODE))\r
+      // select active backup palette\r
+      blockcpy_or(pd, ps, len, est->SonicPalCount*0x40);\r
+    else if (pd != ps)\r
+      blockcpy(pd, ps, len);\r
   }\r
 }\r
 \r
-static void (*FinalizeLine)(int sh, int line);\r
+static void (*FinalizeLine)(int sh, int line, struct PicoEState *est);\r
 \r
 // --------------------------------------------\r
 \r
 static int DrawDisplay(int sh)\r
 {\r
-  unsigned char *sprited = &HighLnSpr[DrawScanline][0];\r
-  struct PicoVideo *pvid=&Pico.video;\r
-  int win=0,edge=0,hvwind=0;\r
-  int maxw,maxcells;\r
+  struct PicoEState *est=&Pico.est;\r
+  unsigned char *sprited = &HighLnSpr[est->DrawScanline][0];\r
+  struct PicoVideo *pvid=&est->Pico->video;\r
+  int win=0, edge=0, hvwind=0, lflags;\r
+  int maxw, maxcells;\r
 \r
-  rendstatus &= ~(PDRAW_SHHI_DONE|PDRAW_PLANE_HI_PRIO);\r
+  est->rendstatus &= ~(PDRAW_SHHI_DONE|PDRAW_PLANE_HI_PRIO|PDRAW_WND_DIFF_PRIO);\r
+  est->HighPreSpr = HighPreSpr + (sprited[0]&0x80)*2;\r
 \r
   if (pvid->reg[12]&1) {\r
     maxw = 328; maxcells = 40;\r
@@ -1336,8 +1895,8 @@ static int DrawDisplay(int sh)
   win=pvid->reg[0x12];\r
   edge=(win&0x1f)<<3;\r
 \r
-  if (win&0x80) { if (DrawScanline>=edge) hvwind=1; }\r
-  else          { if (DrawScanline< edge) hvwind=1; }\r
+  if (win&0x80) { if (est->DrawScanline>=edge) hvwind=1; }\r
+  else          { if (est->DrawScanline< edge) hvwind=1; }\r
 \r
   if (!hvwind) // we might have a vertical window here\r
   {\r
@@ -1354,54 +1913,76 @@ static int DrawDisplay(int sh)
   }\r
 \r
   /* - layer B low - */\r
-  if (PicoDrawMask & PDRAW_LAYERB_ON)\r
-    DrawLayer(1|(sh<<1), HighCacheB, 0, maxcells);\r
+  if (!(pvid->debug_p & PVD_KILL_B)) {\r
+    lflags = LF_PLANE_B | (sh<<1);\r
+    DrawLayer(lflags, HighCacheB, 0, maxcells, est);\r
+  }\r
   /* - layer A low - */\r
-  if (!(PicoDrawMask & PDRAW_LAYERA_ON));\r
+  lflags = LF_PLANE_A | (sh<<1);\r
+  if (pvid->debug_p & PVD_KILL_A)\r
+    ;\r
   else if (hvwind == 1)\r
-    DrawWindow(0, maxcells>>1, 0, sh);\r
+    DrawWindow(0, maxcells>>1, 0, sh, est);\r
   else if (hvwind == 2) {\r
-    DrawLayer(0|(sh<<1), HighCacheA, (win&0x80) ?    0 : edge<<1, (win&0x80) ?     edge<<1 : maxcells);\r
-    DrawWindow(                      (win&0x80) ? edge :       0, (win&0x80) ? maxcells>>1 : edge, 0, sh);\r
-  } else\r
-    DrawLayer(0|(sh<<1), HighCacheA, 0, maxcells);\r
+    DrawLayer(lflags, HighCacheA, (win&0x80) ?    0 : edge<<1, (win&0x80) ?     edge<<1 : maxcells, est);\r
+    DrawWindow(                   (win&0x80) ? edge :       0, (win&0x80) ? maxcells>>1 : edge, 0, sh, est);\r
+  }\r
+  else\r
+    DrawLayer(lflags, HighCacheA, 0, maxcells, est);\r
   /* - sprites low - */\r
-  if (!(PicoDrawMask & PDRAW_SPRITES_LOW_ON));\r
-  else if (rendstatus & PDRAW_INTERLACE)\r
+  if (pvid->debug_p & PVD_KILL_S_LO)\r
+    ;\r
+  else if (est->rendstatus & PDRAW_INTERLACE)\r
     DrawAllSpritesInterlace(0, sh);\r
   else if (sprited[1] & SPRL_HAVE_LO)\r
-    DrawAllSprites(sprited, 0, sh);\r
+    DrawAllSprites(sprited, 0, sh, est);\r
 \r
   /* - layer B hi - */\r
-  if ((PicoDrawMask & PDRAW_LAYERB_ON) && HighCacheB[0])\r
-    DrawTilesFromCache(HighCacheB, sh, maxw);\r
+  if (!(pvid->debug_p & PVD_KILL_B) && HighCacheB[0])\r
+    DrawTilesFromCache(HighCacheB, sh, maxw, est);\r
   /* - layer A hi - */\r
-  if (!(PicoDrawMask & PDRAW_LAYERA_ON));\r
+  if (pvid->debug_p & PVD_KILL_A)\r
+    ;\r
   else if (hvwind == 1)\r
-    DrawWindow(0, maxcells>>1, 1, sh);\r
+    DrawWindow(0, maxcells>>1, 1, sh, est);\r
   else if (hvwind == 2) {\r
-    if (HighCacheA[0]) DrawTilesFromCache(HighCacheA, sh, (win&0x80) ? edge<<4 : maxw);\r
-    DrawWindow((win&0x80) ? edge : 0, (win&0x80) ? maxcells>>1 : edge, 1, sh);\r
+    if (HighCacheA[0])\r
+      DrawTilesFromCache(HighCacheA, sh, (win&0x80) ? edge<<4 : maxw, est);\r
+    DrawWindow((win&0x80) ? edge : 0, (win&0x80) ? maxcells>>1 : edge, 1, sh, est);\r
   } else\r
-    if (HighCacheA[0]) DrawTilesFromCache(HighCacheA, sh, maxw);\r
+    if (HighCacheA[0])\r
+      DrawTilesFromCache(HighCacheA, sh, maxw, est);\r
   /* - sprites hi - */\r
-  if (!(PicoDrawMask & PDRAW_SPRITES_HI_ON));\r
-  else if (rendstatus & PDRAW_INTERLACE)\r
+  if (pvid->debug_p & PVD_KILL_S_HI)\r
+    ;\r
+  else if (est->rendstatus & PDRAW_INTERLACE)\r
     DrawAllSpritesInterlace(1, sh);\r
   // have sprites without layer pri bit ontop of sprites with that bit\r
-  else if ((sprited[1] & 0xd0) == 0xd0 && (PicoOpt & POPT_ACC_SPRITES))\r
+  else if ((sprited[1] & SPRL_LO_ABOVE_HI) && (*est->PicoOpt & POPT_ACC_SPRITES))\r
     DrawSpritesHiAS(sprited, sh);\r
   else if (sh && (sprited[1] & SPRL_MAY_HAVE_OP))\r
-    DrawSpritesSHi(sprited);\r
+    DrawSpritesSHi(sprited, est);\r
   else if (sprited[1] & SPRL_HAVE_HI)\r
-    DrawAllSprites(sprited, 1, 0);\r
+    DrawAllSprites(sprited, 1, 0, est);\r
+\r
+#ifdef FORCE\r
+  if (pvid->debug_p & PVD_FORCE_B) {\r
+    lflags = LF_PLANE_B | (sh<<1);\r
+    DrawLayerForced(lflags, 0, maxcells, est);\r
+  } else if (pvid->debug_p & PVD_FORCE_A) {\r
+    lflags = LF_PLANE_A | (sh<<1);\r
+    DrawLayerForced(lflags, 0, maxcells, est);\r
+  } else if (pvid->debug_p & PVD_FORCE_S)\r
+    DrawSpritesForced(sprited);\r
+#endif\r
 \r
 #if 0\r
   {\r
     int *c, a, b;\r
-    for (a = 0, c = HighCacheA; *c; c++, a++);\r
-    for (b = 0, c = HighCacheB; *c; c++, b++);\r
-    printf("%i:%03i: a=%i, b=%i\n", Pico.m.frame_count, DrawScanline, a, b);\r
+    for (a = 0, c = HighCacheA; *c; c+=2, a++);\r
+    for (b = 0, c = HighCacheB; *c; c+=2, b++);\r
+    printf("%i:%03i: a=%i, b=%i\n", Pico.m.frame_count,\r
+           est->DrawScanline, a, b);\r
   }\r
 #endif\r
 \r
@@ -1411,65 +1992,103 @@ static int DrawDisplay(int sh)
 // MUST be called every frame\r
 PICO_INTERNAL void PicoFrameStart(void)\r
 {\r
-  int offs = 8, lines = 224;\r
+  struct PicoEState *est = &Pico.est;\r
+  int loffs = 8, lines = 224, coffs = 0, columns = 320;\r
+  int sprep = est->rendstatus & PDRAW_DIRTY_SPRITES;\r
+  int skipped = est->rendstatus & PDRAW_SKIP_FRAME;\r
+  int sync = est->rendstatus & (PDRAW_SYNC_NEEDED | PDRAW_SYNC_NEXT);\r
 \r
   // prepare to do this frame\r
-  rendstatus = 0;\r
-  if ((Pico.video.reg[12] & 6) == 6)\r
-    rendstatus |= PDRAW_INTERLACE; // interlace mode\r
-  if (!(Pico.video.reg[12] & 1))\r
-    rendstatus |= PDRAW_32_COLS;\r
-  if (Pico.video.reg[1] & 8) {\r
-    offs = 0;\r
+  est->rendstatus = 0;\r
+\r
+  if (PicoIn.AHW & PAHW_32X) // H32 upscaling, before mixing in 32X layer\r
+    est->rendstatus = (*est->PicoOpt & POPT_ALT_RENDERER) ?\r
+                PDRAW_BORDER_32 : PDRAW_32X_SCALE|PDRAW_SOFTSCALE;\r
+  else if (!(PicoIn.opt & POPT_DIS_32C_BORDER))\r
+    est->rendstatus |= PDRAW_BORDER_32;\r
+\r
+  if ((PicoIn.opt & POPT_EN_SOFTSCALE) && !(*est->PicoOpt & POPT_ALT_RENDERER))\r
+    est->rendstatus |= PDRAW_SOFTSCALE;\r
+\r
+  if ((est->Pico->video.reg[12] & 6) == 6)\r
+    est->rendstatus |= PDRAW_INTERLACE; // interlace mode\r
+  if (!(est->Pico->video.reg[12] & 1)) {\r
+    est->rendstatus |= PDRAW_32_COLS;\r
+    if (!(est->rendstatus & PDRAW_SOFTSCALE)) {\r
+      columns = 256;\r
+      coffs = 32;\r
+    }\r
+  }\r
+  if (est->Pico->video.reg[1] & 8) {\r
+    est->rendstatus |= PDRAW_30_ROWS;\r
     lines = 240;\r
+    loffs = 0;\r
   }\r
+  if (!(est->rendstatus & PDRAW_BORDER_32))\r
+    coffs = 0;\r
 \r
-  HighCol = HighColBase + offs * HighColIncrement;\r
-  DrawLineDest = (char *)DrawLineDestBase + offs * DrawLineDestIncrement;\r
-  DrawScanline = 0;\r
-  skip_next_line = 0;\r
-\r
-  if (rendstatus != rendstatus_old || lines != rendlines) {\r
+  if (est->rendstatus != rendstatus_old || lines != rendlines) {\r
     rendlines = lines;\r
-    // mode_change() might reset rendstatus_old by calling SetColorFormat\r
-    emu_video_mode_change((lines == 240) ? 0 : 8,\r
-      lines, (Pico.video.reg[12] & 1) ? 0 : 1);\r
+    // mode_change() might reset rendstatus_old by calling SetOutFormat\r
+    int rendstatus = est->rendstatus;\r
+    emu_video_mode_change(loffs, lines, coffs, columns);\r
     rendstatus_old = rendstatus;\r
+    // mode_change() might clear buffers, redraw needed\r
+    est->rendstatus |= PDRAW_SYNC_NEEDED;\r
   }\r
 \r
-  if (PicoOpt & POPT_ALT_RENDERER)\r
-    return;\r
+  if (sync | skipped)\r
+    est->rendstatus |= PDRAW_SYNC_NEEDED;\r
+  if (PicoIn.skipFrame) // preserve this until something is rendered at last\r
+    est->rendstatus |= PDRAW_SKIP_FRAME;\r
+  if (sprep | skipped)\r
+    est->rendstatus |= PDRAW_PARSE_SPRITES;\r
+\r
+  est->HighCol = HighColBase + loffs * HighColIncrement;\r
+  est->DrawLineDest = (char *)DrawLineDestBase + loffs * DrawLineDestIncrement;\r
+  est->DrawScanline = 0;\r
+  skip_next_line = 0;\r
 \r
-  if (Pico.m.dirtyPal)\r
-    Pico.m.dirtyPal = 2; // reset dirty if needed\r
-  PrepareSprites(1);\r
+  if (FinalizeLine == FinalizeLine8bit) {\r
+    // make a backup of the current palette in case Sonic mode is detected later\r
+    est->Pico->m.dirtyPal = (est->Pico->m.dirtyPal || est->SonicPalCount ? 2 : 0);\r
+    blockcpy(est->SonicPal, PicoMem.cram, 0x40*2);\r
+  }\r
+  est->SonicPalCount = 0;\r
 }\r
 \r
 static void DrawBlankedLine(int line, int offs, int sh, int bgc)\r
 {\r
-  if (PicoScanBegin != NULL)\r
-    PicoScanBegin(line + offs);\r
+  struct PicoEState *est = &Pico.est;\r
+  int skip = skip_next_line;\r
+\r
+  if (PicoScanBegin != NULL && skip == 0)\r
+    skip = PicoScanBegin(line + offs);\r
+\r
+  if (skip) {\r
+    skip_next_line = skip - 1;\r
+    return;\r
+  }\r
 \r
-  BackFill(bgc, sh);\r
+  BackFill(bgc, sh, est);\r
 \r
   if (FinalizeLine != NULL)\r
-    FinalizeLine(sh, line);\r
+    FinalizeLine(sh, line, est);\r
 \r
   if (PicoScanEnd != NULL)\r
-    PicoScanEnd(line + offs);\r
+    skip_next_line = PicoScanEnd(line + offs);\r
+\r
+  est->HighCol += HighColIncrement;\r
+  est->DrawLineDest = (char *)est->DrawLineDest + DrawLineDestIncrement;\r
 }\r
 \r
-static void PicoLine(int line, int offs, int sh, int bgc)\r
+static void PicoLine(int line, int offs, int sh, int bgc, int off, int on)\r
 {\r
-  int skip = 0;\r
+  struct PicoEState *est = &Pico.est;\r
+  int skip = skip_next_line;\r
 \r
-  if (skip_next_line > 0) {\r
-    skip_next_line--;\r
-    return;\r
-  }\r
-\r
-  DrawScanline = line;\r
-  if (PicoScanBegin != NULL)\r
+  est->DrawScanline = line;\r
+  if (PicoScanBegin != NULL && skip == 0)\r
     skip = PicoScanBegin(line + offs);\r
 \r
   if (skip) {\r
@@ -1477,77 +2096,167 @@ static void PicoLine(int line, int offs, int sh, int bgc)
     return;\r
   }\r
 \r
+  if (est->Pico->video.debug_p & (PVD_FORCE_A | PVD_FORCE_B | PVD_FORCE_S))\r
+    bgc = 0x3f;\r
+\r
   // Draw screen:\r
-  BackFill(bgc, sh);\r
-  if (Pico.video.reg[1]&0x40)\r
+  BackFill(bgc, sh, est);\r
+  if (est->Pico->video.reg[1]&0x40) {\r
+    int width = (est->Pico->video.reg[12]&1) ? 320 : 256;\r
     DrawDisplay(sh);\r
+    // partial line blanking (display on or off inside the line)\r
+    if (unlikely(off|on)) {\r
+      if (off > 0)\r
+        memset(est->HighCol+8 + off, bgc, width-off);\r
+      if (on > 0)\r
+        memset(est->HighCol+8, bgc, on);\r
+    }\r
+  }\r
 \r
   if (FinalizeLine != NULL)\r
-    FinalizeLine(sh, line);\r
+    FinalizeLine(sh, line, est);\r
 \r
   if (PicoScanEnd != NULL)\r
     skip_next_line = PicoScanEnd(line + offs);\r
 \r
-  HighCol += HighColIncrement;\r
-  DrawLineDest = (char *)DrawLineDest + DrawLineDestIncrement;\r
+  est->HighCol += HighColIncrement;\r
+  est->DrawLineDest = (char *)est->DrawLineDest + DrawLineDestIncrement;\r
 }\r
 \r
-void PicoDrawSync(int to, int blank_last_line)\r
+void PicoDrawSync(int to, int off, int on)\r
 {\r
-  int line, offs = 0;\r
-  int sh = (Pico.video.reg[0xC] & 8) >> 3; // shadow/hilight?\r
-  int bgc = Pico.video.reg[7];\r
+  struct PicoEState *est = &Pico.est;\r
+  int line, offs;\r
+  int sh = (est->Pico->video.reg[0xC] & 8) >> 3; // shadow/hilight?\r
+  int bgc = est->Pico->video.reg[7] & 0x3f;\r
 \r
   pprof_start(draw);\r
 \r
-  if (rendlines != 240)\r
-    offs = 8;\r
-\r
-  for (line = DrawScanline; line < to; line++)\r
-  {\r
-#if !CAN_HANDLE_240_LINES\r
-    if (line >= 224) break;\r
-#endif\r
-    PicoLine(line, offs, sh, bgc);\r
-  }\r
-\r
-#if !CAN_HANDLE_240_LINES\r
-  if (line >= 224) {\r
-    DrawScanline = 240;\r
+  offs = (240-rendlines) >> 1;\r
+  if (to >= rendlines)\r
+    to = rendlines-1;\r
+\r
+  if (est->DrawScanline <= to &&\r
+                (est->rendstatus & (PDRAW_DIRTY_SPRITES|PDRAW_PARSE_SPRITES)))\r
+    ParseSprites(to + 1, on);\r
+  else if (!(est->rendstatus & PDRAW_SYNC_NEEDED)) {\r
+    // nothing has changed in VDP/VRAM and buffer is the same -> no sync needed\r
+    int count = to+1 - est->DrawScanline;\r
+    est->HighCol += count*HighColIncrement;\r
+    est->DrawLineDest = (char *)est->DrawLineDest + count*DrawLineDestIncrement;\r
+    est->DrawScanline = to+1;\r
     return;\r
   }\r
-#endif\r
+\r
+  for (line = est->DrawScanline; line < to; line++)\r
+    PicoLine(line, offs, sh, bgc, 0, 0);\r
 \r
   // last line\r
   if (line <= to)\r
   {\r
-    if (blank_last_line)\r
-         DrawBlankedLine(line, offs, sh, bgc);\r
-    else PicoLine(line, offs, sh, bgc);\r
+    int width2 = (est->Pico->video.reg[12]&1) ? 160 : 128;\r
+\r
+    if (unlikely(on|off) && (off >= width2 ||\r
+          // hack for timing inaccuracy, if on/off near borders\r
+          (off && off <= 24) || (on < width2 && on >= width2-24)))\r
+      DrawBlankedLine(line, offs, sh, bgc);\r
+    else {\r
+      if (on > width2) on = 0; // on, before start of line?\r
+      PicoLine(line, offs, sh, bgc, 2*off, 2*on);\r
+    }\r
     line++;\r
   }\r
-  DrawScanline = line;\r
+  est->DrawScanline = line;\r
 \r
   pprof_end(draw);\r
 }\r
 \r
+void PicoDrawRefreshSprites(void)\r
+{\r
+  struct PicoEState *est = &Pico.est;\r
+  unsigned char *sprited = &HighLnSpr[est->DrawScanline][0];\r
+  int i;\r
+\r
+  if (est->DrawScanline == 0 || est->DrawScanline >= rendlines) return;\r
+\r
+  // compute sprite row. The VDP does this by subtracting the sprite y pos from\r
+  // the current line and treating the lower 5 bits as the row number. Y pos\r
+  // is reread from SAT cache, which may have changed by now (Overdrive 2).\r
+  for (i = 0; i < (sprited[0] & 0x7f); i++) {\r
+    int num = sprited[4+i] & 0x7f;\r
+    s32 *sp = HighPreSpr + 2*num + (sprited[0] & 0x80)*2;\r
+    int link = (sp[0]>>16) & 0x7f;\r
+    int sy = (CPU_LE2(VdpSATCache[2*link]) & 0x1ff) - 0x80;\r
+    if (sy != (s16)sp[0]) {\r
+      // Y info in SAT cache has really changed\r
+      sy = est->DrawScanline - ((est->DrawScanline - sy) & 0x1f);\r
+      sp[0] = (sp[0] & 0xffff0000) | (u16)sy;\r
+    }\r
+  }\r
+}\r
+\r
+void PicoDrawBgcDMA(u16 *base, u32 source, u32 mask, int dlen, int sl)\r
+{\r
+  struct PicoEState *est = &Pico.est;\r
+  int len = (est->Pico->video.reg[12]&1) ? 320 : 256;\r
+  int xl = (est->Pico->video.reg[12]&1) ? 38 : 33; // DMA slots during HSYNC\r
+\r
+  BgcDMAbase = base;\r
+  BgcDMAsrc = source;\r
+  BgcDMAmask = mask;\r
+  BgcDMAlen = dlen;\r
+  BgcDMAoffs = 0;\r
+\r
+  // handle slot offset in 1st line\r
+  if (sl-12 > 0)\r
+    BgcDMAoffs = 2*(sl-12);\r
+  else if (sl < 0) { // DMA starts before active display\r
+    BgcDMAsrc += 2*-sl;\r
+    BgcDMAlen -= 2*-sl;\r
+  }\r
+\r
+  // skip 1st line if it had been drawn already\r
+  if (Pico.est.DrawScanline > Pico.m.scanline) {\r
+    len -= BgcDMAoffs;\r
+    BgcDMAsrc += (len>>1)+xl;\r
+    BgcDMAlen -= (len>>1)+xl;\r
+    BgcDMAoffs = 0;\r
+  }\r
+  if (BgcDMAlen > 0)\r
+    est->rendstatus |= PDRAW_BGC_DMA;\r
+}\r
+\r
 // also works for fast renderer\r
 void PicoDrawUpdateHighPal(void)\r
 {\r
-  int sh = (Pico.video.reg[0xC] & 8) >> 3; // shadow/hilight?\r
-  if (PicoOpt & POPT_ALT_RENDERER)\r
-    sh = 0; // no s/h support\r
+  struct PicoEState *est = &Pico.est;\r
+  if (est->Pico->m.dirtyPal) {\r
+    int sh = (est->Pico->video.reg[0xC] & 8) >> 3; // shadow/hilight?\r
+    if ((*est->PicoOpt & POPT_ALT_RENDERER) | (est->rendstatus & PDRAW_SONIC_MODE))\r
+      sh = 0; // no s/h support\r
+\r
+    if (PicoIn.AHW & PAHW_SMS)\r
+      PicoDoHighPal555SMS();\r
+    else if (FinalizeLine == FinalizeLine8bit)\r
+      PicoDoHighPal555_8bit(sh, 0, est);\r
+    else\r
+      PicoDoHighPal555(sh, 0, est);\r
 \r
-  PicoDoHighPal555(sh);\r
-  if (rendstatus & PDRAW_SONIC_MODE) {\r
-    // FIXME?\r
-    memcpy(HighPal + 0x40, HighPal, 0x40*2);\r
-    memcpy(HighPal + 0x80, HighPal, 0x40*2);\r
+    // cover for sprite priority bits if not in s/h or sonic mode\r
+    if (!sh && !(est->rendstatus & PDRAW_SONIC_MODE)) {\r
+      blockcpy(est->HighPal+0x40, est->HighPal, 0x40*2);\r
+      blockcpy(est->HighPal+0x80, est->HighPal, 0x80*2);\r
+    }\r
+    est->HighPal[0xe0] = 0x0000; // black and white, reserved for OSD\r
+    est->HighPal[0xf0] = 0xffff;\r
   }\r
 }\r
 \r
-void PicoDrawSetOutFormat(pdso_t which, int allow_32x)\r
+void PicoDrawSetOutFormat(pdso_t which, int use_32x_line_mode)\r
 {\r
+  PicoDrawSetInternalBuf(NULL, 0);\r
+  PicoDrawSetOutBufMD(NULL, 0);\r
+  PicoDraw2SetOutBuf(NULL, 0);\r
   switch (which)\r
   {\r
     case PDF_8BIT:\r
@@ -1555,7 +2264,7 @@ void PicoDrawSetOutFormat(pdso_t which, int allow_32x)
       break;\r
 \r
     case PDF_RGB555:\r
-      if ((PicoAHW & PAHW_32X) && allow_32x)\r
+      if ((PicoIn.AHW & PAHW_32X) && use_32x_line_mode)\r
         FinalizeLine = FinalizeLine32xRGB555;\r
       else\r
         FinalizeLine = FinalizeLine555;\r
@@ -1565,28 +2274,56 @@ void PicoDrawSetOutFormat(pdso_t which, int allow_32x)
       FinalizeLine = NULL;\r
       break;\r
   }\r
-  PicoDrawSetOutputMode4(which);\r
+  if (PicoIn.AHW & PAHW_32X)\r
+    PicoDrawSetOutFormat32x(which, use_32x_line_mode);\r
+  PicoDrawSetOutputSMS(which);\r
   rendstatus_old = -1;\r
+  Pico.m.dirtyPal = 1;\r
+}\r
+\r
+void PicoDrawSetOutBufMD(void *dest, int increment)\r
+{\r
+  if (FinalizeLine == FinalizeLine8bit && increment >= 328) {\r
+    // kludge for no-copy mode, using ALT_RENDERER layout\r
+    PicoDrawSetInternalBuf(dest, increment);\r
+  } else if (FinalizeLine == NULL) {\r
+    PicoDrawSetInternalBuf(dest, increment); // needed for SMS\r
+    PicoDraw2SetOutBuf(dest, increment);\r
+  } else if (dest != NULL) {\r
+    if (dest != DrawLineDestBase)\r
+      Pico.est.rendstatus |= PDRAW_SYNC_NEEDED;\r
+    DrawLineDestBase = dest;\r
+    DrawLineDestIncrement = increment;\r
+    Pico.est.DrawLineDest = (char *)DrawLineDestBase + Pico.est.DrawScanline * increment;\r
+  } else {\r
+    DrawLineDestBase = DefOutBuff;\r
+    DrawLineDestIncrement = 0;\r
+    Pico.est.DrawLineDest = DefOutBuff;\r
+  }\r
 }\r
 \r
 // note: may be called on the middle of frame\r
 void PicoDrawSetOutBuf(void *dest, int increment)\r
 {\r
-  DrawLineDestBase = dest;\r
-  DrawLineDestIncrement = increment;\r
-  DrawLineDest = DrawLineDestBase + DrawScanline * increment;\r
+  if (PicoIn.AHW & PAHW_32X)\r
+    PicoDrawSetOutBuf32X(dest, increment);\r
+  else\r
+    PicoDrawSetOutBufMD(dest, increment);\r
 }\r
 \r
 void PicoDrawSetInternalBuf(void *dest, int increment)\r
 {\r
   if (dest != NULL) {\r
+    if (dest != HighColBase)\r
+      Pico.est.rendstatus |= PDRAW_SYNC_NEEDED;\r
     HighColBase = dest;\r
     HighColIncrement = increment;\r
-    HighCol = HighColBase + DrawScanline * increment;\r
+    Pico.est.HighCol = HighColBase + Pico.est.DrawScanline * increment;\r
   }\r
   else {\r
     HighColBase = DefHighCol;\r
     HighColIncrement = 0;\r
+    Pico.est.HighCol = DefHighCol;\r
   }\r
 }\r
 \r
@@ -1597,7 +2334,7 @@ void PicoDrawSetCallbacks(int (*begin)(unsigned int num), int (*end)(unsigned in
   PicoScan32xBegin = NULL;\r
   PicoScan32xEnd = NULL;\r
 \r
-  if ((PicoAHW & PAHW_32X) && FinalizeLine != FinalizeLine32xRGB555) {\r
+  if ((PicoIn.AHW & PAHW_32X) && FinalizeLine != FinalizeLine32xRGB555) {\r
     PicoScan32xBegin = begin;\r
     PicoScan32xEnd = end;\r
   }\r
@@ -1606,3 +2343,12 @@ void PicoDrawSetCallbacks(int (*begin)(unsigned int num), int (*end)(unsigned in
     PicoScanEnd = end;\r
   }\r
 }\r
+\r
+void PicoDrawInit(void)\r
+{\r
+  Pico.est.DrawLineDest = DefOutBuff;\r
+  Pico.est.HighCol = HighColBase;\r
+  rendstatus_old = -1;\r
+}\r
+\r
+// vim:ts=2:sw=2:expandtab\r