X-Git-Url: https://notaz.gp2x.de/cgi-bin/gitweb.cgi?p=pcsx_rearmed.git;a=blobdiff_plain;f=frontend%2Fcspace_neon.S;h=8b201dbe6b411932260a3d4a37da1444967842e7;hp=e7b48a90e1f97a889ab9cdb9d80708622c6f65bb;hb=HEAD;hpb=5c6457c3a3e44b0f39be5221ad4a9d94a432d694

diff --git a/frontend/cspace_neon.S b/frontend/cspace_neon.S
index e7b48a90..3a89fdb9 100644
--- a/frontend/cspace_neon.S
+++ b/frontend/cspace_neon.S
@@ -10,35 +10,65 @@
 
 #include "arm_features.h"
 
+/* sanity check */
+#ifndef __ARM_NEON__
+#error Compiling NEON code, but appropriate preprocessor flag is missing
+#error This usually means -mfpu=neon or -mfloat-abi= is not correctly specified
+#endif
+
 .text
 .align 2
 
-FUNCTION(bgr555_to_rgb565):
+FUNCTION(bgr555_to_rgb565): @ dst, src, bytes
     pld         [r1]
     mov         r3, #0x07c0
     vdup.16     q15, r3
+    tst         r0, #8
+    beq         0f
+    @ align the dst
+    vld1.16     {d0}, [r1]!
+    sub         r2, r2, #8
+    vshl.u16    d0, d0, #1
+    vshl.u16    d1, d0, #10
+    vsri.u16    d1, d0, #11
+    vbit        d1, d0, d30
+    vst1.16     {d1}, [r0]!
+0:
     subs        r2, r2, #64
     blt         btr16_end64
 0:
     pld         [r1, #64*2]
-    vldmia      r1!, {q0-q3}
-    vshl.u16    q4, q0, #11
-    vshl.u16    q5, q1, #11
-    vshl.u16    q6, q2, #11
-    vshl.u16    q7, q3, #11
-    vsri.u16    q4, q0, #10
-    vsri.u16    q5, q1, #10
-    vsri.u16    q6, q2, #10
-    vsri.u16    q7, q3, #10
-    vshl.u16    q0, q0, #1
-    vshl.u16    q1, q1, #1
-    vshl.u16    q2, q2, #1
-    vshl.u16    q3, q3, #1
-    vbit        q4, q0, q15
-    vbit        q5, q1, q15
-    vbit        q6, q2, q15
-    vbit        q7, q3, q15
-    vstmia      r0!, {q4-q7}
+    @ Pulls 15-bit BGR color values (which are actually 16 bits) into q0-q3.
+    @ example:  q0 = 0111 1110 0101 0011
+    vld1.16     {d0-d3}, [r1]!
+    vld1.16     {d4-d7}, [r1]!
+    @ Shift BGR color 1 bit to the left, discarding MSB and preparing for vbit.
+    @ MSB is used for transparency (not needed here, and can mess with green).
+    @ example:  q0 = 1111 1100 1010 0110
+    vshl.u16    q0,  q0, #1
+    vshl.u16    q1,  q1, #1
+    vshl.u16    q2,  q2, #1
+    vshl.u16    q3,  q3, #1
+    @ Places red value in left most bits, clears bits to the right.
+    @ example:  q8 = 1001 1000 0000 0000
+    vshl.u16    q8,  q0, #10
+    vshl.u16    q9,  q1, #10
+    vshl.u16    q10, q2, #10
+    vshl.u16    q11, q3, #10
+    @ Places blue value in right most bits, leaving bits to the left unchanged.
+    @ example:  q8 = 1001 1000 0001 1111
+    vsri.u16    q8,  q0, #11
+    vsri.u16    q9,  q1, #11
+    vsri.u16    q10, q2, #11
+    vsri.u16    q11, q3, #11
+    @ Sets green value from shifted BGR color by apply a mask.
+    @ example: q15 = 0000 0111 1100 0000
+    @           q8 = 1001 1100 1001 1111
+    vbit        q8,  q0, q15
+    vbit        q9,  q1, q15
+    vbit        q10, q2, q15
+    vbit        q11, q3, q15
+    vstmia      r0!, {q8-q11}
     subs        r2, r2, #64
     bge         0b
 
@@ -51,10 +81,10 @@ btr16_end64:
     @ handle the remainder (reasonably rare)
 0:
     vld1.16     {q0}, [r1]!
-    vshl.u16    q1, q0, #11
-    vshl.u16    q2, q0, #1
-    vsri.u16    q1, q0, #10
-    vbit        q1, q2, q15
+    vshl.u16    q0, q0, #1
+    vshl.u16    q1, q0, #10
+    vsri.u16    q1, q0, #11
+    vbit        q1, q0, q15
     subs        r2, r2, #16
     vst1.16     {q1}, [r0]!
     bge         0b
@@ -66,16 +96,98 @@ btr16_end16:
     bxlt        lr
 
     @ very rare
-    vld1.16     d0, [r1]!
-    vshl.u16    d1, d0, #11
-    vshl.u16    d2, d0, #1
-    vsri.u16    d1, d0, #10
-    vbit        d1, d2, d30
-    vst1.16     d1, [r0]!
+    vld1.16     {d0}, [r1]!
+    vshl.u16    d0, d0, #1
+    vshl.u16    d1, d0, #10
+    vsri.u16    d1, d0, #11
+    vbit        d1, d0, d30
+    vst1.16     {d1}, [r0]!
     bx          lr
 
 
-FUNCTION(bgr888_to_rgb888):
+@ note: may overflow source
+FUNCTION(bgr555_to_rgb565_b): @ dst, src, bytes, int brightness2k // 0-0x0800
+    pld         [r1]
+    vdup.16     q15, r3
+    vpush       {q4-q7}
+    mov         r3, #0x1f
+    vdup.16     q14, r3
+0:
+    pld         [r1, #64*2]
+    vld1.16     {d0-d3}, [r1]!
+    vld1.16     {d4-d7}, [r1]!
+    vand.u16    q8,  q0, q14
+    vand.u16    q9,  q1, q14
+    vand.u16    q10, q2, q14
+    vand.u16    q11, q3, q14
+    vmul.u16    q4, q8,  q15
+    vmul.u16    q5, q9,  q15
+    vmul.u16    q6, q10, q15
+    vmul.u16    q7, q11, q15
+
+    vshr.u16    q8,  q0, #5
+    vshr.u16    q9,  q1, #5
+    vshr.u16    q10, q2, #5
+    vshr.u16    q11, q3, #5
+    vand.u16    q8,  q14
+    vand.u16    q9,  q14
+    vand.u16    q10, q14
+    vand.u16    q11, q14
+    vmul.u16    q8,  q15
+    vmul.u16    q9,  q15
+    vmul.u16    q10, q15
+    vmul.u16    q11, q15
+    vsri.u16    q4, q8,  #5
+    vsri.u16    q5, q9,  #5
+    vsri.u16    q6, q10, #5
+    vsri.u16    q7, q11, #5
+
+    vshr.u16    q8,  q0, #10
+    vshr.u16    q9,  q1, #10
+    vshr.u16    q10, q2, #10
+    vshr.u16    q11, q3, #10
+    vand.u16    q8,  q14
+    vand.u16    q9,  q14
+    vand.u16    q10, q14
+    vand.u16    q11, q14
+    vmul.u16    q8,  q15
+    vmul.u16    q9,  q15
+    vmul.u16    q10, q15
+    vmul.u16    q11, q15
+    vsri.u16    q4, q8,  #11
+    vsri.u16    q5, q9,  #11
+    vsri.u16    q6, q10, #11
+    vsri.u16    q7, q11, #11
+
+    subs        r2, r2, #64
+    ble         1f
+    vstmia      r0!, {q4-q7}
+    b           0b
+
+1:
+    blt         0f
+    vstmia      r0!, {q4-q7}
+    b           btr16b_end
+0:
+    subs        r2, r2, #8
+    blt         btr16b_end
+    vst1.16     {q4}, [r0]!
+    subs        r2, r2, #8
+    blt         btr16b_end
+    vst1.16     {q5}, [r0]!
+    subs        r2, r2, #8
+    blt         btr16b_end
+    vst1.16     {q6}, [r0]!
+    subs        r2, r2, #8
+    blt         btr16b_end
+    vst1.16     {q7}, [r0]!
+
+btr16b_end:
+    vpop        {q4-q7}
+    bx          lr
+
+
+FUNCTION(bgr888_to_rgb888): @ dst, src, bytes
     pld         [r1]
     @ r2 /= 48
     mov         r2, r2, lsr #4
@@ -84,8 +196,8 @@ FUNCTION(bgr888_to_rgb888):
     umull       r12,r2, r3, r2
 0:
     pld         [r1, #48*3]
-    vld3.8      {d0-d2}, [r1, :64]!
-    vld3.8      {d3-d5}, [r1, :64]!
+    vld3.8      {d0-d2}, [r1]!
+    vld3.8      {d3-d5}, [r1]!
     vswp        d0, d2
     vswp        d3, d5
     vst3.8      {d0-d2}, [r0, :64]!
@@ -96,7 +208,7 @@ FUNCTION(bgr888_to_rgb888):
     bx          lr
 
 
-FUNCTION(bgr888_to_rgb565):
+FUNCTION(bgr888_to_rgb565): @ dst, src, bytes
     pld         [r1]
     @ r2 /= 48
     mov         r2, r2, lsr #4
@@ -108,8 +220,8 @@ FUNCTION(bgr888_to_rgb565):
     vdup.16     q15, r3
 0:
     pld         [r1, #48*3]
-    vld3.8      {d1-d3}, [r1, :64]!
-    vld3.8      {d5-d7}, [r1, :64]!
+    vld3.8      {d1-d3}, [r1]!
+    vld3.8      {d5-d7}, [r1]!
 
     vshll.u8    q8, d2, #3      @ g
     vshll.u8    q9, d6, #3
@@ -128,7 +240,7 @@ FUNCTION(bgr888_to_rgb565):
     bx          lr
 
 
-FUNCTION(rgb888_to_rgb565):
+FUNCTION(rgb888_to_rgb565): @ dst, src, bytes
     pld         [r1]
     @ r2 /= 48
     mov         r2, r2, lsr #4
@@ -160,4 +272,4 @@ FUNCTION(rgb888_to_rgb565):
     bx          lr
 
 
-@ vim:filetype=armasm
+@ vim:filetype=armasm:expandtab