frontend/cspace_neon.S

   1 /*
   2  * (C) Gražvydas "notaz" Ignotas, 2010
   3  *
   4  * This work is licensed under the terms of any of these licenses
   5  * (at your option):
   6  *  - GNU GPL, version 2 or later.
   7  *  - GNU LGPL, version 2.1 or later.
   8  * See the COPYING file in the top-level directory.
   9  */
  10
  11 #include "arm_features.h"
  12
  13 /* sanity check */
  14 #ifndef __ARM_NEON__
  15 #error Compiling NEON code, but appropriate preprocessor flag is missing
  16 #error This usually means -mfpu=neon or -mfloat-abi= is not correctly specified
  17 #endif
  18
  19 .text
  20 .align 2
  21
  22 FUNCTION(bgr555_to_rgb565):
  23     pld         [r1]
  24     mov         r3, #0x07c0
  25     vdup.16     q15, r3
  26     subs        r2, r2, #64
  27     blt         btr16_end64
  28 0:
  29     pld         [r1, #64*2]
  30     vldmia      r1!, {q0-q3}
  31     vshl.u16    q4, q0, #11
  32     vshl.u16    q5, q1, #11
  33     vshl.u16    q6, q2, #11
  34     vshl.u16    q7, q3, #11
  35     vsri.u16    q4, q0, #10
  36     vsri.u16    q5, q1, #10
  37     vsri.u16    q6, q2, #10
  38     vsri.u16    q7, q3, #10
  39     vshl.u16    q0, q0, #1
  40     vshl.u16    q1, q1, #1
  41     vshl.u16    q2, q2, #1
  42     vshl.u16    q3, q3, #1
  43     vbit        q4, q0, q15
  44     vbit        q5, q1, q15
  45     vbit        q6, q2, q15
  46     vbit        q7, q3, q15
  47     vstmia      r0!, {q4-q7}
  48     subs        r2, r2, #64
  49     bge         0b
  50
  51 btr16_end64:
  52     adds        r2, r2, #64
  53     bxeq        lr
  54     subs        r2, r2, #16
  55     blt         btr16_end16
  56
  57     @ handle the remainder (reasonably rare)
  58 0:
  59     vld1.16     {q0}, [r1]!
  60     vshl.u16    q1, q0, #11
  61     vshl.u16    q2, q0, #1
  62     vsri.u16    q1, q0, #10
  63     vbit        q1, q2, q15
  64     subs        r2, r2, #16
  65     vst1.16     {q1}, [r0]!
  66     bge         0b
  67
  68 btr16_end16:
  69     adds        r2, r2, #16
  70     bxeq        lr
  71     subs        r2, r2, #8
  72     bxlt        lr
  73
  74     @ very rare
  75     vld1.16     d0, [r1]!
  76     vshl.u16    d1, d0, #11
  77     vshl.u16    d2, d0, #1
  78     vsri.u16    d1, d0, #10
  79     vbit        d1, d2, d30
  80     vst1.16     d1, [r0]!
  81     bx          lr
  82
  83
  84 FUNCTION(bgr888_to_rgb888):
  85     pld         [r1]
  86     @ r2 /= 48
  87     mov         r2, r2, lsr #4
  88     movw        r3, #0x5556
  89     movt        r3, #0x5555
  90     umull       r12,r2, r3, r2
  91 0:
  92     pld         [r1, #48*3]
  93     vld3.8      {d0-d2}, [r1, :64]!
  94     vld3.8      {d3-d5}, [r1, :64]!
  95     vswp        d0, d2
  96     vswp        d3, d5
  97     vst3.8      {d0-d2}, [r0, :64]!
  98     vst3.8      {d3-d5}, [r0, :64]!
  99     subs        r2, r2, #1
 100     bne         0b
 101
 102     bx          lr
 103
 104
 105 FUNCTION(bgr888_to_rgb565):
 106     pld         [r1]
 107     @ r2 /= 48
 108     mov         r2, r2, lsr #4
 109     movw        r3, #0x5556
 110     movt        r3, #0x5555
 111     umull       r12,r2, r3, r2
 112
 113     mov         r3, #0x07e0
 114     vdup.16     q15, r3
 115 0:
 116     pld         [r1, #48*3]
 117     vld3.8      {d1-d3}, [r1, :64]!
 118     vld3.8      {d5-d7}, [r1, :64]!
 119
 120     vshll.u8    q8, d2, #3      @ g
 121     vshll.u8    q9, d6, #3
 122     vshr.u8     d0, d3, #3      @ b
 123     vshr.u8     d4, d7, #3
 124     vzip.8      d0, d1          @ rb
 125     vzip.8      d4, d5
 126     vbit        q0, q8, q15
 127     vbit        q2, q9, q15
 128
 129     vstmia      r0!, {d0,d1}
 130     vstmia      r0!, {d4,d5}
 131     subs        r2, r2, #1
 132     bne         0b
 133
 134     bx          lr
 135
 136
 137 FUNCTION(rgb888_to_rgb565):
 138     pld         [r1]
 139     @ r2 /= 48
 140     mov         r2, r2, lsr #4
 141     movw        r3, #0x5556
 142     movt        r3, #0x5555
 143     umull       r12,r2, r3, r2
 144
 145     mov         r3, #0x07e0
 146     vdup.16     q15, r3
 147 0:
 148     pld         [r1, #48*3]
 149     vld3.8      {d1-d3}, [r1, :64]!
 150     vld3.8      {d5-d7}, [r1, :64]!
 151
 152     vshll.u8    q8, d2, #3      @ g
 153     vshll.u8    q9, d6, #3
 154     vshr.u8     d2, d1, #3      @ b
 155     vshr.u8     d6, d5, #3
 156     vzip.8      d2, d3          @ rb
 157     vzip.8      d6, d7
 158     vbit        q1, q8, q15
 159     vbit        q3, q9, q15
 160
 161     vstmia      r0!, {d2,d3}
 162     vstmia      r0!, {d6,d7}
 163     subs        r2, r2, #1
 164     bne         0b
 165
 166     bx          lr
 167
 168
 169 @ vim:filetype=armasm