[pcsx_rearmed.git] / frontend / cspace_neon.S

/*
 * (C) Gražvydas "notaz" Ignotas, 2010
 *
 * This work is licensed under the terms of any of these licenses
 * (at your option):
 *  - GNU GPL, version 2 or later.
 *  - GNU LGPL, version 2.1 or later.
 * See the COPYING file in the top-level directory.
 */

#include "arm_features.h"

/* sanity check */
#ifndef __ARM_NEON__
#error Compiling NEON code, but appropriate preprocessor flag is missing
#error This usually means -mfpu=neon or -mfloat-abi= is not correctly specified
#endif

.text
.align 2

FUNCTION(bgr555_to_rgb565): @ dst, src, bytes
    pld         [r1]
    mov         r3, #0x07c0
    vdup.16     q15, r3
    subs        r2, r2, #64
    blt         btr16_end64
0:
    pld         [r1, #64*2]
    vldmia      r1!, {q0-q3}
    vshl.u16    q8,  q0, #11
    vshl.u16    q9,  q1, #11
    vshl.u16    q10, q2, #11
    vshl.u16    q11, q3, #11
    vsri.u16    q8,  q0, #10
    vsri.u16    q9,  q1, #10
    vsri.u16    q10, q2, #10
    vsri.u16    q11, q3, #10
    vshl.u16    q0,  q0, #1
    vshl.u16    q1,  q1, #1
    vshl.u16    q2,  q2, #1
    vshl.u16    q3,  q3, #1
    vbit        q8,  q0, q15
    vbit        q9,  q1, q15
    vbit        q10, q2, q15
    vbit        q11, q3, q15
    vstmia      r0!, {q8-q11}
    subs        r2, r2, #64
    bge         0b

btr16_end64:
    adds        r2, r2, #64
    bxeq        lr
    subs        r2, r2, #16
    blt         btr16_end16

    @ handle the remainder (reasonably rare)
0:
    vld1.16     {q0}, [r1]!
    vshl.u16    q1, q0, #11
    vshl.u16    q2, q0, #1
    vsri.u16    q1, q0, #10
    vbit        q1, q2, q15
    subs        r2, r2, #16
    vst1.16     {q1}, [r0]!
    bge         0b

btr16_end16:
    adds        r2, r2, #16
    bxeq        lr
    subs        r2, r2, #8
    bxlt        lr

    @ very rare
    vld1.16     {d0}, [r1]!
    vshl.u16    d1, d0, #11
    vshl.u16    d2, d0, #1
    vsri.u16    d1, d0, #10
    vbit        d1, d2, d30
    vst1.16     {d1}, [r0]!
    bx          lr


@ note: may overflow source
FUNCTION(bgr555_to_rgb565_b): @ dst, src, bytes, int brightness2k // 0-0x0800
    pld         [r1]
    vdup.16     q15, r3
    vpush       {q4-q7}
    mov         r3, #0x1f
    vdup.16     q14, r3
0:
    pld         [r1, #64*2]
    vldmia      r1!, {q0-q3}
    vand.u16    q8,  q0, q14
    vand.u16    q9,  q1, q14
    vand.u16    q10, q2, q14
    vand.u16    q11, q3, q14
    vmul.u16    q4, q8,  q15
    vmul.u16    q5, q9,  q15
    vmul.u16    q6, q10, q15
    vmul.u16    q7, q11, q15

    vshr.u16    q8,  q0, #5
    vshr.u16    q9,  q1, #5
    vshr.u16    q10, q2, #5
    vshr.u16    q11, q3, #5
    vand.u16    q8,  q14
    vand.u16    q9,  q14
    vand.u16    q10, q14
    vand.u16    q11, q14
    vmul.u16    q8,  q15
    vmul.u16    q9,  q15
    vmul.u16    q10, q15
    vmul.u16    q11, q15
    vsri.u16    q4, q8,  #5
    vsri.u16    q5, q9,  #5
    vsri.u16    q6, q10, #5
    vsri.u16    q7, q11, #5

    vshr.u16    q8,  q0, #10
    vshr.u16    q9,  q1, #10
    vshr.u16    q10, q2, #10
    vshr.u16    q11, q3, #10
    vand.u16    q8,  q14
    vand.u16    q9,  q14
    vand.u16    q10, q14
    vand.u16    q11, q14
    vmul.u16    q8,  q15
    vmul.u16    q9,  q15
    vmul.u16    q10, q15
    vmul.u16    q11, q15
    vsri.u16    q4, q8,  #11
    vsri.u16    q5, q9,  #11
    vsri.u16    q6, q10, #11
    vsri.u16    q7, q11, #11

    subs        r2, r2, #64
    ble         1f
    vstmia      r0!, {q4-q7}
    b           0b

1:
    blt         0f
    vstmia      r0!, {q4-q7}
    b           btr16b_end
0:
    subs        r2, r2, #8
    blt         btr16b_end
    vst1.16     {q4}, [r0]!
    subs        r2, r2, #8
    blt         btr16b_end
    vst1.16     {q5}, [r0]!
    subs        r2, r2, #8
    blt         btr16b_end
    vst1.16     {q6}, [r0]!
    subs        r2, r2, #8
    blt         btr16b_end
    vst1.16     {q7}, [r0]!

btr16b_end:
    vpop        {q4-q7}
    bx          lr


FUNCTION(bgr888_to_rgb888): @ dst, src, bytes
    pld         [r1]
    @ r2 /= 48
    mov         r2, r2, lsr #4
    movw        r3, #0x5556
    movt        r3, #0x5555
    umull       r12,r2, r3, r2
0:
    pld         [r1, #48*3]
    vld3.8      {d0-d2}, [r1, :64]!
    vld3.8      {d3-d5}, [r1, :64]!
    vswp        d0, d2
    vswp        d3, d5
    vst3.8      {d0-d2}, [r0, :64]!
    vst3.8      {d3-d5}, [r0, :64]!
    subs        r2, r2, #1
    bne         0b

    bx          lr


FUNCTION(bgr888_to_rgb565): @ dst, src, bytes
    pld         [r1]
    @ r2 /= 48
    mov         r2, r2, lsr #4
    movw        r3, #0x5556
    movt        r3, #0x5555
    umull       r12,r2, r3, r2

    mov         r3, #0x07e0
    vdup.16     q15, r3
0:
    pld         [r1, #48*3]
    vld3.8      {d1-d3}, [r1, :64]!
    vld3.8      {d5-d7}, [r1, :64]!

    vshll.u8    q8, d2, #3      @ g
    vshll.u8    q9, d6, #3
    vshr.u8     d0, d3, #3      @ b
    vshr.u8     d4, d7, #3
    vzip.8      d0, d1          @ rb
    vzip.8      d4, d5
    vbit        q0, q8, q15
    vbit        q2, q9, q15

    vstmia      r0!, {d0,d1}
    vstmia      r0!, {d4,d5}
    subs        r2, r2, #1
    bne         0b

    bx          lr


FUNCTION(rgb888_to_rgb565): @ dst, src, bytes
    pld         [r1]
    @ r2 /= 48
    mov         r2, r2, lsr #4
    movw        r3, #0x5556
    movt        r3, #0x5555
    umull       r12,r2, r3, r2

    mov         r3, #0x07e0
    vdup.16     q15, r3
0:
    pld         [r1, #48*3]
    vld3.8      {d1-d3}, [r1, :64]!
    vld3.8      {d5-d7}, [r1, :64]!

    vshll.u8    q8, d2, #3      @ g
    vshll.u8    q9, d6, #3
    vshr.u8     d2, d1, #3      @ b
    vshr.u8     d6, d5, #3
    vzip.8      d2, d3          @ rb
    vzip.8      d6, d7
    vbit        q1, q8, q15
    vbit        q3, q9, q15

    vstmia      r0!, {d2,d3}
    vstmia      r0!, {d6,d7}
    subs        r2, r2, #1
    bne         0b

    bx          lr


@ vim:filetype=armasm
Commit	Line	Data
	1	/*
	2	* (C) Gražvydas "notaz" Ignotas, 2010
	3	*
	4	* This work is licensed under the terms of any of these licenses
	5	* (at your option):
	6	* - GNU GPL, version 2 or later.
	7	* - GNU LGPL, version 2.1 or later.
	8	* See the COPYING file in the top-level directory.
	9	*/
	10
	11	#include "arm_features.h"
	12
	13	/* sanity check */
	14	#ifndef __ARM_NEON__
	15	#error Compiling NEON code, but appropriate preprocessor flag is missing
	16	#error This usually means -mfpu=neon or -mfloat-abi= is not correctly specified
	17	#endif
	18
	19	.text
	20	.align 2
	21
	22	FUNCTION(bgr555_to_rgb565): @ dst, src, bytes
	23	pld [r1]
	24	mov r3, #0x07c0
	25	vdup.16 q15, r3
	26	subs r2, r2, #64
	27	blt btr16_end64
	28	0:
	29	pld [r1, #64*2]
	30	vldmia r1!, {q0-q3}
	31	vshl.u16 q8, q0, #11
	32	vshl.u16 q9, q1, #11
	33	vshl.u16 q10, q2, #11
	34	vshl.u16 q11, q3, #11
	35	vsri.u16 q8, q0, #10
	36	vsri.u16 q9, q1, #10
	37	vsri.u16 q10, q2, #10
	38	vsri.u16 q11, q3, #10
	39	vshl.u16 q0, q0, #1
	40	vshl.u16 q1, q1, #1
	41	vshl.u16 q2, q2, #1
	42	vshl.u16 q3, q3, #1
	43	vbit q8, q0, q15
	44	vbit q9, q1, q15
	45	vbit q10, q2, q15
	46	vbit q11, q3, q15
	47	vstmia r0!, {q8-q11}
	48	subs r2, r2, #64
	49	bge 0b
	50
	51	btr16_end64:
	52	adds r2, r2, #64
	53	bxeq lr
	54	subs r2, r2, #16
	55	blt btr16_end16
	56
	57	@ handle the remainder (reasonably rare)
	58	0:
	59	vld1.16 {q0}, [r1]!
	60	vshl.u16 q1, q0, #11
	61	vshl.u16 q2, q0, #1
	62	vsri.u16 q1, q0, #10
	63	vbit q1, q2, q15
	64	subs r2, r2, #16
	65	vst1.16 {q1}, [r0]!
	66	bge 0b
	67
	68	btr16_end16:
	69	adds r2, r2, #16
	70	bxeq lr
	71	subs r2, r2, #8
	72	bxlt lr
	73
	74	@ very rare
	75	vld1.16 {d0}, [r1]!
	76	vshl.u16 d1, d0, #11
	77	vshl.u16 d2, d0, #1
	78	vsri.u16 d1, d0, #10
	79	vbit d1, d2, d30
	80	vst1.16 {d1}, [r0]!
	81	bx lr
	82
	83
	84	@ note: may overflow source
	85	FUNCTION(bgr555_to_rgb565_b): @ dst, src, bytes, int brightness2k // 0-0x0800
	86	pld [r1]
	87	vdup.16 q15, r3
	88	vpush {q4-q7}
	89	mov r3, #0x1f
	90	vdup.16 q14, r3
	91	0:
	92	pld [r1, #64*2]
	93	vldmia r1!, {q0-q3}
	94	vand.u16 q8, q0, q14
	95	vand.u16 q9, q1, q14
	96	vand.u16 q10, q2, q14
	97	vand.u16 q11, q3, q14
	98	vmul.u16 q4, q8, q15
	99	vmul.u16 q5, q9, q15
	100	vmul.u16 q6, q10, q15
	101	vmul.u16 q7, q11, q15
	102
	103	vshr.u16 q8, q0, #5
	104	vshr.u16 q9, q1, #5
	105	vshr.u16 q10, q2, #5
	106	vshr.u16 q11, q3, #5
	107	vand.u16 q8, q14
	108	vand.u16 q9, q14
	109	vand.u16 q10, q14
	110	vand.u16 q11, q14
	111	vmul.u16 q8, q15
	112	vmul.u16 q9, q15
	113	vmul.u16 q10, q15
	114	vmul.u16 q11, q15
	115	vsri.u16 q4, q8, #5
	116	vsri.u16 q5, q9, #5
	117	vsri.u16 q6, q10, #5
	118	vsri.u16 q7, q11, #5
	119
	120	vshr.u16 q8, q0, #10
	121	vshr.u16 q9, q1, #10
	122	vshr.u16 q10, q2, #10
	123	vshr.u16 q11, q3, #10
	124	vand.u16 q8, q14
	125	vand.u16 q9, q14
	126	vand.u16 q10, q14
	127	vand.u16 q11, q14
	128	vmul.u16 q8, q15
	129	vmul.u16 q9, q15
	130	vmul.u16 q10, q15
	131	vmul.u16 q11, q15
	132	vsri.u16 q4, q8, #11
	133	vsri.u16 q5, q9, #11
	134	vsri.u16 q6, q10, #11
	135	vsri.u16 q7, q11, #11
	136
	137	subs r2, r2, #64
	138	ble 1f
	139	vstmia r0!, {q4-q7}
	140	b 0b
	141
	142	1:
	143	blt 0f
	144	vstmia r0!, {q4-q7}
	145	b btr16b_end
	146	0:
	147	subs r2, r2, #8
	148	blt btr16b_end
	149	vst1.16 {q4}, [r0]!
	150	subs r2, r2, #8
	151	blt btr16b_end
	152	vst1.16 {q5}, [r0]!
	153	subs r2, r2, #8
	154	blt btr16b_end
	155	vst1.16 {q6}, [r0]!
	156	subs r2, r2, #8
	157	blt btr16b_end
	158	vst1.16 {q7}, [r0]!
	159
	160	btr16b_end:
	161	vpop {q4-q7}
	162	bx lr
	163
	164
	165	FUNCTION(bgr888_to_rgb888): @ dst, src, bytes
	166	pld [r1]
	167	@ r2 /= 48
	168	mov r2, r2, lsr #4
	169	movw r3, #0x5556
	170	movt r3, #0x5555
	171	umull r12,r2, r3, r2
	172	0:
	173	pld [r1, #48*3]
	174	vld3.8 {d0-d2}, [r1, :64]!
	175	vld3.8 {d3-d5}, [r1, :64]!
	176	vswp d0, d2
	177	vswp d3, d5
	178	vst3.8 {d0-d2}, [r0, :64]!
	179	vst3.8 {d3-d5}, [r0, :64]!
	180	subs r2, r2, #1
	181	bne 0b
	182
	183	bx lr
	184
	185
	186	FUNCTION(bgr888_to_rgb565): @ dst, src, bytes
	187	pld [r1]
	188	@ r2 /= 48
	189	mov r2, r2, lsr #4
	190	movw r3, #0x5556
	191	movt r3, #0x5555
	192	umull r12,r2, r3, r2
	193
	194	mov r3, #0x07e0
	195	vdup.16 q15, r3
	196	0:
	197	pld [r1, #48*3]
	198	vld3.8 {d1-d3}, [r1, :64]!
	199	vld3.8 {d5-d7}, [r1, :64]!
	200
	201	vshll.u8 q8, d2, #3 @ g
	202	vshll.u8 q9, d6, #3
	203	vshr.u8 d0, d3, #3 @ b
	204	vshr.u8 d4, d7, #3
	205	vzip.8 d0, d1 @ rb
	206	vzip.8 d4, d5
	207	vbit q0, q8, q15
	208	vbit q2, q9, q15
	209
	210	vstmia r0!, {d0,d1}
	211	vstmia r0!, {d4,d5}
	212	subs r2, r2, #1
	213	bne 0b
	214
	215	bx lr
	216
	217
	218	FUNCTION(rgb888_to_rgb565): @ dst, src, bytes
	219	pld [r1]
	220	@ r2 /= 48
	221	mov r2, r2, lsr #4
	222	movw r3, #0x5556
	223	movt r3, #0x5555
	224	umull r12,r2, r3, r2
	225
	226	mov r3, #0x07e0
	227	vdup.16 q15, r3
	228	0:
	229	pld [r1, #48*3]
	230	vld3.8 {d1-d3}, [r1, :64]!
	231	vld3.8 {d5-d7}, [r1, :64]!
	232
	233	vshll.u8 q8, d2, #3 @ g
	234	vshll.u8 q9, d6, #3
	235	vshr.u8 d2, d1, #3 @ b
	236	vshr.u8 d6, d5, #3
	237	vzip.8 d2, d3 @ rb
	238	vzip.8 d6, d7
	239	vbit q1, q8, q15
	240	vbit q3, q9, q15
	241
	242	vstmia r0!, {d2,d3}
	243	vstmia r0!, {d6,d7}
	244	subs r2, r2, #1
	245	bne 0b
	246
	247	bx lr
	248
	249
	250	@ vim:filetype=armasm