[mupen64plus-pandora.git] / RenderBase_neon.S

/*
 * (C) Gražvydas "notaz" Ignotas, 2014
 *
 * This work is licensed under the terms of GNU GPL version 2 or later.
 * See the COPYING file in the top-level directory.
 */

#include "arm_features.h"
#include "RenderBase_neon.h"

.syntax unified
.text
.align 3

/*
 * ProcessVertexData register map:
 *
 *  q | d | c code
 * ...      
 * 12  24   gRSPworldProject _11,_12,_13,_14
 *     25   
 * 13  26   gRSPworldProject _21,_22,_23,_24
 *     27   
 * 14  28   gRSPworldProject _31,_32,_33,_34
 *     29   
 * 15  30   gRSPworldProject _41,_42,_43,_44
 *     31   
 *
 * r4 vtx[], 16 bytes:
 * short y, x, flag, z, tv, tu;
 * / uint8 a, b, g, r;
 * \ char  a, z, y, x;
 *
 *  outputs:
 * r0        - XVECTOR4 *g_vtxTransformed
 * r1        - XVECTOR4 *g_vecProjected
 * r2        - uint32   *g_dwVtxDifColor
 * r3        - VECTOR2  *g_fVtxTxtCoords
 *     sp+00 - float    *g_fFogCoord
 * r6  sp+04 - uint32   *g_clipFlag2
 *  inputs:
 * r11 sp+08 - uint32      dwNum
 * r10 sp+0c - int         neon_flags
 * r4  sp+10 - FiddledVtx  vtx[], (r4 [0], r5 [1])
 * r7  sp+14 - Light      *gRSPlights
 *     sp+18 - float      *fRSPAmbientLightRGBA
 *     sp+1c - XMATRIX    *gRSPworldProject
 *     sp+20 - XMATRIX    *gRSPmodelViewTop
 *     sp+24 - uint32      gRSPnumLights
 *     sp+28 - float       gRSPfFogMin
 *     sp+2c - uint32      primitiveColor
 *     sp+30 - uint32      primitiveColor
 */
FUNCTION(pv_neon):
    ldr         r12, [sp, #0x10]
    pld         [r12]

    push        {r4-r11,lr}
    vpush       {q4-q7}

    mov         r4, r12               @ vtx
    ldr         r12, [sp, #0x64+0x1c]
    vld1.32     {q12,q13}, [r12, :128]! @ load gRSPworldProject
    vld1.32     {q14,q15}, [r12, :128]
    ldr         r6, [sp, #0x64+0x04]  @ g_clipFlag2
    add         r5, r4, #16           @ vtx + 1
    ldr         r11, [sp, #0x64+0x08] @ dwNum
    ldr         r10, [sp, #0x64+0x0c] @ neon_flags

0:
    vld1.16     d12, [r4]!            @ vtx[0] .z .flag .x .y (reg)
    vmovl.s16   q6, d12
    vld1.16     d14, [r5]!            @ vtx[1] .z .flag .x .y
    vmovl.s16   q7, d14
    vcvt.f32.s32 q6, q6               @ q6 = vtx_raw0
    vcvt.f32.s32 q7, q7               @ q7 = vtx_raw1
    vdup.32     q0, d12[1]            @ vtx_raw0.x (dup)
    vdup.32     q1, d12[0]            @ vtx_raw0.y (dup)
    vdup.32     q2, d13[1]            @ vtx_raw0.z (dup)
    vdup.32     q3, d14[1]            @ vtx_raw1.x (dup)
    vdup.32     q4, d14[0]            @ vtx_raw1.y (dup)
    vdup.32     q5, d15[1]            @ vtx_raw1.z (dup)
    /* note: order of operations matters greatly,
     * may cause like 20 fraction bits to differ! */
    vmul.f32    q0, q0, q12
    vmul.f32    q3, q3, q12
    vmla.f32    q0, q1, q13
    vmla.f32    q3, q4, q13
    vmul.f32    q2, q2, q14           @ yes, mul+add is
    vmul.f32    q5, q5, q14           @ faster than mla
    vadd.f32    q0, q2
    vadd.f32    q3, q5
    vadd.f32    q0, q15               @ q0 = g_vtxTransformed[i]
    vadd.f32    q3, q15               @ q3 = g_vtxTransformed[i + 1]

                                      vld1.16     d16[1], [r4]! @ [0].v
    vmov        d2, d1
                                      vld1.16     d16[0], [r4]! @ [0].u
    vsri.64     d2, d7, #32
                                      vld1.16     d18[1], [r5]! @ [0].v
#if 1
    vrecpe.f32  d4, d2                @ inv [0][1] .w
                                      vld1.16     d18[0], [r5]! @ [0].u
    vrecps.f32  d5, d2, d4            @ step
                                      vmovl.s16   q8, d16
    /* g_vtxTransformed[0] */         vst1.32     {q0}, [r0, :128]!
                                      vmovl.s16   q9, d18
                                      vcvt.f32.s32 d16, d16
                                      vcvt.f32.s32 d18, d18
    vmul.f32    d4, d5, d4            @ better inv
                                      bic         r9, r5, #63
                                      pld         [r9, #64]
    vrecps.f32  d5, d2, d4            @ step
                                      cmp         r11, #1
    /* u,v g_fVtxTxtCoords[0] */      vst1.32     {d16}, [r3]!
                                      beq         99f
    /* g_vtxTransformed[1] */         vst1.32     {q3}, [r0, :128]!
    /* ... [1] */                     vst1.32     {d18}, [r3]!
                                      99:
                                      vmov.f32    d20, #1.0
                                      vmov.f32    d21, #-1.0
    vmul.f32    d4, d5, d4            @ better inv [0][1] .w
 #if 0
    vrecps.f32  d5, d2, d4            @ step
    vmul.f32    d4, d5, d4            @ better inv
 #endif
#else
    mov         r12, #0x3f800000      @ 1.0f
    vmov.f32    s6, r12
    vdiv.f32    s8, s6, s4
    vdiv.f32    s9, s6, s5
 #error incomplete
#endif

                                      mov         r8, #X_CLIP_MAX
                                      mov         r9, #Y_CLIP_MAX
                                      vmov        d22, r8, r9
    vmul.f32    q0, q0, d4[1]         @ .x .y .z .w *= [0] .w
    vmul.f32    q1, q3, d4[0]
    vshr.u64    d5, d4, #32           @ [0] .w
                                      mov         r8, #X_CLIP_MIN
                                      mov         r9, #Y_CLIP_MIN
                                      vmov        d23, r8, r9
    vsli.64     d3, d4, #32           @ insert [1] .w
    vsli.64     d1, d5, #32
                                      vsli.u64    d5, d4, #32 @ [0] [1] .w
                                      vcgt.f32    d6, d0, d20 @ .xy > 1.0?
                                      vcgt.f32    d7, d21, d0
                                      vcgt.f32    d4, d5, #0  @ .w > 0?
    vst1.32     {q0}, [r1]!           @ g_vecProjected[0]
                                      vcgt.f32    d8, d2, d20
                                      vcgt.f32    d9, d21, d2
    vld1.32     d0[0], [r4]!          @ mem: [0] .azyx
                                      vand        q3, q11
                                      vand        q4, q11
    cmp         r11, #1
    beq         99f
    vst1.32     {q1}, [r1]!           @ g_vecProjected[1]
99:
                                      vorr        d6, d6, d7
                                      vorr        d7, d8, d9
    vld1.32     d0[1], [r5]!          @ mem: [1] .azyx
                                      vpadd.u32   d6, d7
    vrev32.8    d0, d0                @ make 0xaazzyyxx [1][0]
    vsli.u64    d1, d3, #32           @ d3 = [1] [0] .z
    vmovl.s8    q4, d0
                                      vand        d6, d4
    vmovl.s16   q1, d8
    vmovl.s16   q2, d9
                                      vst1.32     {d6}, [r6]! @ g_clipFlag2

    tst         r10, #PV_NEON_ENABLE_LIGHT
    beq         pv_neon_no_light
@ pv_neon_light:
    @ live NEON registers:
    @ d1    = [1][0] .z (must preserve)
    @ q1,q2 = azyx [1][0]
    @ q12+  = gRSPworldProject
    ldr         r12, [sp, #0x64+0x20]
    vcvt.f32.s32 q1, q1
    vcvt.f32.s32 q2, q2
    vld1.32     {q8,q9}, [r12, :128]! @ load gRSPmodelViewTop
    vld1.32     {q10},   [r12, :128]

    vdup.32     q5, d4[0]             @ [1] .x (dup)
    vdup.32     q6, d4[1]             @ [1] .y (dup)
    vdup.32     q7, d5[0]             @ [1] .z (dup)
    vdup.32     q2, d2[0]             @ [0] .x (dup)
    vdup.32     q3, d2[1]             @ [0] .y (dup)
    vdup.32     q4, d3[0]             @ [0] .z (dup)
    vmul.f32    q2, q2, q8
    vmul.f32    q5, q5, q8
    vmla.f32    q2, q3, q9
    vmla.f32    q5, q6, q9
    vmul.f32    q4, q4, q10
    vmul.f32    q7, q7, q10
    vadd.f32    q4, q2                @ q4 = temp[0] .xyz0
    vadd.f32    q5, q7                @ q5 = temp[1] .xyz0
    vmul.f32    q2, q4, q4            @ temp .xyz0 ^2
    vmul.f32    q3, q5, q5
    vpadd.f32   d2, d4, d5
    vpadd.f32   d3, d6, d7
    movw        r8, #0x0000ffff
    movt        r8, #0x7f7f           @ max normal float, ~3.4e+38
    vdup.32     d4, r8
    vpadd.f32   d2, d2, d3            @ d2 = [1][0] x^2 + y^2 + z^2
    vcgt.f32    d5, d2, #0
    vbif        d2, d4, d5            @ if (d2 == 0) d2 = MAXFLOAT

    vrsqrte.f32 d3, d2                @ ~ 1/sqrt(d2), d2 = [1][0] .sqrsum
    vmul.f32    d4, d3, d2
    ldr         r9, [sp, #0x64+0x18]  @ &fRSPAmbientLightRGBA
    ldr         r7, [sp, #0x64+0x14]  @ gRSPlights
    ldr         r8, [sp, #0x64+0x24]  @ gRSPnumLights
    vrsqrts.f32 d4, d3, d4            @ step
                                      vld1.32     {q6}, [r9] @ rgb
                                      vld1.32     {q7}, [r9] @ rgb
    vmul.f32    d3, d3, d4            @ 1/sqrt(d2)
#if 0 /* not necessary? */
    vmul.f32    d4, d3, d2
    vrsqrts.f32 d4, d3, d4            @ step
    vmul.f32    d3, d3, d4            @ 1/sqrt(d2)
#endif
    vmul.f32    q2, q4, d3[0]         @ q2 = normal[0] .xyz
    vmul.f32    q3, q5, d3[1]         @ q3 = normal[1] .xyz

1:
    vld1.32     {q8}, [r7]
    vmul.f32    q4, q8, q2            @ gRSPlights[l] * normal
    vmul.f32    q5, q8, q3
    vpadd.f32   d8, d8, d9
    vpadd.f32   d10, d10, d11
    vpadd.f32   d8, d8, d10           @ d8 = [1][0] fCosT
    vcgt.f32    d9, d8, #0            @ if (!(fCosT > 0))
    vand        d8, d9                @   fCosT = 0
    add         r9, r7, #OFFSETOF_Light_fr
    vld1.32     {q8}, [r9]            @ .fr .fg .fb
    vdup.32     q5, d8[1]             @ [1] fCosT (dup)
    vdup.32     q4, d8[0]             @
    vmla.f32    q7, q8, q5            @ .rgb += frgb * fCosT
    vmla.f32    q6, q8, q4
    add         r7, #SIZEOF_Light
    subs        r8, #1
    bgt         1b

    movt        r8, #0x437f           @ float 255
    vdup.32     q8, r8
    vcgt.f32    q4, q6, q8            @ if (.rgb > 255)
    vcgt.f32    q5, q7, q8
    vbit        q6, q8, q4            @   .rgb = 255
    vbit        q7, q8, q5
    vcvt.u32.f32 q6, q6
    vcvt.u32.f32 q7, q7
    ldrb        r8, [r4, #-4]         @ .a from vtx
    ldrb        r9, [r5, #-4]
    vext.32     q4, q6, q6, #3        @ reg: .abgr -> .bgra
    vext.32     q5, q7, q7, #3
    vmov.32     d8[0], r8             @ use .a from input
    vmov.32     d10[0], r9
    vmovn.u32   d8, q4
    vmovn.u32   d10, q5
    vmovn.u16   d0, q4
    vmovn.u16   d2, q5
    vsli.u64    d0, d2, #32
    vrev32.8    d0, d0                @ 0xbbggrraa -> 0xaarrggbb
    b           pv_neon_fog_alpha

pv_neon_no_light:
    tst         r10, #PV_NEON_ENABLE_SHADE
    vldr        d0, [sp, #0x64+0x2c]  @ primitiveColor [0] [1]
    beq         pv_neon_fog_alpha
    @ easier to do with ARM
    ldr         r8, [r4, #-4]
    ldr         r9, [r5, #-4]
    ror         r8, #8                @ mem: .argb -> .rgba
    ror         r9, #8                @ reg: 0xbbggrraa -> ..
    vmov        d0, r8, r9

pv_neon_fog_alpha:
    tst         r10, #PV_NEON_FOG_ALPHA
    beq         pv_neon_next
    vmov.f32    d20, #1.0
    vcgt.f32    d2, d1, d20           @ [0] [1] .z > 1.0?
    vcgt.f32    d3, d1, #0            @ > 0?
    movw        r8, #0
    movt        r8, #0x4f7f           @ r8 = (float)(255<<24)
    vbit        d1, d20, d2           @ make 1.0 if needed
    vand        d1, d3
    vdup.32     d4, r8
    vmul.f32    d1, d1, d4
    vcvt.u32.f32 d1, d1
    vmov.u32    d5, #0xff000000
    vbit        d0, d1, d5

pv_neon_next:
    subs        r11, #2
    vst1.32     {d0}, [r2]!           @ g_dwVtxDifColor
    add         r4, #16
    add         r5, #16
    bgt         0b
    nop

    vpop        {q4-q7}
    pop         {r4-r11,pc}
    .size       pv_neon, .-pv_neon
 

@ (float *d, const float *m1, const float *m2, const float *s)
FUNCTION(multiply_subtract2):
    vld1.32     {d1}, [r1]
    vld1.32     {d2}, [r2]
    vmul.f32    d0, d1, d2
    vld1.32     {d3}, [r3]
    vsub.f32    d0, d3
    vst1.32     {d0}, [r0]
    bx          lr
    .size       multiply_subtract2, .-multiply_subtract2


@ (const XVECTOR4 *v0, const XVECTOR4 *v1, const XVECTOR4 *v2)
FUNCTION(tv_direction):
    vld1.32     {q0}, [r0]
    vld1.32     {q2}, [r2]
    vld1.32     {q1}, [r1]
    vsub.f32    d6, d4, d0     @ d6 = V2,V1
    vsub.f32    d7, d4, d2     @ d7 = W2,W1
    vmul.f32    d1, d5         @ d1 = v0.w * v2.w
    vrev64.32   d7, d7
    vmul.f32    d6, d7         @ d6 = V2*W1,V1*W2
    vmul.f32    d1, d3         @ d1 *= v1.w
    vshr.u64    d7, d6, #32
    vsub.f32    d6, d7         @ d6[0] = V1*W2 - V2*W1
    vshr.u64    d1, d1, #32
    vmul.f32    d0, d1, d6
    vmov.32     r0, d0[0]
    bx          lr


@ vim:filetype=armasm:expandtab
Commit	Line	Data
	1	/*
	2	* (C) Gražvydas "notaz" Ignotas, 2014
	3	*
	4	* This work is licensed under the terms of GNU GPL version 2 or later.
	5	* See the COPYING file in the top-level directory.
	6	*/
	7
	8	#include "arm_features.h"
	9	#include "RenderBase_neon.h"
	10
	11	.syntax unified
	12	.text
	13	.align 3
	14
	15	/*
	16	* ProcessVertexData register map:
	17	*
	18	* q \| d \| c code
	19	* ...
	20	* 12 24 gRSPworldProject _11,_12,_13,_14
	21	* 25
	22	* 13 26 gRSPworldProject _21,_22,_23,_24
	23	* 27
	24	* 14 28 gRSPworldProject _31,_32,_33,_34
	25	* 29
	26	* 15 30 gRSPworldProject _41,_42,_43,_44
	27	* 31
	28	*
	29	* r4 vtx[], 16 bytes:
	30	* short y, x, flag, z, tv, tu;
	31	* / uint8 a, b, g, r;
	32	* \ char a, z, y, x;
	33	*
	34	* outputs:
	35	* r0 - XVECTOR4 *g_vtxTransformed
	36	* r1 - XVECTOR4 *g_vecProjected
	37	* r2 - uint32 *g_dwVtxDifColor
	38	* r3 - VECTOR2 *g_fVtxTxtCoords
	39	* sp+00 - float *g_fFogCoord
	40	* r6 sp+04 - uint32 *g_clipFlag2
	41	* inputs:
	42	* r11 sp+08 - uint32 dwNum
	43	* r10 sp+0c - int neon_flags
	44	* r4 sp+10 - FiddledVtx vtx[], (r4 [0], r5 [1])
	45	* r7 sp+14 - Light *gRSPlights
	46	* sp+18 - float *fRSPAmbientLightRGBA
	47	* sp+1c - XMATRIX *gRSPworldProject
	48	* sp+20 - XMATRIX *gRSPmodelViewTop
	49	* sp+24 - uint32 gRSPnumLights
	50	* sp+28 - float gRSPfFogMin
	51	* sp+2c - uint32 primitiveColor
	52	* sp+30 - uint32 primitiveColor
	53	*/
	54	FUNCTION(pv_neon):
	55	ldr r12, [sp, #0x10]
	56	pld [r12]
	57
	58	push {r4-r11,lr}
	59	vpush {q4-q7}
	60
	61	mov r4, r12 @ vtx
	62	ldr r12, [sp, #0x64+0x1c]
	63	vld1.32 {q12,q13}, [r12, :128]! @ load gRSPworldProject
	64	vld1.32 {q14,q15}, [r12, :128]
	65	ldr r6, [sp, #0x64+0x04] @ g_clipFlag2
	66	add r5, r4, #16 @ vtx + 1
	67	ldr r11, [sp, #0x64+0x08] @ dwNum
	68	ldr r10, [sp, #0x64+0x0c] @ neon_flags
	69
	70	0:
	71	vld1.16 d12, [r4]! @ vtx[0] .z .flag .x .y (reg)
	72	vmovl.s16 q6, d12
	73	vld1.16 d14, [r5]! @ vtx[1] .z .flag .x .y
	74	vmovl.s16 q7, d14
	75	vcvt.f32.s32 q6, q6 @ q6 = vtx_raw0
	76	vcvt.f32.s32 q7, q7 @ q7 = vtx_raw1
	77	vdup.32 q0, d12[1] @ vtx_raw0.x (dup)
	78	vdup.32 q1, d12[0] @ vtx_raw0.y (dup)
	79	vdup.32 q2, d13[1] @ vtx_raw0.z (dup)
	80	vdup.32 q3, d14[1] @ vtx_raw1.x (dup)
	81	vdup.32 q4, d14[0] @ vtx_raw1.y (dup)
	82	vdup.32 q5, d15[1] @ vtx_raw1.z (dup)
	83	/* note: order of operations matters greatly,
	84	* may cause like 20 fraction bits to differ! */
	85	vmul.f32 q0, q0, q12
	86	vmul.f32 q3, q3, q12
	87	vmla.f32 q0, q1, q13
	88	vmla.f32 q3, q4, q13
	89	vmul.f32 q2, q2, q14 @ yes, mul+add is
	90	vmul.f32 q5, q5, q14 @ faster than mla
	91	vadd.f32 q0, q2
	92	vadd.f32 q3, q5
	93	vadd.f32 q0, q15 @ q0 = g_vtxTransformed[i]
	94	vadd.f32 q3, q15 @ q3 = g_vtxTransformed[i + 1]
	95
	96	vld1.16 d16[1], [r4]! @ [0].v
	97	vmov d2, d1
	98	vld1.16 d16[0], [r4]! @ [0].u
	99	vsri.64 d2, d7, #32
	100	vld1.16 d18[1], [r5]! @ [0].v
	101	#if 1
	102	vrecpe.f32 d4, d2 @ inv [0][1] .w
	103	vld1.16 d18[0], [r5]! @ [0].u
	104	vrecps.f32 d5, d2, d4 @ step
	105	vmovl.s16 q8, d16
	106	/* g_vtxTransformed[0] */ vst1.32 {q0}, [r0, :128]!
	107	vmovl.s16 q9, d18
	108	vcvt.f32.s32 d16, d16
	109	vcvt.f32.s32 d18, d18
	110	vmul.f32 d4, d5, d4 @ better inv
	111	bic r9, r5, #63
	112	pld [r9, #64]
	113	vrecps.f32 d5, d2, d4 @ step
	114	cmp r11, #1
	115	/* u,v g_fVtxTxtCoords[0] */ vst1.32 {d16}, [r3]!
	116	beq 99f
	117	/* g_vtxTransformed[1] */ vst1.32 {q3}, [r0, :128]!
	118	/* ... [1] */ vst1.32 {d18}, [r3]!
	119	99:
	120	vmov.f32 d20, #1.0
	121	vmov.f32 d21, #-1.0
	122	vmul.f32 d4, d5, d4 @ better inv [0][1] .w
	123	#if 0
	124	vrecps.f32 d5, d2, d4 @ step
	125	vmul.f32 d4, d5, d4 @ better inv
	126	#endif
	127	#else
	128	mov r12, #0x3f800000 @ 1.0f
	129	vmov.f32 s6, r12
	130	vdiv.f32 s8, s6, s4
	131	vdiv.f32 s9, s6, s5
	132	#error incomplete
	133	#endif
	134
	135	mov r8, #X_CLIP_MAX
	136	mov r9, #Y_CLIP_MAX
	137	vmov d22, r8, r9
	138	vmul.f32 q0, q0, d4[1] @ .x .y .z .w *= [0] .w
	139	vmul.f32 q1, q3, d4[0]
	140	vshr.u64 d5, d4, #32 @ [0] .w
	141	mov r8, #X_CLIP_MIN
	142	mov r9, #Y_CLIP_MIN
	143	vmov d23, r8, r9
	144	vsli.64 d3, d4, #32 @ insert [1] .w
	145	vsli.64 d1, d5, #32
	146	vsli.u64 d5, d4, #32 @ [0] [1] .w
	147	vcgt.f32 d6, d0, d20 @ .xy > 1.0?
	148	vcgt.f32 d7, d21, d0
	149	vcgt.f32 d4, d5, #0 @ .w > 0?
	150	vst1.32 {q0}, [r1]! @ g_vecProjected[0]
	151	vcgt.f32 d8, d2, d20
	152	vcgt.f32 d9, d21, d2
	153	vld1.32 d0[0], [r4]! @ mem: [0] .azyx
	154	vand q3, q11
	155	vand q4, q11
	156	cmp r11, #1
	157	beq 99f
	158	vst1.32 {q1}, [r1]! @ g_vecProjected[1]
	159	99:
	160	vorr d6, d6, d7
	161	vorr d7, d8, d9
	162	vld1.32 d0[1], [r5]! @ mem: [1] .azyx
	163	vpadd.u32 d6, d7
	164	vrev32.8 d0, d0 @ make 0xaazzyyxx [1][0]
	165	vsli.u64 d1, d3, #32 @ d3 = [1] [0] .z
	166	vmovl.s8 q4, d0
	167	vand d6, d4
	168	vmovl.s16 q1, d8
	169	vmovl.s16 q2, d9
	170	vst1.32 {d6}, [r6]! @ g_clipFlag2
	171
	172	tst r10, #PV_NEON_ENABLE_LIGHT
	173	beq pv_neon_no_light
	174	@ pv_neon_light:
	175	@ live NEON registers:
	176	@ d1 = [1][0] .z (must preserve)
	177	@ q1,q2 = azyx [1][0]
	178	@ q12+ = gRSPworldProject
	179	ldr r12, [sp, #0x64+0x20]
	180	vcvt.f32.s32 q1, q1
	181	vcvt.f32.s32 q2, q2
	182	vld1.32 {q8,q9}, [r12, :128]! @ load gRSPmodelViewTop
	183	vld1.32 {q10}, [r12, :128]
	184
	185	vdup.32 q5, d4[0] @ [1] .x (dup)
	186	vdup.32 q6, d4[1] @ [1] .y (dup)
	187	vdup.32 q7, d5[0] @ [1] .z (dup)
	188	vdup.32 q2, d2[0] @ [0] .x (dup)
	189	vdup.32 q3, d2[1] @ [0] .y (dup)
	190	vdup.32 q4, d3[0] @ [0] .z (dup)
	191	vmul.f32 q2, q2, q8
	192	vmul.f32 q5, q5, q8
	193	vmla.f32 q2, q3, q9
	194	vmla.f32 q5, q6, q9
	195	vmul.f32 q4, q4, q10
	196	vmul.f32 q7, q7, q10
	197	vadd.f32 q4, q2 @ q4 = temp[0] .xyz0
	198	vadd.f32 q5, q7 @ q5 = temp[1] .xyz0
	199	vmul.f32 q2, q4, q4 @ temp .xyz0 ^2
	200	vmul.f32 q3, q5, q5
	201	vpadd.f32 d2, d4, d5
	202	vpadd.f32 d3, d6, d7
	203	movw r8, #0x0000ffff
	204	movt r8, #0x7f7f @ max normal float, ~3.4e+38
	205	vdup.32 d4, r8
	206	vpadd.f32 d2, d2, d3 @ d2 = [1][0] x^2 + y^2 + z^2
	207	vcgt.f32 d5, d2, #0
	208	vbif d2, d4, d5 @ if (d2 == 0) d2 = MAXFLOAT
	209
	210	vrsqrte.f32 d3, d2 @ ~ 1/sqrt(d2), d2 = [1][0] .sqrsum
	211	vmul.f32 d4, d3, d2
	212	ldr r9, [sp, #0x64+0x18] @ &fRSPAmbientLightRGBA
	213	ldr r7, [sp, #0x64+0x14] @ gRSPlights
	214	ldr r8, [sp, #0x64+0x24] @ gRSPnumLights
	215	vrsqrts.f32 d4, d3, d4 @ step
	216	vld1.32 {q6}, [r9] @ rgb
	217	vld1.32 {q7}, [r9] @ rgb
	218	vmul.f32 d3, d3, d4 @ 1/sqrt(d2)
	219	#if 0 /* not necessary? */
	220	vmul.f32 d4, d3, d2
	221	vrsqrts.f32 d4, d3, d4 @ step
	222	vmul.f32 d3, d3, d4 @ 1/sqrt(d2)
	223	#endif
	224	vmul.f32 q2, q4, d3[0] @ q2 = normal[0] .xyz
	225	vmul.f32 q3, q5, d3[1] @ q3 = normal[1] .xyz
	226
	227	1:
	228	vld1.32 {q8}, [r7]
	229	vmul.f32 q4, q8, q2 @ gRSPlights[l] * normal
	230	vmul.f32 q5, q8, q3
	231	vpadd.f32 d8, d8, d9
	232	vpadd.f32 d10, d10, d11
	233	vpadd.f32 d8, d8, d10 @ d8 = [1][0] fCosT
	234	vcgt.f32 d9, d8, #0 @ if (!(fCosT > 0))
	235	vand d8, d9 @ fCosT = 0
	236	add r9, r7, #OFFSETOF_Light_fr
	237	vld1.32 {q8}, [r9] @ .fr .fg .fb
	238	vdup.32 q5, d8[1] @ [1] fCosT (dup)
	239	vdup.32 q4, d8[0] @
	240	vmla.f32 q7, q8, q5 @ .rgb += frgb * fCosT
	241	vmla.f32 q6, q8, q4
	242	add r7, #SIZEOF_Light
	243	subs r8, #1
	244	bgt 1b
	245
	246	movt r8, #0x437f @ float 255
	247	vdup.32 q8, r8
	248	vcgt.f32 q4, q6, q8 @ if (.rgb > 255)
	249	vcgt.f32 q5, q7, q8
	250	vbit q6, q8, q4 @ .rgb = 255
	251	vbit q7, q8, q5
	252	vcvt.u32.f32 q6, q6
	253	vcvt.u32.f32 q7, q7
	254	ldrb r8, [r4, #-4] @ .a from vtx
	255	ldrb r9, [r5, #-4]
	256	vext.32 q4, q6, q6, #3 @ reg: .abgr -> .bgra
	257	vext.32 q5, q7, q7, #3
	258	vmov.32 d8[0], r8 @ use .a from input
	259	vmov.32 d10[0], r9
	260	vmovn.u32 d8, q4
	261	vmovn.u32 d10, q5
	262	vmovn.u16 d0, q4
	263	vmovn.u16 d2, q5
	264	vsli.u64 d0, d2, #32
	265	vrev32.8 d0, d0 @ 0xbbggrraa -> 0xaarrggbb
	266	b pv_neon_fog_alpha
	267
	268	pv_neon_no_light:
	269	tst r10, #PV_NEON_ENABLE_SHADE
	270	vldr d0, [sp, #0x64+0x2c] @ primitiveColor [0] [1]
	271	beq pv_neon_fog_alpha
	272	@ easier to do with ARM
	273	ldr r8, [r4, #-4]
	274	ldr r9, [r5, #-4]
	275	ror r8, #8 @ mem: .argb -> .rgba
	276	ror r9, #8 @ reg: 0xbbggrraa -> ..
	277	vmov d0, r8, r9
	278
	279	pv_neon_fog_alpha:
	280	tst r10, #PV_NEON_FOG_ALPHA
	281	beq pv_neon_next
	282	vmov.f32 d20, #1.0
	283	vcgt.f32 d2, d1, d20 @ [0] [1] .z > 1.0?
	284	vcgt.f32 d3, d1, #0 @ > 0?
	285	movw r8, #0
	286	movt r8, #0x4f7f @ r8 = (float)(255<<24)
	287	vbit d1, d20, d2 @ make 1.0 if needed
	288	vand d1, d3
	289	vdup.32 d4, r8
	290	vmul.f32 d1, d1, d4
	291	vcvt.u32.f32 d1, d1
	292	vmov.u32 d5, #0xff000000
	293	vbit d0, d1, d5
	294
	295	pv_neon_next:
	296	subs r11, #2
	297	vst1.32 {d0}, [r2]! @ g_dwVtxDifColor
	298	add r4, #16
	299	add r5, #16
	300	bgt 0b
	301	nop
	302
	303	vpop {q4-q7}
	304	pop {r4-r11,pc}
	305	.size pv_neon, .-pv_neon
	306
	307
	308	@ (float d, const float m1, const float m2, const float s)
	309	FUNCTION(multiply_subtract2):
	310	vld1.32 {d1}, [r1]
	311	vld1.32 {d2}, [r2]
	312	vmul.f32 d0, d1, d2
	313	vld1.32 {d3}, [r3]
	314	vsub.f32 d0, d3
	315	vst1.32 {d0}, [r0]
	316	bx lr
	317	.size multiply_subtract2, .-multiply_subtract2
	318
	319
	320	@ (const XVECTOR4 v0, const XVECTOR4 v1, const XVECTOR4 *v2)
	321	FUNCTION(tv_direction):
	322	vld1.32 {q0}, [r0]
	323	vld1.32 {q2}, [r2]
	324	vld1.32 {q1}, [r1]
	325	vsub.f32 d6, d4, d0 @ d6 = V2,V1
	326	vsub.f32 d7, d4, d2 @ d7 = W2,W1
	327	vmul.f32 d1, d5 @ d1 = v0.w * v2.w
	328	vrev64.32 d7, d7
	329	vmul.f32 d6, d7 @ d6 = V2W1,V1W2
	330	vmul.f32 d1, d3 @ d1 *= v1.w
	331	vshr.u64 d7, d6, #32
	332	vsub.f32 d6, d7 @ d6[0] = V1W2 - V2W1
	333	vshr.u64 d1, d1, #32
	334	vmul.f32 d0, d1, d6
	335	vmov.32 r0, d0[0]
	336	bx lr
	337
	338
	339	@ vim:filetype=armasm:expandtab