[mupen64plus-pandora.git] / source / gles2rice / src / RenderBase_neon.S

/*
 * (C) Gražvydas "notaz" Ignotas, 2014
 *
 * This work is licensed under the terms of GNU GPL version 2 or later.
 * See the COPYING file in the top-level directory.
 */

#include "arm_features.h"
#include "RenderBase_neon.h"

.syntax unified
.text
.align 3

/*
 * ProcessVertexData register map:
 *
 *  q | d | c code
 * ...      
 * 12  24   gRSPworldProject _11,_12,_13,_14
 *     25   
 * 13  26   gRSPworldProject _21,_22,_23,_24
 *     27   
 * 14  28   gRSPworldProject _31,_32,_33,_34
 *     29   
 * 15  30   gRSPworldProject _41,_42,_43,_44
 *     31   
 *
 * r4 vtx[], 16 bytes:
 * short y, x, flag, z, tv, tu;
 * / uint8 a, b, g, r;
 * \ char  a, z, y, x;
 *
 *  outputs:
 * r0        - XVECTOR4 *g_vtxTransformed
 * r1        - XVECTOR4 *g_vecProjected
 * r2        - uint32   *g_dwVtxDifColor
 * r3        - VECTOR2  *g_fVtxTxtCoords
 *     sp+00 - float    *g_fFogCoord
 * r6  sp+04 - uint32   *g_clipFlag2
 *  inputs:
 * r11 sp+08 - uint32      dwNum
 * r10 sp+0c - int         neon_flags
 * r4  sp+10 - FiddledVtx  vtx[], (r4 [0], r5 [1])
 * r7  sp+14 - Light      *gRSPlights
 *     sp+18 - float      *fRSPAmbientLightRGBA
 *     sp+1c - XMATRIX    *gRSPworldProject
 *     sp+20 - XMATRIX    *gRSPmodelViewTop
 *     sp+24 - uint32      gRSPnumLights
 *     sp+28 - float       gRSPfFogMin
 *     sp+2c - uint32      primitiveColor
 *     sp+30 - uint32      primitiveColor
 */
FUNCTION(pv_neon):
    ldr         r12, [sp, #0x10]
    pld         [r12]

    push        {r4-r11,lr}
    vpush       {q4-q7}

    mov         r4, r12               @ vtx
    ldr         r12, [sp, #0x64+0x1c]
    vld1.32     {q12,q13}, [r12, :128]! @ load gRSPworldProject
    vld1.32     {q14,q15}, [r12, :128]
    ldr         r6, [sp, #0x64+0x04]  @ g_clipFlag2
    add         r5, r4, #16           @ vtx + 1
    ldr         r11, [sp, #0x64+0x08] @ dwNum
    ldr         r10, [sp, #0x64+0x0c] @ neon_flags

0:
    vld1.16     d12, [r4]!            @ vtx[0] .z .flag .x .y (reg)
    vmovl.s16   q6, d12
    vld1.16     d14, [r5]!            @ vtx[1] .z .flag .x .y
    vmovl.s16   q7, d14
    vcvt.f32.s32 q6, q6               @ q6 = vtx_raw0
    vcvt.f32.s32 q7, q7               @ q7 = vtx_raw1
    vdup.32     q0, d12[1]            @ vtx_raw0.x (dup)
    vdup.32     q1, d12[0]            @ vtx_raw0.y (dup)
    vdup.32     q2, d13[1]            @ vtx_raw0.z (dup)
    vdup.32     q3, d14[1]            @ vtx_raw1.x (dup)
    vdup.32     q4, d14[0]            @ vtx_raw1.y (dup)
    vdup.32     q5, d15[1]            @ vtx_raw1.z (dup)
    /* note: order of operations matters greatly,
     * may cause like 20 fraction bits to differ! */
    vmul.f32    q0, q0, q12
    vmul.f32    q3, q3, q12
    vmla.f32    q0, q1, q13
    vmla.f32    q3, q4, q13
    vmul.f32    q2, q2, q14           @ yes, mul+add is
    vmul.f32    q5, q5, q14           @ faster than mla
    vadd.f32    q0, q2
    vadd.f32    q3, q5
    vadd.f32    q0, q15               @ q0 = g_vtxTransformed[i]
    vadd.f32    q3, q15               @ q3 = g_vtxTransformed[i + 1]

                                      vld1.16     d16[1], [r4]! @ [0].v
    vmov        d2, d1
                                      vld1.16     d16[0], [r4]! @ [0].u
    vsri.64     d2, d7, #32
                                      vld1.16     d18[1], [r5]! @ [0].v
#if 1
    vrecpe.f32  d4, d2                @ inv [0][1] .w
                                      vld1.16     d18[0], [r5]! @ [0].u
    vrecps.f32  d5, d2, d4            @ step
                                      vmovl.s16   q8, d16
    /* write g_vtxTransformed */      vst1.32     {q0}, [r0, :128]!
                                      vmovl.s16   q9, d18
    /* ... [1] */                     vst1.32     {q3}, [r0, :128]!
                                      vcvt.f32.s32 d16, d16
                                      vcvt.f32.s32 d18, d18
    vmul.f32    d4, d5, d4            @ better inv
                                      bic         r9, r5, #63
                                      pld         [r9, #64]
    vrecps.f32  d5, d2, d4            @ step
    /* wrt u,v to g_fVtxTxtCoords */  vst1.32     {d16}, [r3]!
    /* ... [1] */                     vst1.32     {d18}, [r3]!
                                      vmov.f32    d20, #1.0
                                      vmov.f32    d21, #-1.0
    vmul.f32    d4, d5, d4            @ better inv [0][1] .w
 #if 0
    vrecps.f32  d5, d2, d4            @ step
    vmul.f32    d4, d5, d4            @ better inv
 #endif
#else
    mov         r12, #0x3f800000      @ 1.0f
    vmov.f32    s6, r12
    vdiv.f32    s8, s6, s4
    vdiv.f32    s9, s6, s5
 #error incomplete
#endif

                                      mov         r8, #X_CLIP_MAX
                                      mov         r9, #Y_CLIP_MAX
                                      vmov        d22, r8, r9
    vmul.f32    q0, q0, d4[1]         @ .x .y .z .w *= [0] .w
    vmul.f32    q1, q3, d4[0]
    vshr.u64    d5, d4, #32           @ [0] .w
                                      mov         r8, #X_CLIP_MIN
                                      mov         r9, #Y_CLIP_MIN
                                      vmov        d23, r8, r9
    vsli.64     d3, d4, #32           @ insert [1] .w
    vsli.64     d1, d5, #32
                                      vsli.u64    d5, d4, #32 @ [0] [1] .w
                                      vcgt.f32    d6, d0, d20 @ .xy > 1.0?
                                      vcgt.f32    d7, d21, d0
                                      vcgt.f32    d4, d5, #0  @ .w > 0?
    vst1.32     {q0,q1}, [r1]!        @ wrt g_vecProjected
                                      vcgt.f32    d8, d2, d20
                                      vcgt.f32    d9, d21, d2
    vld1.32     d0[0], [r4]!          @ mem: [0] .azyx
                                      vand        q3, q11
                                      vand        q4, q11
                                      vorr        d6, d6, d7
                                      vorr        d7, d8, d9
    vld1.32     d0[1], [r5]!          @ mem: [1] .azyx
                                      vpadd.u32   d6, d7
    vrev32.8    d0, d0                @ make 0xaazzyyxx [1][0]
    vsli.u64    d1, d3, #32           @ d3 = [1] [0] .z
    vmovl.s8    q4, d0
                                      vand        d6, d4
    vmovl.s16   q1, d8
    vmovl.s16   q2, d9
                                      vst1.32     {d6}, [r6]! @ g_clipFlag2

    tst         r10, #PV_NEON_ENABLE_LIGHT
    beq         pv_neon_no_light
@ pv_neon_light:
    @ live NEON registers:
    @ d1    = [1][0] .z (must preserve)
    @ q1,q2 = azyx [1][0]
    @ q12+  = gRSPworldProject
    ldr         r12, [sp, #0x64+0x20]
    vcvt.f32.s32 q1, q1
    vcvt.f32.s32 q2, q2
    vld1.32     {q8,q9}, [r12, :128]! @ load gRSPmodelViewTop
    vld1.32     {q10},   [r12, :128]

    vdup.32     q5, d4[0]             @ [1] .x (dup)
    vdup.32     q6, d4[1]             @ [1] .y (dup)
    vdup.32     q7, d5[0]             @ [1] .z (dup)
    vdup.32     q2, d2[0]             @ [0] .x (dup)
    vdup.32     q3, d2[1]             @ [0] .y (dup)
    vdup.32     q4, d3[0]             @ [0] .z (dup)
    vmul.f32    q2, q2, q8
    vmul.f32    q5, q5, q8
    vmla.f32    q2, q3, q9
    vmla.f32    q5, q6, q9
    vmul.f32    q4, q4, q10
    vmul.f32    q7, q7, q10
    vadd.f32    q4, q2                @ q4 = temp[0] .xyz0
    vadd.f32    q5, q7                @ q5 = temp[1] .xyz0
    vmul.f32    q2, q4, q4            @ temp .xyz0 ^2
    vmul.f32    q3, q5, q5
    vpadd.f32   d2, d4, d5
    vpadd.f32   d3, d6, d7
    movw        r8, #0x0000ffff
    movt        r8, #0x7f7f           @ max normal float, ~3.4e+38
    vdup.32     d4, r8
    vpadd.f32   d2, d2, d3            @ d2 = [1][0] x^2 + y^2 + z^2
    vcgt.f32    d5, d2, #0
    vbif        d2, d4, d5            @ if (d2 == 0) d2 = MAXFLOAT

    vrsqrte.f32 d3, d2                @ ~ 1/sqrt(d2), d2 = [1][0] .sqrsum
    vmul.f32    d4, d3, d2
    ldr         r9, [sp, #0x64+0x18]  @ &fRSPAmbientLightRGBA
    ldr         r7, [sp, #0x64+0x14]  @ gRSPlights
    ldr         r8, [sp, #0x64+0x24]  @ gRSPnumLights
    vrsqrts.f32 d4, d3, d4            @ step
                                      vld1.32     {q6}, [r9] @ rgb
                                      vld1.32     {q7}, [r9] @ rgb
    vmul.f32    d3, d3, d4            @ 1/sqrt(d2)
#if 0 /* not necessary? */
    vmul.f32    d4, d3, d2
    vrsqrts.f32 d4, d3, d4            @ step
    vmul.f32    d3, d3, d4            @ 1/sqrt(d2)
#endif
    vmul.f32    q2, q4, d3[0]         @ q2 = normal[0] .xyz
    vmul.f32    q3, q5, d3[1]         @ q3 = normal[1] .xyz

1:
    vld1.32     {q8}, [r7]
    vmul.f32    q4, q8, q2            @ gRSPlights[l] * normal
    vmul.f32    q5, q8, q3
    vpadd.f32   d8, d8, d9
    vpadd.f32   d10, d10, d11
    vpadd.f32   d8, d8, d10           @ d8 = [1][0] fCosT
    vcgt.f32    d9, d8, #0            @ if (!(fCosT > 0))
    vand        d8, d9                @   fCosT = 0
    add         r9, r7, #OFFSETOF_Light_fr
    vld1.32     {q8}, [r9]            @ .fr .fg .fb
    vdup.32     q5, d8[1]             @ [1] fCosT (dup)
    vdup.32     q4, d8[0]             @
    vmla.f32    q7, q8, q5            @ .rgb += frgb * fCosT
    vmla.f32    q6, q8, q4
    add         r7, #SIZEOF_Light
    subs        r8, #1
    bgt         1b

    movt        r8, #0x437f           @ float 255
    vdup.32     q8, r8
    vcgt.f32    q4, q6, q8            @ if (.rgb > 255)
    vcgt.f32    q5, q7, q8
    vbit        q6, q8, q4            @   .rgb = 255
    vbit        q7, q8, q5
    vcvt.u32.f32 q6, q6
    vcvt.u32.f32 q7, q7
    ldrb        r8, [r4, #-4]         @ .a from vtx
    ldrb        r9, [r5, #-4]
    vext.32     q4, q6, q6, #3        @ reg: .abgr -> .bgra
    vext.32     q5, q7, q7, #3
    vmov.32     d8[0], r8             @ use .a from input
    vmov.32     d10[0], r9
    vmovn.u32   d8, q4
    vmovn.u32   d10, q5
    vmovn.u16   d0, q4
    vmovn.u16   d2, q5
    vsli.u64    d0, d2, #32
    vrev32.8    d0, d0                @ 0xbbggrraa -> 0xaarrggbb
    b           pv_neon_fog_alpha

pv_neon_no_light:
    tst         r10, #PV_NEON_ENABLE_SHADE
    vldr        d0, [sp, #0x64+0x2c]  @ primitiveColor [0] [1]
    beq         pv_neon_fog_alpha
    @ easier to do with ARM
    ldr         r8, [r4, #-4]
    ldr         r9, [r5, #-4]
    ror         r8, #8                @ mem: .argb -> .rgba
    ror         r9, #8                @ reg: 0xbbggrraa -> ..
    vmov        d0, r8, r9

pv_neon_fog_alpha:
    tst         r10, #PV_NEON_FOG_ALPHA
    beq         pv_neon_next
    vmov.f32    d20, #1.0
    vcgt.f32    d2, d1, d20           @ [0] [1] .z > 1.0?
    vcgt.f32    d3, d1, #0            @ > 0?
    movw        r8, #0
    movt        r8, #0x4f7f           @ r8 = (float)(255<<24)
    vbit        d1, d20, d2           @ make 1.0 if needed
    vand        d1, d3
    vdup.32     d4, r8
    vmul.f32    d1, d1, d4
    vcvt.u32.f32 d1, d1
    vmov.u32    d5, #0xff000000
    vbit        d0, d1, d5

pv_neon_next:
    subs        r11, #2
    vst1.32     {d0}, [r2]!           @ g_dwVtxDifColor
    add         r4, #16
    add         r5, #16
    bgt         0b
    nop

    vpop        {q4-q7}
    pop         {r4-r11,pc}
    .size       pv_neon, .-pv_neon
 

@ (float *d, const float *m1, const float *m2, const float *s)
FUNCTION(multiply_subtract2):
    vld1.32     {d1}, [r1]
    vld1.32     {d2}, [r2]
    vmul.f32    d0, d1, d2
    vld1.32     {d3}, [r3]
    vsub.f32    d0, d3
    vst1.32     {d0}, [r0]
    bx          lr
    .size       multiply_subtract2, .-multiply_subtract2


@ (const XVECTOR4 *v0, const XVECTOR4 *v1, const XVECTOR4 *v2)
FUNCTION(tv_direction):
    vld1.32     {q0}, [r0]
    vld1.32     {q2}, [r2]
    vld1.32     {q1}, [r1]
    vsub.f32    d6, d4, d0     @ d6 = V2,V1
    vsub.f32    d7, d4, d2     @ d7 = W2,W1
    vmul.f32    d1, d5         @ d1 = v0.w * v2.w
    vrev64.32   d7, d7
    vmul.f32    d6, d7         @ d6 = V2*W1,V1*W2
    vmul.f32    d1, d3         @ d1 *= v1.w
    vshr.u64    d7, d6, #32
    vsub.f32    d6, d7         @ d6[0] = V1*W2 - V2*W1
    vshr.u64    d1, d1, #32
    vmul.f32    d0, d1, d6
    vmov.32     r0, d0[0]
    bx          lr


@ vim:filetype=armasm:expandtab
Commit	Line	Data
5c6423ae	1	/*
	2	* (C) Gražvydas "notaz" Ignotas, 2014
	3	*
	4	* This work is licensed under the terms of GNU GPL version 2 or later.
	5	* See the COPYING file in the top-level directory.
	6	*/
	7
	8	#include "arm_features.h"
61b9f2df	9	#include "RenderBase_neon.h"
5c6423ae	10
	11	.syntax unified
	12	.text
	13	.align 3
	14
5c6423ae	15	/*
	16	* ProcessVertexData register map:
	17	*
	18	* q \| d \| c code
5c6423ae	19	* ...
61b9f2df	20	* 12 24 gRSPworldProject _11,_12,_13,_14
5c6423ae	21	* 25
61b9f2df	22	* 13 26 gRSPworldProject _21,_22,_23,_24
5c6423ae	23	* 27
61b9f2df	24	* 14 28 gRSPworldProject _31,_32,_33,_34
5c6423ae	25	* 29
61b9f2df	26	* 15 30 gRSPworldProject _41,_42,_43,_44
5c6423ae	27	* 31
	28	*
	29	* r4 vtx[], 16 bytes:
	30	* short y, x, flag, z, tv, tu;
	31	* / uint8 a, b, g, r;
	32	* \ char a, z, y, x;
	33	*
	34	* outputs:
	35	* r0 - XVECTOR4 *g_vtxTransformed
	36	* r1 - XVECTOR4 *g_vecProjected
	37	* r2 - uint32 *g_dwVtxDifColor
	38	* r3 - VECTOR2 *g_fVtxTxtCoords
	39	* sp+00 - float *g_fFogCoord
61b9f2df	40	* r6 sp+04 - uint32 *g_clipFlag2
5c6423ae	41	* inputs:
5c6423ae	42	* r11 sp+08 - uint32 dwNum
61b9f2df	43	* r10 sp+0c - int neon_flags
	44	* r4 sp+10 - FiddledVtx vtx[], (r4 [0], r5 [1])
	45	* r7 sp+14 - Light *gRSPlights
5c6423ae	46	* sp+18 - float *fRSPAmbientLightRGBA
61b9f2df	47	* sp+1c - XMATRIX *gRSPworldProject
5c6423ae	48	* sp+20 - XMATRIX *gRSPmodelViewTop
	49	* sp+24 - uint32 gRSPnumLights
	50	* sp+28 - float gRSPfFogMin
61b9f2df	51	* sp+2c - uint32 primitiveColor
61b9f2df	52	* sp+30 - uint32 primitiveColor
5c6423ae	53	*/
61b9f2df	54	FUNCTION(pv_neon):
5c6423ae	55	ldr r12, [sp, #0x10]
	56	pld [r12]
	57
	58	push {r4-r11,lr}
	59	vpush {q4-q7}
	60
	61	mov r4, r12 @ vtx
	62	ldr r12, [sp, #0x64+0x1c]
5c6423ae	63	vld1.32 {q12,q13}, [r12, :128]! @ load gRSPworldProject
5c6423ae	64	vld1.32 {q14,q15}, [r12, :128]
61b9f2df	65	ldr r6, [sp, #0x64+0x04] @ g_clipFlag2
	66	add r5, r4, #16 @ vtx + 1
	67	ldr r11, [sp, #0x64+0x08] @ dwNum
	68	ldr r10, [sp, #0x64+0x0c] @ neon_flags
5c6423ae	69
5c6423ae	70	0:
61b9f2df	71	vld1.16 d12, [r4]! @ vtx[0] .z .flag .x .y (reg)
	72	vmovl.s16 q6, d12
	73	vld1.16 d14, [r5]! @ vtx[1] .z .flag .x .y
	74	vmovl.s16 q7, d14
	75	vcvt.f32.s32 q6, q6 @ q6 = vtx_raw0
	76	vcvt.f32.s32 q7, q7 @ q7 = vtx_raw1
	77	vdup.32 q0, d12[1] @ vtx_raw0.x (dup)
	78	vdup.32 q1, d12[0] @ vtx_raw0.y (dup)
	79	vdup.32 q2, d13[1] @ vtx_raw0.z (dup)
	80	vdup.32 q3, d14[1] @ vtx_raw1.x (dup)
	81	vdup.32 q4, d14[0] @ vtx_raw1.y (dup)
	82	vdup.32 q5, d15[1] @ vtx_raw1.z (dup)
	83	/* note: order of operations matters greatly,
	84	* may cause like 20 fraction bits to differ! */
	85	vmul.f32 q0, q0, q12
	86	vmul.f32 q3, q3, q12
	87	vmla.f32 q0, q1, q13
	88	vmla.f32 q3, q4, q13
	89	vmul.f32 q2, q2, q14 @ yes, mul+add is
	90	vmul.f32 q5, q5, q14 @ faster than mla
	91	vadd.f32 q0, q2
	92	vadd.f32 q3, q5
	93	vadd.f32 q0, q15 @ q0 = g_vtxTransformed[i]
	94	vadd.f32 q3, q15 @ q3 = g_vtxTransformed[i + 1]
5c6423ae	95
61b9f2df	96	vld1.16 d16[1], [r4]! @ [0].v
	97	vmov d2, d1
	98	vld1.16 d16[0], [r4]! @ [0].u
	99	vsri.64 d2, d7, #32
	100	vld1.16 d18[1], [r5]! @ [0].v
5c6423ae	101	#if 1
61b9f2df	102	vrecpe.f32 d4, d2 @ inv [0][1] .w
	103	vld1.16 d18[0], [r5]! @ [0].u
	104	vrecps.f32 d5, d2, d4 @ step
	105	vmovl.s16 q8, d16
	106	/* write g_vtxTransformed */ vst1.32 {q0}, [r0, :128]!
	107	vmovl.s16 q9, d18
	108	/* ... [1] */ vst1.32 {q3}, [r0, :128]!
	109	vcvt.f32.s32 d16, d16
	110	vcvt.f32.s32 d18, d18
	111	vmul.f32 d4, d5, d4 @ better inv
	112	bic r9, r5, #63
	113	pld [r9, #64]
	114	vrecps.f32 d5, d2, d4 @ step
	115	/* wrt u,v to g_fVtxTxtCoords */ vst1.32 {d16}, [r3]!
	116	/* ... [1] */ vst1.32 {d18}, [r3]!
	117	vmov.f32 d20, #1.0
	118	vmov.f32 d21, #-1.0
	119	vmul.f32 d4, d5, d4 @ better inv [0][1] .w
5c6423ae	120	#if 0
61b9f2df	121	vrecps.f32 d5, d2, d4 @ step
61b9f2df	122	vmul.f32 d4, d5, d4 @ better inv
5c6423ae	123	#endif
5c6423ae	124	#else
61b9f2df	125	mov r12, #0x3f800000 @ 1.0f
	126	vmov.f32 s6, r12
	127	vdiv.f32 s8, s6, s4
	128	vdiv.f32 s9, s6, s5
	129	#error incomplete
5c6423ae	130	#endif
5c6423ae	131
61b9f2df	132	mov r8, #X_CLIP_MAX
	133	mov r9, #Y_CLIP_MAX
	134	vmov d22, r8, r9
	135	vmul.f32 q0, q0, d4[1] @ .x .y .z .w *= [0] .w
	136	vmul.f32 q1, q3, d4[0]
	137	vshr.u64 d5, d4, #32 @ [0] .w
	138	mov r8, #X_CLIP_MIN
	139	mov r9, #Y_CLIP_MIN
	140	vmov d23, r8, r9
	141	vsli.64 d3, d4, #32 @ insert [1] .w
	142	vsli.64 d1, d5, #32
	143	vsli.u64 d5, d4, #32 @ [0] [1] .w
	144	vcgt.f32 d6, d0, d20 @ .xy > 1.0?
	145	vcgt.f32 d7, d21, d0
	146	vcgt.f32 d4, d5, #0 @ .w > 0?
	147	vst1.32 {q0,q1}, [r1]! @ wrt g_vecProjected
	148	vcgt.f32 d8, d2, d20
	149	vcgt.f32 d9, d21, d2
	150	vld1.32 d0[0], [r4]! @ mem: [0] .azyx
	151	vand q3, q11
	152	vand q4, q11
	153	vorr d6, d6, d7
	154	vorr d7, d8, d9
	155	vld1.32 d0[1], [r5]! @ mem: [1] .azyx
	156	vpadd.u32 d6, d7
	157	vrev32.8 d0, d0 @ make 0xaazzyyxx [1][0]
	158	vsli.u64 d1, d3, #32 @ d3 = [1] [0] .z
	159	vmovl.s8 q4, d0
	160	vand d6, d4
	161	vmovl.s16 q1, d8
	162	vmovl.s16 q2, d9
	163	vst1.32 {d6}, [r6]! @ g_clipFlag2
	164
	165	tst r10, #PV_NEON_ENABLE_LIGHT
	166	beq pv_neon_no_light
	167	@ pv_neon_light:
	168	@ live NEON registers:
	169	@ d1 = [1][0] .z (must preserve)
	170	@ q1,q2 = azyx [1][0]
	171	@ q12+ = gRSPworldProject
	172	ldr r12, [sp, #0x64+0x20]
	173	vcvt.f32.s32 q1, q1
	174	vcvt.f32.s32 q2, q2
	175	vld1.32 {q8,q9}, [r12, :128]! @ load gRSPmodelViewTop
	176	vld1.32 {q10}, [r12, :128]
	177
	178	vdup.32 q5, d4[0] @ [1] .x (dup)
	179	vdup.32 q6, d4[1] @ [1] .y (dup)
	180	vdup.32 q7, d5[0] @ [1] .z (dup)
	181	vdup.32 q2, d2[0] @ [0] .x (dup)
	182	vdup.32 q3, d2[1] @ [0] .y (dup)
	183	vdup.32 q4, d3[0] @ [0] .z (dup)
	184	vmul.f32 q2, q2, q8
	185	vmul.f32 q5, q5, q8
	186	vmla.f32 q2, q3, q9
	187	vmla.f32 q5, q6, q9
	188	vmul.f32 q4, q4, q10
	189	vmul.f32 q7, q7, q10
	190	vadd.f32 q4, q2 @ q4 = temp[0] .xyz0
	191	vadd.f32 q5, q7 @ q5 = temp[1] .xyz0
	192	vmul.f32 q2, q4, q4 @ temp .xyz0 ^2
	193	vmul.f32 q3, q5, q5
	194	vpadd.f32 d2, d4, d5
	195	vpadd.f32 d3, d6, d7
196	movw r8, #0x0000ffff
197	movt r8, #0x7f7f @ max normal float, ~3.4e+38
198	vdup.32 d4, r8
199	vpadd.f32 d2, d2, d3 @ d2 = [1][0] x^2 + y^2 + z^2
200	vcgt.f32 d5, d2, #0
201	vbif d2, d4, d5 @ if (d2 == 0) d2 = MAXFLOAT
202
203	vrsqrte.f32 d3, d2 @ ~ 1/sqrt(d2), d2 = [1][0] .sqrsum
204	vmul.f32 d4, d3, d2
205	ldr r9, [sp, #0x64+0x18] @ &fRSPAmbientLightRGBA
206	ldr r7, [sp, #0x64+0x14] @ gRSPlights
207	ldr r8, [sp, #0x64+0x24] @ gRSPnumLights
208	vrsqrts.f32 d4, d3, d4 @ step
209	vld1.32 {q6}, [r9] @ rgb
210	vld1.32 {q7}, [r9] @ rgb
211	vmul.f32 d3, d3, d4 @ 1/sqrt(d2)
212	#if 0 /* not necessary? */
213	vmul.f32 d4, d3, d2
214	vrsqrts.f32 d4, d3, d4 @ step
215	vmul.f32 d3, d3, d4 @ 1/sqrt(d2)
216	#endif
217	vmul.f32 q2, q4, d3[0] @ q2 = normal[0] .xyz
218	vmul.f32 q3, q5, d3[1] @ q3 = normal[1] .xyz
219
220	1:
221	vld1.32 {q8}, [r7]
222	vmul.f32 q4, q8, q2 @ gRSPlights[l] * normal
223	vmul.f32 q5, q8, q3
224	vpadd.f32 d8, d8, d9
225	vpadd.f32 d10, d10, d11
226	vpadd.f32 d8, d8, d10 @ d8 = [1][0] fCosT
227	vcgt.f32 d9, d8, #0 @ if (!(fCosT > 0))
228	vand d8, d9 @ fCosT = 0
229	add r9, r7, #OFFSETOF_Light_fr
230	vld1.32 {q8}, [r9] @ .fr .fg .fb
231	vdup.32 q5, d8[1] @ [1] fCosT (dup)
232	vdup.32 q4, d8[0] @
233	vmla.f32 q7, q8, q5 @ .rgb += frgb * fCosT
234	vmla.f32 q6, q8, q4
235	add r7, #SIZEOF_Light
236	subs r8, #1
237	bgt 1b
238
239	movt r8, #0x437f @ float 255
240	vdup.32 q8, r8
241	vcgt.f32 q4, q6, q8 @ if (.rgb > 255)
242	vcgt.f32 q5, q7, q8
243	vbit q6, q8, q4 @ .rgb = 255
244	vbit q7, q8, q5
245	vcvt.u32.f32 q6, q6
246	vcvt.u32.f32 q7, q7
247	ldrb r8, [r4, #-4] @ .a from vtx
248	ldrb r9, [r5, #-4]
249	vext.32 q4, q6, q6, #3 @ reg: .abgr -> .bgra
250	vext.32 q5, q7, q7, #3
251	vmov.32 d8[0], r8 @ use .a from input
252	vmov.32 d10[0], r9
253	vmovn.u32 d8, q4
254	vmovn.u32 d10, q5
255	vmovn.u16 d0, q4
256	vmovn.u16 d2, q5
257	vsli.u64 d0, d2, #32
258	vrev32.8 d0, d0 @ 0xbbggrraa -> 0xaarrggbb
259	b pv_neon_fog_alpha
260
261	pv_neon_no_light:
262	tst r10, #PV_NEON_ENABLE_SHADE
263	vldr d0, [sp, #0x64+0x2c] @ primitiveColor [0] [1]
264	beq pv_neon_fog_alpha
265	@ easier to do with ARM
266	ldr r8, [r4, #-4]
267	ldr r9, [r5, #-4]
268	ror r8, #8 @ mem: .argb -> .rgba
269	ror r9, #8 @ reg: 0xbbggrraa -> ..
270	vmov d0, r8, r9
271
272	pv_neon_fog_alpha:
273	tst r10, #PV_NEON_FOG_ALPHA
274	beq pv_neon_next
275	vmov.f32 d20, #1.0
276	vcgt.f32 d2, d1, d20 @ [0] [1] .z > 1.0?
277	vcgt.f32 d3, d1, #0 @ > 0?
278	movw r8, #0
279	movt r8, #0x4f7f @ r8 = (float)(255<<24)
280	vbit d1, d20, d2 @ make 1.0 if needed
281	vand d1, d3
282	vdup.32 d4, r8
283	vmul.f32 d1, d1, d4
284	vcvt.u32.f32 d1, d1
285	vmov.u32 d5, #0xff000000
286	vbit d0, d1, d5
287
288	pv_neon_next:
289	subs r11, #2
290	vst1.32 {d0}, [r2]! @ g_dwVtxDifColor
291	add r4, #16
292	add r5, #16
293	bgt 0b
294	nop
5c6423ae	295
	296	vpop {q4-q7}
	297	pop {r4-r11,pc}
61b9f2df	298	.size pv_neon, .-pv_neon
5c6423ae	299
5c6423ae	300
d6e5b275	301	@ (float d, const float m1, const float m2, const float s)
	302	FUNCTION(multiply_subtract2):
	303	vld1.32 {d1}, [r1]
	304	vld1.32 {d2}, [r2]
	305	vmul.f32 d0, d1, d2
	306	vld1.32 {d3}, [r3]
	307	vsub.f32 d0, d3
	308	vst1.32 {d0}, [r0]
	309	bx lr
	310	.size multiply_subtract2, .-multiply_subtract2
	311
	312
3db2a2f9	313	@ (const XVECTOR4 v0, const XVECTOR4 v1, const XVECTOR4 *v2)
	314	FUNCTION(tv_direction):
	315	vld1.32 {q0}, [r0]
	316	vld1.32 {q2}, [r2]
	317	vld1.32 {q1}, [r1]
	318	vsub.f32 d6, d4, d0 @ d6 = V2,V1
	319	vsub.f32 d7, d4, d2 @ d7 = W2,W1
	320	vmul.f32 d1, d5 @ d1 = v0.w * v2.w
	321	vrev64.32 d7, d7
	322	vmul.f32 d6, d7 @ d6 = V2W1,V1W2
	323	vmul.f32 d1, d3 @ d1 *= v1.w
	324	vshr.u64 d7, d6, #32
	325	vsub.f32 d6, d7 @ d6[0] = V1W2 - V2W1
	326	vshr.u64 d1, d1, #32
	327	vmul.f32 d0, d1, d6
	328	vmov.32 r0, d0[0]
	329	bx lr
	330
	331
61b9f2df	332	@ vim:filetype=armasm:expandtab