Merge pull request #577 from gameblabla/cdrom_setloc_lib
[pcsx_rearmed.git] / libpcsxcore / gte.c
index 9909e18..239d2e5 100644 (file)
 #define gteBFC (((s32 *)regs->CP2C.r)[23])
 #define gteOFX (((s32 *)regs->CP2C.r)[24])
 #define gteOFY (((s32 *)regs->CP2C.r)[25])
-#define gteH   (regs->CP2C.p[26].sw.l)
+// senquack - gteH register is u16, not s16, and used in GTE that way.
+//  HOWEVER when read back by CPU using CFC2, it will be incorrectly
+//  sign-extended by bug in original hardware, according to Nocash docs
+//  GTE section 'Screen Offset and Distance'. The emulator does this
+//  sign extension when it is loaded to GTE by CTC2.
+//#define gteH   (regs->CP2C.p[26].sw.l)
+#define gteH   (regs->CP2C.p[26].w.l)
 #define gteDQA (regs->CP2C.p[27].sw.l)
 #define gteDQB (((s32 *)regs->CP2C.r)[28])
 #define gteZSF3 (regs->CP2C.p[29].sw.l)
@@ -243,12 +249,33 @@ static inline u32 limE_(psxCP2Regs *regs, u32 result) {
 #define limG2(a) LIM((a), 0x3ff, -0x400, (1 << 31) | (1 << 13))
 #define limH(a) LIM((a), 0x1000, 0x0000, (1 << 12))
 
+#ifndef __arm__
+#define A1U A1
+#define A2U A2
+#define A3U A3
+#else
+/* these are unlikely to be hit and usually waste cycles, don't want them on ARM */
+#define A1U(x) (x)
+#define A2U(x) (x)
+#define A3U(x) (x)
+#endif
+
+//senquack - n param should be unsigned (will be 'gteH' reg which is u16)
+#ifdef GTE_USE_NATIVE_DIVIDE
+INLINE u32 DIVIDE(u16 n, u16 d) {
+       if (n < d * 2) {
+               return ((u32)n << 16) / d;
+       }
+       return 0xffffffff;
+}
+#else
 #include "gte_divider.h"
+#endif // GTE_USE_NATIVE_DIVIDE
 
 #ifndef FLAGLESS
 
-static inline u32 MFC2(int reg) {
-       psxCP2Regs *regs = (psxCP2Regs *)&psxRegs.CP2D;
+u32 MFC2(int reg) {
+       psxCP2Regs *regs = &psxRegs.CP2;
        switch (reg) {
                case 1:
                case 3:
@@ -282,8 +309,8 @@ static inline u32 MFC2(int reg) {
        return psxRegs.CP2D.r[reg];
 }
 
-static inline void MTC2(u32 value, int reg) {
-       psxCP2Regs *regs = (psxCP2Regs *)&psxRegs.CP2D;
+void MTC2(u32 value, int reg) {
+       psxCP2Regs *regs = &psxRegs.CP2;
        switch (reg) {
                case 15:
                        gteSXY0 = gteSXY1;
@@ -328,7 +355,7 @@ static inline void MTC2(u32 value, int reg) {
        }
 }
 
-static inline void CTC2(u32 value, int reg) {
+void CTC2(u32 value, int reg) {
        switch (reg) {
                case 4:
                case 12:
@@ -350,11 +377,13 @@ static inline void CTC2(u32 value, int reg) {
 }
 
 void gteMFC2() {
+       psxRegs.cycle += 1;
        if (!_Rt_) return;
        psxRegs.GPR.r[_Rt_] = MFC2(_Rd_);
 }
 
 void gteCFC2() {
+       psxRegs.cycle += 1;
        if (!_Rt_) return;
        psxRegs.GPR.r[_Rt_] = psxRegs.CP2C.r[_Rd_];
 }
@@ -374,6 +403,7 @@ void gteLWC2() {
 }
 
 void gteSWC2() {
+       //psxRegs.cycle += 1;
        psxMemWrite32(_oB_, MFC2(_Rt_));
 }
 
@@ -393,10 +423,12 @@ static u32 DIVIDE_(s16 n, u16 d) {
 
 void gteRTPS(psxCP2Regs *regs) {
        int quotient;
+       s64 tmp;
 
 #ifdef GTE_LOG
        GTE_LOG("GTE RTPS\n");
 #endif
+       psxRegs.cycle += 15;
        gteFLAG = 0;
 
        gteMAC1 = A1((((s64)gteTRX << 12) + (gteR11 * gteVX0) + (gteR12 * gteVY0) + (gteR13 * gteVZ0)) >> 12);
@@ -415,18 +447,21 @@ void gteRTPS(psxCP2Regs *regs) {
        gteSX2 = limG1(F((s64)gteOFX + ((s64)gteIR1 * quotient)) >> 16);
        gteSY2 = limG2(F((s64)gteOFY + ((s64)gteIR2 * quotient)) >> 16);
 
-       gteMAC0 = F((s64)gteDQB + ((s64)gteDQA * quotient));
-       gteIR0 = limH(gteMAC0 >> 12);
+       tmp = (s64)gteDQB + ((s64)gteDQA * quotient);
+       gteMAC0 = F(tmp);
+       gteIR0 = limH(tmp >> 12);
 }
 
 void gteRTPT(psxCP2Regs *regs) {
        int quotient;
        int v;
        s32 vx, vy, vz;
+       s64 tmp;
 
 #ifdef GTE_LOG
        GTE_LOG("GTE RTPT\n");
 #endif
+       psxRegs.cycle += 23;
        gteFLAG = 0;
 
        gteSZ0 = gteSZ3;
@@ -445,8 +480,10 @@ void gteRTPT(psxCP2Regs *regs) {
                fSX(v) = limG1(F((s64)gteOFX + ((s64)gteIR1 * quotient)) >> 16);
                fSY(v) = limG2(F((s64)gteOFY + ((s64)gteIR2 * quotient)) >> 16);
        }
-       gteMAC0 = F((s64)gteDQB + ((s64)gteDQA * quotient));
-       gteIR0 = limH(gteMAC0 >> 12);
+
+       tmp = (s64)gteDQB + ((s64)gteDQA * quotient);
+       gteMAC0 = F(tmp);
+       gteIR0 = limH(tmp >> 12);
 }
 
 void gteMVMVA(psxCP2Regs *regs) {
@@ -463,6 +500,7 @@ void gteMVMVA(psxCP2Regs *regs) {
        GTE_LOG("GTE MVMVA\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 8;
 
        gteMAC1 = A1((((s64)CV1(cv) << 12) + (MX11(mx) * vx) + (MX12(mx) * vy) + (MX13(mx) * vz)) >> shift);
        gteMAC2 = A2((((s64)CV2(cv) << 12) + (MX21(mx) * vx) + (MX22(mx) * vy) + (MX23(mx) * vz)) >> shift);
@@ -478,6 +516,7 @@ void gteNCLIP(psxCP2Regs *regs) {
        GTE_LOG("GTE NCLIP\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 8;
 
        gteMAC0 = F((s64)gteSX0 * (gteSY1 - gteSY2) +
                                gteSX1 * (gteSY2 - gteSY0) +
@@ -489,8 +528,9 @@ void gteAVSZ3(psxCP2Regs *regs) {
        GTE_LOG("GTE AVSZ3\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 5;
 
-       gteMAC0 = F((s64)(gteZSF3 * gteSZ1) + (gteZSF3 * gteSZ2) + (gteZSF3 * gteSZ3));
+       gteMAC0 = F((s64)gteZSF3 * (gteSZ1 + gteSZ2 + gteSZ3));
        gteOTZ = limD(gteMAC0 >> 12);
 }
 
@@ -499,8 +539,9 @@ void gteAVSZ4(psxCP2Regs *regs) {
        GTE_LOG("GTE AVSZ4\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 6;
 
-       gteMAC0 = F((s64)(gteZSF4 * (gteSZ0 + gteSZ1 + gteSZ2 + gteSZ3)));
+       gteMAC0 = F((s64)gteZSF4 * (gteSZ0 + gteSZ1 + gteSZ2 + gteSZ3));
        gteOTZ = limD(gteMAC0 >> 12);
 }
 
@@ -512,10 +553,11 @@ void gteSQR(psxCP2Regs *regs) {
        GTE_LOG("GTE SQR\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 5;
 
-       gteMAC1 = A1((gteIR1 * gteIR1) >> shift);
-       gteMAC2 = A2((gteIR2 * gteIR2) >> shift);
-       gteMAC3 = A3((gteIR3 * gteIR3) >> shift);
+       gteMAC1 = (gteIR1 * gteIR1) >> shift;
+       gteMAC2 = (gteIR2 * gteIR2) >> shift;
+       gteMAC3 = (gteIR3 * gteIR3) >> shift;
        gteIR1 = limB1(gteMAC1, lm);
        gteIR2 = limB2(gteMAC2, lm);
        gteIR3 = limB3(gteMAC3, lm);
@@ -526,10 +568,11 @@ void gteNCCS(psxCP2Regs *regs) {
        GTE_LOG("GTE NCCS\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 17;
 
-       gteMAC1 = A1((((s64)gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12);
-       gteMAC2 = A2((((s64)gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12);
-       gteMAC3 = A3((((s64)gteL31 * gteVX0) + (gteL32 * gteVY0) + (gteL33 * gteVZ0)) >> 12);
+       gteMAC1 = ((s64)(gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12;
+       gteMAC2 = ((s64)(gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12;
+       gteMAC3 = ((s64)(gteL31 * gteVX0) + (gteL32 * gteVY0) + (gteL33 * gteVZ0)) >> 12;
        gteIR1 = limB1(gteMAC1, 1);
        gteIR2 = limB2(gteMAC2, 1);
        gteIR3 = limB3(gteMAC3, 1);
@@ -539,12 +582,12 @@ void gteNCCS(psxCP2Regs *regs) {
        gteIR1 = limB1(gteMAC1, 1);
        gteIR2 = limB2(gteMAC2, 1);
        gteIR3 = limB3(gteMAC3, 1);
-       gteMAC1 = A1(((s64)gteR * gteIR1) >> 8);
-       gteMAC2 = A2(((s64)gteG * gteIR2) >> 8);
-       gteMAC3 = A3(((s64)gteB * gteIR3) >> 8);
-       gteIR1 = limB1(gteMAC1, 1);
-       gteIR2 = limB2(gteMAC2, 1);
-       gteIR3 = limB3(gteMAC3, 1);
+       gteMAC1 = ((s32)gteR * gteIR1) >> 8;
+       gteMAC2 = ((s32)gteG * gteIR2) >> 8;
+       gteMAC3 = ((s32)gteB * gteIR3) >> 8;
+       gteIR1 = gteMAC1;
+       gteIR2 = gteMAC2;
+       gteIR3 = gteMAC3;
 
        gteRGB0 = gteRGB1;
        gteRGB1 = gteRGB2;
@@ -562,14 +605,15 @@ void gteNCCT(psxCP2Regs *regs) {
        GTE_LOG("GTE NCCT\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 39;
 
        for (v = 0; v < 3; v++) {
                vx = VX(v);
                vy = VY(v);
                vz = VZ(v);
-               gteMAC1 = A1((((s64)gteL11 * vx) + (gteL12 * vy) + (gteL13 * vz)) >> 12);
-               gteMAC2 = A2((((s64)gteL21 * vx) + (gteL22 * vy) + (gteL23 * vz)) >> 12);
-               gteMAC3 = A3((((s64)gteL31 * vx) + (gteL32 * vy) + (gteL33 * vz)) >> 12);
+               gteMAC1 = ((s64)(gteL11 * vx) + (gteL12 * vy) + (gteL13 * vz)) >> 12;
+               gteMAC2 = ((s64)(gteL21 * vx) + (gteL22 * vy) + (gteL23 * vz)) >> 12;
+               gteMAC3 = ((s64)(gteL31 * vx) + (gteL32 * vy) + (gteL33 * vz)) >> 12;
                gteIR1 = limB1(gteMAC1, 1);
                gteIR2 = limB2(gteMAC2, 1);
                gteIR3 = limB3(gteMAC3, 1);
@@ -579,9 +623,9 @@ void gteNCCT(psxCP2Regs *regs) {
                gteIR1 = limB1(gteMAC1, 1);
                gteIR2 = limB2(gteMAC2, 1);
                gteIR3 = limB3(gteMAC3, 1);
-               gteMAC1 = A1(((s64)gteR * gteIR1) >> 8);
-               gteMAC2 = A2(((s64)gteG * gteIR2) >> 8);
-               gteMAC3 = A3(((s64)gteB * gteIR3) >> 8);
+               gteMAC1 = ((s32)gteR * gteIR1) >> 8;
+               gteMAC2 = ((s32)gteG * gteIR2) >> 8;
+               gteMAC3 = ((s32)gteB * gteIR3) >> 8;
 
                gteRGB0 = gteRGB1;
                gteRGB1 = gteRGB2;
@@ -590,9 +634,9 @@ void gteNCCT(psxCP2Regs *regs) {
                gteG2 = limC2(gteMAC2 >> 4);
                gteB2 = limC3(gteMAC3 >> 4);
        }
-       gteIR1 = limB1(gteMAC1, 1);
-       gteIR2 = limB2(gteMAC2, 1);
-       gteIR3 = limB3(gteMAC3, 1);
+       gteIR1 = gteMAC1;
+       gteIR2 = gteMAC2;
+       gteIR3 = gteMAC3;
 }
 
 void gteNCDS(psxCP2Regs *regs) {
@@ -600,10 +644,11 @@ void gteNCDS(psxCP2Regs *regs) {
        GTE_LOG("GTE NCDS\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 19;
 
-       gteMAC1 = A1((((s64)gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12);
-       gteMAC2 = A2((((s64)gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12);
-       gteMAC3 = A3((((s64)gteL31 * gteVX0) + (gteL32 * gteVY0) + (gteL33 * gteVZ0)) >> 12);
+       gteMAC1 = ((s64)(gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12;
+       gteMAC2 = ((s64)(gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12;
+       gteMAC3 = ((s64)(gteL31 * gteVX0) + (gteL32 * gteVY0) + (gteL33 * gteVZ0)) >> 12;
        gteIR1 = limB1(gteMAC1, 1);
        gteIR2 = limB2(gteMAC2, 1);
        gteIR3 = limB3(gteMAC3, 1);
@@ -613,9 +658,9 @@ void gteNCDS(psxCP2Regs *regs) {
        gteIR1 = limB1(gteMAC1, 1);
        gteIR2 = limB2(gteMAC2, 1);
        gteIR3 = limB3(gteMAC3, 1);
-       gteMAC1 = A1(((((s64)gteR << 4) * gteIR1) + (gteIR0 * limB1(gteRFC - ((gteR * gteIR1) >> 8), 0))) >> 12);
-       gteMAC2 = A2(((((s64)gteG << 4) * gteIR2) + (gteIR0 * limB2(gteGFC - ((gteG * gteIR2) >> 8), 0))) >> 12);
-       gteMAC3 = A3(((((s64)gteB << 4) * gteIR3) + (gteIR0 * limB3(gteBFC - ((gteB * gteIR3) >> 8), 0))) >> 12);
+       gteMAC1 = (((gteR << 4) * gteIR1) + (gteIR0 * limB1(A1U((s64)gteRFC - ((gteR * gteIR1) >> 8)), 0))) >> 12;
+       gteMAC2 = (((gteG << 4) * gteIR2) + (gteIR0 * limB2(A2U((s64)gteGFC - ((gteG * gteIR2) >> 8)), 0))) >> 12;
+       gteMAC3 = (((gteB << 4) * gteIR3) + (gteIR0 * limB3(A3U((s64)gteBFC - ((gteB * gteIR3) >> 8)), 0))) >> 12;
        gteIR1 = limB1(gteMAC1, 1);
        gteIR2 = limB2(gteMAC2, 1);
        gteIR3 = limB3(gteMAC3, 1);
@@ -636,14 +681,15 @@ void gteNCDT(psxCP2Regs *regs) {
        GTE_LOG("GTE NCDT\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 44;
 
        for (v = 0; v < 3; v++) {
                vx = VX(v);
                vy = VY(v);
                vz = VZ(v);
-               gteMAC1 = A1((((s64)gteL11 * vx) + (gteL12 * vy) + (gteL13 * vz)) >> 12);
-               gteMAC2 = A2((((s64)gteL21 * vx) + (gteL22 * vy) + (gteL23 * vz)) >> 12);
-               gteMAC3 = A3((((s64)gteL31 * vx) + (gteL32 * vy) + (gteL33 * vz)) >> 12);
+               gteMAC1 = ((s64)(gteL11 * vx) + (gteL12 * vy) + (gteL13 * vz)) >> 12;
+               gteMAC2 = ((s64)(gteL21 * vx) + (gteL22 * vy) + (gteL23 * vz)) >> 12;
+               gteMAC3 = ((s64)(gteL31 * vx) + (gteL32 * vy) + (gteL33 * vz)) >> 12;
                gteIR1 = limB1(gteMAC1, 1);
                gteIR2 = limB2(gteMAC2, 1);
                gteIR3 = limB3(gteMAC3, 1);
@@ -653,9 +699,9 @@ void gteNCDT(psxCP2Regs *regs) {
                gteIR1 = limB1(gteMAC1, 1);
                gteIR2 = limB2(gteMAC2, 1);
                gteIR3 = limB3(gteMAC3, 1);
-               gteMAC1 = A1(((((s64)gteR << 4) * gteIR1) + (gteIR0 * limB1(gteRFC - ((gteR * gteIR1) >> 8), 0))) >> 12);
-               gteMAC2 = A2(((((s64)gteG << 4) * gteIR2) + (gteIR0 * limB2(gteGFC - ((gteG * gteIR2) >> 8), 0))) >> 12);
-               gteMAC3 = A3(((((s64)gteB << 4) * gteIR3) + (gteIR0 * limB3(gteBFC - ((gteB * gteIR3) >> 8), 0))) >> 12);
+               gteMAC1 = (((gteR << 4) * gteIR1) + (gteIR0 * limB1(A1U((s64)gteRFC - ((gteR * gteIR1) >> 8)), 0))) >> 12;
+               gteMAC2 = (((gteG << 4) * gteIR2) + (gteIR0 * limB2(A2U((s64)gteGFC - ((gteG * gteIR2) >> 8)), 0))) >> 12;
+               gteMAC3 = (((gteB << 4) * gteIR3) + (gteIR0 * limB3(A3U((s64)gteBFC - ((gteB * gteIR3) >> 8)), 0))) >> 12;
 
                gteRGB0 = gteRGB1;
                gteRGB1 = gteRGB2;
@@ -677,10 +723,11 @@ void gteOP(psxCP2Regs *regs) {
        GTE_LOG("GTE OP\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 6;
 
-       gteMAC1 = A1(((s64)(gteR22 * gteIR3) - (gteR33 * gteIR2)) >> shift);
-       gteMAC2 = A2(((s64)(gteR33 * gteIR1) - (gteR11 * gteIR3)) >> shift);
-       gteMAC3 = A3(((s64)(gteR11 * gteIR2) - (gteR22 * gteIR1)) >> shift);
+       gteMAC1 = ((gteR22 * gteIR3) - (gteR33 * gteIR2)) >> shift;
+       gteMAC2 = ((gteR33 * gteIR1) - (gteR11 * gteIR3)) >> shift;
+       gteMAC3 = ((gteR11 * gteIR2) - (gteR22 * gteIR1)) >> shift;
        gteIR1 = limB1(gteMAC1, lm);
        gteIR2 = limB2(gteMAC2, lm);
        gteIR3 = limB3(gteMAC3, lm);
@@ -689,18 +736,19 @@ void gteOP(psxCP2Regs *regs) {
 void gteDCPL(psxCP2Regs *regs) {
        int lm = GTE_LM(gteop);
 
-       s64 RIR1 = ((s64)gteR * gteIR1) >> 8;
-       s64 GIR2 = ((s64)gteG * gteIR2) >> 8;
-       s64 BIR3 = ((s64)gteB * gteIR3) >> 8;
+       s32 RIR1 = ((s32)gteR * gteIR1) >> 8;
+       s32 GIR2 = ((s32)gteG * gteIR2) >> 8;
+       s32 BIR3 = ((s32)gteB * gteIR3) >> 8;
 
 #ifdef GTE_LOG
        GTE_LOG("GTE DCPL\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 8;
 
-       gteMAC1 = A1(RIR1 + ((gteIR0 * limB1(gteRFC - RIR1, 0)) >> 12));
-       gteMAC2 = A2(GIR2 + ((gteIR0 * limB1(gteGFC - GIR2, 0)) >> 12));
-       gteMAC3 = A3(BIR3 + ((gteIR0 * limB1(gteBFC - BIR3, 0)) >> 12));
+       gteMAC1 = RIR1 + ((gteIR0 * limB1(A1U((s64)gteRFC - RIR1), 0)) >> 12);
+       gteMAC2 = GIR2 + ((gteIR0 * limB1(A2U((s64)gteGFC - GIR2), 0)) >> 12);
+       gteMAC3 = BIR3 + ((gteIR0 * limB1(A3U((s64)gteBFC - BIR3), 0)) >> 12);
 
        gteIR1 = limB1(gteMAC1, lm);
        gteIR2 = limB2(gteMAC2, lm);
@@ -721,10 +769,11 @@ void gteGPF(psxCP2Regs *regs) {
        GTE_LOG("GTE GPF\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 5;
 
-       gteMAC1 = A1(((s64)gteIR0 * gteIR1) >> shift);
-       gteMAC2 = A2(((s64)gteIR0 * gteIR2) >> shift);
-       gteMAC3 = A3(((s64)gteIR0 * gteIR3) >> shift);
+       gteMAC1 = (gteIR0 * gteIR1) >> shift;
+       gteMAC2 = (gteIR0 * gteIR2) >> shift;
+       gteMAC3 = (gteIR0 * gteIR3) >> shift;
        gteIR1 = limB1(gteMAC1, 0);
        gteIR2 = limB2(gteMAC2, 0);
        gteIR3 = limB3(gteMAC3, 0);
@@ -744,6 +793,7 @@ void gteGPL(psxCP2Regs *regs) {
        GTE_LOG("GTE GPL\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 5;
 
        gteMAC1 = A1((((s64)gteMAC1 << shift) + (gteIR0 * gteIR1)) >> shift);
        gteMAC2 = A2((((s64)gteMAC2 << shift) + (gteIR0 * gteIR2)) >> shift);
@@ -767,10 +817,11 @@ void gteDPCS(psxCP2Regs *regs) {
        GTE_LOG("GTE DPCS\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 8;
 
-       gteMAC1 = A1(((gteR << 16) + (gteIR0 * limB1(A1((s64)gteRFC - (gteR << 4)) << (12 - shift), 0))) >> 12);
-       gteMAC2 = A2(((gteG << 16) + (gteIR0 * limB2(A2((s64)gteGFC - (gteG << 4)) << (12 - shift), 0))) >> 12);
-       gteMAC3 = A3(((gteB << 16) + (gteIR0 * limB3(A3((s64)gteBFC - (gteB << 4)) << (12 - shift), 0))) >> 12);
+       gteMAC1 = ((gteR << 16) + (gteIR0 * limB1(A1U(((s64)gteRFC - (gteR << 4)) << (12 - shift)), 0))) >> 12;
+       gteMAC2 = ((gteG << 16) + (gteIR0 * limB2(A2U(((s64)gteGFC - (gteG << 4)) << (12 - shift)), 0))) >> 12;
+       gteMAC3 = ((gteB << 16) + (gteIR0 * limB3(A3U(((s64)gteBFC - (gteB << 4)) << (12 - shift)), 0))) >> 12;
 
        gteIR1 = limB1(gteMAC1, 0);
        gteIR2 = limB2(gteMAC2, 0);
@@ -790,11 +841,12 @@ void gteDPCT(psxCP2Regs *regs) {
        GTE_LOG("GTE DPCT\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 17;
 
        for (v = 0; v < 3; v++) {
-               gteMAC1 = A1((((s64)gteR0 << 16) + ((s64)gteIR0 * (limB1(gteRFC - (gteR0 << 4), 0)))) >> 12);
-               gteMAC2 = A2((((s64)gteG0 << 16) + ((s64)gteIR0 * (limB1(gteGFC - (gteG0 << 4), 0)))) >> 12);
-               gteMAC3 = A3((((s64)gteB0 << 16) + ((s64)gteIR0 * (limB1(gteBFC - (gteB0 << 4), 0)))) >> 12);
+               gteMAC1 = ((gteR0 << 16) + (gteIR0 * limB1(A1U((s64)gteRFC - (gteR0 << 4)), 0))) >> 12;
+               gteMAC2 = ((gteG0 << 16) + (gteIR0 * limB1(A2U((s64)gteGFC - (gteG0 << 4)), 0))) >> 12;
+               gteMAC3 = ((gteB0 << 16) + (gteIR0 * limB1(A3U((s64)gteBFC - (gteB0 << 4)), 0))) >> 12;
 
                gteRGB0 = gteRGB1;
                gteRGB1 = gteRGB2;
@@ -813,10 +865,11 @@ void gteNCS(psxCP2Regs *regs) {
        GTE_LOG("GTE NCS\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 14;
 
-       gteMAC1 = A1((((s64)gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12);
-       gteMAC2 = A2((((s64)gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12);
-       gteMAC3 = A3((((s64)gteL31 * gteVX0) + (gteL32 * gteVY0) + (gteL33 * gteVZ0)) >> 12);
+       gteMAC1 = ((s64)(gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12;
+       gteMAC2 = ((s64)(gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12;
+       gteMAC3 = ((s64)(gteL31 * gteVX0) + (gteL32 * gteVY0) + (gteL33 * gteVZ0)) >> 12;
        gteIR1 = limB1(gteMAC1, 1);
        gteIR2 = limB2(gteMAC2, 1);
        gteIR3 = limB3(gteMAC3, 1);
@@ -843,14 +896,15 @@ void gteNCT(psxCP2Regs *regs) {
        GTE_LOG("GTE NCT\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 30;
 
        for (v = 0; v < 3; v++) {
                vx = VX(v);
                vy = VY(v);
                vz = VZ(v);
-               gteMAC1 = A1((((s64)gteL11 * vx) + (gteL12 * vy) + (gteL13 * vz)) >> 12);
-               gteMAC2 = A2((((s64)gteL21 * vx) + (gteL22 * vy) + (gteL23 * vz)) >> 12);
-               gteMAC3 = A3((((s64)gteL31 * vx) + (gteL32 * vy) + (gteL33 * vz)) >> 12);
+               gteMAC1 = ((s64)(gteL11 * vx) + (gteL12 * vy) + (gteL13 * vz)) >> 12;
+               gteMAC2 = ((s64)(gteL21 * vx) + (gteL22 * vy) + (gteL23 * vz)) >> 12;
+               gteMAC3 = ((s64)(gteL31 * vx) + (gteL32 * vy) + (gteL33 * vz)) >> 12;
                gteIR1 = limB1(gteMAC1, 1);
                gteIR2 = limB2(gteMAC2, 1);
                gteIR3 = limB3(gteMAC3, 1);
@@ -874,6 +928,7 @@ void gteCC(psxCP2Regs *regs) {
        GTE_LOG("GTE CC\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 11;
 
        gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
        gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
@@ -881,9 +936,9 @@ void gteCC(psxCP2Regs *regs) {
        gteIR1 = limB1(gteMAC1, 1);
        gteIR2 = limB2(gteMAC2, 1);
        gteIR3 = limB3(gteMAC3, 1);
-       gteMAC1 = A1(((s64)gteR * gteIR1) >> 8);
-       gteMAC2 = A2(((s64)gteG * gteIR2) >> 8);
-       gteMAC3 = A3(((s64)gteB * gteIR3) >> 8);
+       gteMAC1 = ((s32)gteR * gteIR1) >> 8;
+       gteMAC2 = ((s32)gteG * gteIR2) >> 8;
+       gteMAC3 = ((s32)gteB * gteIR3) >> 8;
        gteIR1 = limB1(gteMAC1, 1);
        gteIR2 = limB2(gteMAC2, 1);
        gteIR3 = limB3(gteMAC3, 1);
@@ -904,10 +959,11 @@ void gteINTPL(psxCP2Regs *regs) {
        GTE_LOG("GTE INTPL\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 8;
 
-       gteMAC1 = A1(((gteIR1 << 12) + (gteIR0 * limB1(((s64)gteRFC - gteIR1), 0))) >> shift);
-       gteMAC2 = A2(((gteIR2 << 12) + (gteIR0 * limB2(((s64)gteGFC - gteIR2), 0))) >> shift);
-       gteMAC3 = A3(((gteIR3 << 12) + (gteIR0 * limB3(((s64)gteBFC - gteIR3), 0))) >> shift);
+       gteMAC1 = ((gteIR1 << 12) + (gteIR0 * limB1(A1U((s64)gteRFC - gteIR1), 0))) >> shift;
+       gteMAC2 = ((gteIR2 << 12) + (gteIR0 * limB2(A2U((s64)gteGFC - gteIR2), 0))) >> shift;
+       gteMAC3 = ((gteIR3 << 12) + (gteIR0 * limB3(A3U((s64)gteBFC - gteIR3), 0))) >> shift;
        gteIR1 = limB1(gteMAC1, lm);
        gteIR2 = limB2(gteMAC2, lm);
        gteIR3 = limB3(gteMAC3, lm);
@@ -924,6 +980,7 @@ void gteCDP(psxCP2Regs *regs) {
        GTE_LOG("GTE CDP\n");
 #endif
        gteFLAG = 0;
+       psxRegs.cycle += 13;
 
        gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
        gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
@@ -931,9 +988,9 @@ void gteCDP(psxCP2Regs *regs) {
        gteIR1 = limB1(gteMAC1, 1);
        gteIR2 = limB2(gteMAC2, 1);
        gteIR3 = limB3(gteMAC3, 1);
-       gteMAC1 = A1(((((s64)gteR << 4) * gteIR1) + (gteIR0 * limB1(gteRFC - ((gteR * gteIR1) >> 8), 0))) >> 12);
-       gteMAC2 = A2(((((s64)gteG << 4) * gteIR2) + (gteIR0 * limB2(gteGFC - ((gteG * gteIR2) >> 8), 0))) >> 12);
-       gteMAC3 = A3(((((s64)gteB << 4) * gteIR3) + (gteIR0 * limB3(gteBFC - ((gteB * gteIR3) >> 8), 0))) >> 12);
+       gteMAC1 = (((gteR << 4) * gteIR1) + (gteIR0 * limB1(A1U((s64)gteRFC - ((gteR * gteIR1) >> 8)), 0))) >> 12;
+       gteMAC2 = (((gteG << 4) * gteIR2) + (gteIR0 * limB2(A2U((s64)gteGFC - ((gteG * gteIR2) >> 8)), 0))) >> 12;
+       gteMAC3 = (((gteB << 4) * gteIR3) + (gteIR0 * limB3(A3U((s64)gteBFC - ((gteB * gteIR3) >> 8)), 0))) >> 12;
        gteIR1 = limB1(gteMAC1, 1);
        gteIR2 = limB2(gteMAC2, 1);
        gteIR3 = limB3(gteMAC3, 1);
@@ -945,3 +1002,131 @@ void gteCDP(psxCP2Regs *regs) {
        gteG2 = limC2(gteMAC2 >> 4);
        gteB2 = limC3(gteMAC3 >> 4);
 }
+
+/* decomposed/parametrized versions for the recompiler */
+
+#ifndef FLAGLESS
+
+void gteSQR_part_noshift(psxCP2Regs *regs) {
+       gteFLAG = 0;
+
+       gteMAC1 = gteIR1 * gteIR1;
+       gteMAC2 = gteIR2 * gteIR2;
+       gteMAC3 = gteIR3 * gteIR3;
+}
+
+void gteSQR_part_shift(psxCP2Regs *regs) {
+       gteFLAG = 0;
+
+       gteMAC1 = (gteIR1 * gteIR1) >> 12;
+       gteMAC2 = (gteIR2 * gteIR2) >> 12;
+       gteMAC3 = (gteIR3 * gteIR3) >> 12;
+}
+
+void gteOP_part_noshift(psxCP2Regs *regs) {
+       gteFLAG = 0;
+
+       gteMAC1 = (gteR22 * gteIR3) - (gteR33 * gteIR2);
+       gteMAC2 = (gteR33 * gteIR1) - (gteR11 * gteIR3);
+       gteMAC3 = (gteR11 * gteIR2) - (gteR22 * gteIR1);
+}
+
+void gteOP_part_shift(psxCP2Regs *regs) {
+       gteFLAG = 0;
+
+       gteMAC1 = ((gteR22 * gteIR3) - (gteR33 * gteIR2)) >> 12;
+       gteMAC2 = ((gteR33 * gteIR1) - (gteR11 * gteIR3)) >> 12;
+       gteMAC3 = ((gteR11 * gteIR2) - (gteR22 * gteIR1)) >> 12;
+}
+
+void gteDCPL_part(psxCP2Regs *regs) {
+       s32 RIR1 = ((s32)gteR * gteIR1) >> 8;
+       s32 GIR2 = ((s32)gteG * gteIR2) >> 8;
+       s32 BIR3 = ((s32)gteB * gteIR3) >> 8;
+
+       gteFLAG = 0;
+
+       gteMAC1 = RIR1 + ((gteIR0 * limB1(A1U((s64)gteRFC - RIR1), 0)) >> 12);
+       gteMAC2 = GIR2 + ((gteIR0 * limB1(A2U((s64)gteGFC - GIR2), 0)) >> 12);
+       gteMAC3 = BIR3 + ((gteIR0 * limB1(A3U((s64)gteBFC - BIR3), 0)) >> 12);
+}
+
+void gteGPF_part_noshift(psxCP2Regs *regs) {
+       gteFLAG = 0;
+
+       gteMAC1 = gteIR0 * gteIR1;
+       gteMAC2 = gteIR0 * gteIR2;
+       gteMAC3 = gteIR0 * gteIR3;
+}
+
+void gteGPF_part_shift(psxCP2Regs *regs) {
+       gteFLAG = 0;
+
+       gteMAC1 = (gteIR0 * gteIR1) >> 12;
+       gteMAC2 = (gteIR0 * gteIR2) >> 12;
+       gteMAC3 = (gteIR0 * gteIR3) >> 12;
+}
+
+#endif // !FLAGLESS
+
+void gteGPL_part_noshift(psxCP2Regs *regs) {
+       gteFLAG = 0;
+
+       gteMAC1 = A1((s64)gteMAC1 + (gteIR0 * gteIR1));
+       gteMAC2 = A2((s64)gteMAC2 + (gteIR0 * gteIR2));
+       gteMAC3 = A3((s64)gteMAC3 + (gteIR0 * gteIR3));
+}
+
+void gteGPL_part_shift(psxCP2Regs *regs) {
+       gteFLAG = 0;
+
+       gteMAC1 = A1((s64)gteMAC1 + ((gteIR0 * gteIR1) >> 12));
+       gteMAC2 = A2((s64)gteMAC2 + ((gteIR0 * gteIR2) >> 12));
+       gteMAC3 = A3((s64)gteMAC3 + ((gteIR0 * gteIR3) >> 12));
+}
+
+void gteDPCS_part_noshift(psxCP2Regs *regs) {
+       int shift = 0;
+
+       gteFLAG = 0;
+
+       gteMAC1 = ((gteR << 16) + (gteIR0 * limB1(A1U((s64)gteRFC - (gteR << 4)) << (12 - shift), 0))) >> 12;
+       gteMAC2 = ((gteG << 16) + (gteIR0 * limB2(A2U((s64)gteGFC - (gteG << 4)) << (12 - shift), 0))) >> 12;
+       gteMAC3 = ((gteB << 16) + (gteIR0 * limB3(A3U((s64)gteBFC - (gteB << 4)) << (12 - shift), 0))) >> 12;
+}
+
+void gteDPCS_part_shift(psxCP2Regs *regs) {
+       int shift = 12;
+
+       gteFLAG = 0;
+
+       gteMAC1 = ((gteR << 16) + (gteIR0 * limB1(A1U((s64)gteRFC - (gteR << 4)) << (12 - shift), 0))) >> 12;
+       gteMAC2 = ((gteG << 16) + (gteIR0 * limB2(A2U((s64)gteGFC - (gteG << 4)) << (12 - shift), 0))) >> 12;
+       gteMAC3 = ((gteB << 16) + (gteIR0 * limB3(A3U((s64)gteBFC - (gteB << 4)) << (12 - shift), 0))) >> 12;
+}
+
+void gteINTPL_part_noshift(psxCP2Regs *regs) {
+       gteFLAG = 0;
+
+       gteMAC1 = ((gteIR1 << 12) + (gteIR0 * limB1(A1U((s64)gteRFC - gteIR1), 0)));
+       gteMAC2 = ((gteIR2 << 12) + (gteIR0 * limB2(A2U((s64)gteGFC - gteIR2), 0)));
+       gteMAC3 = ((gteIR3 << 12) + (gteIR0 * limB3(A3U((s64)gteBFC - gteIR3), 0)));
+}
+
+void gteINTPL_part_shift(psxCP2Regs *regs) {
+       gteFLAG = 0;
+
+       gteMAC1 = ((gteIR1 << 12) + (gteIR0 * limB1(A1U((s64)gteRFC - gteIR1), 0))) >> 12;
+       gteMAC2 = ((gteIR2 << 12) + (gteIR0 * limB2(A2U((s64)gteGFC - gteIR2), 0))) >> 12;
+       gteMAC3 = ((gteIR3 << 12) + (gteIR0 * limB3(A3U((s64)gteBFC - gteIR3), 0))) >> 12;
+}
+
+void gteMACtoRGB(psxCP2Regs *regs) {
+       gteRGB0 = gteRGB1;
+       gteRGB1 = gteRGB2;
+       gteCODE2 = gteCODE;
+       gteR2 = limC1(gteMAC1 >> 4);
+       gteG2 = limC2(gteMAC2 >> 4);
+       gteB2 = limC3(gteMAC3 >> 4);
+}
+