#include "gte.h"
#include "psxmem.h"
-typedef struct psxCP2Regs {
- psxCP2Data CP2D; /* Cop2 data registers */
- psxCP2Ctrl CP2C; /* Cop2 control registers */
-} psxCP2Regs;
-
#define VX(n) (n < 3 ? regs->CP2D.p[n << 1].sw.l : regs->CP2D.p[9].sw.l)
#define VY(n) (n < 3 ? regs->CP2D.p[n << 1].sw.h : regs->CP2D.p[10].sw.l)
#define VZ(n) (n < 3 ? regs->CP2D.p[(n << 1) + 1].sw.l : regs->CP2D.p[11].sw.l)
#define gteBFC (((s32 *)regs->CP2C.r)[23])
#define gteOFX (((s32 *)regs->CP2C.r)[24])
#define gteOFY (((s32 *)regs->CP2C.r)[25])
-#define gteH (regs->CP2C.p[26].sw.l)
+// senquack - gteH register is u16, not s16, and used in GTE that way.
+// HOWEVER when read back by CPU using CFC2, it will be incorrectly
+// sign-extended by bug in original hardware, according to Nocash docs
+// GTE section 'Screen Offset and Distance'. The emulator does this
+// sign extension when it is loaded to GTE by CTC2.
+//#define gteH (regs->CP2C.p[26].sw.l)
+#define gteH (regs->CP2C.p[26].w.l)
#define gteDQA (regs->CP2C.p[27].sw.l)
#define gteDQB (((s32 *)regs->CP2C.r)[28])
#define gteZSF3 (regs->CP2C.p[29].sw.l)
#ifndef FLAGLESS
-static inline s32 BOUNDS_(psxCP2Regs *regs, s64 n_value, s64 n_max, int n_maxflag, s64 n_min, int n_minflag) {
+static inline s64 BOUNDS_(psxCP2Regs *regs, s64 n_value, s64 n_max, int n_maxflag, s64 n_min, int n_minflag) {
if (n_value > n_max) {
gteFLAG |= n_maxflag;
} else if (n_value < n_min) {
#define A3U(x) (x)
#endif
+//senquack - n param should be unsigned (will be 'gteH' reg which is u16)
+#ifdef GTE_USE_NATIVE_DIVIDE
+INLINE u32 DIVIDE(u16 n, u16 d) {
+ if (n < d * 2) {
+ return ((u32)n << 16) / d;
+ }
+ return 0xffffffff;
+}
+#else
#include "gte_divider.h"
+#endif // GTE_USE_NATIVE_DIVIDE
#ifndef FLAGLESS
-static inline u32 MFC2(int reg) {
- psxCP2Regs *regs = (psxCP2Regs *)&psxRegs.CP2D;
+u32 MFC2(int reg) {
+ psxCP2Regs *regs = &psxRegs.CP2;
switch (reg) {
case 1:
case 3:
return psxRegs.CP2D.r[reg];
}
-static inline void MTC2(u32 value, int reg) {
- psxCP2Regs *regs = (psxCP2Regs *)&psxRegs.CP2D;
+void MTC2(u32 value, int reg) {
+ psxCP2Regs *regs = &psxRegs.CP2;
switch (reg) {
case 15:
gteSXY0 = gteSXY1;
}
}
-static inline void CTC2(u32 value, int reg) {
+void CTC2(u32 value, int reg) {
switch (reg) {
case 4:
case 12:
}
void gteMFC2() {
+ psxRegs.cycle += 1;
if (!_Rt_) return;
psxRegs.GPR.r[_Rt_] = MFC2(_Rd_);
}
void gteCFC2() {
+ psxRegs.cycle += 1;
if (!_Rt_) return;
psxRegs.GPR.r[_Rt_] = psxRegs.CP2C.r[_Rd_];
}
}
void gteSWC2() {
+ //psxRegs.cycle += 1;
psxMemWrite32(_oB_, MFC2(_Rt_));
}
void gteRTPS(psxCP2Regs *regs) {
int quotient;
+ s64 tmp;
#ifdef GTE_LOG
GTE_LOG("GTE RTPS\n");
#endif
+ psxRegs.cycle += 15;
gteFLAG = 0;
gteMAC1 = A1((((s64)gteTRX << 12) + (gteR11 * gteVX0) + (gteR12 * gteVY0) + (gteR13 * gteVZ0)) >> 12);
gteSX2 = limG1(F((s64)gteOFX + ((s64)gteIR1 * quotient)) >> 16);
gteSY2 = limG2(F((s64)gteOFY + ((s64)gteIR2 * quotient)) >> 16);
- gteMAC0 = F((s64)gteDQB + ((s64)gteDQA * quotient));
- gteIR0 = limH(gteMAC0 >> 12);
+ tmp = (s64)gteDQB + ((s64)gteDQA * quotient);
+ gteMAC0 = F(tmp);
+ gteIR0 = limH(tmp >> 12);
}
void gteRTPT(psxCP2Regs *regs) {
int quotient;
int v;
s32 vx, vy, vz;
+ s64 tmp;
#ifdef GTE_LOG
GTE_LOG("GTE RTPT\n");
#endif
+ psxRegs.cycle += 23;
gteFLAG = 0;
gteSZ0 = gteSZ3;
fSX(v) = limG1(F((s64)gteOFX + ((s64)gteIR1 * quotient)) >> 16);
fSY(v) = limG2(F((s64)gteOFY + ((s64)gteIR2 * quotient)) >> 16);
}
- gteMAC0 = F((s64)gteDQB + ((s64)gteDQA * quotient));
- gteIR0 = limH(gteMAC0 >> 12);
+
+ tmp = (s64)gteDQB + ((s64)gteDQA * quotient);
+ gteMAC0 = F(tmp);
+ gteIR0 = limH(tmp >> 12);
}
void gteMVMVA(psxCP2Regs *regs) {
GTE_LOG("GTE MVMVA\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 8;
gteMAC1 = A1((((s64)CV1(cv) << 12) + (MX11(mx) * vx) + (MX12(mx) * vy) + (MX13(mx) * vz)) >> shift);
gteMAC2 = A2((((s64)CV2(cv) << 12) + (MX21(mx) * vx) + (MX22(mx) * vy) + (MX23(mx) * vz)) >> shift);
GTE_LOG("GTE NCLIP\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 8;
gteMAC0 = F((s64)gteSX0 * (gteSY1 - gteSY2) +
gteSX1 * (gteSY2 - gteSY0) +
GTE_LOG("GTE AVSZ3\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 5;
gteMAC0 = F((s64)gteZSF3 * (gteSZ1 + gteSZ2 + gteSZ3));
gteOTZ = limD(gteMAC0 >> 12);
GTE_LOG("GTE AVSZ4\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 6;
gteMAC0 = F((s64)gteZSF4 * (gteSZ0 + gteSZ1 + gteSZ2 + gteSZ3));
gteOTZ = limD(gteMAC0 >> 12);
GTE_LOG("GTE SQR\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 5;
gteMAC1 = (gteIR1 * gteIR1) >> shift;
gteMAC2 = (gteIR2 * gteIR2) >> shift;
GTE_LOG("GTE NCCS\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 17;
gteMAC1 = ((s64)(gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12;
gteMAC2 = ((s64)(gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12;
GTE_LOG("GTE NCCT\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 39;
for (v = 0; v < 3; v++) {
vx = VX(v);
GTE_LOG("GTE NCDS\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 19;
gteMAC1 = ((s64)(gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12;
gteMAC2 = ((s64)(gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12;
GTE_LOG("GTE NCDT\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 44;
for (v = 0; v < 3; v++) {
vx = VX(v);
GTE_LOG("GTE OP\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 6;
gteMAC1 = ((gteR22 * gteIR3) - (gteR33 * gteIR2)) >> shift;
gteMAC2 = ((gteR33 * gteIR1) - (gteR11 * gteIR3)) >> shift;
GTE_LOG("GTE DCPL\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 8;
gteMAC1 = RIR1 + ((gteIR0 * limB1(A1U((s64)gteRFC - RIR1), 0)) >> 12);
gteMAC2 = GIR2 + ((gteIR0 * limB1(A2U((s64)gteGFC - GIR2), 0)) >> 12);
GTE_LOG("GTE GPF\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 5;
gteMAC1 = (gteIR0 * gteIR1) >> shift;
gteMAC2 = (gteIR0 * gteIR2) >> shift;
GTE_LOG("GTE GPL\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 5;
gteMAC1 = A1((((s64)gteMAC1 << shift) + (gteIR0 * gteIR1)) >> shift);
gteMAC2 = A2((((s64)gteMAC2 << shift) + (gteIR0 * gteIR2)) >> shift);
GTE_LOG("GTE DPCS\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 8;
gteMAC1 = ((gteR << 16) + (gteIR0 * limB1(A1U(((s64)gteRFC - (gteR << 4)) << (12 - shift)), 0))) >> 12;
gteMAC2 = ((gteG << 16) + (gteIR0 * limB2(A2U(((s64)gteGFC - (gteG << 4)) << (12 - shift)), 0))) >> 12;
GTE_LOG("GTE DPCT\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 17;
for (v = 0; v < 3; v++) {
gteMAC1 = ((gteR0 << 16) + (gteIR0 * limB1(A1U((s64)gteRFC - (gteR0 << 4)), 0))) >> 12;
GTE_LOG("GTE NCS\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 14;
gteMAC1 = ((s64)(gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12;
gteMAC2 = ((s64)(gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12;
GTE_LOG("GTE NCT\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 30;
for (v = 0; v < 3; v++) {
vx = VX(v);
GTE_LOG("GTE CC\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 11;
gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
GTE_LOG("GTE INTPL\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 8;
gteMAC1 = ((gteIR1 << 12) + (gteIR0 * limB1(A1U((s64)gteRFC - gteIR1), 0))) >> shift;
gteMAC2 = ((gteIR2 << 12) + (gteIR0 * limB2(A2U((s64)gteGFC - gteIR2), 0))) >> shift;
GTE_LOG("GTE CDP\n");
#endif
gteFLAG = 0;
+ psxRegs.cycle += 13;
gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);