GTE stalls/timings
[pcsx_rearmed.git] / libpcsxcore / gte.c
1 /***************************************************************************
2  *   PCSX-Revolution - PlayStation Emulator for Nintendo Wii               *
3  *   Copyright (C) 2009-2010  PCSX-Revolution Dev Team                     *
4  *   <http://code.google.com/p/pcsx-revolution/>                           *
5  *                                                                         *
6  *   This program is free software; you can redistribute it and/or modify  *
7  *   it under the terms of the GNU General Public License as published by  *
8  *   the Free Software Foundation; either version 2 of the License, or     *
9  *   (at your option) any later version.                                   *
10  *                                                                         *
11  *   This program is distributed in the hope that it will be useful,       *
12  *   but WITHOUT ANY WARRANTY; without even the implied warranty of        *
13  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the         *
14  *   GNU General Public License for more details.                          *
15  *                                                                         *
16  *   You should have received a copy of the GNU General Public License     *
17  *   along with this program; if not, write to the                         *
18  *   Free Software Foundation, Inc.,                                       *
19  *   51 Franklin Street, Fifth Floor, Boston, MA 02111-1307 USA.           *
20  ***************************************************************************/
21
22 /*
23 * GTE functions.
24 */
25
26 #include "gte.h"
27 #include "psxmem.h"
28
29 #define VX(n) (n < 3 ? regs->CP2D.p[n << 1].sw.l : regs->CP2D.p[9].sw.l)
30 #define VY(n) (n < 3 ? regs->CP2D.p[n << 1].sw.h : regs->CP2D.p[10].sw.l)
31 #define VZ(n) (n < 3 ? regs->CP2D.p[(n << 1) + 1].sw.l : regs->CP2D.p[11].sw.l)
32 #define MX11(n) (n < 3 ? regs->CP2C.p[(n << 3)].sw.l : 0)
33 #define MX12(n) (n < 3 ? regs->CP2C.p[(n << 3)].sw.h : 0)
34 #define MX13(n) (n < 3 ? regs->CP2C.p[(n << 3) + 1].sw.l : 0)
35 #define MX21(n) (n < 3 ? regs->CP2C.p[(n << 3) + 1].sw.h : 0)
36 #define MX22(n) (n < 3 ? regs->CP2C.p[(n << 3) + 2].sw.l : 0)
37 #define MX23(n) (n < 3 ? regs->CP2C.p[(n << 3) + 2].sw.h : 0)
38 #define MX31(n) (n < 3 ? regs->CP2C.p[(n << 3) + 3].sw.l : 0)
39 #define MX32(n) (n < 3 ? regs->CP2C.p[(n << 3) + 3].sw.h : 0)
40 #define MX33(n) (n < 3 ? regs->CP2C.p[(n << 3) + 4].sw.l : 0)
41 #define CV1(n) (n < 3 ? (s32)regs->CP2C.r[(n << 3) + 5] : 0)
42 #define CV2(n) (n < 3 ? (s32)regs->CP2C.r[(n << 3) + 6] : 0)
43 #define CV3(n) (n < 3 ? (s32)regs->CP2C.r[(n << 3) + 7] : 0)
44
45 #define fSX(n) ((regs->CP2D.p)[((n) + 12)].sw.l)
46 #define fSY(n) ((regs->CP2D.p)[((n) + 12)].sw.h)
47 #define fSZ(n) ((regs->CP2D.p)[((n) + 17)].w.l) /* (n == 0) => SZ1; */
48
49 #define gteVXY0 (regs->CP2D.r[0])
50 #define gteVX0  (regs->CP2D.p[0].sw.l)
51 #define gteVY0  (regs->CP2D.p[0].sw.h)
52 #define gteVZ0  (regs->CP2D.p[1].sw.l)
53 #define gteVXY1 (regs->CP2D.r[2])
54 #define gteVX1  (regs->CP2D.p[2].sw.l)
55 #define gteVY1  (regs->CP2D.p[2].sw.h)
56 #define gteVZ1  (regs->CP2D.p[3].sw.l)
57 #define gteVXY2 (regs->CP2D.r[4])
58 #define gteVX2  (regs->CP2D.p[4].sw.l)
59 #define gteVY2  (regs->CP2D.p[4].sw.h)
60 #define gteVZ2  (regs->CP2D.p[5].sw.l)
61 #define gteRGB  (regs->CP2D.r[6])
62 #define gteR    (regs->CP2D.p[6].b.l)
63 #define gteG    (regs->CP2D.p[6].b.h)
64 #define gteB    (regs->CP2D.p[6].b.h2)
65 #define gteCODE (regs->CP2D.p[6].b.h3)
66 #define gteOTZ  (regs->CP2D.p[7].w.l)
67 #define gteIR0  (regs->CP2D.p[8].sw.l)
68 #define gteIR1  (regs->CP2D.p[9].sw.l)
69 #define gteIR2  (regs->CP2D.p[10].sw.l)
70 #define gteIR3  (regs->CP2D.p[11].sw.l)
71 #define gteSXY0 (regs->CP2D.r[12])
72 #define gteSX0  (regs->CP2D.p[12].sw.l)
73 #define gteSY0  (regs->CP2D.p[12].sw.h)
74 #define gteSXY1 (regs->CP2D.r[13])
75 #define gteSX1  (regs->CP2D.p[13].sw.l)
76 #define gteSY1  (regs->CP2D.p[13].sw.h)
77 #define gteSXY2 (regs->CP2D.r[14])
78 #define gteSX2  (regs->CP2D.p[14].sw.l)
79 #define gteSY2  (regs->CP2D.p[14].sw.h)
80 #define gteSXYP (regs->CP2D.r[15])
81 #define gteSXP  (regs->CP2D.p[15].sw.l)
82 #define gteSYP  (regs->CP2D.p[15].sw.h)
83 #define gteSZ0  (regs->CP2D.p[16].w.l)
84 #define gteSZ1  (regs->CP2D.p[17].w.l)
85 #define gteSZ2  (regs->CP2D.p[18].w.l)
86 #define gteSZ3  (regs->CP2D.p[19].w.l)
87 #define gteRGB0  (regs->CP2D.r[20])
88 #define gteR0    (regs->CP2D.p[20].b.l)
89 #define gteG0    (regs->CP2D.p[20].b.h)
90 #define gteB0    (regs->CP2D.p[20].b.h2)
91 #define gteCODE0 (regs->CP2D.p[20].b.h3)
92 #define gteRGB1  (regs->CP2D.r[21])
93 #define gteR1    (regs->CP2D.p[21].b.l)
94 #define gteG1    (regs->CP2D.p[21].b.h)
95 #define gteB1    (regs->CP2D.p[21].b.h2)
96 #define gteCODE1 (regs->CP2D.p[21].b.h3)
97 #define gteRGB2  (regs->CP2D.r[22])
98 #define gteR2    (regs->CP2D.p[22].b.l)
99 #define gteG2    (regs->CP2D.p[22].b.h)
100 #define gteB2    (regs->CP2D.p[22].b.h2)
101 #define gteCODE2 (regs->CP2D.p[22].b.h3)
102 #define gteRES1  (regs->CP2D.r[23])
103 #define gteMAC0  (((s32 *)regs->CP2D.r)[24])
104 #define gteMAC1  (((s32 *)regs->CP2D.r)[25])
105 #define gteMAC2  (((s32 *)regs->CP2D.r)[26])
106 #define gteMAC3  (((s32 *)regs->CP2D.r)[27])
107 #define gteIRGB  (regs->CP2D.r[28])
108 #define gteORGB  (regs->CP2D.r[29])
109 #define gteLZCS  (regs->CP2D.r[30])
110 #define gteLZCR  (regs->CP2D.r[31])
111
112 #define gteR11R12 (((s32 *)regs->CP2C.r)[0])
113 #define gteR22R23 (((s32 *)regs->CP2C.r)[2])
114 #define gteR11 (regs->CP2C.p[0].sw.l)
115 #define gteR12 (regs->CP2C.p[0].sw.h)
116 #define gteR13 (regs->CP2C.p[1].sw.l)
117 #define gteR21 (regs->CP2C.p[1].sw.h)
118 #define gteR22 (regs->CP2C.p[2].sw.l)
119 #define gteR23 (regs->CP2C.p[2].sw.h)
120 #define gteR31 (regs->CP2C.p[3].sw.l)
121 #define gteR32 (regs->CP2C.p[3].sw.h)
122 #define gteR33 (regs->CP2C.p[4].sw.l)
123 #define gteTRX (((s32 *)regs->CP2C.r)[5])
124 #define gteTRY (((s32 *)regs->CP2C.r)[6])
125 #define gteTRZ (((s32 *)regs->CP2C.r)[7])
126 #define gteL11 (regs->CP2C.p[8].sw.l)
127 #define gteL12 (regs->CP2C.p[8].sw.h)
128 #define gteL13 (regs->CP2C.p[9].sw.l)
129 #define gteL21 (regs->CP2C.p[9].sw.h)
130 #define gteL22 (regs->CP2C.p[10].sw.l)
131 #define gteL23 (regs->CP2C.p[10].sw.h)
132 #define gteL31 (regs->CP2C.p[11].sw.l)
133 #define gteL32 (regs->CP2C.p[11].sw.h)
134 #define gteL33 (regs->CP2C.p[12].sw.l)
135 #define gteRBK (((s32 *)regs->CP2C.r)[13])
136 #define gteGBK (((s32 *)regs->CP2C.r)[14])
137 #define gteBBK (((s32 *)regs->CP2C.r)[15])
138 #define gteLR1 (regs->CP2C.p[16].sw.l)
139 #define gteLR2 (regs->CP2C.p[16].sw.h)
140 #define gteLR3 (regs->CP2C.p[17].sw.l)
141 #define gteLG1 (regs->CP2C.p[17].sw.h)
142 #define gteLG2 (regs->CP2C.p[18].sw.l)
143 #define gteLG3 (regs->CP2C.p[18].sw.h)
144 #define gteLB1 (regs->CP2C.p[19].sw.l)
145 #define gteLB2 (regs->CP2C.p[19].sw.h)
146 #define gteLB3 (regs->CP2C.p[20].sw.l)
147 #define gteRFC (((s32 *)regs->CP2C.r)[21])
148 #define gteGFC (((s32 *)regs->CP2C.r)[22])
149 #define gteBFC (((s32 *)regs->CP2C.r)[23])
150 #define gteOFX (((s32 *)regs->CP2C.r)[24])
151 #define gteOFY (((s32 *)regs->CP2C.r)[25])
152 // senquack - gteH register is u16, not s16, and used in GTE that way.
153 //  HOWEVER when read back by CPU using CFC2, it will be incorrectly
154 //  sign-extended by bug in original hardware, according to Nocash docs
155 //  GTE section 'Screen Offset and Distance'. The emulator does this
156 //  sign extension when it is loaded to GTE by CTC2.
157 //#define gteH   (regs->CP2C.p[26].sw.l)
158 #define gteH   (regs->CP2C.p[26].w.l)
159 #define gteDQA (regs->CP2C.p[27].sw.l)
160 #define gteDQB (((s32 *)regs->CP2C.r)[28])
161 #define gteZSF3 (regs->CP2C.p[29].sw.l)
162 #define gteZSF4 (regs->CP2C.p[30].sw.l)
163 #define gteFLAG (regs->CP2C.r[31])
164
165 #define GTE_OP(op) ((op >> 20) & 31)
166 #define GTE_SF(op) ((op >> 19) & 1)
167 #define GTE_MX(op) ((op >> 17) & 3)
168 #define GTE_V(op) ((op >> 15) & 3)
169 #define GTE_CV(op) ((op >> 13) & 3)
170 #define GTE_CD(op) ((op >> 11) & 3) /* not used */
171 #define GTE_LM(op) ((op >> 10) & 1)
172 #define GTE_CT(op) ((op >> 6) & 15) /* not used */
173 #define GTE_FUNCT(op) (op & 63)
174
175 #define gteop (psxRegs.code & 0x1ffffff)
176
177 #ifndef FLAGLESS
178
179 static inline s64 BOUNDS_(psxCP2Regs *regs, s64 n_value, s64 n_max, int n_maxflag, s64 n_min, int n_minflag) {
180         if (n_value > n_max) {
181                 gteFLAG |= n_maxflag;
182         } else if (n_value < n_min) {
183                 gteFLAG |= n_minflag;
184         }
185         return n_value;
186 }
187
188 static inline s32 LIM_(psxCP2Regs *regs, s32 value, s32 max, s32 min, u32 flag) {
189         s32 ret = value;
190         if (value > max) {
191                 gteFLAG |= flag;
192                 ret = max;
193         } else if (value < min) {
194                 gteFLAG |= flag;
195                 ret = min;
196         }
197         return ret;
198 }
199
200 static inline u32 limE_(psxCP2Regs *regs, u32 result) {
201         if (result > 0x1ffff) {
202                 gteFLAG |= (1 << 31) | (1 << 17);
203                 return 0x1ffff;
204         }
205         return result;
206 }
207
208 #else
209
210 #define BOUNDS_(regs, a, ...) (a)
211
212 static inline s32 LIM_(psxCP2Regs *regs, s32 value, s32 max, s32 min, u32 flag_unused) {
213         s32 ret = value;
214         if (value > max)
215                 ret = max;
216         else if (value < min)
217                 ret = min;
218         return ret;
219 }
220
221 static inline u32 limE_(psxCP2Regs *regs, u32 result) {
222         if (result > 0x1ffff)
223                 return 0x1ffff;
224         return result;
225 }
226
227 #endif
228
229 #define BOUNDS(n_value,n_max,n_maxflag,n_min,n_minflag) \
230         BOUNDS_(regs,n_value,n_max,n_maxflag,n_min,n_minflag)
231 #define LIM(value,max,min,flag) \
232         LIM_(regs,value,max,min,flag)
233 #define limE(result) \
234         limE_(regs,result)
235
236 #define A1(a) BOUNDS((a), 0x7fffffff, (1 << 30), -(s64)0x80000000, (1 << 31) | (1 << 27))
237 #define A2(a) BOUNDS((a), 0x7fffffff, (1 << 29), -(s64)0x80000000, (1 << 31) | (1 << 26))
238 #define A3(a) BOUNDS((a), 0x7fffffff, (1 << 28), -(s64)0x80000000, (1 << 31) | (1 << 25))
239 #define limB1(a, l) LIM((a), 0x7fff, -0x8000 * !l, (1 << 31) | (1 << 24))
240 #define limB2(a, l) LIM((a), 0x7fff, -0x8000 * !l, (1 << 31) | (1 << 23))
241 #define limB3(a, l) LIM((a), 0x7fff, -0x8000 * !l, (1 << 22))
242 #define limC1(a) LIM((a), 0x00ff, 0x0000, (1 << 21))
243 #define limC2(a) LIM((a), 0x00ff, 0x0000, (1 << 20))
244 #define limC3(a) LIM((a), 0x00ff, 0x0000, (1 << 19))
245 #define limD(a) LIM((a), 0xffff, 0x0000, (1 << 31) | (1 << 18))
246
247 #define F(a) BOUNDS((a), 0x7fffffff, (1 << 31) | (1 << 16), -(s64)0x80000000, (1 << 31) | (1 << 15))
248 #define limG1(a) LIM((a), 0x3ff, -0x400, (1 << 31) | (1 << 14))
249 #define limG2(a) LIM((a), 0x3ff, -0x400, (1 << 31) | (1 << 13))
250 #define limH(a) LIM((a), 0x1000, 0x0000, (1 << 12))
251
252 #ifndef __arm__
253 #define A1U A1
254 #define A2U A2
255 #define A3U A3
256 #else
257 /* these are unlikely to be hit and usually waste cycles, don't want them on ARM */
258 #define A1U(x) (x)
259 #define A2U(x) (x)
260 #define A3U(x) (x)
261 #endif
262
263 //senquack - n param should be unsigned (will be 'gteH' reg which is u16)
264 #ifdef GTE_USE_NATIVE_DIVIDE
265 INLINE u32 DIVIDE(u16 n, u16 d) {
266         if (n < d * 2) {
267                 return ((u32)n << 16) / d;
268         }
269         return 0xffffffff;
270 }
271 #else
272 #include "gte_divider.h"
273 #endif // GTE_USE_NATIVE_DIVIDE
274
275 #ifndef FLAGLESS
276
277 u32 MFC2(int reg) {
278         psxCP2Regs *regs = &psxRegs.CP2;
279         switch (reg) {
280                 case 1:
281                 case 3:
282                 case 5:
283                 case 8:
284                 case 9:
285                 case 10:
286                 case 11:
287                         psxRegs.CP2D.r[reg] = (s32)psxRegs.CP2D.p[reg].sw.l;
288                         break;
289
290                 case 7:
291                 case 16:
292                 case 17:
293                 case 18:
294                 case 19:
295                         psxRegs.CP2D.r[reg] = (u32)psxRegs.CP2D.p[reg].w.l;
296                         break;
297
298                 case 15:
299                         psxRegs.CP2D.r[reg] = gteSXY2;
300                         break;
301
302                 case 28:
303                 case 29:
304                         psxRegs.CP2D.r[reg] = LIM(gteIR1 >> 7, 0x1f, 0, 0) |
305                                                                         (LIM(gteIR2 >> 7, 0x1f, 0, 0) << 5) |
306                                                                         (LIM(gteIR3 >> 7, 0x1f, 0, 0) << 10);
307                         break;
308         }
309         return psxRegs.CP2D.r[reg];
310 }
311
312 void MTC2(u32 value, int reg) {
313         psxCP2Regs *regs = &psxRegs.CP2;
314         switch (reg) {
315                 case 15:
316                         gteSXY0 = gteSXY1;
317                         gteSXY1 = gteSXY2;
318                         gteSXY2 = value;
319                         gteSXYP = value;
320                         break;
321
322                 case 28:
323                         gteIRGB = value;
324                         gteIR1 = (value & 0x1f) << 7;
325                         gteIR2 = (value & 0x3e0) << 2;
326                         gteIR3 = (value & 0x7c00) >> 3;
327                         break;
328
329                 case 30:
330                         {
331                                 int a;
332                                 gteLZCS = value;
333
334                                 a = gteLZCS;
335                                 if (a > 0) {
336                                         int i;
337                                         for (i = 31; (a & (1 << i)) == 0 && i >= 0; i--);
338                                         gteLZCR = 31 - i;
339                                 } else if (a < 0) {
340                                         int i;
341                                         a ^= 0xffffffff;
342                                         for (i = 31; (a & (1 << i)) == 0 && i >= 0; i--);
343                                         gteLZCR = 31 - i;
344                                 } else {
345                                         gteLZCR = 32;
346                                 }
347                         }
348                         break;
349
350                 case 31:
351                         return;
352
353                 default:
354                         psxRegs.CP2D.r[reg] = value;
355         }
356 }
357
358 void CTC2(u32 value, int reg) {
359         switch (reg) {
360                 case 4:
361                 case 12:
362                 case 20:
363                 case 26:
364                 case 27:
365                 case 29:
366                 case 30:
367                         value = (s32)(s16)value;
368                         break;
369
370                 case 31:
371                         value = value & 0x7ffff000;
372                         if (value & 0x7f87e000) value |= 0x80000000;
373                         break;
374         }
375
376         psxRegs.CP2C.r[reg] = value;
377 }
378
379 void gteMFC2() {
380         psxRegs.cycle += 1;
381         if (!_Rt_) return;
382         psxRegs.GPR.r[_Rt_] = MFC2(_Rd_);
383 }
384
385 void gteCFC2() {
386         psxRegs.cycle += 1;
387         if (!_Rt_) return;
388         psxRegs.GPR.r[_Rt_] = psxRegs.CP2C.r[_Rd_];
389 }
390
391 void gteMTC2() {
392         MTC2(psxRegs.GPR.r[_Rt_], _Rd_);
393 }
394
395 void gteCTC2() {
396         CTC2(psxRegs.GPR.r[_Rt_], _Rd_);
397 }
398
399 #define _oB_ (psxRegs.GPR.r[_Rs_] + _Imm_)
400
401 void gteLWC2() {
402         MTC2(psxMemRead32(_oB_), _Rt_);
403 }
404
405 void gteSWC2() {
406         //psxRegs.cycle += 1;
407         psxMemWrite32(_oB_, MFC2(_Rt_));
408 }
409
410 #endif // FLAGLESS
411
412 #if 0
413 #define DIVIDE DIVIDE_
414 static u32 DIVIDE_(s16 n, u16 d) {
415         if (n >= 0 && n < d * 2) {
416                 s32 n_ = n;
417                 return ((n_ << 16) + d / 2) / d;
418                 //return (u32)((float)(n_ << 16) / (float)d + (float)0.5);
419         }
420         return 0xffffffff;
421 }
422 #endif
423
424 void gteRTPS(psxCP2Regs *regs) {
425         int quotient;
426         s64 tmp;
427
428 #ifdef GTE_LOG
429         GTE_LOG("GTE RTPS\n");
430 #endif
431         psxRegs.cycle += 15;
432         gteFLAG = 0;
433
434         gteMAC1 = A1((((s64)gteTRX << 12) + (gteR11 * gteVX0) + (gteR12 * gteVY0) + (gteR13 * gteVZ0)) >> 12);
435         gteMAC2 = A2((((s64)gteTRY << 12) + (gteR21 * gteVX0) + (gteR22 * gteVY0) + (gteR23 * gteVZ0)) >> 12);
436         gteMAC3 = A3((((s64)gteTRZ << 12) + (gteR31 * gteVX0) + (gteR32 * gteVY0) + (gteR33 * gteVZ0)) >> 12);
437         gteIR1 = limB1(gteMAC1, 0);
438         gteIR2 = limB2(gteMAC2, 0);
439         gteIR3 = limB3(gteMAC3, 0);
440         gteSZ0 = gteSZ1;
441         gteSZ1 = gteSZ2;
442         gteSZ2 = gteSZ3;
443         gteSZ3 = limD(gteMAC3);
444         quotient = limE(DIVIDE(gteH, gteSZ3));
445         gteSXY0 = gteSXY1;
446         gteSXY1 = gteSXY2;
447         gteSX2 = limG1(F((s64)gteOFX + ((s64)gteIR1 * quotient)) >> 16);
448         gteSY2 = limG2(F((s64)gteOFY + ((s64)gteIR2 * quotient)) >> 16);
449
450         tmp = (s64)gteDQB + ((s64)gteDQA * quotient);
451         gteMAC0 = F(tmp);
452         gteIR0 = limH(tmp >> 12);
453 }
454
455 void gteRTPT(psxCP2Regs *regs) {
456         int quotient;
457         int v;
458         s32 vx, vy, vz;
459         s64 tmp;
460
461 #ifdef GTE_LOG
462         GTE_LOG("GTE RTPT\n");
463 #endif
464         psxRegs.cycle += 23;
465         gteFLAG = 0;
466
467         gteSZ0 = gteSZ3;
468         for (v = 0; v < 3; v++) {
469                 vx = VX(v);
470                 vy = VY(v);
471                 vz = VZ(v);
472                 gteMAC1 = A1((((s64)gteTRX << 12) + (gteR11 * vx) + (gteR12 * vy) + (gteR13 * vz)) >> 12);
473                 gteMAC2 = A2((((s64)gteTRY << 12) + (gteR21 * vx) + (gteR22 * vy) + (gteR23 * vz)) >> 12);
474                 gteMAC3 = A3((((s64)gteTRZ << 12) + (gteR31 * vx) + (gteR32 * vy) + (gteR33 * vz)) >> 12);
475                 gteIR1 = limB1(gteMAC1, 0);
476                 gteIR2 = limB2(gteMAC2, 0);
477                 gteIR3 = limB3(gteMAC3, 0);
478                 fSZ(v) = limD(gteMAC3);
479                 quotient = limE(DIVIDE(gteH, fSZ(v)));
480                 fSX(v) = limG1(F((s64)gteOFX + ((s64)gteIR1 * quotient)) >> 16);
481                 fSY(v) = limG2(F((s64)gteOFY + ((s64)gteIR2 * quotient)) >> 16);
482         }
483
484         tmp = (s64)gteDQB + ((s64)gteDQA * quotient);
485         gteMAC0 = F(tmp);
486         gteIR0 = limH(tmp >> 12);
487 }
488
489 void gteMVMVA(psxCP2Regs *regs) {
490         int shift = 12 * GTE_SF(gteop);
491         int mx = GTE_MX(gteop);
492         int v = GTE_V(gteop);
493         int cv = GTE_CV(gteop);
494         int lm = GTE_LM(gteop);
495         s32 vx = VX(v);
496         s32 vy = VY(v);
497         s32 vz = VZ(v);
498
499 #ifdef GTE_LOG
500         GTE_LOG("GTE MVMVA\n");
501 #endif
502         gteFLAG = 0;
503         psxRegs.cycle += 8;
504
505         gteMAC1 = A1((((s64)CV1(cv) << 12) + (MX11(mx) * vx) + (MX12(mx) * vy) + (MX13(mx) * vz)) >> shift);
506         gteMAC2 = A2((((s64)CV2(cv) << 12) + (MX21(mx) * vx) + (MX22(mx) * vy) + (MX23(mx) * vz)) >> shift);
507         gteMAC3 = A3((((s64)CV3(cv) << 12) + (MX31(mx) * vx) + (MX32(mx) * vy) + (MX33(mx) * vz)) >> shift);
508
509         gteIR1 = limB1(gteMAC1, lm);
510         gteIR2 = limB2(gteMAC2, lm);
511         gteIR3 = limB3(gteMAC3, lm);
512 }
513
514 void gteNCLIP(psxCP2Regs *regs) {
515 #ifdef GTE_LOG
516         GTE_LOG("GTE NCLIP\n");
517 #endif
518         gteFLAG = 0;
519         psxRegs.cycle += 8;
520
521         gteMAC0 = F((s64)gteSX0 * (gteSY1 - gteSY2) +
522                                 gteSX1 * (gteSY2 - gteSY0) +
523                                 gteSX2 * (gteSY0 - gteSY1));
524 }
525
526 void gteAVSZ3(psxCP2Regs *regs) {
527 #ifdef GTE_LOG
528         GTE_LOG("GTE AVSZ3\n");
529 #endif
530         gteFLAG = 0;
531         psxRegs.cycle += 5;
532
533         gteMAC0 = F((s64)gteZSF3 * (gteSZ1 + gteSZ2 + gteSZ3));
534         gteOTZ = limD(gteMAC0 >> 12);
535 }
536
537 void gteAVSZ4(psxCP2Regs *regs) {
538 #ifdef GTE_LOG
539         GTE_LOG("GTE AVSZ4\n");
540 #endif
541         gteFLAG = 0;
542         psxRegs.cycle += 6;
543
544         gteMAC0 = F((s64)gteZSF4 * (gteSZ0 + gteSZ1 + gteSZ2 + gteSZ3));
545         gteOTZ = limD(gteMAC0 >> 12);
546 }
547
548 void gteSQR(psxCP2Regs *regs) {
549         int shift = 12 * GTE_SF(gteop);
550         int lm = GTE_LM(gteop);
551
552 #ifdef GTE_LOG
553         GTE_LOG("GTE SQR\n");
554 #endif
555         gteFLAG = 0;
556         psxRegs.cycle += 5;
557
558         gteMAC1 = (gteIR1 * gteIR1) >> shift;
559         gteMAC2 = (gteIR2 * gteIR2) >> shift;
560         gteMAC3 = (gteIR3 * gteIR3) >> shift;
561         gteIR1 = limB1(gteMAC1, lm);
562         gteIR2 = limB2(gteMAC2, lm);
563         gteIR3 = limB3(gteMAC3, lm);
564 }
565
566 void gteNCCS(psxCP2Regs *regs) {
567 #ifdef GTE_LOG
568         GTE_LOG("GTE NCCS\n");
569 #endif
570         gteFLAG = 0;
571         psxRegs.cycle += 17;
572
573         gteMAC1 = ((s64)(gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12;
574         gteMAC2 = ((s64)(gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12;
575         gteMAC3 = ((s64)(gteL31 * gteVX0) + (gteL32 * gteVY0) + (gteL33 * gteVZ0)) >> 12;
576         gteIR1 = limB1(gteMAC1, 1);
577         gteIR2 = limB2(gteMAC2, 1);
578         gteIR3 = limB3(gteMAC3, 1);
579         gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
580         gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
581         gteMAC3 = A3((((s64)gteBBK << 12) + (gteLB1 * gteIR1) + (gteLB2 * gteIR2) + (gteLB3 * gteIR3)) >> 12);
582         gteIR1 = limB1(gteMAC1, 1);
583         gteIR2 = limB2(gteMAC2, 1);
584         gteIR3 = limB3(gteMAC3, 1);
585         gteMAC1 = ((s32)gteR * gteIR1) >> 8;
586         gteMAC2 = ((s32)gteG * gteIR2) >> 8;
587         gteMAC3 = ((s32)gteB * gteIR3) >> 8;
588         gteIR1 = gteMAC1;
589         gteIR2 = gteMAC2;
590         gteIR3 = gteMAC3;
591
592         gteRGB0 = gteRGB1;
593         gteRGB1 = gteRGB2;
594         gteCODE2 = gteCODE;
595         gteR2 = limC1(gteMAC1 >> 4);
596         gteG2 = limC2(gteMAC2 >> 4);
597         gteB2 = limC3(gteMAC3 >> 4);
598 }
599
600 void gteNCCT(psxCP2Regs *regs) {
601         int v;
602         s32 vx, vy, vz;
603
604 #ifdef GTE_LOG
605         GTE_LOG("GTE NCCT\n");
606 #endif
607         gteFLAG = 0;
608         psxRegs.cycle += 39;
609
610         for (v = 0; v < 3; v++) {
611                 vx = VX(v);
612                 vy = VY(v);
613                 vz = VZ(v);
614                 gteMAC1 = ((s64)(gteL11 * vx) + (gteL12 * vy) + (gteL13 * vz)) >> 12;
615                 gteMAC2 = ((s64)(gteL21 * vx) + (gteL22 * vy) + (gteL23 * vz)) >> 12;
616                 gteMAC3 = ((s64)(gteL31 * vx) + (gteL32 * vy) + (gteL33 * vz)) >> 12;
617                 gteIR1 = limB1(gteMAC1, 1);
618                 gteIR2 = limB2(gteMAC2, 1);
619                 gteIR3 = limB3(gteMAC3, 1);
620                 gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
621                 gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
622                 gteMAC3 = A3((((s64)gteBBK << 12) + (gteLB1 * gteIR1) + (gteLB2 * gteIR2) + (gteLB3 * gteIR3)) >> 12);
623                 gteIR1 = limB1(gteMAC1, 1);
624                 gteIR2 = limB2(gteMAC2, 1);
625                 gteIR3 = limB3(gteMAC3, 1);
626                 gteMAC1 = ((s32)gteR * gteIR1) >> 8;
627                 gteMAC2 = ((s32)gteG * gteIR2) >> 8;
628                 gteMAC3 = ((s32)gteB * gteIR3) >> 8;
629
630                 gteRGB0 = gteRGB1;
631                 gteRGB1 = gteRGB2;
632                 gteCODE2 = gteCODE;
633                 gteR2 = limC1(gteMAC1 >> 4);
634                 gteG2 = limC2(gteMAC2 >> 4);
635                 gteB2 = limC3(gteMAC3 >> 4);
636         }
637         gteIR1 = gteMAC1;
638         gteIR2 = gteMAC2;
639         gteIR3 = gteMAC3;
640 }
641
642 void gteNCDS(psxCP2Regs *regs) {
643 #ifdef GTE_LOG
644         GTE_LOG("GTE NCDS\n");
645 #endif
646         gteFLAG = 0;
647         psxRegs.cycle += 19;
648
649         gteMAC1 = ((s64)(gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12;
650         gteMAC2 = ((s64)(gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12;
651         gteMAC3 = ((s64)(gteL31 * gteVX0) + (gteL32 * gteVY0) + (gteL33 * gteVZ0)) >> 12;
652         gteIR1 = limB1(gteMAC1, 1);
653         gteIR2 = limB2(gteMAC2, 1);
654         gteIR3 = limB3(gteMAC3, 1);
655         gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
656         gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
657         gteMAC3 = A3((((s64)gteBBK << 12) + (gteLB1 * gteIR1) + (gteLB2 * gteIR2) + (gteLB3 * gteIR3)) >> 12);
658         gteIR1 = limB1(gteMAC1, 1);
659         gteIR2 = limB2(gteMAC2, 1);
660         gteIR3 = limB3(gteMAC3, 1);
661         gteMAC1 = (((gteR << 4) * gteIR1) + (gteIR0 * limB1(A1U((s64)gteRFC - ((gteR * gteIR1) >> 8)), 0))) >> 12;
662         gteMAC2 = (((gteG << 4) * gteIR2) + (gteIR0 * limB2(A2U((s64)gteGFC - ((gteG * gteIR2) >> 8)), 0))) >> 12;
663         gteMAC3 = (((gteB << 4) * gteIR3) + (gteIR0 * limB3(A3U((s64)gteBFC - ((gteB * gteIR3) >> 8)), 0))) >> 12;
664         gteIR1 = limB1(gteMAC1, 1);
665         gteIR2 = limB2(gteMAC2, 1);
666         gteIR3 = limB3(gteMAC3, 1);
667
668         gteRGB0 = gteRGB1;
669         gteRGB1 = gteRGB2;
670         gteCODE2 = gteCODE;
671         gteR2 = limC1(gteMAC1 >> 4);
672         gteG2 = limC2(gteMAC2 >> 4);
673         gteB2 = limC3(gteMAC3 >> 4);
674 }
675
676 void gteNCDT(psxCP2Regs *regs) {
677         int v;
678         s32 vx, vy, vz;
679
680 #ifdef GTE_LOG
681         GTE_LOG("GTE NCDT\n");
682 #endif
683         gteFLAG = 0;
684         psxRegs.cycle += 44;
685
686         for (v = 0; v < 3; v++) {
687                 vx = VX(v);
688                 vy = VY(v);
689                 vz = VZ(v);
690                 gteMAC1 = ((s64)(gteL11 * vx) + (gteL12 * vy) + (gteL13 * vz)) >> 12;
691                 gteMAC2 = ((s64)(gteL21 * vx) + (gteL22 * vy) + (gteL23 * vz)) >> 12;
692                 gteMAC3 = ((s64)(gteL31 * vx) + (gteL32 * vy) + (gteL33 * vz)) >> 12;
693                 gteIR1 = limB1(gteMAC1, 1);
694                 gteIR2 = limB2(gteMAC2, 1);
695                 gteIR3 = limB3(gteMAC3, 1);
696                 gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
697                 gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
698                 gteMAC3 = A3((((s64)gteBBK << 12) + (gteLB1 * gteIR1) + (gteLB2 * gteIR2) + (gteLB3 * gteIR3)) >> 12);
699                 gteIR1 = limB1(gteMAC1, 1);
700                 gteIR2 = limB2(gteMAC2, 1);
701                 gteIR3 = limB3(gteMAC3, 1);
702                 gteMAC1 = (((gteR << 4) * gteIR1) + (gteIR0 * limB1(A1U((s64)gteRFC - ((gteR * gteIR1) >> 8)), 0))) >> 12;
703                 gteMAC2 = (((gteG << 4) * gteIR2) + (gteIR0 * limB2(A2U((s64)gteGFC - ((gteG * gteIR2) >> 8)), 0))) >> 12;
704                 gteMAC3 = (((gteB << 4) * gteIR3) + (gteIR0 * limB3(A3U((s64)gteBFC - ((gteB * gteIR3) >> 8)), 0))) >> 12;
705
706                 gteRGB0 = gteRGB1;
707                 gteRGB1 = gteRGB2;
708                 gteCODE2 = gteCODE;
709                 gteR2 = limC1(gteMAC1 >> 4);
710                 gteG2 = limC2(gteMAC2 >> 4);
711                 gteB2 = limC3(gteMAC3 >> 4);
712         }
713         gteIR1 = limB1(gteMAC1, 1);
714         gteIR2 = limB2(gteMAC2, 1);
715         gteIR3 = limB3(gteMAC3, 1);
716 }
717
718 void gteOP(psxCP2Regs *regs) {
719         int shift = 12 * GTE_SF(gteop);
720         int lm = GTE_LM(gteop);
721
722 #ifdef GTE_LOG
723         GTE_LOG("GTE OP\n");
724 #endif
725         gteFLAG = 0;
726         psxRegs.cycle += 6;
727
728         gteMAC1 = ((gteR22 * gteIR3) - (gteR33 * gteIR2)) >> shift;
729         gteMAC2 = ((gteR33 * gteIR1) - (gteR11 * gteIR3)) >> shift;
730         gteMAC3 = ((gteR11 * gteIR2) - (gteR22 * gteIR1)) >> shift;
731         gteIR1 = limB1(gteMAC1, lm);
732         gteIR2 = limB2(gteMAC2, lm);
733         gteIR3 = limB3(gteMAC3, lm);
734 }
735
736 void gteDCPL(psxCP2Regs *regs) {
737         int lm = GTE_LM(gteop);
738
739         s32 RIR1 = ((s32)gteR * gteIR1) >> 8;
740         s32 GIR2 = ((s32)gteG * gteIR2) >> 8;
741         s32 BIR3 = ((s32)gteB * gteIR3) >> 8;
742
743 #ifdef GTE_LOG
744         GTE_LOG("GTE DCPL\n");
745 #endif
746         gteFLAG = 0;
747         psxRegs.cycle += 8;
748
749         gteMAC1 = RIR1 + ((gteIR0 * limB1(A1U((s64)gteRFC - RIR1), 0)) >> 12);
750         gteMAC2 = GIR2 + ((gteIR0 * limB1(A2U((s64)gteGFC - GIR2), 0)) >> 12);
751         gteMAC3 = BIR3 + ((gteIR0 * limB1(A3U((s64)gteBFC - BIR3), 0)) >> 12);
752
753         gteIR1 = limB1(gteMAC1, lm);
754         gteIR2 = limB2(gteMAC2, lm);
755         gteIR3 = limB3(gteMAC3, lm);
756
757         gteRGB0 = gteRGB1;
758         gteRGB1 = gteRGB2;
759         gteCODE2 = gteCODE;
760         gteR2 = limC1(gteMAC1 >> 4);
761         gteG2 = limC2(gteMAC2 >> 4);
762         gteB2 = limC3(gteMAC3 >> 4);
763 }
764
765 void gteGPF(psxCP2Regs *regs) {
766         int shift = 12 * GTE_SF(gteop);
767
768 #ifdef GTE_LOG
769         GTE_LOG("GTE GPF\n");
770 #endif
771         gteFLAG = 0;
772         psxRegs.cycle += 5;
773
774         gteMAC1 = (gteIR0 * gteIR1) >> shift;
775         gteMAC2 = (gteIR0 * gteIR2) >> shift;
776         gteMAC3 = (gteIR0 * gteIR3) >> shift;
777         gteIR1 = limB1(gteMAC1, 0);
778         gteIR2 = limB2(gteMAC2, 0);
779         gteIR3 = limB3(gteMAC3, 0);
780
781         gteRGB0 = gteRGB1;
782         gteRGB1 = gteRGB2;
783         gteCODE2 = gteCODE;
784         gteR2 = limC1(gteMAC1 >> 4);
785         gteG2 = limC2(gteMAC2 >> 4);
786         gteB2 = limC3(gteMAC3 >> 4);
787 }
788
789 void gteGPL(psxCP2Regs *regs) {
790         int shift = 12 * GTE_SF(gteop);
791
792 #ifdef GTE_LOG
793         GTE_LOG("GTE GPL\n");
794 #endif
795         gteFLAG = 0;
796         psxRegs.cycle += 5;
797
798         gteMAC1 = A1((((s64)gteMAC1 << shift) + (gteIR0 * gteIR1)) >> shift);
799         gteMAC2 = A2((((s64)gteMAC2 << shift) + (gteIR0 * gteIR2)) >> shift);
800         gteMAC3 = A3((((s64)gteMAC3 << shift) + (gteIR0 * gteIR3)) >> shift);
801         gteIR1 = limB1(gteMAC1, 0);
802         gteIR2 = limB2(gteMAC2, 0);
803         gteIR3 = limB3(gteMAC3, 0);
804
805         gteRGB0 = gteRGB1;
806         gteRGB1 = gteRGB2;
807         gteCODE2 = gteCODE;
808         gteR2 = limC1(gteMAC1 >> 4);
809         gteG2 = limC2(gteMAC2 >> 4);
810         gteB2 = limC3(gteMAC3 >> 4);
811 }
812
813 void gteDPCS(psxCP2Regs *regs) {
814         int shift = 12 * GTE_SF(gteop);
815
816 #ifdef GTE_LOG
817         GTE_LOG("GTE DPCS\n");
818 #endif
819         gteFLAG = 0;
820         psxRegs.cycle += 8;
821
822         gteMAC1 = ((gteR << 16) + (gteIR0 * limB1(A1U(((s64)gteRFC - (gteR << 4)) << (12 - shift)), 0))) >> 12;
823         gteMAC2 = ((gteG << 16) + (gteIR0 * limB2(A2U(((s64)gteGFC - (gteG << 4)) << (12 - shift)), 0))) >> 12;
824         gteMAC3 = ((gteB << 16) + (gteIR0 * limB3(A3U(((s64)gteBFC - (gteB << 4)) << (12 - shift)), 0))) >> 12;
825
826         gteIR1 = limB1(gteMAC1, 0);
827         gteIR2 = limB2(gteMAC2, 0);
828         gteIR3 = limB3(gteMAC3, 0);
829         gteRGB0 = gteRGB1;
830         gteRGB1 = gteRGB2;
831         gteCODE2 = gteCODE;
832         gteR2 = limC1(gteMAC1 >> 4);
833         gteG2 = limC2(gteMAC2 >> 4);
834         gteB2 = limC3(gteMAC3 >> 4);
835 }
836
837 void gteDPCT(psxCP2Regs *regs) {
838         int v;
839
840 #ifdef GTE_LOG
841         GTE_LOG("GTE DPCT\n");
842 #endif
843         gteFLAG = 0;
844         psxRegs.cycle += 17;
845
846         for (v = 0; v < 3; v++) {
847                 gteMAC1 = ((gteR0 << 16) + (gteIR0 * limB1(A1U((s64)gteRFC - (gteR0 << 4)), 0))) >> 12;
848                 gteMAC2 = ((gteG0 << 16) + (gteIR0 * limB1(A2U((s64)gteGFC - (gteG0 << 4)), 0))) >> 12;
849                 gteMAC3 = ((gteB0 << 16) + (gteIR0 * limB1(A3U((s64)gteBFC - (gteB0 << 4)), 0))) >> 12;
850
851                 gteRGB0 = gteRGB1;
852                 gteRGB1 = gteRGB2;
853                 gteCODE2 = gteCODE;
854                 gteR2 = limC1(gteMAC1 >> 4);
855                 gteG2 = limC2(gteMAC2 >> 4);
856                 gteB2 = limC3(gteMAC3 >> 4);
857         }
858         gteIR1 = limB1(gteMAC1, 0);
859         gteIR2 = limB2(gteMAC2, 0);
860         gteIR3 = limB3(gteMAC3, 0);
861 }
862
863 void gteNCS(psxCP2Regs *regs) {
864 #ifdef GTE_LOG
865         GTE_LOG("GTE NCS\n");
866 #endif
867         gteFLAG = 0;
868         psxRegs.cycle += 14;
869
870         gteMAC1 = ((s64)(gteL11 * gteVX0) + (gteL12 * gteVY0) + (gteL13 * gteVZ0)) >> 12;
871         gteMAC2 = ((s64)(gteL21 * gteVX0) + (gteL22 * gteVY0) + (gteL23 * gteVZ0)) >> 12;
872         gteMAC3 = ((s64)(gteL31 * gteVX0) + (gteL32 * gteVY0) + (gteL33 * gteVZ0)) >> 12;
873         gteIR1 = limB1(gteMAC1, 1);
874         gteIR2 = limB2(gteMAC2, 1);
875         gteIR3 = limB3(gteMAC3, 1);
876         gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
877         gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
878         gteMAC3 = A3((((s64)gteBBK << 12) + (gteLB1 * gteIR1) + (gteLB2 * gteIR2) + (gteLB3 * gteIR3)) >> 12);
879         gteIR1 = limB1(gteMAC1, 1);
880         gteIR2 = limB2(gteMAC2, 1);
881         gteIR3 = limB3(gteMAC3, 1);
882
883         gteRGB0 = gteRGB1;
884         gteRGB1 = gteRGB2;
885         gteCODE2 = gteCODE;
886         gteR2 = limC1(gteMAC1 >> 4);
887         gteG2 = limC2(gteMAC2 >> 4);
888         gteB2 = limC3(gteMAC3 >> 4);
889 }
890
891 void gteNCT(psxCP2Regs *regs) {
892         int v;
893         s32 vx, vy, vz;
894
895 #ifdef GTE_LOG
896         GTE_LOG("GTE NCT\n");
897 #endif
898         gteFLAG = 0;
899         psxRegs.cycle += 30;
900
901         for (v = 0; v < 3; v++) {
902                 vx = VX(v);
903                 vy = VY(v);
904                 vz = VZ(v);
905                 gteMAC1 = ((s64)(gteL11 * vx) + (gteL12 * vy) + (gteL13 * vz)) >> 12;
906                 gteMAC2 = ((s64)(gteL21 * vx) + (gteL22 * vy) + (gteL23 * vz)) >> 12;
907                 gteMAC3 = ((s64)(gteL31 * vx) + (gteL32 * vy) + (gteL33 * vz)) >> 12;
908                 gteIR1 = limB1(gteMAC1, 1);
909                 gteIR2 = limB2(gteMAC2, 1);
910                 gteIR3 = limB3(gteMAC3, 1);
911                 gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
912                 gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
913                 gteMAC3 = A3((((s64)gteBBK << 12) + (gteLB1 * gteIR1) + (gteLB2 * gteIR2) + (gteLB3 * gteIR3)) >> 12);
914                 gteRGB0 = gteRGB1;
915                 gteRGB1 = gteRGB2;
916                 gteCODE2 = gteCODE;
917                 gteR2 = limC1(gteMAC1 >> 4);
918                 gteG2 = limC2(gteMAC2 >> 4);
919                 gteB2 = limC3(gteMAC3 >> 4);
920         }
921         gteIR1 = limB1(gteMAC1, 1);
922         gteIR2 = limB2(gteMAC2, 1);
923         gteIR3 = limB3(gteMAC3, 1);
924 }
925
926 void gteCC(psxCP2Regs *regs) {
927 #ifdef GTE_LOG
928         GTE_LOG("GTE CC\n");
929 #endif
930         gteFLAG = 0;
931         psxRegs.cycle += 11;
932
933         gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
934         gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
935         gteMAC3 = A3((((s64)gteBBK << 12) + (gteLB1 * gteIR1) + (gteLB2 * gteIR2) + (gteLB3 * gteIR3)) >> 12);
936         gteIR1 = limB1(gteMAC1, 1);
937         gteIR2 = limB2(gteMAC2, 1);
938         gteIR3 = limB3(gteMAC3, 1);
939         gteMAC1 = ((s32)gteR * gteIR1) >> 8;
940         gteMAC2 = ((s32)gteG * gteIR2) >> 8;
941         gteMAC3 = ((s32)gteB * gteIR3) >> 8;
942         gteIR1 = limB1(gteMAC1, 1);
943         gteIR2 = limB2(gteMAC2, 1);
944         gteIR3 = limB3(gteMAC3, 1);
945
946         gteRGB0 = gteRGB1;
947         gteRGB1 = gteRGB2;
948         gteCODE2 = gteCODE;
949         gteR2 = limC1(gteMAC1 >> 4);
950         gteG2 = limC2(gteMAC2 >> 4);
951         gteB2 = limC3(gteMAC3 >> 4);
952 }
953
954 void gteINTPL(psxCP2Regs *regs) {
955         int shift = 12 * GTE_SF(gteop);
956         int lm = GTE_LM(gteop);
957
958 #ifdef GTE_LOG
959         GTE_LOG("GTE INTPL\n");
960 #endif
961         gteFLAG = 0;
962         psxRegs.cycle += 8;
963
964         gteMAC1 = ((gteIR1 << 12) + (gteIR0 * limB1(A1U((s64)gteRFC - gteIR1), 0))) >> shift;
965         gteMAC2 = ((gteIR2 << 12) + (gteIR0 * limB2(A2U((s64)gteGFC - gteIR2), 0))) >> shift;
966         gteMAC3 = ((gteIR3 << 12) + (gteIR0 * limB3(A3U((s64)gteBFC - gteIR3), 0))) >> shift;
967         gteIR1 = limB1(gteMAC1, lm);
968         gteIR2 = limB2(gteMAC2, lm);
969         gteIR3 = limB3(gteMAC3, lm);
970         gteRGB0 = gteRGB1;
971         gteRGB1 = gteRGB2;
972         gteCODE2 = gteCODE;
973         gteR2 = limC1(gteMAC1 >> 4);
974         gteG2 = limC2(gteMAC2 >> 4);
975         gteB2 = limC3(gteMAC3 >> 4);
976 }
977
978 void gteCDP(psxCP2Regs *regs) {
979 #ifdef GTE_LOG
980         GTE_LOG("GTE CDP\n");
981 #endif
982         gteFLAG = 0;
983         psxRegs.cycle += 13;
984
985         gteMAC1 = A1((((s64)gteRBK << 12) + (gteLR1 * gteIR1) + (gteLR2 * gteIR2) + (gteLR3 * gteIR3)) >> 12);
986         gteMAC2 = A2((((s64)gteGBK << 12) + (gteLG1 * gteIR1) + (gteLG2 * gteIR2) + (gteLG3 * gteIR3)) >> 12);
987         gteMAC3 = A3((((s64)gteBBK << 12) + (gteLB1 * gteIR1) + (gteLB2 * gteIR2) + (gteLB3 * gteIR3)) >> 12);
988         gteIR1 = limB1(gteMAC1, 1);
989         gteIR2 = limB2(gteMAC2, 1);
990         gteIR3 = limB3(gteMAC3, 1);
991         gteMAC1 = (((gteR << 4) * gteIR1) + (gteIR0 * limB1(A1U((s64)gteRFC - ((gteR * gteIR1) >> 8)), 0))) >> 12;
992         gteMAC2 = (((gteG << 4) * gteIR2) + (gteIR0 * limB2(A2U((s64)gteGFC - ((gteG * gteIR2) >> 8)), 0))) >> 12;
993         gteMAC3 = (((gteB << 4) * gteIR3) + (gteIR0 * limB3(A3U((s64)gteBFC - ((gteB * gteIR3) >> 8)), 0))) >> 12;
994         gteIR1 = limB1(gteMAC1, 1);
995         gteIR2 = limB2(gteMAC2, 1);
996         gteIR3 = limB3(gteMAC3, 1);
997
998         gteRGB0 = gteRGB1;
999         gteRGB1 = gteRGB2;
1000         gteCODE2 = gteCODE;
1001         gteR2 = limC1(gteMAC1 >> 4);
1002         gteG2 = limC2(gteMAC2 >> 4);
1003         gteB2 = limC3(gteMAC3 >> 4);
1004 }
1005
1006 /* decomposed/parametrized versions for the recompiler */
1007
1008 #ifndef FLAGLESS
1009
1010 void gteSQR_part_noshift(psxCP2Regs *regs) {
1011         gteFLAG = 0;
1012
1013         gteMAC1 = gteIR1 * gteIR1;
1014         gteMAC2 = gteIR2 * gteIR2;
1015         gteMAC3 = gteIR3 * gteIR3;
1016 }
1017
1018 void gteSQR_part_shift(psxCP2Regs *regs) {
1019         gteFLAG = 0;
1020
1021         gteMAC1 = (gteIR1 * gteIR1) >> 12;
1022         gteMAC2 = (gteIR2 * gteIR2) >> 12;
1023         gteMAC3 = (gteIR3 * gteIR3) >> 12;
1024 }
1025
1026 void gteOP_part_noshift(psxCP2Regs *regs) {
1027         gteFLAG = 0;
1028
1029         gteMAC1 = (gteR22 * gteIR3) - (gteR33 * gteIR2);
1030         gteMAC2 = (gteR33 * gteIR1) - (gteR11 * gteIR3);
1031         gteMAC3 = (gteR11 * gteIR2) - (gteR22 * gteIR1);
1032 }
1033
1034 void gteOP_part_shift(psxCP2Regs *regs) {
1035         gteFLAG = 0;
1036
1037         gteMAC1 = ((gteR22 * gteIR3) - (gteR33 * gteIR2)) >> 12;
1038         gteMAC2 = ((gteR33 * gteIR1) - (gteR11 * gteIR3)) >> 12;
1039         gteMAC3 = ((gteR11 * gteIR2) - (gteR22 * gteIR1)) >> 12;
1040 }
1041
1042 void gteDCPL_part(psxCP2Regs *regs) {
1043         s32 RIR1 = ((s32)gteR * gteIR1) >> 8;
1044         s32 GIR2 = ((s32)gteG * gteIR2) >> 8;
1045         s32 BIR3 = ((s32)gteB * gteIR3) >> 8;
1046
1047         gteFLAG = 0;
1048
1049         gteMAC1 = RIR1 + ((gteIR0 * limB1(A1U((s64)gteRFC - RIR1), 0)) >> 12);
1050         gteMAC2 = GIR2 + ((gteIR0 * limB1(A2U((s64)gteGFC - GIR2), 0)) >> 12);
1051         gteMAC3 = BIR3 + ((gteIR0 * limB1(A3U((s64)gteBFC - BIR3), 0)) >> 12);
1052 }
1053
1054 void gteGPF_part_noshift(psxCP2Regs *regs) {
1055         gteFLAG = 0;
1056
1057         gteMAC1 = gteIR0 * gteIR1;
1058         gteMAC2 = gteIR0 * gteIR2;
1059         gteMAC3 = gteIR0 * gteIR3;
1060 }
1061
1062 void gteGPF_part_shift(psxCP2Regs *regs) {
1063         gteFLAG = 0;
1064
1065         gteMAC1 = (gteIR0 * gteIR1) >> 12;
1066         gteMAC2 = (gteIR0 * gteIR2) >> 12;
1067         gteMAC3 = (gteIR0 * gteIR3) >> 12;
1068 }
1069
1070 #endif // !FLAGLESS
1071
1072 void gteGPL_part_noshift(psxCP2Regs *regs) {
1073         gteFLAG = 0;
1074
1075         gteMAC1 = A1((s64)gteMAC1 + (gteIR0 * gteIR1));
1076         gteMAC2 = A2((s64)gteMAC2 + (gteIR0 * gteIR2));
1077         gteMAC3 = A3((s64)gteMAC3 + (gteIR0 * gteIR3));
1078 }
1079
1080 void gteGPL_part_shift(psxCP2Regs *regs) {
1081         gteFLAG = 0;
1082
1083         gteMAC1 = A1((s64)gteMAC1 + ((gteIR0 * gteIR1) >> 12));
1084         gteMAC2 = A2((s64)gteMAC2 + ((gteIR0 * gteIR2) >> 12));
1085         gteMAC3 = A3((s64)gteMAC3 + ((gteIR0 * gteIR3) >> 12));
1086 }
1087
1088 void gteDPCS_part_noshift(psxCP2Regs *regs) {
1089         int shift = 0;
1090
1091         gteFLAG = 0;
1092
1093         gteMAC1 = ((gteR << 16) + (gteIR0 * limB1(A1U((s64)gteRFC - (gteR << 4)) << (12 - shift), 0))) >> 12;
1094         gteMAC2 = ((gteG << 16) + (gteIR0 * limB2(A2U((s64)gteGFC - (gteG << 4)) << (12 - shift), 0))) >> 12;
1095         gteMAC3 = ((gteB << 16) + (gteIR0 * limB3(A3U((s64)gteBFC - (gteB << 4)) << (12 - shift), 0))) >> 12;
1096 }
1097
1098 void gteDPCS_part_shift(psxCP2Regs *regs) {
1099         int shift = 12;
1100
1101         gteFLAG = 0;
1102
1103         gteMAC1 = ((gteR << 16) + (gteIR0 * limB1(A1U((s64)gteRFC - (gteR << 4)) << (12 - shift), 0))) >> 12;
1104         gteMAC2 = ((gteG << 16) + (gteIR0 * limB2(A2U((s64)gteGFC - (gteG << 4)) << (12 - shift), 0))) >> 12;
1105         gteMAC3 = ((gteB << 16) + (gteIR0 * limB3(A3U((s64)gteBFC - (gteB << 4)) << (12 - shift), 0))) >> 12;
1106 }
1107
1108 void gteINTPL_part_noshift(psxCP2Regs *regs) {
1109         gteFLAG = 0;
1110
1111         gteMAC1 = ((gteIR1 << 12) + (gteIR0 * limB1(A1U((s64)gteRFC - gteIR1), 0)));
1112         gteMAC2 = ((gteIR2 << 12) + (gteIR0 * limB2(A2U((s64)gteGFC - gteIR2), 0)));
1113         gteMAC3 = ((gteIR3 << 12) + (gteIR0 * limB3(A3U((s64)gteBFC - gteIR3), 0)));
1114 }
1115
1116 void gteINTPL_part_shift(psxCP2Regs *regs) {
1117         gteFLAG = 0;
1118
1119         gteMAC1 = ((gteIR1 << 12) + (gteIR0 * limB1(A1U((s64)gteRFC - gteIR1), 0))) >> 12;
1120         gteMAC2 = ((gteIR2 << 12) + (gteIR0 * limB2(A2U((s64)gteGFC - gteIR2), 0))) >> 12;
1121         gteMAC3 = ((gteIR3 << 12) + (gteIR0 * limB3(A3U((s64)gteBFC - gteIR3), 0))) >> 12;
1122 }
1123
1124 void gteMACtoRGB(psxCP2Regs *regs) {
1125         gteRGB0 = gteRGB1;
1126         gteRGB1 = gteRGB2;
1127         gteCODE2 = gteCODE;
1128         gteR2 = limC1(gteMAC1 >> 4);
1129         gteG2 = limC2(gteMAC2 >> 4);
1130         gteB2 = limC3(gteMAC3 >> 4);
1131 }
1132