[sdl_omap.git] / src / audio / SDL_mixer_MMX_VC.c

/*
    SDL - Simple DirectMedia Layer
    Copyright (C) 1997-2009 Sam Lantinga

    This library is free software; you can redistribute it and/or
    modify it under the terms of the GNU Lesser General Public
    License as published by the Free Software Foundation; either
    version 2.1 of the License, or (at your option) any later version.

    This library is distributed in the hope that it will be useful,
    but WITHOUT ANY WARRANTY; without even the implied warranty of
    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
    Lesser General Public License for more details.

    You should have received a copy of the GNU Lesser General Public
    License along with this library; if not, write to the Free Software
    Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA

    Sam Lantinga
    slouken@libsdl.org
*/
#include "SDL_config.h"

#include "SDL_mixer_MMX_VC.h"

#if defined(SDL_BUGGY_MMX_MIXERS) /* buggy, so we're disabling them. --ryan. */
#if ((defined(_MSC_VER) && defined(_M_IX86)) || defined(__WATCOMC__)) && defined(SDL_ASSEMBLY_ROUTINES)
// MMX assembler version of SDL_MixAudio for signed little endian 16 bit samples and signed 8 bit samples
// Copyright 2002 Stephane Marchesin (stephane.marchesin@wanadoo.fr)
// Converted to Intel ASM notation by Cth
// This code is licensed under the LGPL (see COPYING for details)
// 
// Assumes buffer size in bytes is a multiple of 16
// Assumes SDL_MIX_MAXVOLUME = 128


////////////////////////////////////////////////
// Mixing for 16 bit signed buffers
////////////////////////////////////////////////

void SDL_MixAudio_MMX_S16_VC(char* dst,char* src,unsigned int nSize,int volume)
{
	__asm
	{

		push	edi
		push	esi
		push	ebx
		
		mov		edi, dst		// edi = dst
		mov		esi, src		// esi = src
		mov		eax, volume		// eax = volume
		mov		ebx, nSize		// ebx = size
		shr		ebx, 4			// process 16 bytes per iteration = 8 samples
		jz		endS16
		
		pxor	mm0, mm0
		movd	mm0, eax		//%%eax,%%mm0
		movq	mm1, mm0		//%%mm0,%%mm1
		psllq	mm0, 16			//$16,%%mm0
		por		mm0, mm1		//%%mm1,%%mm0
		psllq	mm0, 16			//$16,%%mm0
		por		mm0, mm1		//%%mm1,%%mm0
		psllq	mm0, 16			//$16,%%mm0
		por		mm0, mm1		//%%mm1,%%mm0			// mm0 = vol|vol|vol|vol

		#ifndef __WATCOMC__
		align	16
		#endif
mixloopS16:
		movq	mm1, [esi]		//(%%esi),%%mm1\n" // mm1 = a|b|c|d
		movq	mm2, mm1		//%%mm1,%%mm2\n" // mm2 = a|b|c|d
		movq	mm4, [esi + 8]	//8(%%esi),%%mm4\n" // mm4 = e|f|g|h
		// pre charger le buffer dst dans mm7
		movq	mm7, [edi]		//(%%edi),%%mm7\n" // mm7 = dst[0]"
		// multiplier par le volume
		pmullw	mm1, mm0		//%%mm0,%%mm1\n" // mm1 = l(a*v)|l(b*v)|l(c*v)|l(d*v)
		pmulhw	mm2, mm0		//%%mm0,%%mm2\n" // mm2 = h(a*v)|h(b*v)|h(c*v)|h(d*v)
		movq	mm5, mm4		//%%mm4,%%mm5\n" // mm5 = e|f|g|h
		pmullw	mm4, mm0		//%%mm0,%%mm4\n" // mm4 = l(e*v)|l(f*v)|l(g*v)|l(h*v)
		pmulhw	mm5, mm0		//%%mm0,%%mm5\n" // mm5 = h(e*v)|h(f*v)|h(g*v)|h(h*v)
		movq	mm3, mm1		//%%mm1,%%mm3\n" // mm3 = l(a*v)|l(b*v)|l(c*v)|l(d*v)
		punpckhwd	mm1, mm2	//%%mm2,%%mm1\n" // mm1 = a*v|b*v
		movq		mm6, mm4	//%%mm4,%%mm6\n" // mm6 = l(e*v)|l(f*v)|l(g*v)|l(h*v)
		punpcklwd	mm3, mm2	//%%mm2,%%mm3\n" // mm3 = c*v|d*v
		punpckhwd	mm4, mm5	//%%mm5,%%mm4\n" // mm4 = e*f|f*v
		punpcklwd	mm6, mm5	//%%mm5,%%mm6\n" // mm6 = g*v|h*v
		// pre charger le buffer dst dans mm5
		movq	mm5, [edi + 8]	//8(%%edi),%%mm5\n" // mm5 = dst[1]
		// diviser par 128
		psrad	mm1, 7			//$7,%%mm1\n" // mm1 = a*v/128|b*v/128 , 128 = SDL_MIX_MAXVOLUME
		add		esi, 16			//$16,%%esi\n"
		psrad	mm3, 7			//$7,%%mm3\n" // mm3 = c*v/128|d*v/128
		psrad	mm4, 7			//$7,%%mm4\n" // mm4 = e*v/128|f*v/128
		// mm1 = le sample avec le volume modifie
		packssdw	mm3, mm1	//%%mm1,%%mm3\n" // mm3 = s(a*v|b*v|c*v|d*v)
		psrad	mm6, 7			//$7,%%mm6\n" // mm6= g*v/128|h*v/128
		paddsw	mm3, mm7		//%%mm7,%%mm3\n" // mm3 = adjust_volume(src)+dst
		// mm4 = le sample avec le volume modifie
		packssdw	mm6, mm4	//%%mm4,%%mm6\n" // mm6 = s(e*v|f*v|g*v|h*v)
		movq	[edi], mm3		//%%mm3,(%%edi)\n"
		paddsw	mm6, mm5		//%%mm5,%%mm6\n" // mm6 = adjust_volume(src)+dst
		movq	[edi + 8], mm6	//%%mm6,8(%%edi)\n"
		add		edi, 16			//$16,%%edi\n"
		dec		ebx				//%%ebx\n"
		jnz mixloopS16

endS16:
		emms
		
		pop		ebx
		pop		esi
		pop		edi
	}

}

////////////////////////////////////////////////
// Mixing for 8 bit signed buffers
////////////////////////////////////////////////

void SDL_MixAudio_MMX_S8_VC(char* dst,char* src,unsigned int nSize,int volume)
{
	_asm
	{

		push	edi
		push	esi
		push	ebx
		
		mov		edi, dst	//movl	%0,%%edi	// edi = dst
		mov		esi, src	//%1,%%esi	// esi = src
		mov		eax, volume	//%3,%%eax	// eax = volume

		movd	mm0, eax	//%%eax,%%mm0
		movq	mm1, mm0	//%%mm0,%%mm1
		psllq	mm0, 16		//$16,%%mm0
		por		mm0, mm1	//%%mm1,%%mm0
		psllq	mm0, 16		//$16,%%mm0
		por		mm0, mm1	//%%mm1,%%mm0
		psllq	mm0, 16		//$16,%%mm0
		por		mm0, mm1	//%%mm1,%%mm0
		
		mov		ebx, nSize	//%2,%%ebx	// ebx = size
		shr		ebx, 3		//$3,%%ebx	// process 8 bytes per iteration = 8 samples
		cmp		ebx, 0		//$0,%%ebx
		je		endS8

		#ifndef __WATCOMC__
		align 16
		#endif
mixloopS8:
		pxor	mm2, mm2	//%%mm2,%%mm2		// mm2 = 0
		movq	mm1, [esi]	//(%%esi),%%mm1	// mm1 = a|b|c|d|e|f|g|h
		movq	mm3, mm1	//%%mm1,%%mm3 	// mm3 = a|b|c|d|e|f|g|h
		// on va faire le "sign extension" en faisant un cmp avec 0 qui retourne 1 si <0, 0 si >0
		pcmpgtb		mm2, mm1	//%%mm1,%%mm2	// mm2 = 11111111|00000000|00000000....
		punpckhbw	mm1, mm2	//%%mm2,%%mm1	// mm1 = 0|a|0|b|0|c|0|d
		punpcklbw	mm3, mm2	//%%mm2,%%mm3	// mm3 = 0|e|0|f|0|g|0|h
		movq	mm2, [edi]	//(%%edi),%%mm2	// mm2 = destination
		pmullw	mm1, mm0	//%%mm0,%%mm1	// mm1 = v*a|v*b|v*c|v*d
		add		esi, 8		//$8,%%esi
		pmullw	mm3, mm0	//%%mm0,%%mm3	// mm3 = v*e|v*f|v*g|v*h
		psraw	mm1, 7		//$7,%%mm1		// mm1 = v*a/128|v*b/128|v*c/128|v*d/128 
		psraw	mm3, 7		//$7,%%mm3		// mm3 = v*e/128|v*f/128|v*g/128|v*h/128
		packsswb mm3, mm1	//%%mm1,%%mm3	// mm1 = v*a/128|v*b/128|v*c/128|v*d/128|v*e/128|v*f/128|v*g/128|v*h/128
		paddsb	mm3, mm2	//%%mm2,%%mm3	// add to destination buffer
		movq	[edi], mm3	//%%mm3,(%%edi)	// store back to ram
		add		edi, 8		//$8,%%edi
		dec		ebx			//%%ebx
		jnz		mixloopS8
		
endS8:
		emms
		
		pop		ebx
		pop		esi
		pop		edi
	}
}

#endif /* SDL_ASSEMBLY_ROUTINES */
#endif /* SDL_BUGGY_MMX_MIXERS */
Commit	Line	Data
e14743d1	1	/*
	2	SDL - Simple DirectMedia Layer
	3	Copyright (C) 1997-2009 Sam Lantinga
	4
	5	This library is free software; you can redistribute it and/or
	6	modify it under the terms of the GNU Lesser General Public
	7	License as published by the Free Software Foundation; either
	8	version 2.1 of the License, or (at your option) any later version.
	9
	10	This library is distributed in the hope that it will be useful,
	11	but WITHOUT ANY WARRANTY; without even the implied warranty of
	12	MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	13	Lesser General Public License for more details.
	14
	15	You should have received a copy of the GNU Lesser General Public
	16	License along with this library; if not, write to the Free Software
	17	Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA
	18
	19	Sam Lantinga
	20	slouken@libsdl.org
	21	*/
	22	#include "SDL_config.h"
	23
	24	#include "SDL_mixer_MMX_VC.h"
	25
	26	#if defined(SDL_BUGGY_MMX_MIXERS) /* buggy, so we're disabling them. --ryan. */
	27	#if ((defined(_MSC_VER) && defined(_M_IX86)) \|\| defined(__WATCOMC__)) && defined(SDL_ASSEMBLY_ROUTINES)
	28	// MMX assembler version of SDL_MixAudio for signed little endian 16 bit samples and signed 8 bit samples
	29	// Copyright 2002 Stephane Marchesin (stephane.marchesin@wanadoo.fr)
	30	// Converted to Intel ASM notation by Cth
	31	// This code is licensed under the LGPL (see COPYING for details)
	32	//
	33	// Assumes buffer size in bytes is a multiple of 16
	34	// Assumes SDL_MIX_MAXVOLUME = 128
	35
	36
	37	////////////////////////////////////////////////
	38	// Mixing for 16 bit signed buffers
	39	////////////////////////////////////////////////
	40
	41	void SDL_MixAudio_MMX_S16_VC(char* dst,char* src,unsigned int nSize,int volume)
	42	{
	43	__asm
	44	{
	45
	46	push edi
	47	push esi
	48	push ebx
	49
	50	mov edi, dst // edi = dst
	51	mov esi, src // esi = src
	52	mov eax, volume // eax = volume
	53	mov ebx, nSize // ebx = size
	54	shr ebx, 4 // process 16 bytes per iteration = 8 samples
	55	jz endS16
	56
	57	pxor mm0, mm0
	58	movd mm0, eax //%%eax,%%mm0
	59	movq mm1, mm0 //%%mm0,%%mm1
	60	psllq mm0, 16 //$16,%%mm0
	61	por mm0, mm1 //%%mm1,%%mm0
	62	psllq mm0, 16 //$16,%%mm0
	63	por mm0, mm1 //%%mm1,%%mm0
	64	psllq mm0, 16 //$16,%%mm0
65	por mm0, mm1 //%%mm1,%%mm0 // mm0 = vol\|vol\|vol\|vol
66
67	#ifndef __WATCOMC__
68	align 16
69	#endif
70	mixloopS16:
71	movq mm1, [esi] //(%%esi),%%mm1\n" // mm1 = a\|b\|c\|d
72	movq mm2, mm1 //%%mm1,%%mm2\n" // mm2 = a\|b\|c\|d
73	movq mm4, [esi + 8] //8(%%esi),%%mm4\n" // mm4 = e\|f\|g\|h
74	// pre charger le buffer dst dans mm7
75	movq mm7, [edi] //(%%edi),%%mm7\n" // mm7 = dst[0]"
76	// multiplier par le volume
77	pmullw mm1, mm0 //%%mm0,%%mm1\n" // mm1 = l(av)\|l(bv)\|l(cv)\|l(dv)
78	pmulhw mm2, mm0 //%%mm0,%%mm2\n" // mm2 = h(av)\|h(bv)\|h(cv)\|h(dv)
79	movq mm5, mm4 //%%mm4,%%mm5\n" // mm5 = e\|f\|g\|h
80	pmullw mm4, mm0 //%%mm0,%%mm4\n" // mm4 = l(ev)\|l(fv)\|l(gv)\|l(hv)
81	pmulhw mm5, mm0 //%%mm0,%%mm5\n" // mm5 = h(ev)\|h(fv)\|h(gv)\|h(hv)
82	movq mm3, mm1 //%%mm1,%%mm3\n" // mm3 = l(av)\|l(bv)\|l(cv)\|l(dv)
83	punpckhwd mm1, mm2 //%%mm2,%%mm1\n" // mm1 = av\|bv
84	movq mm6, mm4 //%%mm4,%%mm6\n" // mm6 = l(ev)\|l(fv)\|l(gv)\|l(hv)
85	punpcklwd mm3, mm2 //%%mm2,%%mm3\n" // mm3 = cv\|dv
86	punpckhwd mm4, mm5 //%%mm5,%%mm4\n" // mm4 = ef\|fv
87	punpcklwd mm6, mm5 //%%mm5,%%mm6\n" // mm6 = gv\|hv
88	// pre charger le buffer dst dans mm5
89	movq mm5, [edi + 8] //8(%%edi),%%mm5\n" // mm5 = dst[1]
90	// diviser par 128
91	psrad mm1, 7 //$7,%%mm1\n" // mm1 = av/128\|bv/128 , 128 = SDL_MIX_MAXVOLUME
92	add esi, 16 //$16,%%esi\n"
93	psrad mm3, 7 //$7,%%mm3\n" // mm3 = cv/128\|dv/128
94	psrad mm4, 7 //$7,%%mm4\n" // mm4 = ev/128\|fv/128
95	// mm1 = le sample avec le volume modifie
96	packssdw mm3, mm1 //%%mm1,%%mm3\n" // mm3 = s(av\|bv\|cv\|dv)
97	psrad mm6, 7 //$7,%%mm6\n" // mm6= gv/128\|hv/128
98	paddsw mm3, mm7 //%%mm7,%%mm3\n" // mm3 = adjust_volume(src)+dst
99	// mm4 = le sample avec le volume modifie
100	packssdw mm6, mm4 //%%mm4,%%mm6\n" // mm6 = s(ev\|fv\|gv\|hv)
101	movq [edi], mm3 //%%mm3,(%%edi)\n"
102	paddsw mm6, mm5 //%%mm5,%%mm6\n" // mm6 = adjust_volume(src)+dst
103	movq [edi + 8], mm6 //%%mm6,8(%%edi)\n"
104	add edi, 16 //$16,%%edi\n"
105	dec ebx //%%ebx\n"
106	jnz mixloopS16
107
108	endS16:
109	emms
110
111	pop ebx
112	pop esi
113	pop edi
114	}
115
116	}
117
118	////////////////////////////////////////////////
119	// Mixing for 8 bit signed buffers
120	////////////////////////////////////////////////
121
122	void SDL_MixAudio_MMX_S8_VC(char* dst,char* src,unsigned int nSize,int volume)
123	{
124	_asm
125	{
126
127	push edi
128	push esi
129	push ebx
130
131	mov edi, dst //movl %0,%%edi // edi = dst
132	mov esi, src //%1,%%esi // esi = src
133	mov eax, volume //%3,%%eax // eax = volume
134
135	movd mm0, eax //%%eax,%%mm0
136	movq mm1, mm0 //%%mm0,%%mm1
137	psllq mm0, 16 //$16,%%mm0
138	por mm0, mm1 //%%mm1,%%mm0
139	psllq mm0, 16 //$16,%%mm0
140	por mm0, mm1 //%%mm1,%%mm0
141	psllq mm0, 16 //$16,%%mm0
142	por mm0, mm1 //%%mm1,%%mm0
143
144	mov ebx, nSize //%2,%%ebx // ebx = size
145	shr ebx, 3 //$3,%%ebx // process 8 bytes per iteration = 8 samples
146	cmp ebx, 0 //$0,%%ebx
147	je endS8
148
149	#ifndef __WATCOMC__
150	align 16
151	#endif
152	mixloopS8:
153	pxor mm2, mm2 //%%mm2,%%mm2 // mm2 = 0
154	movq mm1, [esi] //(%%esi),%%mm1 // mm1 = a\|b\|c\|d\|e\|f\|g\|h
155	movq mm3, mm1 //%%mm1,%%mm3 // mm3 = a\|b\|c\|d\|e\|f\|g\|h
156	// on va faire le "sign extension" en faisant un cmp avec 0 qui retourne 1 si <0, 0 si >0
157	pcmpgtb mm2, mm1 //%%mm1,%%mm2 // mm2 = 11111111\|00000000\|00000000....
158	punpckhbw mm1, mm2 //%%mm2,%%mm1 // mm1 = 0\|a\|0\|b\|0\|c\|0\|d
159	punpcklbw mm3, mm2 //%%mm2,%%mm3 // mm3 = 0\|e\|0\|f\|0\|g\|0\|h
160	movq mm2, [edi] //(%%edi),%%mm2 // mm2 = destination
161	pmullw mm1, mm0 //%%mm0,%%mm1 // mm1 = va\|vb\|vc\|vd
162	add esi, 8 //$8,%%esi
163	pmullw mm3, mm0 //%%mm0,%%mm3 // mm3 = ve\|vf\|vg\|vh
164	psraw mm1, 7 //$7,%%mm1 // mm1 = va/128\|vb/128\|vc/128\|vd/128
165	psraw mm3, 7 //$7,%%mm3 // mm3 = ve/128\|vf/128\|vg/128\|vh/128
166	packsswb mm3, mm1 //%%mm1,%%mm3 // mm1 = va/128\|vb/128\|vc/128\|vd/128\|ve/128\|vf/128\|vg/128\|vh/128
167	paddsb mm3, mm2 //%%mm2,%%mm3 // add to destination buffer
168	movq [edi], mm3 //%%mm3,(%%edi) // store back to ram
169	add edi, 8 //$8,%%edi
170	dec ebx //%%ebx
171	jnz mixloopS8
172
173	endS8:
174	emms
175
176	pop ebx
177	pop esi
178	pop edi
179	}
180	}
181
182	#endif /* SDL_ASSEMBLY_ROUTINES */
183	#endif /* SDL_BUGGY_MMX_MIXERS */