мне нужно, чтобы получить что-то вроде этого, вероятно, но в странной GCC встроенного ассемблеракак сделать простой float4 добавить в GCC/MinGW встроенного ассемблера
void add4(float* a, float* b, float* out)
{
mov edx, [esp+4]
movaps xmm0, oword [edx+0]
mov edx, [esp+8]
movaps xmm1, oword [edx+0]
addps xmm0, xmm1
mov edx, [esp+12]
movaps oword [edx+0], xmm0
ret
}
1) одна тема, как упаковать это в GCC встроенного синтаксиса 2) вторая тема - как переписать ее (возможно, избавиться от явного доступа к памяти) , чтобы сделать такую встроенную рутину хорошо интегрированной с окружающим кодом GCC (mingw32)
Вы рассматривали использование типов векторов gcc и позволяете компилятору выполнять всю работу за вас? – JS1
Вместо использования встроенной сборки используйте функции intrinsics. –