avx: optimize (re-use) mat4_mul registers

2025-12-25 04:44:58 +00:00 · 2018-10-30 09:27:55 +03:00
parent 08479f38ce
commit abfa355b84
1 changed files with 21 additions and 15 deletions
--- a/include/cglm/simd/avx/mat4.h
+++ b/include/cglm/simd/avx/mat4.h
@@ -19,26 +19,32 @@ void
 glm_mat4_mul_avx(mat4 m1, mat4 m2, mat4 dest) {
  /* D = R * L (Column-Major) */

-  __m256 y0, y1, y2, y3, y4, y5, y6, y7, y8, y9;
+  __m256  y0, y1, y2, y3, y4, y5, y6, y7, y8, y9;
+  __m256i yi0, yi1, yi2, yi3;

-  y0 = glmm_load256(m2[0]); /* h g f e d c b a */
-  y1 = glmm_load256(m2[2]); /* p o n m l k j i */
+  y0  = glmm_load256(m2[0]); /* h g f e d c b a */
+  y1  = glmm_load256(m2[2]); /* p o n m l k j i */

-  y2 = glmm_load256(m1[0]); /* h g f e d c b a */
-  y3 = glmm_load256(m1[2]); /* p o n m l k j i */
+  y2  = glmm_load256(m1[0]); /* h g f e d c b a */
+  y3  = glmm_load256(m1[2]); /* p o n m l k j i */

  /* 0x03: 0b00000011 */
-  y4 = _mm256_permute2f128_ps(y2, y2, 0x03); /* d c b a h g f e */
-  y5 = _mm256_permute2f128_ps(y3, y3, 0x03); /* l k j i p o n m */
+  y4  = _mm256_permute2f128_ps(y2, y2, 0x03); /* d c b a h g f e */
+  y5  = _mm256_permute2f128_ps(y3, y3, 0x03); /* l k j i p o n m */
+
+  yi0 = _mm256_set_epi32(1, 1, 1, 1, 0, 0, 0, 0);
+  yi1 = _mm256_set_epi32(3, 3, 3, 3, 2, 2, 2, 2);
+  yi2 = _mm256_set_epi32(0, 0, 0, 0, 1, 1, 1, 1);
+  yi3 = _mm256_set_epi32(2, 2, 2, 2, 3, 3, 3, 3);

  /* f f f f a a a a */
  /* h h h h c c c c */
  /* e e e e b b b b */
  /* g g g g d d d d */
-  y6 = _mm256_permutevar_ps(y0, _mm256_set_epi32(1, 1, 1, 1, 0, 0, 0, 0));
-  y7 = _mm256_permutevar_ps(y0, _mm256_set_epi32(3, 3, 3, 3, 2, 2, 2, 2));
-  y8 = _mm256_permutevar_ps(y0, _mm256_set_epi32(0, 0, 0, 0, 1, 1, 1, 1));
-  y9 = _mm256_permutevar_ps(y0, _mm256_set_epi32(2, 2, 2, 2, 3, 3, 3, 3));
+  y6 = _mm256_permutevar_ps(y0, yi0);
+  y7 = _mm256_permutevar_ps(y0, yi1);
+  y8 = _mm256_permutevar_ps(y0, yi2);
+  y9 = _mm256_permutevar_ps(y0, yi3);

  glmm_store256(dest[0],
                _mm256_add_ps(_mm256_add_ps(_mm256_mul_ps(y2, y6),
@@ -50,10 +56,10 @@ glm_mat4_mul_avx(mat4 m1, mat4 m2, mat4 dest) {
  /* p p p p k k k k */
  /* m m m m j j j j */
  /* o o o o l l l l */
-  y6 = _mm256_permutevar_ps(y1, _mm256_set_epi32(1, 1, 1, 1, 0, 0, 0, 0));
-  y7 = _mm256_permutevar_ps(y1, _mm256_set_epi32(3, 3, 3, 3, 2, 2, 2, 2));
-  y8 = _mm256_permutevar_ps(y1, _mm256_set_epi32(0, 0, 0, 0, 1, 1, 1, 1));
-  y9 = _mm256_permutevar_ps(y1, _mm256_set_epi32(2, 2, 2, 2, 3, 3, 3, 3));
+  y6 = _mm256_permutevar_ps(y1, yi0);
+  y7 = _mm256_permutevar_ps(y1, yi1);
+  y8 = _mm256_permutevar_ps(y1, yi2);
+  y9 = _mm256_permutevar_ps(y1, yi3);

  glmm_store256(dest[2],
                _mm256_add_ps(_mm256_add_ps(_mm256_mul_ps(y2, y6),