From afac887850dfc03353acc6dbc5f80d74f555284e Mon Sep 17 00:00:00 2001
From: Recep Aslantas <info@recp.me>
Date: Sat, 24 Apr 2021 17:54:01 +0300
Subject: [PATCH] arm, neon: implement mat4 inv with neon

---
 include/cglm/mat4.h           |   2 +
 include/cglm/simd/neon/mat4.h | 132 ++++++++++++++++++++++++++++++++++
 2 files changed, 134 insertions(+)

diff --git a/include/cglm/mat4.h b/include/cglm/mat4.h
index 697f510..0b64db8 100644
--- a/include/cglm/mat4.h
+++ b/include/cglm/mat4.h
@@ -597,6 +597,8 @@ void
 glm_mat4_inv(mat4 mat, mat4 dest) {
 #if defined( __SSE__ ) || defined( __SSE2__ )
   glm_mat4_inv_sse2(mat, dest);
+#elif defined(CGLM_NEON_FP)
+  glm_mat4_inv_neon(mat, dest);
 #else
   float t[6];
   float det;
diff --git a/include/cglm/simd/neon/mat4.h b/include/cglm/simd/neon/mat4.h
index ad32339..b992acc 100644
--- a/include/cglm/simd/neon/mat4.h
+++ b/include/cglm/simd/neon/mat4.h
@@ -171,5 +171,137 @@ glm_mat4_det_neon(mat4 mat) {
   return glmm_hadd(vmulq_f32(x2, r0));
 }
 
+CGLM_INLINE
+void
+glm_mat4_inv_neon(mat4 mat, mat4 dest) {
+  float32x4_t   r0, r1, r2, r3,
+                v0, v1, v2, v3,
+                t0, t1, t2, t3, t4, t5,
+                x0, x1, x2, x3, x4, x5, x6, x7, x8;
+  float32x4x2_t a1;
+  float32x2_t   lp, ko, hg, jn, im, fe, ae, bf, cg, dh;
+  float32x4_t   x9 = { -0.f, 0.f, -0.f, 0.f };
+
+  x8 = vrev64q_f32(x9);
+
+  /* 127 <- 0 */
+  r0 = glmm_load(mat[0]); /* d c b a */
+  r1 = glmm_load(mat[1]); /* h g f e */
+  r2 = glmm_load(mat[2]); /* l k j i */
+  r3 = glmm_load(mat[3]); /* p o n m */
+  
+  /* l p k o, j n i m */
+  a1  = vzipq_f32(r3, r2);
+  
+  jn  = vget_high_f32(a1.val[0]);
+  im  = vget_low_f32(a1.val[0]);
+  lp  = vget_high_f32(a1.val[1]);
+  ko  = vget_low_f32(a1.val[1]);
+  hg  = vget_high_f32(r1);
+
+  x1  = vcombine_f32(vdup_lane_f32(lp, 0), lp);                   /* l p p p */
+  x2  = vcombine_f32(vdup_lane_f32(ko, 0), ko);                   /* k o o o */
+  x0  = vcombine_f32(vdup_lane_f32(lp, 1), vdup_lane_f32(hg, 1)); /* h h l l */
+  x3  = vcombine_f32(vdup_lane_f32(ko, 1), vdup_lane_f32(hg, 0)); /* g g k k */
+  
+  /* t1[0] = k * p - o * l;
+     t1[0] = k * p - o * l;
+     t2[0] = g * p - o * h;
+     t3[0] = g * l - k * h; */
+  t0 = glmm_fnmadd(x2, x0, vmulq_f32(x3, x1));
+
+  fe = vget_low_f32(r1);
+  x4 = vcombine_f32(vdup_lane_f32(jn, 0), jn);                   /* j n n n */
+  x5 = vcombine_f32(vdup_lane_f32(jn, 1), vdup_lane_f32(fe, 1)); /* f f j j */
+  
+  /* t1[1] = j * p - n * l;
+     t1[1] = j * p - n * l;
+     t2[1] = f * p - n * h;
+     t3[1] = f * l - j * h; */
+   t1 = glmm_fnmadd(x4, x0, vmulq_f32(x5, x1));
+  
+  /* t1[2] = j * o - n * k
+     t1[2] = j * o - n * k;
+     t2[2] = f * o - n * g;
+     t3[2] = f * k - j * g; */
+  t2 = glmm_fnmadd(x4, x3, vmulq_f32(x5, x2));
+  
+  x6 = vcombine_f32(vdup_lane_f32(im, 1), vdup_lane_f32(fe, 0)); /* e e i i */
+  x7 = vcombine_f32(vdup_lane_f32(im, 0), im);                   /* i m m m */
+  
+  /* t1[3] = i * p - m * l;
+     t1[3] = i * p - m * l;
+     t2[3] = e * p - m * h;
+     t3[3] = e * l - i * h; */
+  t3 = glmm_fnmadd(x7, x0, vmulq_f32(x6, x1));
+  
+  /* t1[4] = i * o - m * k;
+     t1[4] = i * o - m * k;
+     t2[4] = e * o - m * g;
+     t3[4] = e * k - i * g; */
+  t4 = glmm_fnmadd(x7, x3, vmulq_f32(x6, x2));
+  
+  /* t1[5] = i * n - m * j;
+     t1[5] = i * n - m * j;
+     t2[5] = e * n - m * f;
+     t3[5] = e * j - i * f; */
+  t5 = glmm_fnmadd(x7, x5, vmulq_f32(x6, x4));
+  
+  /* h d f b, g c e a */
+  a1 = vtrnq_f32(r0, r1);
+  
+  x4 = vrev64q_f32(a1.val[0]); /* c g a e */
+  x5 = vrev64q_f32(a1.val[1]); /* d h b f */
+
+  ae = vget_low_f32(x4);
+  cg = vget_high_f32(x4);
+  bf = vget_low_f32(x5);
+  dh = vget_high_f32(x5);
+  
+  x0 = vcombine_f32(ae, vdup_lane_f32(ae, 1)); /* a a a e */
+  x1 = vcombine_f32(bf, vdup_lane_f32(bf, 1)); /* b b b f */
+  x2 = vcombine_f32(cg, vdup_lane_f32(cg, 1)); /* c c c g */
+  x3 = vcombine_f32(dh, vdup_lane_f32(dh, 1)); /* d d d h */
+  
+  /*
+   dest[0][0] =  f * t1[0] - g * t1[1] + h * t1[2];
+   dest[0][1] =-(b * t1[0] - c * t1[1] + d * t1[2]);
+   dest[0][2] =  b * t2[0] - c * t2[1] + d * t2[2];
+   dest[0][3] =-(b * t3[0] - c * t3[1] + d * t3[2]); */
+  v0 = glmm_xor(glmm_fmadd(x3, t2, glmm_fnmadd(x2, t1, vmulq_f32(x1, t0))), x8);
+  
+  /*
+   dest[2][0] =  e * t1[1] - f * t1[3] + h * t1[5];
+   dest[2][1] =-(a * t1[1] - b * t1[3] + d * t1[5]);
+   dest[2][2] =  a * t2[1] - b * t2[3] + d * t2[5];
+   dest[2][3] =-(a * t3[1] - b * t3[3] + d * t3[5]);*/
+  v2 = glmm_xor(glmm_fmadd(x3, t5, glmm_fnmadd(x1, t3, vmulq_f32(x0, t1))), x8);
+
+  /*
+   dest[1][0] =-(e * t1[0] - g * t1[3] + h * t1[4]);
+   dest[1][1] =  a * t1[0] - c * t1[3] + d * t1[4];
+   dest[1][2] =-(a * t2[0] - c * t2[3] + d * t2[4]);
+   dest[1][3] =  a * t3[0] - c * t3[3] + d * t3[4]; */
+  v1 = glmm_xor(glmm_fmadd(x3, t4, glmm_fnmadd(x2, t3, vmulq_f32(x0, t0))), x9);
+  
+  /*
+   dest[3][0] =-(e * t1[2] - f * t1[4] + g * t1[5]);
+   dest[3][1] =  a * t1[2] - b * t1[4] + c * t1[5];
+   dest[3][2] =-(a * t2[2] - b * t2[4] + c * t2[5]);
+   dest[3][3] =  a * t3[2] - b * t3[4] + c * t3[5]; */
+  v3 = glmm_xor(glmm_fmadd(x2, t5, glmm_fnmadd(x1, t4, vmulq_f32(x0, t2))), x9);
+
+  /* determinant */
+  x0 = vcombine_f32(vget_low_f32(vzipq_f32(v0, v1).val[0]),
+                    vget_low_f32(vzipq_f32(v2, v3).val[0]));
+
+  x0 = glmm_div(glmm_set1(1.0f), glmm_vhadd(vmulq_f32(x0, r0)));
+
+  glmm_store(dest[0], vmulq_f32(v0, x0));
+  glmm_store(dest[1], vmulq_f32(v1, x0));
+  glmm_store(dest[2], vmulq_f32(v2, x0));
+  glmm_store(dest[3], vmulq_f32(v3, x0));
+}
+
 #endif
 #endif /* cglm_mat4_neon_h */