From 108a99b92a332e35b425040ff1170d5eae1e6134 Mon Sep 17 00:00:00 2001
From: Marco Barbone <mbarbone@flatironinstitute.org>
Date: Mon, 1 Jun 2026 11:51:09 -0400
Subject: [PATCH 1/4] ci: support XSIMD_DEFAULT_ARCH override and verify
 default_arch

Let CMake force a specific default arch via -DXSIMD_DEFAULT_ARCH
(idiomatic if(XSIMD_DEFAULT_ARCH) guard), add a test_arch.cpp check
that the forced arch is the default, and fix the linux.yml CXXFLAGS typo.
---
 .github/workflows/linux.yml | 2 +-
 test/CMakeLists.txt         | 3 +++
 test/test_arch.cpp          | 6 ++++++
 3 files changed, 10 insertions(+), 1 deletion(-)
diff --git a/.github/workflows/linux.yml b/.github/workflows/linux.yml
index 03a914bda..b66c9a97c 100644
--- a/.github/workflows/linux.yml
+++ b/.github/workflows/linux.yml
@@ -100,7 +100,7 @@ jobs:
         fi
         if [[ '${{ matrix.sys.flags }}' == 'avx512vl_128' ]]; then
           CMAKE_EXTRA_ARGS="$CMAKE_EXTRA_ARGS -DTARGET_ARCH=skylake-avx512"
-          CXXFLAGS="$CXX_FLAGS -DXSIMD_DEFAULT_ARCH=avx512vl_128"
+          CXXFLAGS="$CXXFLAGS -DXSIMD_DEFAULT_ARCH=avx512vl_128"
         fi
         if [[ '${{ matrix.sys.flags }}' == 'avx512vl_256' ]]; then
           CMAKE_EXTRA_ARGS="$CMAKE_EXTRA_ARGS -DTARGET_ARCH=skylake-avx512"
diff --git a/test/CMakeLists.txt b/test/CMakeLists.txt
index 662dcdc3f..c159977f7 100644
--- a/test/CMakeLists.txt
+++ b/test/CMakeLists.txt
@@ -49,6 +49,9 @@ if (TARGET_EMULATED)
     message(STATUS "Using emulated target: ${TARGET_EMULATED}")
     set(EMULATED_COMPILE_FLAGS -DXSIMD_DEFAULT_ARCH=${TARGET_ARCH};-DXSIMD_WITH_EMULATED=1)
     unset(TARGET_ARCH CACHE)
+elseif (XSIMD_DEFAULT_ARCH)
+    message(STATUS "Forcing default arch to xsimd::${XSIMD_DEFAULT_ARCH}")
+    set(EMULATED_COMPILE_FLAGS -DXSIMD_DEFAULT_ARCH=${XSIMD_DEFAULT_ARCH})
 endif()
 
 if (CMAKE_CXX_COMPILER_ID MATCHES "Clang" OR CMAKE_CXX_COMPILER_ID MATCHES "GNU" OR CMAKE_CXX_COMPILER_ID MATCHES "Intel")
diff --git a/test/test_arch.cpp b/test/test_arch.cpp
index d2d0df249..5d479bbaf 100644
--- a/test/test_arch.cpp
+++ b/test/test_arch.cpp
@@ -23,6 +23,12 @@ static_assert(xsimd::default_arch::supported(), "default arch must be supported"
 static_assert(std::is_same<xsimd::default_arch, xsimd::best_arch>::value, "default arch is the best available");
 static_assert(xsimd::supported_architectures::contains<xsimd::default_arch>(), "default arch is supported");
 static_assert(xsimd::all_architectures::contains<xsimd::default_arch>(), "default arch is a valid arch");
+#else
+namespace xsimd
+{
+    static_assert(std::is_same<default_arch, XSIMD_DEFAULT_ARCH>::value,
+                  "default_arch does not match XSIMD_DEFAULT_ARCH");
+}
 #endif
 
 #if !XSIMD_WITH_SVE

From 9ebcf0f4ea2c9a51b80a776e25eb097bbe629a26 Mon Sep 17 00:00:00 2001
From: Marco Barbone <mbarbone@flatironinstitute.org>
Date: Mon, 1 Jun 2026 11:51:09 -0400
Subject: [PATCH 2/4] chore: small drive-by fixes (avx_128 swizzle, doc typo)

Split the avx_128 variable swizzle into explicit float/double overloads
with a width static_assert, and fix an AVX512DQ -> AVX512VL doc comment.
---
 include/xsimd/arch/xsimd_avx_128.hpp          | 28 +++++++++----------
 .../xsimd/types/xsimd_avx512vl_register.hpp   |  2 +-
 2 files changed, 15 insertions(+), 15 deletions(-)

diff --git a/include/xsimd/arch/xsimd_avx_128.hpp b/include/xsimd/arch/xsimd_avx_128.hpp
index 46fc9acb7..07dafd78b 100644
--- a/include/xsimd/arch/xsimd_avx_128.hpp
+++ b/include/xsimd/arch/xsimd_avx_128.hpp
@@ -129,20 +129,20 @@ namespace xsimd
         }
 
         // swizzle (dynamic mask)
-        template <class A, class T, class ITy, class = std::enable_if_t<std::is_floating_point<T>::value && sizeof(T) == sizeof(ITy)>>
-        XSIMD_INLINE batch<T, A> swizzle(batch<T, A> const& self, batch<ITy, A> mask, requires_arch<avx_128>) noexcept
-        {
-            XSIMD_IF_CONSTEXPR(std::is_same<T, float>::value)
-            {
-                return _mm_permutevar_ps(self, mask);
-            }
-            else
-            {
-                // VPERMILPD's variable control reads bit 1 of each 64-bit selector
-                // (bit 0 is ignored), so a {0,1} index needs to become {0,2}.
-                // Negation is a cheap alternative to a left shift by 1.
-                return _mm_permutevar_pd(self, -mask);
-            }
+        template <class A, class ITy>
+        XSIMD_INLINE batch<float, A> swizzle(batch<float, A> const& self, batch<ITy, A> mask, requires_arch<avx_128>) noexcept
+        {
+            static_assert(sizeof(float) == sizeof(ITy), "index type must match value width");
+            return _mm_permutevar_ps(self, mask);
+        }
+        template <class A, class ITy>
+        XSIMD_INLINE batch<double, A> swizzle(batch<double, A> const& self, batch<ITy, A> mask, requires_arch<avx_128>) noexcept
+        {
+            static_assert(sizeof(double) == sizeof(ITy), "index type must match value width");
+            // VPERMILPD's variable control reads bit 1 of each 64-bit selector
+            // (bit 0 is ignored), so a {0,1} index needs to become {0,2}.
+            // Negation is a cheap alternative to a left shift by 1.
+            return _mm_permutevar_pd(self, -mask);
         }
 
         // swizzle (constant mask)
diff --git a/include/xsimd/types/xsimd_avx512vl_register.hpp b/include/xsimd/types/xsimd_avx512vl_register.hpp
index c73c2a963..46d887333 100644
--- a/include/xsimd/types/xsimd_avx512vl_register.hpp
+++ b/include/xsimd/types/xsimd_avx512vl_register.hpp
@@ -20,7 +20,7 @@ namespace xsimd
     /**
      * @ingroup architectures
      *
-     * AVX512DQ instructions
+     * AVX512VL instructions
      */
     struct avx512vl : avx512cd
     {

From 34bca15a20a2065b301ad5476b0eb9aa6ef24b3d Mon Sep 17 00:00:00 2001
From: Marco Barbone <mbarbone@flatironinstitute.org>
Date: Mon, 1 Jun 2026 11:51:09 -0400
Subject: [PATCH 3/4] feat(avx512vl): native EVEX masked load/store on
 avx512vl_128/256

Add the missing int64/uint64/float/double load_masked overloads and
correct the store_masked batch_bool_constant typing on avx512vl_128 and
avx512vl_256, branching aligned vs unaligned to the right EVEX intrinsic
(vmovdqu{32,64}{k}{z} / vmov{a,u}p{s,d}{k}{z}); unsigned overloads
delegate via bitwise_cast. Resolve the avx/avx2/avx512f half-fold target
through make_sized_batch_t<T, half>::arch_type so a 512-bit masked op
picks the VL arch and emits EVEX instead of VEX vpmaskmov*/vmaskmov*.
---
 include/xsimd/arch/xsimd_avx512f.hpp      |  31 ++---
 include/xsimd/arch/xsimd_avx512vl_128.hpp | 134 +++++++++++++++++-----
 include/xsimd/arch/xsimd_avx512vl_256.hpp | 134 +++++++++++++++++-----
 3 files changed, 223 insertions(+), 76 deletions(-)

diff --git a/include/xsimd/arch/xsimd_avx512f.hpp b/include/xsimd/arch/xsimd_avx512f.hpp
index 6a7316722..cc057eacf 100644
--- a/include/xsimd/arch/xsimd_avx512f.hpp
+++ b/include/xsimd/arch/xsimd_avx512f.hpp
@@ -305,16 +305,17 @@ namespace xsimd
                                              convert<T>, Mode, requires_arch<avx512f>) noexcept
         {
             constexpr auto half = batch<T, A>::size / 2;
-            XSIMD_IF_CONSTEXPR(mask.countl_zero() >= half) // lower-half AVX2 forwarding
+            using half_arch = typename ::xsimd::make_sized_batch_t<T, half>::arch_type;
+            XSIMD_IF_CONSTEXPR(mask.countl_zero() >= half) // lower 256-bit half
             {
-                constexpr auto mlo = ::xsimd::detail::lower_half<avx2>(mask);
-                const auto lo = load_masked<avx2>(mem, mlo, convert<T> {}, Mode {}, avx2 {});
+                constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(mask);
+                const auto lo = load_masked<half_arch>(mem, mlo, convert<T> {}, Mode {}, half_arch {});
                 return detail::load_masked(lo); // zero-extend low half
             }
-            else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= half) // upper-half AVX2 forwarding
+            else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= half) // upper 256-bit half
             {
-                constexpr auto mhi = ::xsimd::detail::upper_half<avx2>(mask);
-                const auto hi = load_masked<avx2>(mem + half, mhi, convert<T> {}, Mode {}, avx2 {});
+                constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);
+                const auto hi = load_masked<half_arch>(mem + half, mhi, convert<T> {}, Mode {}, half_arch {});
                 return detail::load_masked(hi, detail::high_tag {});
             }
             else
@@ -332,17 +333,19 @@ namespace xsimd
                                        Mode, requires_arch<avx512f>) noexcept
         {
             constexpr auto half = batch<T, A>::size / 2;
-            XSIMD_IF_CONSTEXPR(mask.countl_zero() >= half) // lower-half AVX2 forwarding
+            using half_batch = ::xsimd::make_sized_batch_t<T, half>;
+            using half_arch = typename half_batch::arch_type;
+            XSIMD_IF_CONSTEXPR(mask.countl_zero() >= half) // lower 256-bit half
             {
-                constexpr auto mlo = ::xsimd::detail::lower_half<avx2>(mask);
-                const auto lo = detail::lower_half(src);
-                store_masked<avx2>(mem, lo, mlo, Mode {}, avx2 {});
+                constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(mask);
+                const half_batch lo = detail::lower_half(src);
+                store_masked<half_arch>(mem, lo, mlo, Mode {}, half_arch {});
             }
-            else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= half) // upper-half AVX2 forwarding
+            else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= half) // upper 256-bit half
             {
-                constexpr auto mhi = ::xsimd::detail::upper_half<avx2>(mask);
-                const auto hi = detail::upper_half(src);
-                store_masked<avx2>(mem + half, hi, mhi, Mode {}, avx2 {});
+                constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);
+                const half_batch hi = detail::upper_half(src);
+                store_masked<half_arch>(mem + half, hi, mhi, Mode {}, half_arch {});
             }
             else
             {
diff --git a/include/xsimd/arch/xsimd_avx512vl_128.hpp b/include/xsimd/arch/xsimd_avx512vl_128.hpp
index 155338425..855870af3 100644
--- a/include/xsimd/arch/xsimd_avx512vl_128.hpp
+++ b/include/xsimd/arch/xsimd_avx512vl_128.hpp
@@ -188,53 +188,125 @@ namespace xsimd
             return _mm_abs_epi64(self);
         }
 
-        // load masked
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<int32_t, A> load_masked(int32_t const* mem, batch_bool_constant<int32_t, A, Values...> mask, convert<int32_t>, Mode, requires_arch<avx512vl_128>) noexcept
+        // Per-type masked load/store — partial ordering picks these over the
+        // avx2 bridges this arch inherits. Unsigned overloads reinterpret to
+        // the signed EVEX intrinsic.
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<int32_t, A> load_masked(int32_t const* mem, batch_bool_constant<int32_t, A, V...> mask, convert<int32_t>, Mode, requires_arch<avx512vl_128>) noexcept
         {
-            constexpr auto imm_mask = mask.mask();
-            return _mm_mask_loadu_epi32(_mm_setzero_si128(), imm_mask, mem);
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                return _mm_maskz_load_epi32(mask.mask(), mem);
+            }
+            else
+            {
+                return _mm_maskz_loadu_epi32(mask.mask(), mem);
+            }
         }
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<uint32_t, A> load_masked(uint32_t const* mem, batch_bool_constant<uint32_t, A, Values...> mask, convert<uint32_t>, Mode, requires_arch<avx512vl_128>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<uint32_t, A> load_masked(uint32_t const* mem, batch_bool_constant<uint32_t, A, V...>, convert<uint32_t>, Mode, requires_arch<avx512vl_128>) noexcept
         {
-            constexpr auto imm_mask = mask.mask();
-            return _mm_mask_loadu_epi32(_mm_setzero_si128(), imm_mask, mem);
+            return bitwise_cast<uint32_t>(load_masked(reinterpret_cast<int32_t const*>(mem), batch_bool_constant<int32_t, A, V...> {}, convert<int32_t> {}, Mode {}, avx512vl_128 {}));
         }
-
-        // store masked
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<avx512vl_128>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<int64_t, A> load_masked(int64_t const* mem, batch_bool_constant<int64_t, A, V...> mask, convert<int64_t>, Mode, requires_arch<avx512vl_128>) noexcept
         {
-            _mm_mask_storeu_epi32(mem, mask.mask(), src);
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                return _mm_maskz_load_epi64(mask.mask(), mem);
+            }
+            else
+            {
+                return _mm_maskz_loadu_epi64(mask.mask(), mem);
+            }
         }
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(int32_t* mem, batch<int32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<avx512vl_128>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<uint64_t, A> load_masked(uint64_t const* mem, batch_bool_constant<uint64_t, A, V...>, convert<uint64_t>, Mode, requires_arch<avx512vl_128>) noexcept
         {
-            _mm_mask_storeu_epi32(mem, mask.mask(), src);
+            return bitwise_cast<uint64_t>(load_masked(reinterpret_cast<int64_t const*>(mem), batch_bool_constant<int64_t, A, V...> {}, convert<int64_t> {}, Mode {}, avx512vl_128 {}));
         }
-
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(uint64_t* mem, batch<uint64_t, A> const& src, batch_bool_constant<uint64_t, A, Values...> mask, Mode, requires_arch<avx512vl_128>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<float, A> load_masked(float const* mem, batch_bool_constant<float, A, V...> mask, convert<float>, Mode, requires_arch<avx512vl_128>) noexcept
+        {
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                return _mm_maskz_load_ps(mask.mask(), mem);
+            }
+            else
+            {
+                return _mm_maskz_loadu_ps(mask.mask(), mem);
+            }
+        }
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<double, A> load_masked(double const* mem, batch_bool_constant<double, A, V...> mask, convert<double>, Mode, requires_arch<avx512vl_128>) noexcept
         {
-            _mm_mask_storeu_epi64(mem, mask.mask(), src);
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                return _mm_maskz_load_pd(mask.mask(), mem);
+            }
+            else
+            {
+                return _mm_maskz_loadu_pd(mask.mask(), mem);
+            }
         }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(int64_t* mem, batch<int64_t, A> const& src, batch_bool_constant<uint64_t, A, Values...> mask, Mode, requires_arch<avx512vl_128>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(int32_t* mem, batch<int32_t, A> const& src, batch_bool_constant<int32_t, A, V...> mask, Mode, requires_arch<avx512vl_128>) noexcept
         {
-            _mm_mask_storeu_epi64(mem, mask.mask(), src);
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                _mm_mask_store_epi32(mem, mask.mask(), src);
+            }
+            else
+            {
+                _mm_mask_storeu_epi32(mem, mask.mask(), src);
+            }
         }
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(float* mem, batch<float, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<avx512vl_128>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, V...>, Mode, requires_arch<avx512vl_128>) noexcept
         {
-            _mm_mask_storeu_ps(mem, mask.mask(), src);
+            store_masked(reinterpret_cast<int32_t*>(mem), bitwise_cast<int32_t>(src), batch_bool_constant<int32_t, A, V...> {}, Mode {}, avx512vl_128 {});
         }
-
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(double* mem, batch<double, A> const& src, batch_bool_constant<uint64_t, A, Values...> mask, Mode, requires_arch<avx512vl_128>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(int64_t* mem, batch<int64_t, A> const& src, batch_bool_constant<int64_t, A, V...> mask, Mode, requires_arch<avx512vl_128>) noexcept
+        {
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                _mm_mask_store_epi64(mem, mask.mask(), src);
+            }
+            else
+            {
+                _mm_mask_storeu_epi64(mem, mask.mask(), src);
+            }
+        }
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(uint64_t* mem, batch<uint64_t, A> const& src, batch_bool_constant<uint64_t, A, V...>, Mode, requires_arch<avx512vl_128>) noexcept
+        {
+            store_masked(reinterpret_cast<int64_t*>(mem), bitwise_cast<int64_t>(src), batch_bool_constant<int64_t, A, V...> {}, Mode {}, avx512vl_128 {});
+        }
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(float* mem, batch<float, A> const& src, batch_bool_constant<float, A, V...> mask, Mode, requires_arch<avx512vl_128>) noexcept
         {
-            _mm_mask_storeu_pd(mem, mask.mask(), src);
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                _mm_mask_store_ps(mem, mask.mask(), src);
+            }
+            else
+            {
+                _mm_mask_storeu_ps(mem, mask.mask(), src);
+            }
+        }
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(double* mem, batch<double, A> const& src, batch_bool_constant<double, A, V...> mask, Mode, requires_arch<avx512vl_128>) noexcept
+        {
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                _mm_mask_store_pd(mem, mask.mask(), src);
+            }
+            else
+            {
+                _mm_mask_storeu_pd(mem, mask.mask(), src);
+            }
         }
 
         // max
diff --git a/include/xsimd/arch/xsimd_avx512vl_256.hpp b/include/xsimd/arch/xsimd_avx512vl_256.hpp
index a5ea546bc..c0b4a568e 100644
--- a/include/xsimd/arch/xsimd_avx512vl_256.hpp
+++ b/include/xsimd/arch/xsimd_avx512vl_256.hpp
@@ -188,53 +188,125 @@ namespace xsimd
             return _mm256_abs_epi64(self);
         }
 
-        // load masked
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<int32_t, A> load_masked(int32_t const* mem, batch_bool_constant<int32_t, A, Values...> mask, convert<int32_t>, Mode, requires_arch<avx512vl_256>) noexcept
+        // Per-type masked load/store — partial ordering picks these over the
+        // avx2 bridges this arch inherits. Unsigned overloads reinterpret to
+        // the signed EVEX intrinsic.
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<int32_t, A> load_masked(int32_t const* mem, batch_bool_constant<int32_t, A, V...> mask, convert<int32_t>, Mode, requires_arch<avx512vl_256>) noexcept
         {
-            constexpr auto imm_mask = mask.mask();
-            return _mm256_mask_loadu_epi32(_mm256_setzero_si256(), imm_mask, mem);
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                return _mm256_maskz_load_epi32(mask.mask(), mem);
+            }
+            else
+            {
+                return _mm256_maskz_loadu_epi32(mask.mask(), mem);
+            }
         }
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<uint32_t, A> load_masked(uint32_t const* mem, batch_bool_constant<uint32_t, A, Values...> mask, convert<uint32_t>, Mode, requires_arch<avx512vl_256>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<uint32_t, A> load_masked(uint32_t const* mem, batch_bool_constant<uint32_t, A, V...>, convert<uint32_t>, Mode, requires_arch<avx512vl_256>) noexcept
         {
-            constexpr auto imm_mask = mask.mask();
-            return _mm256_mask_loadu_epi32(_mm256_setzero_si256(), imm_mask, mem);
+            return bitwise_cast<uint32_t>(load_masked(reinterpret_cast<int32_t const*>(mem), batch_bool_constant<int32_t, A, V...> {}, convert<int32_t> {}, Mode {}, avx512vl_256 {}));
         }
-
-        // store masked
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<avx512vl_256>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<int64_t, A> load_masked(int64_t const* mem, batch_bool_constant<int64_t, A, V...> mask, convert<int64_t>, Mode, requires_arch<avx512vl_256>) noexcept
         {
-            _mm256_mask_storeu_epi32(mem, mask.mask(), src);
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                return _mm256_maskz_load_epi64(mask.mask(), mem);
+            }
+            else
+            {
+                return _mm256_maskz_loadu_epi64(mask.mask(), mem);
+            }
         }
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(int32_t* mem, batch<int32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<avx512vl_256>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<uint64_t, A> load_masked(uint64_t const* mem, batch_bool_constant<uint64_t, A, V...>, convert<uint64_t>, Mode, requires_arch<avx512vl_256>) noexcept
         {
-            _mm256_mask_storeu_epi32(mem, mask.mask(), src);
+            return bitwise_cast<uint64_t>(load_masked(reinterpret_cast<int64_t const*>(mem), batch_bool_constant<int64_t, A, V...> {}, convert<int64_t> {}, Mode {}, avx512vl_256 {}));
         }
-
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(uint64_t* mem, batch<uint64_t, A> const& src, batch_bool_constant<uint64_t, A, Values...> mask, Mode, requires_arch<avx512vl_256>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<float, A> load_masked(float const* mem, batch_bool_constant<float, A, V...> mask, convert<float>, Mode, requires_arch<avx512vl_256>) noexcept
+        {
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                return _mm256_maskz_load_ps(mask.mask(), mem);
+            }
+            else
+            {
+                return _mm256_maskz_loadu_ps(mask.mask(), mem);
+            }
+        }
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE batch<double, A> load_masked(double const* mem, batch_bool_constant<double, A, V...> mask, convert<double>, Mode, requires_arch<avx512vl_256>) noexcept
         {
-            _mm256_mask_storeu_epi64(mem, mask.mask(), src);
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                return _mm256_maskz_load_pd(mask.mask(), mem);
+            }
+            else
+            {
+                return _mm256_maskz_loadu_pd(mask.mask(), mem);
+            }
         }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(int64_t* mem, batch<int64_t, A> const& src, batch_bool_constant<uint64_t, A, Values...> mask, Mode, requires_arch<avx512vl_256>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(int32_t* mem, batch<int32_t, A> const& src, batch_bool_constant<int32_t, A, V...> mask, Mode, requires_arch<avx512vl_256>) noexcept
         {
-            _mm256_mask_storeu_epi64(mem, mask.mask(), src);
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                _mm256_mask_store_epi32(mem, mask.mask(), src);
+            }
+            else
+            {
+                _mm256_mask_storeu_epi32(mem, mask.mask(), src);
+            }
         }
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(float* mem, batch<float, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<avx512vl_256>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, V...>, Mode, requires_arch<avx512vl_256>) noexcept
         {
-            _mm256_mask_storeu_ps(mem, mask.mask(), src);
+            store_masked(reinterpret_cast<int32_t*>(mem), bitwise_cast<int32_t>(src), batch_bool_constant<int32_t, A, V...> {}, Mode {}, avx512vl_256 {});
         }
-
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(double* mem, batch<double, A> const& src, batch_bool_constant<uint64_t, A, Values...> mask, Mode, requires_arch<avx512vl_256>) noexcept
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(int64_t* mem, batch<int64_t, A> const& src, batch_bool_constant<int64_t, A, V...> mask, Mode, requires_arch<avx512vl_256>) noexcept
+        {
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                _mm256_mask_store_epi64(mem, mask.mask(), src);
+            }
+            else
+            {
+                _mm256_mask_storeu_epi64(mem, mask.mask(), src);
+            }
+        }
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(uint64_t* mem, batch<uint64_t, A> const& src, batch_bool_constant<uint64_t, A, V...>, Mode, requires_arch<avx512vl_256>) noexcept
+        {
+            store_masked(reinterpret_cast<int64_t*>(mem), bitwise_cast<int64_t>(src), batch_bool_constant<int64_t, A, V...> {}, Mode {}, avx512vl_256 {});
+        }
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(float* mem, batch<float, A> const& src, batch_bool_constant<float, A, V...> mask, Mode, requires_arch<avx512vl_256>) noexcept
         {
-            _mm256_mask_storeu_pd(mem, mask.mask(), src);
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                _mm256_mask_store_ps(mem, mask.mask(), src);
+            }
+            else
+            {
+                _mm256_mask_storeu_ps(mem, mask.mask(), src);
+            }
+        }
+        template <class A, bool... V, class Mode>
+        XSIMD_INLINE void store_masked(double* mem, batch<double, A> const& src, batch_bool_constant<double, A, V...> mask, Mode, requires_arch<avx512vl_256>) noexcept
+        {
+            XSIMD_IF_CONSTEXPR(std::is_same<Mode, aligned_mode>::value)
+            {
+                _mm256_mask_store_pd(mem, mask.mask(), src);
+            }
+            else
+            {
+                _mm256_mask_storeu_pd(mem, mask.mask(), src);
+            }
         }
 
         // max

From 5a40538fd60ef3ad04a18f9263d2863571747130 Mon Sep 17 00:00:00 2001
From: Marco Barbone <mbarbone@flatironinstitute.org>
Date: Mon, 1 Jun 2026 11:51:09 -0400
Subject: [PATCH 4/4] refactor(masked-memory): dispatch via overload conversion
 ranking

Drop the cross-arch SFINAE/tag mechanism: a concrete
requires_arch<avx512vl_128|256> overload now beats the inherited
avx2/avx2_128 one by overload conversion ranking, so no arch file knows
about another. xsimd_common_memory.hpp keeps only requires_arch<common>
and dispatches on the arch-agnostic trait masked_memory_uses_fp_bitcast
(integral with a same-width float register -> reuse that float vmaskmov*
path, else a scalar buffer). avx/avx2/avx2_128 drop every
is_base_of<avx512vl_*, A> guard; avx2_128 routes native 128-bit integer
masked memory through vpmaskmov* (long long* cast for 64-bit) and tags
int64/uint64 on avx2_128 (those intrinsics need AVX2). detail::maskstore
takes a bool mask and casts internally; xsimd_batch.hpp keeps a
make_sized_batch fwd-decl and simplifies the store_masked call;
xsimd_isa.hpp documents the _128-first include order; sse2.hpp adapts to
the new store_masked(common) signature.
---
 .../xsimd/arch/common/xsimd_common_memory.hpp | 136 +++++++++---------
 include/xsimd/arch/xsimd_avx.hpp              |  54 ++++---
 include/xsimd/arch/xsimd_avx2.hpp             |  25 ++--
 include/xsimd/arch/xsimd_avx2_128.hpp         |  28 ++--
 include/xsimd/arch/xsimd_common_fwd.hpp       |  19 +--
 include/xsimd/arch/xsimd_isa.hpp              |   9 +-
 include/xsimd/arch/xsimd_sse2.hpp             |   2 +-
 include/xsimd/types/xsimd_batch.hpp           |  10 +-
 8 files changed, 152 insertions(+), 131 deletions(-)

diff --git a/include/xsimd/arch/common/xsimd_common_memory.hpp b/include/xsimd/arch/common/xsimd_common_memory.hpp
index 7a1ed73a3..bd2d14f93 100644
--- a/include/xsimd/arch/common/xsimd_common_memory.hpp
+++ b/include/xsimd/arch/common/xsimd_common_memory.hpp
@@ -13,6 +13,7 @@
 #define XSIMD_COMMON_MEMORY_HPP
 
 #include "../../types/xsimd_batch_constant.hpp"
+#include "../../utils/xsimd_type_traits.hpp"
 #include "./xsimd_common_details.hpp"
 
 #include <algorithm>
@@ -360,88 +361,87 @@ namespace xsimd
             return load_unaligned<A>(mem, convert<T> {}, A {});
         }
 
-        template <class A, class T_in, class T_out, bool... Values, class alignment>
-        XSIMD_INLINE batch<T_out, A>
-        load_masked(T_in const* mem, batch_bool_constant<T_out, A, Values...>, convert<T_out>, alignment, requires_arch<common>) noexcept
-        {
-            constexpr std::size_t size = batch<T_out, A>::size;
-            alignas(A::alignment()) std::array<T_out, size> buffer {};
-            constexpr bool mask[size] = { Values... };
-
-            for (std::size_t i = 0; i < size; ++i)
-                buffer[i] = mask[i] ? static_cast<T_out>(mem[i]) : T_out(0);
-
-            return batch<T_out, A>::load(buffer.data(), aligned_mode {});
-        }
-
-        template <class A, class T_in, class T_out, bool... Values, class alignment>
-        XSIMD_INLINE void
-        store_masked(T_out* mem, batch<T_in, A> const& src, batch_bool_constant<T_in, A, Values...>, alignment, requires_arch<common>) noexcept
+        // Masked-memory dispatch idiom. To give an arch a native masked path, add a
+        // `requires_arch<that-arch>` overload in its arch file; conversion ranking makes
+        // it beat the inherited one. Keep this base layer arch-agnostic:
+        //  (a) specialize via a concrete `requires_arch<arch>` overload -- no register
+        //      tag, no `enable_if` on `A`;
+        //  (b) base overloads use the `requires_arch<common>` tag only; a generic
+        //      `requires_arch<A>` here ties with an arch's own overload (gcc-10 ambiguity);
+        //  (c) capability decisions go through arch-agnostic traits (see below).
+        namespace detail
         {
-            constexpr std::size_t size = batch<T_in, A>::size;
-            constexpr bool mask[size] = { Values... };
+            // True when an integer access can borrow the same-width float `vmaskmov*` path
+            // (integral type, same-size float exists, arch has that float register);
+            // otherwise the scalar-buffer fallback is used. Names no architecture.
+            template <class A, class T_in, class T_out>
+            using masked_memory_uses_fp_bitcast = std::integral_constant<bool,
+                                                                         std::is_same<T_in, T_out>::value
+                                                                             && std::is_integral<T_out>::value
+                                                                             && !std::is_void<sized_fp_t<sizeof(T_out)>>::value
+                                                                             && types::has_simd_register<sized_fp_t<sizeof(T_out)>, A>::value>;
 
-            for (std::size_t i = 0; i < size; ++i)
-                if (mask[i])
-                {
-                    mem[i] = static_cast<T_out>(src.get(i));
-                }
-        }
+            // Scalar-buffer fallback: materialize masked-off lanes as zero, then load.
+            template <class A, class T_in, class T_out, bool... Values, class alignment>
+            XSIMD_INLINE batch<T_out, A>
+            load_masked_common(T_in const* mem, batch_bool_constant<T_out, A, Values...>, convert<T_out>, alignment, std::false_type /* uses_fp_bitcast */) noexcept
+            {
+                constexpr std::size_t size = batch<T_out, A>::size;
+                alignas(A::alignment()) std::array<T_out, size> buffer {};
+                constexpr bool mask[size] = { Values... };
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<int32_t, A> load_masked(int32_t const* mem, batch_bool_constant<int32_t, A, Values...>, convert<int32_t>, Mode, requires_arch<A>) noexcept
-        {
-            const auto f = load_masked<A>(reinterpret_cast<const float*>(mem), batch_bool_constant<float, A, Values...> {}, convert<float> {}, Mode {}, A {});
-            return bitwise_cast<int32_t>(f);
-        }
+                for (std::size_t i = 0; i < size; ++i)
+                    buffer[i] = mask[i] ? static_cast<T_out>(mem[i]) : T_out(0);
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<uint32_t, A> load_masked(uint32_t const* mem, batch_bool_constant<uint32_t, A, Values...>, convert<uint32_t>, Mode, requires_arch<A>) noexcept
-        {
-            const auto f = load_masked<A>(reinterpret_cast<const float*>(mem), batch_bool_constant<float, A, Values...> {}, convert<float> {}, Mode {}, A {});
-            return bitwise_cast<uint32_t>(f);
-        }
+                return batch<T_out, A>::load(buffer.data(), aligned_mode {});
+            }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value, batch<int64_t, A>>
-        load_masked(int64_t const* mem, batch_bool_constant<int64_t, A, Values...>, convert<int64_t>, Mode, requires_arch<A>) noexcept
-        {
-            const auto d = load_masked<A>(reinterpret_cast<const double*>(mem), batch_bool_constant<double, A, Values...> {}, convert<double> {}, Mode {}, A {});
-            return bitwise_cast<int64_t>(d);
-        }
+            // Integer-via-float path: reinterpret to the same-width float type, reuse the
+            // floating-point masked load (e.g. `vmaskmovps`), then bitcast the result back.
+            template <class A, class T, bool... Values, class Mode>
+            XSIMD_INLINE batch<T, A>
+            load_masked_common(T const* mem, batch_bool_constant<T, A, Values...>, convert<T>, Mode, std::true_type /* uses_fp_bitcast */) noexcept
+            {
+                using fp_t = sized_fp_t<sizeof(T)>;
+                const auto f = ::xsimd::kernel::load_masked<A>(reinterpret_cast<const fp_t*>(mem), batch_bool_constant<fp_t, A, Values...> {}, convert<fp_t> {}, Mode {}, A {});
+                return bitwise_cast<T>(f);
+            }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value, batch<uint64_t, A>>
-        load_masked(uint64_t const* mem, batch_bool_constant<uint64_t, A, Values...>, convert<uint64_t>, Mode, requires_arch<A>) noexcept
-        {
-            const auto d = load_masked<A>(reinterpret_cast<const double*>(mem), batch_bool_constant<double, A, Values...> {}, convert<double> {}, Mode {}, A {});
-            return bitwise_cast<uint64_t>(d);
-        }
+            template <class A, class T_in, class T_out, bool... Values, class alignment>
+            XSIMD_INLINE void
+            store_masked_common(T_out* mem, batch<T_in, A> const& src, batch_bool_constant<T_in, A, Values...>, alignment, std::false_type /* uses_fp_bitcast */) noexcept
+            {
+                constexpr std::size_t size = batch<T_in, A>::size;
+                constexpr bool mask[size] = { Values... };
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(int32_t* mem, batch<int32_t, A> const& src, batch_bool_constant<int32_t, A, Values...>, Mode, requires_arch<A>) noexcept
-        {
-            store_masked<A>(reinterpret_cast<float*>(mem), bitwise_cast<float>(src), batch_bool_constant<float, A, Values...> {}, Mode {}, A {});
-        }
+                for (std::size_t i = 0; i < size; ++i)
+                    if (mask[i])
+                    {
+                        mem[i] = static_cast<T_out>(src.get(i));
+                    }
+            }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...>, Mode, requires_arch<A>) noexcept
-        {
-            store_masked<A>(reinterpret_cast<float*>(mem), bitwise_cast<float>(src), batch_bool_constant<float, A, Values...> {}, Mode {}, A {});
+            template <class A, class T, bool... Values, class Mode>
+            XSIMD_INLINE void
+            store_masked_common(T* mem, batch<T, A> const& src, batch_bool_constant<T, A, Values...>, Mode, std::true_type /* uses_fp_bitcast */) noexcept
+            {
+                using fp_t = sized_fp_t<sizeof(T)>;
+                ::xsimd::kernel::store_masked<A>(reinterpret_cast<fp_t*>(mem), bitwise_cast<fp_t>(src), batch_bool_constant<fp_t, A, Values...> {}, Mode {}, A {});
+            }
         }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value>
-        store_masked(int64_t* mem, batch<int64_t, A> const& src, batch_bool_constant<int64_t, A, Values...>, Mode, requires_arch<A>) noexcept
+        template <class A, class T_in, class T_out, bool... Values, class alignment>
+        XSIMD_INLINE batch<T_out, A>
+        load_masked(T_in const* mem, batch_bool_constant<T_out, A, Values...> mask, convert<T_out> cvt, alignment mode, requires_arch<common>) noexcept
         {
-            store_masked<A>(reinterpret_cast<double*>(mem), bitwise_cast<double>(src), batch_bool_constant<double, A, Values...> {}, Mode {}, A {});
+            return detail::load_masked_common(mem, mask, cvt, mode, detail::masked_memory_uses_fp_bitcast<A, T_in, T_out> {});
         }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value>
-        store_masked(uint64_t* mem, batch<uint64_t, A> const& src, batch_bool_constant<uint64_t, A, Values...>, Mode, requires_arch<A>) noexcept
+        template <class A, class T_in, class T_out, bool... Values, class alignment>
+        XSIMD_INLINE void
+        store_masked(T_out* mem, batch<T_in, A> const& src, batch_bool_constant<T_in, A, Values...> mask, alignment mode, requires_arch<common>) noexcept
         {
-            store_masked<A>(reinterpret_cast<double*>(mem), bitwise_cast<double>(src), batch_bool_constant<double, A, Values...> {}, Mode {}, A {});
+            detail::store_masked_common(mem, src, mask, mode, detail::masked_memory_uses_fp_bitcast<A, T_in, T_out> {});
         }
 
         template <class A, class T_in, class T_out>
diff --git a/include/xsimd/arch/xsimd_avx.hpp b/include/xsimd/arch/xsimd_avx.hpp
index 1ee0c5b89..a542d3f31 100644
--- a/include/xsimd/arch/xsimd_avx.hpp
+++ b/include/xsimd/arch/xsimd_avx.hpp
@@ -993,19 +993,20 @@ namespace xsimd
         {
             using int_t = as_integer_t<T>;
             constexpr size_t half_size = batch<T, A>::size / 2;
+            using half_arch = typename ::xsimd::make_sized_batch_t<T, half_size>::arch_type;
 
-            // confined to lower 128-bit half → forward to 128 bit
+            // lower 128-bit half
             XSIMD_IF_CONSTEXPR(mask.countl_zero() >= half_size)
             {
-                constexpr auto mlo = ::xsimd::detail::lower_half<sse4_2>(batch_bool_constant<int_t, A, Values...> {});
-                const auto lo = load_masked(reinterpret_cast<int_t const*>(mem), mlo, convert<int_t> {}, Mode {}, avx_128 {});
+                constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(batch_bool_constant<int_t, A, Values...> {});
+                const auto lo = load_masked(reinterpret_cast<int_t const*>(mem), mlo, convert<int_t> {}, Mode {}, half_arch {});
                 return bitwise_cast<T>(batch<int_t, A>(_mm256_zextsi128_si256(lo)));
             }
-            // confined to upper 128-bit half → forward to 128 bit
+            // upper 128-bit half
             else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= half_size)
             {
-                constexpr auto mhi = ::xsimd::detail::upper_half<sse4_2>(mask);
-                const auto hi = load_masked(mem + half_size, mhi, convert<T> {}, Mode {}, avx_128 {});
+                constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);
+                const auto hi = load_masked(mem + half_size, mhi, convert<T> {}, Mode {}, half_arch {});
                 return detail::zero_extend<A>(hi);
             }
             else
@@ -1018,41 +1019,54 @@ namespace xsimd
         // store_masked
         namespace detail
         {
-            template <class A>
+            // True when batch_bool<T, A> is the legacy VEX vector mask, i.e. it is stored
+            // in the same register as the data (__m256 / __m256d) rather than in an EVEX
+            // k-register (__mmask8) as on the avx512vl architectures. The _mm256_cast*_si256
+            // path below is only well-formed for the vector-mask representation. This names
+            // no architecture — it tests the mask's representation, in the spirit of
+            // detail::masked_memory_uses_fp_bitcast.
+            template <class T, class A>
+            using uses_vector_mask = std::is_same<typename batch_bool<T, A>::register_type,
+                                                  typename batch<T, A>::register_type>;
+
+            template <class A, class = std::enable_if_t<uses_vector_mask<float, A>::value>>
             XSIMD_INLINE void maskstore(float* mem, batch_bool<float, A> const& mask, batch<float, A> const& src) noexcept
             {
-                _mm256_maskstore_ps(mem, mask, src);
+                _mm256_maskstore_ps(mem, _mm256_castps_si256(mask), src);
             }
 
-            template <class A>
+            template <class A, class = std::enable_if_t<uses_vector_mask<double, A>::value>>
             XSIMD_INLINE void maskstore(double* mem, batch_bool<double, A> const& mask, batch<double, A> const& src) noexcept
             {
-                _mm256_maskstore_pd(mem, mask, src);
+                _mm256_maskstore_pd(mem, _mm256_castpd_si256(mask), src);
             }
         }
 
-        template <class A, class T, bool... Values, class Mode>
+        template <class A, class T, bool... Values, class Mode,
+                  typename = std::enable_if_t<std::is_floating_point<T>::value && detail::uses_vector_mask<T, A>::value>>
         XSIMD_INLINE void store_masked(T* mem, batch<T, A> const& src, batch_bool_constant<T, A, Values...> mask, Mode, requires_arch<avx>) noexcept
         {
             constexpr size_t half_size = batch<T, A>::size / 2;
+            using half_batch = ::xsimd::make_sized_batch_t<T, half_size>;
+            using half_arch = typename half_batch::arch_type;
 
-            // confined to lower 128-bit half → forward to 128 bit
+            // lower 128-bit half
             XSIMD_IF_CONSTEXPR(mask.countl_zero() >= half_size)
             {
-                constexpr auto mlo = ::xsimd::detail::lower_half<sse4_2>(mask);
-                const auto lo = detail::lower_half(src);
-                store_masked<avx_128>(mem, lo, mlo, Mode {}, sse4_2 {});
+                constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(mask);
+                const half_batch lo = detail::lower_half(src);
+                store_masked<half_arch>(mem, lo, mlo, Mode {}, half_arch {});
             }
-            // confined to upper 128-bit half → forward to 128 bit
+            // upper 128-bit half
             else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= half_size)
             {
-                constexpr auto mhi = ::xsimd::detail::upper_half<sse4_2>(mask);
-                const auto hi = detail::upper_half(src);
-                store_masked<avx_128>(mem + half_size, hi, mhi, Mode {}, sse4_2 {});
+                constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);
+                const half_batch hi = detail::upper_half(src);
+                store_masked<half_arch>(mem + half_size, hi, mhi, Mode {}, half_arch {});
             }
             else
             {
-                detail::maskstore(mem, mask.as_batch(), src);
+                detail::maskstore(mem, mask.as_batch_bool(), src);
             }
         }
 
diff --git a/include/xsimd/arch/xsimd_avx2.hpp b/include/xsimd/arch/xsimd_avx2.hpp
index e2c223cc7..5cb47f908 100644
--- a/include/xsimd/arch/xsimd_avx2.hpp
+++ b/include/xsimd/arch/xsimd_avx2.hpp
@@ -190,24 +190,27 @@ namespace xsimd
             }
         }
 
-        template <class A, class T, bool... Values, class Mode>
+        template <class A, class T, bool... Values, class Mode,
+                  typename = std::enable_if_t<std::is_integral<T>::value && (sizeof(T) >= 4)>>
         XSIMD_INLINE void store_masked(T* mem, batch<T, A> const& src, batch_bool_constant<T, A, Values...> mask, Mode, requires_arch<avx2>) noexcept
         {
             constexpr size_t lanes_per_half = batch<T, A>::size / 2;
+            using half_batch = ::xsimd::make_sized_batch_t<T, lanes_per_half>;
+            using half_arch = typename half_batch::arch_type;
 
-            // confined to lower 128-bit half → forward to SSE
+            // lower 128-bit half
             XSIMD_IF_CONSTEXPR(mask.countl_zero() >= lanes_per_half)
             {
-                constexpr auto mlo = ::xsimd::detail::lower_half<sse4_2>(mask);
-                const auto lo = detail::lower_half(src);
-                store_masked<sse4_2>(mem, lo, mlo, Mode {}, sse4_2 {});
+                constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(mask);
+                const half_batch lo = detail::lower_half(src);
+                store_masked<half_arch>(mem, lo, mlo, Mode {}, half_arch {});
             }
-            // confined to upper 128-bit half → forward to SSE
+            // upper 128-bit half
             else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= lanes_per_half)
             {
-                constexpr auto mhi = ::xsimd::detail::upper_half<sse4_2>(mask);
-                const auto hi = detail::upper_half(src);
-                store_masked<sse4_2>(mem + lanes_per_half, hi, mhi, Mode {}, sse4_2 {});
+                constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);
+                const half_batch hi = detail::upper_half(src);
+                store_masked<half_arch>(mem + lanes_per_half, hi, mhi, Mode {}, half_arch {});
             }
             else
             {
@@ -216,10 +219,10 @@ namespace xsimd
         }
 
         template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<avx2>) noexcept
+        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...>, Mode, requires_arch<avx2>) noexcept
         {
             const auto s32 = bitwise_cast<int32_t>(src);
-            store_masked<A>(reinterpret_cast<int32_t*>(mem), s32, mask, Mode {}, avx2 {});
+            store_masked<A>(reinterpret_cast<int32_t*>(mem), s32, batch_bool_constant<int32_t, A, Values...> {}, Mode {}, avx2 {});
         }
 
         template <class A, bool... Values, class Mode>
diff --git a/include/xsimd/arch/xsimd_avx2_128.hpp b/include/xsimd/arch/xsimd_avx2_128.hpp
index 7a590c74f..c0f119e4e 100644
--- a/include/xsimd/arch/xsimd_avx2_128.hpp
+++ b/include/xsimd/arch/xsimd_avx2_128.hpp
@@ -89,7 +89,11 @@ namespace xsimd
             }
         }
 
-        // load_masked
+        // load_masked — native 128-bit integer masked loads. Tagged on avx2_128
+        // because the vpmaskmov* intrinsics require AVX2; an AVX1-only build routes
+        // integer masked memory through the float path in xsimd_common_memory.hpp.
+        // Any arch with a native masked path provides its own exact-tag overload that
+        // out-ranks this one, so no cross-arch exclusion is needed here.
         template <class A, bool... Values, class Mode>
         XSIMD_INLINE batch<int32_t, A> load_masked(int32_t const* mem, batch_bool_constant<int32_t, A, Values...> mask, convert<int32_t>, Mode, requires_arch<avx2_128>) noexcept
         {
@@ -98,20 +102,20 @@ namespace xsimd
         template <class A, bool... Values, class Mode>
         XSIMD_INLINE batch<uint32_t, A> load_masked(uint32_t const* mem, batch_bool_constant<uint32_t, A, Values...> mask, convert<uint32_t>, Mode, requires_arch<avx2_128>) noexcept
         {
-            return _mm_maskload_epi32((int32_t*)mem, mask.as_batch());
+            return _mm_maskload_epi32(reinterpret_cast<int32_t const*>(mem), mask.as_batch());
         }
         template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<int64_t, A> load_masked(int64_t const* mem, batch_bool_constant<int64_t, A, Values...> mask, convert<double>, Mode, requires_arch<avx_128>) noexcept
+        XSIMD_INLINE batch<int64_t, A> load_masked(int64_t const* mem, batch_bool_constant<int64_t, A, Values...> mask, convert<int64_t>, Mode, requires_arch<avx2_128>) noexcept
         {
-            return _mm_maskload_epi64(mem, mask.as_batch());
+            return _mm_maskload_epi64(reinterpret_cast<long long const*>(mem), mask.as_batch());
         }
         template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<uint64_t, A> load_masked(uint64_t const* mem, batch_bool_constant<uint64_t, A, Values...> mask, convert<double>, Mode, requires_arch<avx_128>) noexcept
+        XSIMD_INLINE batch<uint64_t, A> load_masked(uint64_t const* mem, batch_bool_constant<uint64_t, A, Values...> mask, convert<uint64_t>, Mode, requires_arch<avx2_128>) noexcept
         {
-            return _mm_maskload_epi64((int64_t*)mem, mask.as_batch());
+            return _mm_maskload_epi64(reinterpret_cast<long long const*>(mem), mask.as_batch());
         }
 
-        // store_masked
+        // store_masked — native 128-bit integer masked stores (see load note above).
         template <class A, bool... Values, class Mode>
         XSIMD_INLINE void store_masked(int32_t* mem, batch<int32_t, A> const& src, batch_bool_constant<int32_t, A, Values...> mask, Mode, requires_arch<avx2_128>) noexcept
         {
@@ -120,17 +124,17 @@ namespace xsimd
         template <class A, bool... Values, class Mode>
         XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<avx2_128>) noexcept
         {
-            return _mm_maskstore_epi32((int32_t*)mem, mask.as_batch(), src);
+            return _mm_maskstore_epi32(reinterpret_cast<int32_t*>(mem), mask.as_batch(), src);
         }
         template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(int64_t* mem, batch<int64_t, A> const& src, batch_bool_constant<int64_t, A, Values...> mask, Mode, requires_arch<avx_128>) noexcept
+        XSIMD_INLINE void store_masked(int64_t* mem, batch<int64_t, A> const& src, batch_bool_constant<int64_t, A, Values...> mask, Mode, requires_arch<avx2_128>) noexcept
         {
-            return _mm_maskstore_epi64(mem, mask.as_batch(), src);
+            return _mm_maskstore_epi64(reinterpret_cast<long long*>(mem), mask.as_batch(), src);
         }
         template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(uint64_t* mem, batch<uint64_t, A> const& src, batch_bool_constant<uint64_t, A, Values...> mask, Mode, requires_arch<avx_128>) noexcept
+        XSIMD_INLINE void store_masked(uint64_t* mem, batch<uint64_t, A> const& src, batch_bool_constant<uint64_t, A, Values...> mask, Mode, requires_arch<avx2_128>) noexcept
         {
-            return _mm_maskstore_epi64((int64_t*)mem, mask.as_batch(), src);
+            return _mm_maskstore_epi64(reinterpret_cast<long long*>(mem), mask.as_batch(), src);
         }
 
         // gather
diff --git a/include/xsimd/arch/xsimd_common_fwd.hpp b/include/xsimd/arch/xsimd_common_fwd.hpp
index f5a7f4ffe..8c4818176 100644
--- a/include/xsimd/arch/xsimd_common_fwd.hpp
+++ b/include/xsimd/arch/xsimd_common_fwd.hpp
@@ -13,6 +13,9 @@
 #ifndef XSIMD_COMMON_FWD_HPP
 #define XSIMD_COMMON_FWD_HPP
 
+#include "../config/xsimd_macros.hpp"
+#include "../types/xsimd_common_arch.hpp"
+
 #include <cstdint>
 #include <type_traits>
 #include <utility>
@@ -87,22 +90,6 @@ namespace xsimd
         XSIMD_INLINE batch<T_out, A> load_masked(T_in const* mem, batch_bool_constant<T_out, A, Values...> mask, convert<T_out>, alignment, requires_arch<common>) noexcept;
         template <class A, class T_in, class T_out, bool... Values, class alignment>
         XSIMD_INLINE void store_masked(T_out* mem, batch<T_in, A> const& src, batch_bool_constant<T_in, A, Values...> mask, alignment, requires_arch<common>) noexcept;
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<int32_t, A> load_masked(int32_t const* mem, batch_bool_constant<int32_t, A, Values...> mask, convert<int32_t>, Mode, requires_arch<A>) noexcept;
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<uint32_t, A> load_masked(uint32_t const* mem, batch_bool_constant<uint32_t, A, Values...> mask, convert<uint32_t>, Mode, requires_arch<A>) noexcept;
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value, batch<int64_t, A>> load_masked(int64_t const*, batch_bool_constant<int64_t, A, Values...>, convert<int64_t>, Mode, requires_arch<A>) noexcept;
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value, batch<uint64_t, A>> load_masked(uint64_t const*, batch_bool_constant<uint64_t, A, Values...>, convert<uint64_t>, Mode, requires_arch<A>) noexcept;
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(int32_t* mem, batch<int32_t, A> const& src, batch_bool_constant<int32_t, A, Values...> mask, Mode, requires_arch<A>) noexcept;
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<A>) noexcept;
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value> store_masked(int64_t*, batch<int64_t, A> const&, batch_bool_constant<int64_t, A, Values...>, Mode, requires_arch<A>) noexcept;
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value> store_masked(uint64_t*, batch<uint64_t, A> const&, batch_bool_constant<uint64_t, A, Values...>, Mode, requires_arch<A>) noexcept;
 
         // Forward declarations for pack-level helpers
         namespace detail
diff --git a/include/xsimd/arch/xsimd_isa.hpp b/include/xsimd/arch/xsimd_isa.hpp
index cf88f64d7..06edfa98f 100644
--- a/include/xsimd/arch/xsimd_isa.hpp
+++ b/include/xsimd/arch/xsimd_isa.hpp
@@ -48,8 +48,11 @@
 #endif
 
 #if XSIMD_WITH_AVX
-#include "./xsimd_avx.hpp"
+// clang-format off
+// _128 first: avx half-fold recursive call needs avx_128 visible at parse time.
 #include "./xsimd_avx_128.hpp"
+#include "./xsimd_avx.hpp"
+// clang-format on
 #endif
 
 #if XSIMD_WITH_FMA3_AVX
@@ -61,8 +64,10 @@
 #endif
 
 #if XSIMD_WITH_AVX2
-#include "./xsimd_avx2.hpp"
+// clang-format off
 #include "./xsimd_avx2_128.hpp"
+#include "./xsimd_avx2.hpp"
+// clang-format on
 #endif
 
 #if XSIMD_WITH_FMA3_AVX2
diff --git a/include/xsimd/arch/xsimd_sse2.hpp b/include/xsimd/arch/xsimd_sse2.hpp
index c6cfb5f07..0a95aae8b 100644
--- a/include/xsimd/arch/xsimd_sse2.hpp
+++ b/include/xsimd/arch/xsimd_sse2.hpp
@@ -2331,7 +2331,7 @@ namespace xsimd
             }
             else
             {
-                store_masked<A>(mem, src, mask, requires_arch<common> {});
+                store_masked<A>(mem, src, mask, aligned_mode {}, common {});
             }
         }
 
diff --git a/include/xsimd/types/xsimd_batch.hpp b/include/xsimd/types/xsimd_batch.hpp
index 970483150..8b44491f2 100644
--- a/include/xsimd/types/xsimd_batch.hpp
+++ b/include/xsimd/types/xsimd_batch.hpp
@@ -544,6 +544,14 @@ namespace xsimd
                       "Please use batch<std::complex<T>, A> initialized from xtl::xcomplex instead");
     };
 #endif
+
+    // Forward declarations: the AVX/AVX2 masked load/store kernels (pulled in
+    // by xsimd_isa.hpp below) reference make_sized_batch_t<T, N>::arch_type
+    // before xsimd_traits.hpp — which carries the full definition — is included.
+    template <typename T, std::size_t N>
+    struct make_sized_batch;
+    template <typename T, std::size_t N>
+    using make_sized_batch_t = typename make_sized_batch<T, N>::type;
 }
 
 #include "../arch/xsimd_isa.hpp"
@@ -763,7 +771,7 @@ namespace xsimd
         }
         else
         {
-            kernel::store_masked<A, T, U, Values...>(mem, *this, mask, mode, A {});
+            kernel::store_masked<A>(mem, *this, mask, mode, A {});
         }
     }