huggingface · LaurentMazare · Jan 26, 2025 · Jan 26, 2025 · Jan 26, 2025
diff --git a/candle-core/src/metal_backend/device.rs b/candle-core/src/metal_backend/device.rs
@@ -121,8 +121,6 @@ pub struct MetalDevice {
     pub(crate) kernels: Arc<Kernels>,
     /// Seed for random number generation.
     pub(crate) seed: Arc<Mutex<Buffer>>,
-    /// Whether to use the MLX matmul kernels instead of the MFA ones.
-    pub(crate) use_mlx_mm: bool,
 }
 
 impl std::fmt::Debug for MetalDevice {
@@ -140,10 +138,6 @@ impl std::ops::Deref for MetalDevice {
 }
 
 impl MetalDevice {
-    pub fn set_use_mlx_mm(&mut self, use_mlx_mm: bool) {
-        self.use_mlx_mm = use_mlx_mm
-    }
-
     pub fn compile(
         &self,
         func_name: &'static str,

diff --git a/candle-core/src/metal_backend/mod.rs b/candle-core/src/metal_backend/mod.rs
@@ -1469,7 +1469,7 @@ impl BackendStorage for MetalStorage {
                 &buffer,
             )
             .map_err(MetalError::from)?;
-        } else if self.device.use_mlx_mm {
+        } else {
             let dtype = match self.dtype {
                 DType::F32 => candle_metal_kernels::GemmDType::F32,
                 DType::F16 => candle_metal_kernels::GemmDType::F16,
@@ -1496,32 +1496,6 @@ impl BackendStorage for MetalStorage {
                 &buffer,
             )
             .map_err(MetalError::from)?;
-        } else {
-            let name = match self.dtype {
-                DType::F32 => "sgemm",
-                DType::F16 => "hgemm",
-                dtype => {
-                    return Err(
-                        MetalError::Message(format!("matmul doesn't support {dtype:?}")).into(),
-                    )
-                }
-            };
-
-            candle_metal_kernels::call_gemm(
-                &self.device.device,
-                &command_buffer,
-                &self.device.kernels,
-                name,
-                (b, m, n, k),
-                lhs_l.stride(),
-                lhs_l.start_offset() * self.dtype.size_in_bytes(),
-                &self.buffer,
-                rhs_l.stride(),
-                rhs_l.start_offset() * rhs.dtype.size_in_bytes(),
-                &rhs.buffer,
-                &buffer,
-            )
-            .map_err(MetalError::from)?;
         }
         Ok(Self::new(
             buffer,
@@ -1884,10 +1858,6 @@ impl BackendDevice for MetalDevice {
         let device = metal::Device::all().swap_remove(ordinal);
         let command_queue = device.new_command_queue();
         let kernels = Arc::new(Kernels::new());
-        let use_mlx_mm = match std::env::var("CANDLE_USE_MFA_MM").as_deref() {
-            Ok("false") | Ok("False") | Ok("FALSE") | Ok("0") | Err(_) => true,
-            Ok(_) => false,
-        };
         let seed = Arc::new(Mutex::new(device.new_buffer_with_data(
             [299792458].as_ptr() as *const c_void,
             4,
@@ -1901,7 +1871,6 @@ impl BackendDevice for MetalDevice {
             buffers: Arc::new(RwLock::new(HashMap::new())),
             kernels,
             seed,
-            use_mlx_mm,
         })
     }
 

diff --git a/candle-examples/examples/helium/main.rs b/candle-examples/examples/helium/main.rs
@@ -263,11 +263,7 @@ fn main() -> Result<()> {
     };
     let device = candle_examples::device(args.cpu)?;
     let (model, device) = {
-        let dtype = if device.is_cuda() {
-            DType::BF16
-        } else {
-            DType::F32
-        };
+        let dtype = device.bf16_default_to_f32();
         let vb = unsafe { VarBuilder::from_mmaped_safetensors(&filenames, dtype, &device)? };
         let model = Model::new(&config, vb)?;
         (model, device)

diff --git a/candle-metal-kernels/examples/metal_benchmarks.rs b/candle-metal-kernels/examples/metal_benchmarks.rs
@@ -44,66 +44,46 @@ fn run_gemm(f32: bool, n: usize) -> Result<()> {
         );
         (lhs, rhs)
     };
-    let (dtype, name, sizeof) = if f32 {
-        (GemmDType::F32, "sgemm", core::mem::size_of::<f32>())
+    let (dtype, sizeof) = if f32 {
+        (GemmDType::F32, core::mem::size_of::<f32>())
     } else {
-        (GemmDType::F16, "hgemm", core::mem::size_of::<f16>())
+        (GemmDType::F16, core::mem::size_of::<f16>())
     };
     let output = device.new_buffer((b * m * n * sizeof) as u64, options);
 
-    for mlx in [false, true] {
-        let mut sum_dt = 0f64;
-        let mut iters = 0usize;
-        for idx in 0.. {
-            let command_buffer = command_queue.new_command_buffer();
-            let start_time = std::time::Instant::now();
-            if mlx {
-                candle_metal_kernels::call_mlx_gemm(
-                    &device,
-                    command_buffer,
-                    &kernels,
-                    dtype,
-                    (b, m, n, k),
-                    &[m * k, k, 1],
-                    0,
-                    &lhs,
-                    &[n * k, n, 1],
-                    0,
-                    &rhs,
-                    &output,
-                )?;
-            } else {
-                candle_metal_kernels::call_gemm(
-                    &device,
-                    command_buffer,
-                    &kernels,
-                    name,
-                    (b, m, n, k),
-                    &[m * k, k, 1],
-                    0,
-                    &lhs,
-                    &[n * k, n, 1],
-                    0,
-                    &rhs,
-                    &output,
-                )?;
-            }
-            command_buffer.commit();
-            command_buffer.wait_until_completed();
-            let dt = start_time.elapsed().as_secs_f64();
-            if idx < WARMUP_ITERS {
-                continue;
-            }
-            sum_dt += dt;
-            iters += 1;
-            if sum_dt > MIN_DUR {
-                break;
-            }
+    let mut sum_dt = 0f64;
+    let mut iters = 0usize;
+    for idx in 0.. {
+        let command_buffer = command_queue.new_command_buffer();
+        let start_time = std::time::Instant::now();
+        candle_metal_kernels::call_mlx_gemm(
+            &device,
+            command_buffer,
+            &kernels,
+            dtype,
+            (b, m, n, k),
+            &[m * k, k, 1],
+            0,
+            &lhs,
+            &[n * k, n, 1],
+            0,
+            &rhs,
+            &output,
+        )?;
+        command_buffer.commit();
+        command_buffer.wait_until_completed();
+        let dt = start_time.elapsed().as_secs_f64();
+        if idx < WARMUP_ITERS {
+            continue;
+        }
+        sum_dt += dt;
+        iters += 1;
+        if sum_dt > MIN_DUR {
+            break;
         }
-        let gflops = (2 * n * n * n * iters) as f64 / (1e9 * sum_dt);
-        let mlx = if mlx { "MLX" } else { "MFA" };
-        println!("{mlx} {dtype:?},      {n:6}      gflops {gflops:.0}");
     }
+    let gflops = (2 * n * n * n * iters) as f64 / (1e9 * sum_dt);
+    println!("{dtype:?},      {n:6}      gflops {gflops:.0}");
 
     Ok(())
 }