Add note that SDPA is disabled for non None mask or softcapping

Lightning-AI · Dec 26, 2024 · 5520aef · 5520aef
1 parent 311c2c5
commit 5520aef
Showing 1 changed file with 1 addition and 0 deletions.
diff --git a/litgpt/model.py b/litgpt/model.py
@@ -349,6 +349,7 @@ def forward(
             mask += sliding_window_bias
 
         # Efficient attention using Flash Attention CUDA kernels.
+        # NOTE: efficient implementation is disabled if `mask` is not None or softcapping is enabled.
         # ↓ (B, nh, T, hs) @ (B, nh, T, hs).mT --> (B, nh, T, T) @ (B, nh, T, hs) --> (B, nh, T, hs)
         y = self.scaled_dot_product_attention(q, k, v, mask)