huggingface · geronimi73 · Mar 10, 2024 · Mar 10, 2024 · Mar 11, 2024 · Mar 12, 2024
diff --git a/trl/trainer/sft_trainer.py b/trl/trainer/sft_trainer.py
@@ -149,6 +149,7 @@ def __init__(
         model_init_kwargs: Optional[Dict] = None,
         dataset_kwargs: Optional[Dict] = None,
         eval_packing: Optional[bool] = None,
+        check_dataset_labels: Optional[bool] = None,
     ):
         if model_init_kwargs is None:
             model_init_kwargs = {}
@@ -302,6 +303,15 @@ def make_inputs_require_grad(module, input, output):
                 "overflow issues when training a model in half-precision. You might consider adding `tokenizer.padding_side = 'right'` to your code."
             )
 
+        if check_dataset_labels:
+            if train_dataset is not None and len(train_dataset) > 0:
+                input_ids, attention_mask, labels = data_collator([train_dataset[0]]).values()
+                # print is obviously the wrong choice but no logger
+                print(f"check_dataset_labels:")
+                print(tokenizer.decode(input_ids[0]))
+                for token, label in zip(input_ids[0], labels[0]):
+                    print(token.item(), f"'{tokenizer.decode(token)}'", label.item())
+
         super().__init__(
             model=model,
             args=args,