Skip to content

增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练,经常提到的rlhf指的是哪几种训练方法 #1995

增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练,经常提到的rlhf指的是哪几种训练方法

增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练,经常提到的rlhf指的是哪几种训练方法 #1995

Triggered via issue January 9, 2025 09:19
Status Success
Total duration 10s
Artifacts

label_issue.yml

on: issues
label_issue
2s
label_issue
Fit to window
Zoom out
Zoom in

Annotations

1 warning
label_issue
ubuntu-latest pipelines will use ubuntu-24.04 soon. For more details, see https://github.com/actions/runner-images/issues/10636