label_issue

增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练，经常提到的rlhf指的是哪几种训练方法 #1995

Sign in to view logs

Summary
Jobs
- label_issue
Run details
- Usage
- Workflow file

Triggered via issue January 9, 2025 09:19

qkkcoolmax

opened #6580 6b34b69

Status Success

Total duration 10s

Artifacts –

label_issue.yml

on: issues

Annotations

1 warning

label_issue

ubuntu-latest pipelines will use ubuntu-24.04 soon. For more details, see https://github.com/actions/runner-images/issues/10636