DPO数据格式问题，对于同一个instruction有多个chosen和rejected怎么构造数据？ #6509

veraygood · 2025-01-02T07:10:51Z

Reminder

I have read the README and searched the existing issues.

System Info

[
{
"instruction": "人类指令（必填）",
"input": "人类输入（选填）",
"chosen": "优质回答（必填）",
"rejected": "劣质回答（必填）"
}
]

Reproduction

--

Expected behavior

这里的chosen和rejected可以为list格式吗？我应该怎么构造数据呢

Others

No response

hiyouga · 2025-01-02T07:34:19Z

仅支持一个，多个请分成多条数据

veraygood · 2025-01-02T08:48:51Z

@hiyouga
还想请教一下，我有多个response分别对应质量打分，比如对于按照质量打分score排序 response a>b>c>d，以下哪种方式推荐？
方式一：按照score，取相对概念，比如b相比于a更差，b相比于c更好。
[
{
"instruction": prompt,
"chosen": a,
"rejected": b
},
{
"instruction": prompt,
"chosen": b,
"rejected": c
},...]
方式二：设定阈值，比如a>b>thresh>c>d，那么a、b为chosen，c、d为rejected
[
{
"instruction": prompt,
"chosen": a,
"rejected": c
},
{
"instruction": prompt,
"chosen": a,
"rejected": d
},...
]

github-actions bot added the pending This problem is yet to be addressed label Jan 2, 2025

hiyouga closed this as completed Jan 2, 2025

hiyouga added solved This problem has been already solved and removed pending This problem is yet to be addressed labels Jan 2, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DPO数据格式问题，对于同一个instruction有多个chosen和rejected怎么构造数据？ #6509

DPO数据格式问题，对于同一个instruction有多个chosen和rejected怎么构造数据？ #6509

veraygood commented Jan 2, 2025

hiyouga commented Jan 2, 2025

veraygood commented Jan 2, 2025

DPO数据格式问题，对于同一个instruction有多个chosen和rejected怎么构造数据？ #6509

DPO数据格式问题，对于同一个instruction有多个chosen和rejected怎么构造数据？ #6509

Comments

veraygood commented Jan 2, 2025

Reminder

System Info

Reproduction

Expected behavior

Others

hiyouga commented Jan 2, 2025

veraygood commented Jan 2, 2025