增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练，经常提到的rlhf指的是哪几种训练方法 #1995

	name: label_issue

	on:
	issues:
	types:
	- opened

	jobs:
	label_issue:
	runs-on: ubuntu-latest

	permissions:
	issues: write

	steps:
	- env:
	GH_TOKEN: ${{ secrets.GITHUB_TOKEN }}
	ISSUE_URL: ${{ github.event.issue.html_url }}
	ISSUE_TITLE: ${{ github.event.issue.title }}
	run: \|
	LABEL=pending
	NPU_KEYWORDS=(npu huawei ascend 华为昇腾)
	ISSUE_TITLE_LOWER=$(echo $ISSUE_TITLE \| tr '[:upper:]' '[:lower:]')
	for KEYWORD in ${NPU_KEYWORDS[@]}; do
	if [[ $ISSUE_TITLE_LOWER == $KEYWORD ]] && [[ $ISSUE_TITLE_LOWER != input ]]; then
	LABEL=pending,npu
	break
	fi
	done
	gh issue edit $ISSUE_URL --add-label $LABEL

Provide feedback