TRL 微调训练
TRL:SFT、DPO、PPO、GRPO、奖励建模——用于 LLM RLHF
TRL - Transformer 强化学习方法
快速入门
TRL 提供了一系列后训练方法,用于将语言模型与人类偏好对齐。
安装:
pip install trl transformers datasets peft accelerate
监督微调 (SFT)(指令微调):
from trl import SFTTrainer
trainer = SFTTrainer(
model="Qwen/Qwen2.5-0.5B",
train_dataset=dataset, # 提示词-回答对
)
trainer.train()
DPO(偏好对齐):
from trl import DPOTrainer, DPOConfig
config = DPOConfig(output_dir="model-dpo", beta=0.1)
trainer = DPOTrainer(
model=model,
args=config,
train_dataset=preference_dataset, # chosen/rejected 配对数据
processing_class=tokenizer
)
trainer.train()
常用工作流程
工作流程 1:完整 RLHF 流水线(SFT → 奖励模型 → PPO)
从基座模型到人类偏好对齐模型的完整流程。
复制此清单:
RLHF 训练:
- [ ] 第1步:监督微调 (SFT)
- [ ] 第2步:训练奖励模型
- [ ] 第3步:PPO 强化学习方法
- [ ] 第4步:评估对齐后的模型
第1步:监督微调
用指令数据训练基座模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
# 加载模型
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")
# 加载指令数据集
dataset = load_dataset("trl-lib/Capybara", split="train")
# 配置训练参数
training_args = SFTConfig(
output_dir="Qwen2.5-0.5B-SFT",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=2e-5,
logging_steps=10,
save_strategy="epoch"
)
# 开始训练
trainer = SFTTrainer(
model=model,
args=training_args,
train_dataset=dataset,
tokenizer=tokenizer
)
trainer.train()
trainer.save_model()
第2步:训练奖励模型
训练模型以预测人类偏好:
from transformers import AutoModelForSequenceClassification
from trl import RewardTrainer, RewardConfig
# 以 SFT 模型为基础加载
model = AutoModelForSequenceClassification.from_pretrained(
"Qwen2.5-0.5B-SFT",
num_labels=1 # 单一奖励分数
)
tokenizer = AutoTokenizer.from_pretrained("Qwen2.5-0.5B-SFT")
# 加载偏好数据 (chosen/rejected 配对)
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# 配置训练参数
training_args = RewardConfig(
output_dir="Qwen2.5-0.5B-Reward",
per_device_train_batch_size=2,
num_train_epochs=1,
learning_rate=1e-5
)
# 训练奖励模型
trainer = RewardTrainer(
model=model,
args=training_args,
processing_class=tokenizer,
train_dataset=dataset
)
trainer.train()
trainer.save_model()
第3步:PPO 强化学习方法
使用奖励模型优化策略:
python -m trl.scripts.ppo \
--model_name_or_path Qwen2.5-0.5B-SFT \
--reward_model_path Qwen2.5-0.5B-Reward \
--dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \
--output_dir Qwen2.5-0.5B-PPO \
--learning_rate 3e-6 \
--per_device_train_batch_size 64 \
--total_episodes 10000
第4步:评估
from transformers import pipeline
# 加载对齐后的模型
generator = pipeline("text-generation", model="Qwen2.5-0.5B-PPO")
# 测试
prompt = "Explain quantum computing to a 10-year-old"
output = generator(prompt, max_length=200)[0]["generated_text"]
print(output)
工作流程 2:简单的 DPO 偏好对齐
无需奖励模型,直接用偏好数据对齐模型。
复制此清单:
DPO 训练:
- [ ] 第1步:准备偏好数据集
- [ ] 第2步:配置 DPO
- [ ] 第3步:使用 DPOTrainer 训练
- [ ] 第4步:评估对齐效果
第1步:准备偏好数据集
数据集格式:
{
"prompt": "What is the capital of France?",
"chosen": "The capital of France is Paris.",
"rejected": "I don't know."
}
加载数据集:
from datasets import load_dataset
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# 或加载自己的数据
# dataset = load_dataset("json", data_files="preferences.json")
第2步:配置 DPO
from trl import DPOConfig
config = DPOConfig(
output_dir="Qwen2.5-0.5B-DPO",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=5e-7,
beta=0.1, # KL 惩罚强度
max_prompt_length=512,
max_length=1024,
logging_steps=10
)
第3步:使用 DPOTrainer 训练
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOTrainer
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
trainer = DPOTrainer(
model=model,
args=config,
train_dataset=dataset,
processing_class=tokenizer
)
trainer.train()
trainer.save_model()
CLI 替代方案:
trl dpo \
--model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
--dataset_name argilla/Capybara-Preferences \
--output_dir Qwen2.5-0.5B-DPO \
--per_device_train_batch_size 4 \
--learning_rate 5e-7 \
--beta 0.1
工作流程 3:GRPO 高效在线强化学习方法
使用极低内存进行强化学习训练。
有关深入的 GRPO 指导——奖励函数设计、关键训练洞察(损失行为、模式塌缩、调参)和高级多阶段模式——请参阅 references/grpo-training.md。生产级训练脚本见 templates/basic_grpo_training.py。
复制此清单:
GRPO 训练:
- [ ] 第1步:定义奖励函数
- [ ] 第2步:配置 GRPO
- [ ] 第3步:使用 GRPOTrainer 训练
第1步:定义奖励函数
def reward_function(completions, **kwargs):
"""
为生成结果计算奖励。
Args:
completions: 生成的文本列表
Returns:
奖励分数列表 (浮点数)
"""
rewards = []
for completion in completions:
# 示例:基于长度和唯一词数计算奖励
score = len(completion.split()) # 偏好好长度较长的回复
score += len(set(completion.lower().split())) # 奖励唯一词汇
rewards.append(score)
return rewards
或使用奖励模型:
from transformers import pipeline
reward_model = pipeline("text-classification", model="reward-model-path")
def reward_from_model(completions, prompts, **kwargs):
# 拼接提示词和生成结果
full_texts = [p + c for p, c in zip(prompts, completions)]
# 获取奖励分数
results = reward_model(full_texts)
return [r["score"] for r in results]
第2步:配置 GRPO
from trl import GRPOConfig
config = GRPOConfig(
output_dir="Qwen2-GRPO",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=1e-5,
num_generations=4, # 每个提示词生成4个回复
max_new_tokens=128
)
第3步:使用 GRPOTrainer 训练
from datasets import load_dataset
from trl import GRPOTrainer
# 加载仅提示词的数据集
dataset = load_dataset("trl-lib/tldr", split="train")
trainer = GRPOTrainer(
model="Qwen/Qwen2-0.5B-Instruct",
reward_funcs=reward_function, # 你的奖励函数
args=config,
train_dataset=dataset
)
trainer.train()
CLI 方式:
trl grpo \
--model_name_or_path Qwen/Qwen2-0.5B-Instruct \
--dataset_name trl-lib/tldr \
--output_dir Qwen2-GRPO \
--num_generations 4
使用场景 vs 替代方案
使用 TRL 的场景:
方法选择:
替代方案:
常见问题
问题:DPO 训练时显存不足 (OOM)
减少批次大小和序列长度:
config = DPOConfig(
per_device_train_batch_size=1, # 从 4 降低
max_length=512, # 从 1024 降低
gradient_accumulation_steps=8 # 保持有效批次大小
)
或使用梯度检查点:
model.gradient_checkpointing_enable()
问题:对齐质量不佳
调整 beta 参数:
# beta 越高 = 越保守(更接近参考模型)
config = DPOConfig(beta=0.5) # 默认 0.1
# beta 越低 = 对齐更激进
config = DPOConfig(beta=0.01)
问题:奖励模型无法学习
检查损失类型和学习率:
config = RewardConfig(
learning_rate=1e-5, # 尝试不同的学习率
num_train_epochs=3 # 增加训练轮次
)
确保偏好数据集有明显优劣:
# 验证数据集
print(dataset[0])
# 应该有明确的 chosen > rejected
问题:PPO 训练不稳定
调整 KL 系数:
config = PPOConfig(
kl_coef=0.1, # 从 0.05 增加
cliprange=0.1 # 从 0.2 减少
)
进阶主题
SFT 训练指南:详见 references/sft-training.md,涵盖数据集格式、对话模板、打包策略和多GPU训练。
DPO 变体:详见 references/dpo-variants.md,涵盖 IPO、cDPO、RPO 及其他 DPO 损失函数及推荐超参数。
奖励建模:详见 references/reward-modeling.md,涵盖结果奖励 vs 过程奖励、Bradley-Terry 损失和奖励模型评估。
在线 RL 方法:详见 references/online-rl.md,涵盖 PPO、GRPO、RLOO 和 OnlineDPO 及详细配置。
GRPO 深入指南:详见 references/grpo-training.md,涵盖专家级 GRPO 模式——奖励函数设计哲学、训练洞察(损失上升的原因、模式塌缩检测)、超参数调优、多阶段训练和故障排除。生产级模板见 templates/basic_grpo_training.py。
硬件要求
accelerate 支持内存优化:
资源
安装指南
复制下方命令,在终端运行即可安装:
使用指南
安装完成后,在对话框中直接使用此技能。