欢迎回来

登录 EAKE AI,继续您的智能之旅

忘记密码?
还没有账号?立即注册

TRL 微调训练

2026-05-20 · Skills中心

TRL 微调训练

TRL:SFT、DPO、PPO、GRPO、奖励建模——用于 LLM RLHF

TRL - Transformer 强化学习方法

快速入门

TRL 提供了一系列后训练方法,用于将语言模型与人类偏好对齐。

安装


pip install trl transformers datasets peft accelerate

监督微调 (SFT)(指令微调):


from trl import SFTTrainer

trainer = SFTTrainer(
    model="Qwen/Qwen2.5-0.5B",
    train_dataset=dataset,  # 提示词-回答对
)
trainer.train()

DPO(偏好对齐):


from trl import DPOTrainer, DPOConfig

config = DPOConfig(output_dir="model-dpo", beta=0.1)
trainer = DPOTrainer(
    model=model,
    args=config,
    train_dataset=preference_dataset,  # chosen/rejected 配对数据
    processing_class=tokenizer
)
trainer.train()

常用工作流程

工作流程 1:完整 RLHF 流水线(SFT → 奖励模型 → PPO)

从基座模型到人类偏好对齐模型的完整流程。

复制此清单:


RLHF 训练:
- [ ] 第1步:监督微调 (SFT)
- [ ] 第2步:训练奖励模型
- [ ] 第3步:PPO 强化学习方法
- [ ] 第4步:评估对齐后的模型

第1步:监督微调

用指令数据训练基座模型:


from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset

# 加载模型
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")

# 加载指令数据集
dataset = load_dataset("trl-lib/Capybara", split="train")

# 配置训练参数
training_args = SFTConfig(
    output_dir="Qwen2.5-0.5B-SFT",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=2e-5,
    logging_steps=10,
    save_strategy="epoch"
)

# 开始训练
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer
)
trainer.train()
trainer.save_model()

第2步:训练奖励模型

训练模型以预测人类偏好:


from transformers import AutoModelForSequenceClassification
from trl import RewardTrainer, RewardConfig

# 以 SFT 模型为基础加载
model = AutoModelForSequenceClassification.from_pretrained(
    "Qwen2.5-0.5B-SFT",
    num_labels=1  # 单一奖励分数
)
tokenizer = AutoTokenizer.from_pretrained("Qwen2.5-0.5B-SFT")

# 加载偏好数据 (chosen/rejected 配对)
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")

# 配置训练参数
training_args = RewardConfig(
    output_dir="Qwen2.5-0.5B-Reward",
    per_device_train_batch_size=2,
    num_train_epochs=1,
    learning_rate=1e-5
)

# 训练奖励模型
trainer = RewardTrainer(
    model=model,
    args=training_args,
    processing_class=tokenizer,
    train_dataset=dataset
)
trainer.train()
trainer.save_model()

第3步:PPO 强化学习方法

使用奖励模型优化策略:


python -m trl.scripts.ppo \
    --model_name_or_path Qwen2.5-0.5B-SFT \
    --reward_model_path Qwen2.5-0.5B-Reward \
    --dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \
    --output_dir Qwen2.5-0.5B-PPO \
    --learning_rate 3e-6 \
    --per_device_train_batch_size 64 \
    --total_episodes 10000

第4步:评估


from transformers import pipeline

# 加载对齐后的模型
generator = pipeline("text-generation", model="Qwen2.5-0.5B-PPO")

# 测试
prompt = "Explain quantum computing to a 10-year-old"
output = generator(prompt, max_length=200)[0]["generated_text"]
print(output)

工作流程 2:简单的 DPO 偏好对齐

无需奖励模型,直接用偏好数据对齐模型。

复制此清单:


DPO 训练:
- [ ] 第1步:准备偏好数据集
- [ ] 第2步:配置 DPO
- [ ] 第3步:使用 DPOTrainer 训练
- [ ] 第4步:评估对齐效果

第1步:准备偏好数据集

数据集格式:


{
  "prompt": "What is the capital of France?",
  "chosen": "The capital of France is Paris.",
  "rejected": "I don't know."
}

加载数据集:


from datasets import load_dataset

dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# 或加载自己的数据
# dataset = load_dataset("json", data_files="preferences.json")

第2步:配置 DPO


from trl import DPOConfig

config = DPOConfig(
    output_dir="Qwen2.5-0.5B-DPO",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=5e-7,
    beta=0.1,  # KL 惩罚强度
    max_prompt_length=512,
    max_length=1024,
    logging_steps=10
)

第3步:使用 DPOTrainer 训练


from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOTrainer

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")

trainer = DPOTrainer(
    model=model,
    args=config,
    train_dataset=dataset,
    processing_class=tokenizer
)

trainer.train()
trainer.save_model()

CLI 替代方案


trl dpo \
    --model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
    --dataset_name argilla/Capybara-Preferences \
    --output_dir Qwen2.5-0.5B-DPO \
    --per_device_train_batch_size 4 \
    --learning_rate 5e-7 \
    --beta 0.1

工作流程 3:GRPO 高效在线强化学习方法

使用极低内存进行强化学习训练。

有关深入的 GRPO 指导——奖励函数设计、关键训练洞察(损失行为、模式塌缩、调参)和高级多阶段模式——请参阅 references/grpo-training.md。生产级训练脚本见 templates/basic_grpo_training.py

复制此清单:


GRPO 训练:
- [ ] 第1步:定义奖励函数
- [ ] 第2步:配置 GRPO
- [ ] 第3步:使用 GRPOTrainer 训练

第1步:定义奖励函数


def reward_function(completions, **kwargs):
    """
    为生成结果计算奖励。

    Args:
        completions: 生成的文本列表

    Returns:
        奖励分数列表 (浮点数)
    """
    rewards = []
    for completion in completions:
        # 示例:基于长度和唯一词数计算奖励
        score = len(completion.split())  # 偏好好长度较长的回复
        score += len(set(completion.lower().split()))  # 奖励唯一词汇
        rewards.append(score)
    return rewards

或使用奖励模型:


from transformers import pipeline

reward_model = pipeline("text-classification", model="reward-model-path")

def reward_from_model(completions, prompts, **kwargs):
    # 拼接提示词和生成结果
    full_texts = [p + c for p, c in zip(prompts, completions)]
    # 获取奖励分数
    results = reward_model(full_texts)
    return [r["score"] for r in results]

第2步:配置 GRPO


from trl import GRPOConfig

config = GRPOConfig(
    output_dir="Qwen2-GRPO",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=1e-5,
    num_generations=4,  # 每个提示词生成4个回复
    max_new_tokens=128
)

第3步:使用 GRPOTrainer 训练


from datasets import load_dataset
from trl import GRPOTrainer

# 加载仅提示词的数据集
dataset = load_dataset("trl-lib/tldr", split="train")

trainer = GRPOTrainer(
    model="Qwen/Qwen2-0.5B-Instruct",
    reward_funcs=reward_function,  # 你的奖励函数
    args=config,
    train_dataset=dataset
)

trainer.train()

CLI 方式


trl grpo \
    --model_name_or_path Qwen/Qwen2-0.5B-Instruct \
    --dataset_name trl-lib/tldr \
    --output_dir Qwen2-GRPO \
    --num_generations 4

使用场景 vs 替代方案

使用 TRL 的场景:

  • 需要将模型与人类偏好对齐
  • 拥有偏好数据(chosen/rejected 配对)
  • 想使用强化学习方法(PPO、GRPO)
  • 需要训练奖励模型
  • 进行 RLHF(完整流水线)
  • 方法选择

  • SFT:有提示词-回答对,需要基本的指令遵循能力
  • DPO:有偏好数据,希望简单对齐(无需奖励模型)
  • PPO:有奖励模型,需要对 RL 的最大控制权
  • GRPO:内存受限,希望在线 RL
  • 奖励模型:构建 RLHF 流水线,需要评分生成结果
  • 替代方案:

  • HuggingFace Trainer:不涉及 RL 的基础微调
  • Axolotl:基于 YAML 的训练配置
  • LitGPT:教学用、极简微调
  • Unsloth:快速 LoRA 训练
  • 常见问题

    问题:DPO 训练时显存不足 (OOM)

    减少批次大小和序列长度:

    
    config = DPOConfig(
        per_device_train_batch_size=1,  # 从 4 降低
        max_length=512,  # 从 1024 降低
        gradient_accumulation_steps=8  # 保持有效批次大小
    )
    

    或使用梯度检查点:

    
    model.gradient_checkpointing_enable()
    

    问题:对齐质量不佳

    调整 beta 参数:

    
    # beta 越高 = 越保守(更接近参考模型)
    config = DPOConfig(beta=0.5)  # 默认 0.1
    
    # beta 越低 = 对齐更激进
    config = DPOConfig(beta=0.01)
    

    问题:奖励模型无法学习

    检查损失类型和学习率:

    
    config = RewardConfig(
        learning_rate=1e-5,  # 尝试不同的学习率
        num_train_epochs=3  # 增加训练轮次
    )
    

    确保偏好数据集有明显优劣:

    
    # 验证数据集
    print(dataset[0])
    # 应该有明确的 chosen > rejected
    

    问题:PPO 训练不稳定

    调整 KL 系数:

    
    config = PPOConfig(
        kl_coef=0.1,  # 从 0.05 增加
        cliprange=0.1  # 从 0.2 减少
    )
    

    进阶主题

    SFT 训练指南:详见 references/sft-training.md,涵盖数据集格式、对话模板、打包策略和多GPU训练。

    DPO 变体:详见 references/dpo-variants.md,涵盖 IPO、cDPO、RPO 及其他 DPO 损失函数及推荐超参数。

    奖励建模:详见 references/reward-modeling.md,涵盖结果奖励 vs 过程奖励、Bradley-Terry 损失和奖励模型评估。

    在线 RL 方法:详见 references/online-rl.md,涵盖 PPO、GRPO、RLOO 和 OnlineDPO 及详细配置。

    GRPO 深入指南:详见 references/grpo-training.md,涵盖专家级 GRPO 模式——奖励函数设计哲学、训练洞察(损失上升的原因、模式塌缩检测)、超参数调优、多阶段训练和故障排除。生产级模板见 templates/basic_grpo_training.py

    硬件要求

  • GPU:NVIDIA(需要 CUDA)
  • 显存:取决于模型和方法
  • SFT 7B:16GB(使用 LoRA)
  • DPO 7B:24GB(存储参考模型)
  • PPO 7B:40GB(策略 + 奖励模型)
  • GRPO 7B:24GB(更省内存)
  • 多GPU:通过 accelerate 支持
  • 混合精度:推荐 BF16(A100/H100)
  • 内存优化

  • 所有方法均使用 LoRA/QLoRA
  • 启用梯度检查点
  • 使用较小批次大小配合梯度累积
  • 资源

  • 文档:https://huggingface.co/docs/trl/
  • GitHub:https://github.com/huggingface/trl
  • 论文:
  • "Training language models to follow instructions with human feedback"(InstructGPT, 2022)
  • "Direct Preference Optimization: Your Language Model is Secretly a Reward Model"(DPO, 2023)
  • "Group Relative Policy Optimization"(GRPO, 2024)
  • 示例:https://github.com/huggingface/trl/tree/main/examples/scripts
  • 评论区

    发表评论