定义
Agentic-RL 是将强化学习应用于 LLM 智能体的训练方法论。与传统 PBRFT(基于提示的少样本训练)不同,Agentic-RL 将任务建模为多步马尔可夫决策过程(MDP),行动空间包括文本生成和工具调用,目标是最大化多步累积奖励。
从 LLM 训练到 Agentic RL 的演进
传统监督学习的局限
- 模型只能模仿训练数据,缺乏探索能力
- 难以精确优化多步推理的中间过程
- 被动学习人类提供的路径
RL 框架在 LLM 上的映射
| 组件 | 定义 |
|---|---|
| 智能体 | 基于 LLM 的推理系统 |
| 环境 | 任务和验证系统 |
| 状态 | 当前问题 + 已有推理步骤 |
| 行动 | 生成下一步推理或调用工具 |
| 奖励 | 答案/行动的正确性评分 |
PBRFT vs Agentic RL(MDP 框架对比)
| 维度 | PBRFT | Agentic RL |
|---|---|---|
| 状态 | ||
| 时间跨度 | (单步) | (多步) |
| 行动空间 | 仅文本生成 | 文本生成 + 工具调用 + 环境操作 |
| 奖励 | 单步奖励 | 多步累积 |
Agentic RL 六大核心能力
- 推理:通过试错发现训练数据中没有的推理路径
- 工具使用:行动空间扩展为
- 记忆:学会管理策略,保留重要信息、遗忘无关信息
- 规划:通过试错发现有效行动序列,权衡短期和长期收益
- 自我改进:识别错误、分析失败原因、调整策略
- 感知:理解多模态信息
完整训练管线
第一阶段:监督微调(SFT)
目标函数(最大化正确输出概率):
SFT 的作用:
- 学习输出格式(如 “Step 1”、“Final Answer” 标记)
- 学习推理模式(通过示例学习分解问题、逐步推导)
- 建立基线能力,为后续强化学习提供合理起点
LoRA 原理:模型微调时参数变化用低秩矩阵表示 ,参数量从 降至 ,当 时可减少 256 倍。实际更新为 。
第二阶段:奖励建模
训练数据:偏好对比数据(同一问题的两个回答,更好 chosen vs 更差 rejected)
第三阶段:GRPO 训练
PPO 的问题:需要训练 Value Model(4 个模型:Policy、Reference、Value、Reward),复杂度高,训练不稳定。
GRPO 的改进:不需要 Value Model,使用组内相对奖励代替绝对奖励。只需要 Policy Model 和 Reference Model。
GRPO 目标函数:
GRPO 训练循环:
- 对每个问题,用当前策略生成
num_generations个答案 - 对每个答案计算奖励
- 计算组内平均 ,相对奖励
- 用相对奖励更新策略,添加 KL 散度惩罚
- 重复至完成所有训练轮次
PPO vs GRPO 对比
| 维度 | PPO | GRPO |
|---|---|---|
| 价值模型 | 需要 | 不需要 |
| 模型数量 | 4 个 | 2 个 |
| 训练稳定性 | 较低 | 较高 |
| 显存占用 | 高 | 低 |
奖励函数设计
| 类型 | 公式 | 适用场景 |
|---|---|---|
| 准确率奖励 | (正确)/(错误) | 简单直接 |
| 长度惩罚 | 鼓励简洁 | |
| 步骤奖励 | 鼓励详细推理 |
技术选型
- 框架:TRL(Transformer Reinforcement Learning)
- 模型:Qwen3-0.6B(0.6B 参数,适合普通 GPU)
- 数据集:GSM8K(7,473 训练样本,小学数学推理)
- 分布式:DDP(单机多卡)、DeepSpeed ZeRO-2/3(>7B 模型)
关联连接
- Agentic_Systems — 智能体系统总览
- Agent_Paradigms — 经典 Agent 范式
- Agent_Memory — 记忆系统
- 摘要-hello-agents — Datawhale 智能体教程来源