定义

Agentic-RL 是将强化学习应用于 LLM 智能体的训练方法论。与传统 PBRFT(基于提示的少样本训练)不同,Agentic-RL 将任务建模为多步马尔可夫决策过程(MDP),行动空间包括文本生成和工具调用,目标是最大化多步累积奖励。

从 LLM 训练到 Agentic RL 的演进

传统监督学习的局限

  • 模型只能模仿训练数据,缺乏探索能力
  • 难以精确优化多步推理的中间过程
  • 被动学习人类提供的路径

RL 框架在 LLM 上的映射

组件定义
智能体基于 LLM 的推理系统
环境任务和验证系统
状态当前问题 + 已有推理步骤
行动生成下一步推理或调用工具
奖励答案/行动的正确性评分

PBRFT vs Agentic RL(MDP 框架对比)

维度PBRFTAgentic RL
状态
时间跨度(单步)(多步)
行动空间仅文本生成文本生成 + 工具调用 + 环境操作
奖励单步奖励多步累积

Agentic RL 六大核心能力

  1. 推理:通过试错发现训练数据中没有的推理路径
  2. 工具使用:行动空间扩展为
  3. 记忆:学会管理策略,保留重要信息、遗忘无关信息
  4. 规划:通过试错发现有效行动序列,权衡短期和长期收益
  5. 自我改进:识别错误、分析失败原因、调整策略
  6. 感知:理解多模态信息

完整训练管线

第一阶段:监督微调(SFT)

目标函数(最大化正确输出概率):

SFT 的作用

  • 学习输出格式(如 “Step 1”、“Final Answer” 标记)
  • 学习推理模式(通过示例学习分解问题、逐步推导)
  • 建立基线能力,为后续强化学习提供合理起点

LoRA 原理:模型微调时参数变化用低秩矩阵表示 ,参数量从 降至 ,当 时可减少 256 倍。实际更新为

第二阶段:奖励建模

训练数据:偏好对比数据(同一问题的两个回答,更好 chosen vs 更差 rejected)

第三阶段:GRPO 训练

PPO 的问题:需要训练 Value Model(4 个模型:Policy、Reference、Value、Reward),复杂度高,训练不稳定。

GRPO 的改进:不需要 Value Model,使用组内相对奖励代替绝对奖励。只需要 Policy Model 和 Reference Model。

GRPO 目标函数

GRPO 训练循环

  1. 对每个问题,用当前策略生成 num_generations 个答案
  2. 对每个答案计算奖励
  3. 计算组内平均 ,相对奖励
  4. 用相对奖励更新策略,添加 KL 散度惩罚
  5. 重复至完成所有训练轮次

PPO vs GRPO 对比

维度PPOGRPO
价值模型需要不需要
模型数量4 个2 个
训练稳定性较低较高
显存占用

奖励函数设计

类型公式适用场景
准确率奖励(正确)/(错误)简单直接
长度惩罚鼓励简洁
步骤奖励鼓励详细推理

技术选型

  • 框架:TRL(Transformer Reinforcement Learning)
  • 模型:Qwen3-0.6B(0.6B 参数,适合普通 GPU)
  • 数据集:GSM8K(7,473 训练样本,小学数学推理)
  • 分布式:DDP(单机多卡)、DeepSpeed ZeRO-2/3(>7B 模型)

关联连接