Agentic-RL（智能体强化学习）

定义

Agentic-RL 是将强化学习应用于 LLM 智能体的训练方法论。与传统 PBRFT（基于提示的少样本训练）不同，Agentic-RL 将任务建模为多步马尔可夫决策过程（MDP），行动空间包括文本生成和工具调用，目标是最大化多步累积奖励。

从 LLM 训练到 Agentic RL 的演进

传统监督学习的局限

模型只能模仿训练数据，缺乏探索能力
难以精确优化多步推理的中间过程
被动学习人类提供的路径

RL 框架在 LLM 上的映射

组件	定义
智能体	基于 LLM 的推理系统
环境	任务和验证系统
状态	当前问题 + 已有推理步骤
行动	生成下一步推理或调用工具
奖励	答案/行动的正确性评分

PBRFT vs Agentic RL（MDP 框架对比）

维度	PBRFT	Agentic RL
状态	$s_{0} = prompt$	$s_{t} = (prompt, o_{1}, \dots, o_{t})$
时间跨度	$T = 1$ （单步）	$T ≫ 1$ （多步）
行动空间	仅文本生成	文本生成 + 工具调用 + 环境操作
奖励	单步奖励	多步累积 $\sum γ^{t} r (s_{t}, a_{t})$

Agentic RL 六大核心能力

推理：通过试错发现训练数据中没有的推理路径
工具使用：行动空间扩展为 $a_{t} \in {a_{t}^{think}, a_{t}^{tool}}$
记忆：学会管理策略，保留重要信息、遗忘无关信息
规划：通过试错发现有效行动序列，权衡短期和长期收益
自我改进：识别错误、分析失败原因、调整策略
感知：理解多模态信息

完整训练管线

第一阶段：监督微调（SFT）

目标函数（最大化正确输出概率）：

$L_{SFT} = - \sum_{i = 1}^{N} lo g P (y_{i} ∣ x_{i}; θ)$

SFT 的作用：

学习输出格式（如 “Step 1”、“Final Answer” 标记）
学习推理模式（通过示例学习分解问题、逐步推导）
建立基线能力，为后续强化学习提供合理起点

LoRA 原理：模型微调时参数变化用低秩矩阵表示 $Δ W = B A$ ，参数量从 $d \times k$ 降至 $r (d + k)$ ，当 $d = 4096, r = 8$ 时可减少 256 倍。实际更新为 $Δ W = \frac{α}{r} B A$ 。

第二阶段：奖励建模

训练数据：偏好对比数据（同一问题的两个回答，更好 chosen vs 更差 rejected）

$L_{RM} = - E_{(x, y_{w}, y_{l})} [lo g σ (r_{ϕ} (x, y_{w}) - r_{ϕ} (x, y_{l}))]$

第三阶段：GRPO 训练

PPO 的问题：需要训练 Value Model（4 个模型：Policy、Reference、Value、Reward），复杂度高，训练不稳定。

GRPO 的改进：不需要 Value Model，使用组内相对奖励代替绝对奖励。只需要 Policy Model 和 Reference Model。

GRPO 目标函数：

$J_{GRPO} (θ) = E_{s, a \sim π_{θ}} [\frac{π _{θ} ( a ∣ s )}{π _{ref} ( a ∣ s )} \cdot (r (s, a) - \overset{r}{ˉ}_{group})] - β \cdot D_{K L} (π_{θ} ∣∣ π_{ref})$

GRPO 训练循环：

对每个问题，用当前策略生成 num_generations 个答案
对每个答案计算奖励 $r_{i}$
计算组内平均 $\overset{r}{ˉ}$ ，相对奖励 $\overset{r}{^}_{i} = r_{i} - \overset{r}{ˉ}$
用相对奖励更新策略，添加 KL 散度惩罚
重复至完成所有训练轮次

PPO vs GRPO 对比

维度	PPO	GRPO
价值模型	需要	不需要
模型数量	4 个	2 个
训练稳定性	较低	较高
显存占用	高	低

奖励函数设计

类型	公式	适用场景
准确率奖励	$r_{acc} = 1$ （正确）/ $0$ （错误）	简单直接
长度惩罚	$r = r_{acc} - α \cdot max (0, l - l_{target})$	鼓励简洁
步骤奖励	$r = r_{acc} + β \cdot s$	鼓励详细推理

技术选型

框架：TRL（Transformer Reinforcement Learning）
模型：Qwen3-0.6B（0.6B 参数，适合普通 GPU）
数据集：GSM8K（7,473 训练样本，小学数学推理）
分布式：DDP（单机多卡）、DeepSpeed ZeRO-2/3（>7B 模型）

关联连接

Agentic_Systems — 智能体系统总览
Agent_Paradigms — 经典 Agent 范式
Agent_Memory — 记忆系统
摘要-hello-agents — Datawhale 智能体教程来源

美格知识库

探索