定义
Constitutional AI(宪法 AI)是 Anthropic 开发的一种 AI 训练方法,旨在通过一套明确的指导原则(Constitution)来引导模型行为,减少对人类反馈的单纯依赖。
核心原理
- 模型根据一套书面原则(如”有帮助”、“无害”、“诚实”)进行自我评估和修正
- 结合 RLHF 与基于规则的自我监督
- 目标是创建更可控、更可解释的 AI 系统
关联连接
- Anthropic — Anthropic 公司及其 AI 安全研究
- Claude — Claude 模型使用 Constitutional AI 训练
- Prompt_Engineering — 提示工程总览
- 摘要-anthropic-prompting-best-practices — Anthropic 最佳实践