定义

Constitutional AI(宪法 AI)是 Anthropic 开发的一种 AI 训练方法,旨在通过一套明确的指导原则(Constitution)来引导模型行为,减少对人类反馈的单纯依赖。

核心原理

  • 模型根据一套书面原则(如”有帮助”、“无害”、“诚实”)进行自我评估和修正
  • 结合 RLHF 与基于规则的自我监督
  • 目标是创建更可控、更可解释的 AI 系统

关联连接