定义
RAG(Retrieval-Augmented Generation,检索增强生成)是一种将外部知识库检索与 LLM 生成能力结合的架构范式。在推理时,模型先从知识库中检索相关文档片段,然后将这些信息作为上下文注入提示,最后基于检索到的信息生成回答。
工作原理
- 索引:将文档分割为片段,生成向量嵌入并存储到向量数据库
- 检索:收到用户查询后,在向量数据库中搜索语义最相关的片段
- 增强:将检索到的文档片段作为上下文注入提示
- 生成:LLM 基于增强后的提示生成回答
RAG 在 Prompt Engineering 中的角色
RAG 是 Context_Engineering 的关键组件——它解决了”如何为模型提供最相关的外部数据”的问题。
优势
- 知识时效性:外挂知识库可随时更新,无需重新训练模型
- 幻觉减少:模型基于检索到的实际内容生成,减少编造
- 可追溯性:输出可追溯到具体来源文档
- 领域适配:无需微调即可适配特定领域知识
与 Context Engineering 的关系
RAG 是 Context Engineering 中”外部数据”组件的实现方式之一。一个结构良好的 16K token RAG 提示优于 128K token 的完整上下文。
关联连接
- Context_Engineering — 上下文工程(RAG 是其关键组件)
- Prompt_Engineering — 提示工程总览
- 摘要-prompt-engineering-2025-guide-promptbuilder — 来源文档
- 摘要-ai-prompt-engineering-2025-2026-espo — 来源文档