RAG:检索增强生成
RAG 解决的不是“模型不会说话”,而是“模型脑子里未必有最新、最准确、最私有的资料”。它先去外部知识库找相关片段,再把这些片段一起喂给模型生成答案,让回答更像“基于证据作答”,而不是“只靠参数记忆作答”。
先提问
再召回文档
最后基于资料生成
选一个问题,沿着 RAG 流程走一遍
切换问题后,你可以再点击不同阶段,观察当前系统是在“理解查询”“做召回”“组装上下文”还是“基于上下文回答”。
当前用户问题
如果做了 RAG
RAG 到底补强了什么
补最新信息
模型参数不一定包含今天、上周甚至你公司内部最新资料,但检索系统可以实时接到这些内容。
补私有知识
企业制度、产品手册、客户文档通常不会在公共预训练语料里,但可以放进私有知识库。
补可追溯性
当回答能附上引用片段时,用户更容易检查“这句话是从哪来的”,而不是完全相信模型记忆。
但它也不是万能
如果召回错了、切片太差、上下文塞不下或者生成阶段没有正确使用证据,RAG 同样会出问题。
RAG 系统最常见的四个环节
1
切片建库
把长文档切成适合检索的片段,并为它们建立索引。
2
召回排序
根据用户问题找出最相关的若干文档片段。
3
上下文拼接
把高相关证据组织成模型可读取的上下文输入。
4
带证据生成
让模型基于当前问题和检索上下文共同生成答案。
常见误区: RAG 不是“把所有文档直接塞给模型”。它的关键是先检索、再筛选、再拼接,否则上下文成本和噪声都会迅速上升。
一句话总结: RAG 让模型从“尽量回忆”转向“先查资料再回答”,这是很多真实应用从 Demo 走向可用系统的关键一步。