第三篇 RAG检索增强生成专项

发布时间:2026/6/27 10:28:57
第三篇 RAG检索增强生成专项 第三篇 RAG检索增强生成专项本篇定位AI应用开发面试第一核心考点占比约35%是初中高级岗必考内容。覆盖从文档处理到答案生成的全链路技术侧重落地细节、优化方案、问题排查能力。建议作为备考核心优先级配合项目经验深度掌握。3.1 RAG核心原理与架构演进核心题1RAG的核心价值是什么和模型微调怎么选型背诵要点核心价值给大模型外挂私有知识库解决模型知识过时、幻觉、无法访问内部数据的问题实现「基于指定知识回答」三大优势知识更新快新增文档直接入库无需重新训练可溯源答案可关联原始文档可信度高成本低无需标注数据和训练算力落地周期短RAG vs 微调选型对比维度RAG微调核心目标补充外部知识、解决事实性问题对齐风格话术、优化领域能力、适配输出格式知识更新快新增文档即时生效慢需要重新训练可解释性强支持来源溯源弱黑盒不可控数据要求无需标注原始文档即可需要高质量标注数据成本低检索调用成本高训练算力数据成本适用场景知识库问答、内部资料查询、事实类场景风格对齐、话术统一、特定能力增强生产级最佳实践RAG做知识底座 轻量微调做风格/格式对齐两者结合效果最优核心题2RAG架构经历了哪几代演进背诵要点Naive RAG初代基础版流程文档切片 → 向量化 → 相似度检索 → 送入LLM生成问题分块粗糙、召回不准、排序简单、效果上限低仅适合Demo、简单小体量知识库Advanced RAG进阶版生产主流核心优化查询改写、混合召回、Rerank重排、元数据过滤、分块优化特点全链路各环节都有优化手段效果显著提升现状当前绝大多数企业级生产系统的标准架构Modular RAG模块化版特点全链路模块化检索、重排、生成等各组件可插拔替换优势灵活度高可按需组合最优方案适配不同业务场景Agentic RAG智能进化版演进方向核心Agent主动控制检索过程自主判断是否需要检索、检索什么、检索几次优势复杂问题推理能力强可自主补全信息、交叉验证适合复杂多跳问题、深度调研类场景核心题3端到端RAG系统的完整流程是什么背诵要点分为离线入库和在线查询两大链路离线入库链路数据准备文档采集对接各类数据源获取原始文档文档解析按格式解析内容提取文本、表格、图片文档清洗去重、去噪、去除页眉页脚等无效内容语义分块按语义边界切分成合适大小的Chunk元数据打标打上权限、分类、时间、来源等标签向量化调用Embedding模型生成向量索引存储文本元数据向量存入检索引擎在线查询链路用户提问查询预处理清洗、归一化、敏感词校验查询改写优化为更适合检索的问句可生成多视角查询混合召回关键词召回 向量召回两路结果去重合并权限过滤按当前用户权限过滤无权限文档重排排序Rerank模型精细化语义排序上下文构建取TopN片段按格式组装成Prompt上下文大模型生成LLM基于参考知识生成答案后置校验事实一致性校验、合规校验、引用标注返回结果返回答案、引用来源、置信度高频追问RAG一定比直接问大模型效果好吗不一定。如果是模型已知的通用常识直接回答更快更准如果是私有知识、最新信息、事实性问题RAG效果远好于纯模型RAG做不好反而会引入错误信息拖累效果关键在召回质量什么场景不适合用RAG纯创意写作、开放式创作不需要事实依据高度依赖推理、逻辑演绎不需要外部知识简单常识类问题模型本身就能准确回答要求极致低延迟、对成本极度敏感的简单问答RAG的效果上限由什么决定下限由分块和召回决定召不回一切都白搭上限由大模型和上下文构建决定决定了信息整合和生成质量80%的效果问题都出在召回侧优化召回性价比最高3.2 文档解析与分块策略核心题1不同格式的文档怎么解析有哪些最佳实践背诵要点按格式走专用解析链路不做一刀切Word/PPT类办公文档工具python-docx、python-pptx要点提取标题层级、段落、表格、图片保留结构信息不要扁平化纯文本PDF文档工具PyMuPDF、PDFPlumber、布局分析模型要点区分页眉页脚、脚注、正文、表格处理分页断裂问题复杂版式用布局分析Excel/CSV结构化表格要点保留行列结构和表头信息转Markdown/JSON存储同时生成文本描述辅助检索图片/扫描件工具OCR识别 图片描述生成要点图文绑定存储同时保留文本和图片向量网页/Markdown要点提取正文去除导航、广告、侧边栏等噪声保留标题层级通用原则解析结果必须保留结构化元数据标题、章节、页码、来源不能只存纯文本元数据是后续优化召回、权限、引用的基础。核心题2文档分块有哪些核心原则和常用策略背诵要点三大核心原则语义完整优先一个Chunk包含一个完整语义单元避免把一句话、一个知识点切成两半大小适配窗口匹配Embedding模型最优窗口兼顾召回精度和上下文完整性上下文信息携带每个块附带父级标题、所属文档等信息避免孤立无语境四种常用分块策略固定长度分块按字符数/Token数切割实现简单效果最差仅适合原型结构化分块按标题、段落、列表等语义边界切割是生产首选语义分块基于Embedding相似度判断语义边界自动切割效果好但成本高递归分块先按大结构切再逐步细化适合长文档进阶优化重叠窗口Overlap相邻块重叠10%-20%内容避免上下文断裂父子分块父块存完整语义子块做细粒度召回召回子块、返回父块上下文核心题3父子分块Parent-Child Chunk是什么解决什么问题背诵要点背景块太小缺上下文块太大引入噪声、召回不准核心思想两级分块架构子块Child细粒度小片段用于向量检索保证召回精准度父块Parent对应更大范围的完整语义片段用于生成答案保证上下文完整性流程检索时匹配子块 → 找到对应的父块 → 把完整父块送入LLM生成价值同时兼顾召回精度和上下文完整性解决「小块缺上下文、大块噪声多」的矛盾适用场景长文档、知识密度高、对答案完整性要求高的场景核心题4表格、图表类特殊内容怎么处理进RAG背诵要点三类处理方案按复杂度递进文本化方案基础表格转Markdown/结构化文本图表转图片描述优点实现简单兼容现有文本RAG缺点复杂表格信息损失大结构化方案进阶表格保留行列结构存储为JSON同时生成自然语言摘要检索时同时匹配文本摘要和结构化字段适合规则明确的数值表格、参数表多模态方案高阶用多模态Embedding直接对表格、图片向量化配合多模态大模型直接理解图表内容适合复杂图表、示意图、设计稿等视觉内容高频追问分块大小怎么选有没有通用最优值没有通用最优值按内容类型和场景定参考值FAQ类200-500字符制度文档500-1000字符长文知识1000-2000字符调优方法固定其他变量测试不同分块大小的召回率和答案准确率找到最优区间核心判断标准一个块是否只讲一件事语义是否完整分块重叠率设多少合适一般10%-20%块越小重叠比例可以稍高重叠不是越多越好过高会导致重复信息多、浪费Token重点关注章节、知识点边界处的断裂问题边界处重叠优先PDF分页导致的句子断裂怎么解决解析时做跨页拼接检测页首页尾是否为完整句子重叠分块天然覆盖部分断裂问题用布局分析模型识别段落边界不以物理分页为切割依据3.3 向量检索与混合召回体系核心题1Embedding模型怎么选型维度越高越好吗背诵要点选型核心考量维度语义效果同维度下语义相似度准确率中文适配对中文语义、行业术语的理解能力维度大小影响存储、速度、效果推理速度单条和批量的生成耗时成本API调用价格或私有化部署成本维度选择原则不是越高越好。维度越高语义表达能力越强但存储、检索耗时、成本线性上升存在边际效应维度高到一定程度后效果提升非常有限通用场景1024维是性价比平衡点简单任务768维足够复杂长文本1536维必须和向量数据库的字段维度严格一致否则无法计算相似度核心题2为什么要做混合召回单靠向量检索不行吗背诵要点纯向量检索有天然短板纯关键词检索也有局限两者互补效果最优纯关键词检索BM25优势精确匹配强专有名词、编号、人名命中率高可解释性强速度快劣势语义理解弱同义词、不同表述匹配不上纯向量检索优势语义匹配强同义词、不同表述能命中支持模糊语义查询劣势精确匹配差专有名词、数字、编号容易漏召可解释性弱混合召回关键词向量双路两路召回各自返回TopK结果去重合并后进入重排同时覆盖精确匹配和语义匹配场景召回全面性大幅提升是当前生产级RAG的标准架构比单路召回召回率提升20%-40%核心题3查询改写Query Rewrite有哪些常用方法背诵要点解决「用户问法和文档表述不一致」导致的漏召问题分三层实现规则层改写基础必做文本归一化去标点、统一大小写、空格归一、中英文符号统一口语转书面语去除语气词、填充词转为标准书面表达同义词替换基于行业同义词典替换为标准术语纠错拼写纠错、口语纠错模型层改写进阶优化标准问句改写用大模型把用户口语化问题改写成标准检索问句多查询生成一个问题生成3-5个不同视角的检索问句多路召回合并假设性文档生成HyDE让模型先生成一个假设的答案文档再用答案去检索解决问法和文档表述差异大的问题语义层扩展实体链接识别问题中的实体关联标准实体和别名查询扩展补充相关关键词、上位词、下位词核心题4两路召回结果怎么融合有哪些策略背诵要点按效果从差到好排序加权打分融合给关键词得分和向量得分分别设置权重相加得到综合分排序优点简单易实现缺点分数量纲不同权重难调鲁棒性差倒数排位融合RRF核心思想只关心排名不关心原始分数避免分数量纲不一致问题优点鲁棒性强无需调参多路召回融合的工业界首选重排融合效果最优两路结果全部去重后统一送入Rerank模型做语义重排优点效果最好直接用语义相似度排序解决分数不可比问题缺点增加耗时和成本生产最佳实践RRF做初筛 Rerank做精排兼顾效果和成本高频追问召回TopK一般设多少合适初筛召回50-100条保证召回率宁可多召不要漏召重排后取Top5-10条送入上下文兼顾效果和Token成本原则召回阶段保召回重排阶段保精准生成阶段控成本召回率和精确率怎么权衡召回阶段优先保召回率漏召的内容后续再怎么优化都没用精确率靠后续重排、上下文筛选来提升业务底线核心问题必须能召回到排在后面没关系不能完全没有什么是HyDE适合什么场景Hypothetical Document Embeddings假设性文档嵌入流程用户提问 → 让模型先生成一个假设的答案文档 → 用这个文档做向量检索解决用户问题短、表述和文档差异大直接检索效果差的问题适合长答案、知识类问答场景简单FAQ、精确查询场景没必要3.4 重排机制与上下文构建核心题1Rerank重排的核心价值是什么背诵要点定位召回和生成之间的精排环节是提升RAG效果性价比最高的手段之一核心价值大幅提升顶部相关性把最相关的片段排到最前面优先进入上下文统一排序标准解决多路召回分数不可比的问题过滤低相关片段减少无效信息进入上下文降低幻觉概率效果收益通常能让答案准确率提升15%-30%远高于调Prompt的收益核心题2Rerank全链路性能怎么优化背诵要点控制输入规模只对初筛Top50-100条做重排不全量排序先做粗筛过滤掉极低相关的片段再进重排模型选型优先选轻量级CrossEncoder模型满足绝大多数场景不用大模型做重排成本高速度慢收益低工程优化批量计算单请求多条候选批量输入充分利用算力高频相同Query相同候选集的结果做缓存降级机制高并发、系统负载高时可临时跳过重排用初筛结果兜底保证核心可用性优先核心题3上下文构建有哪些核心原则背诵要点上下文是连接召回和生成的关键环节构建质量直接影响最终答案质量遵循6个原则相关性优先按相似度从高到低排序最相关的放在最前面去重降噪去除高度重复、低相关、无效的片段控制信息噪声结构保留保留原文标题、层级、表格结构不要纯文本扁平化边界清晰用明确分隔符标注每个知识片段标注来源ID方便模型引用长度可控控制总Token数不超过模型窗口的安全阈值预留输出空间优先级明确Prompt中明确说明「只基于以下参考知识回答」划清知识边界核心题4上下文太长塞不下怎么办背诵要点四种方案按效果从优到差精简召回结果减少进入上下文的片段数量只保留最相关的TopN对长片段做摘要压缩提取核心信息剔除冗余分层召回按需扩展先召回核心片段信息不足时再二次检索补充配合Agentic RAG让模型自主判断是否需要补充信息长上下文模型换更大窗口的模型成本更高是兜底方案分段处理整合把长上下文拆成多段分别生成中间结果最后整合实现复杂适合超长文档总结类场景高频追问什么时候必须加Rerank什么时候可以不加必须加生产级系统、知识库体量大、查询复杂、对精度要求高可不加简单FAQ、百级以内小知识库、Demo原型、成本极度敏感经验千条以上文档的生产系统Rerank都是标配Rerank和Embedding模型需要同一系列吗不需要。两者是独立的语义空间不同也不影响Rerank是成对计算相似度和Embedding的向量空间无关可以分别选各自领域效果最好的模型组合上下文里的知识片段排序重要吗为什么非常重要。模型对开头和结尾的信息注意力更强中间信息容易被忽略Lost in the Middle最高相关的放最前面次相关的放最后最低相关的放中间关键信息、强证据放在开头和结尾能显著提升答案准确率3.5 答案生成与幻觉治理核心题1怎么体系化治理大模型幻觉背诵要点幻觉治理不能只靠Prompt要从「检索→生成→校验」全链路防控输入侧检索层减少错误输入提升召回准确率保证进入上下文的都是正确、相关的知识保证数据源本身的质量定期校验知识库准确性多路信息交叉验证单一来源降低置信度生成侧模型层约束输出边界Prompt强约束明确要求「只基于参考知识回答不知道就拒答」强制引用来源要求每个关键结论都标注对应引用编号调低温度参数0.1-0.3降低模型创造性降低模型自由度用结构化输出、格式约束减少发挥空间输出侧校验层后置拦截事实一致性校验检查答案和上下文是否一致识别编造内容置信度打分综合召回相似度、引用匹配度等计算答案置信度低置信度自动拒答不输出给用户敏感内容、合规内容审核核心题2引用溯源功能怎么实现背诵要点全链路四步实现入库打标每个Chunk分配全局唯一ID关联原始文档信息标题、页码、章节、链接上下文标注构建上下文时为每个片段标注编号和来源ID生成引用Prompt要求模型回答时引用对应片段的编号前端展示答案返回时解析引用编号关联回原始文档信息支持点击引用跳转到原文对应位置展示来源文档标题、章节、页码进阶校验后端做引用一致性校验答案中声称引用的内容必须能在对应片段中找到依据未引用的信息判定为幻觉。核心题3拒答机制怎么设计怎么平衡误拒答和漏拒答背诵要点置信度体系Answer Guard综合多维度信号计算答案置信度按阈值分层处理高置信度正常回答中置信度回答并标注「信息有限仅供参考」低置信度触发拒答返回「抱歉知识库中未找到相关信息」核心判断信号召回Top1相似度分数Top1与Top2的分差关键词命中率实体匹配率上下文覆盖度结构化数据是否直接命中平衡策略用标注好的测试集绘制准确率-拒答率曲线找业务接受的平衡点按场景设定不同阈值客服场景宁误拒不漏答避免投诉内部工具宁漏答不误答提升效率拒答话术引导用户换问法降低误拒的体验影响收集拒答反馈持续优化召回和阈值核心题4事实一致性校验有哪些实现方式背诵要点按实现成本和准确率从低到高规则校验关键词匹配检查答案中的关键实体、数字是否在上下文中出现引用校验检查标注的引用是否有对应内容支撑优点简单快、成本低缺点只能查表层深度幻觉查不出NLI自然语言推理用自然语言推理模型判断「答案是否能被上下文蕴含」输出蕴含、中立、矛盾三类结果矛盾则判定为幻觉优点准确率高于规则速度比大模型快缺点复杂长文本效果有限大模型校验LLM-as-Judge用更强的大模型做评委对比答案和上下文判断是否一致优点准确率最高能识别复杂的隐性幻觉缺点成本高、速度慢有自身偏见生产最佳实践规则做初筛 大模型抽检兼顾成本和效果高频追问调低温度就能消除幻觉吗不能。温度低只能减少随机编造降低概率不能彻底消除幻觉的根源包括召回错误、上下文信息不足、模型本身记忆冲突温度只是生成侧的手段之一必须配合全链路治理幻觉能彻底消除吗不能。幻觉是大模型的固有特性只能降低概率无法100%消除工程目标把幻觉率降到业务可接受的范围内高风险场景必须加人工校验、溯源机制不能完全依赖AI模型越强幻觉越少吗总体上是。强模型事实准确性更高遵循指令能力更强更能遵守「只按上下文回答」的约束但强模型也会产生幻觉只是概率更低不能靠换模型解决所有幻觉问题工程化治理才是核心3.6 企业级权限与多租户隔离核心题1企业级RAG怎么做权限隔离四层防护架构是什么背诵要点权限控制必须在系统层实现绝对不能只靠Prompt约束采用四层防护架构第一层入库打标基础每个文档、每个Chunk写入时都附带完整权限元数据字段包括部门ID、业务线、租户ID、角色ACL、用户白名单、安全等级权限标签和数据强绑定贯穿全链路第二层检索强制过滤核心用户查询时自动提取当前用户的权限集合以Filter参数强制注入检索查询无权限的文档根本不会进入召回池从源头杜绝超权Filter走数据库索引不影响检索性能这是权限控制的核心防线必须100%覆盖第三层生成前二次校验兜底检索结果返回后、送入Prompt前再做一次权限校验过滤掉权限标签不匹配的片段兜底防止索引异常、权限变更延迟导致的漏网之鱼第四层审计溯源追溯全链路留痕记录用户查询、召回片段、最终答案支持安全审计可回溯所有访问行为答案只允许引用权限内的来源禁止输出超权内容核心题2Filter过滤会影响检索性能和效果吗背诵要点对性能的影响元数据Filter走索引性能影响很小几乎可以忽略极端情况过滤条件非常复杂、过滤后结果极少可能会增加检索耗时优化对高频过滤字段建专门索引提前做数据分区对效果的影响过滤只剔除无权限数据不影响有权限数据的排序和相关性不会降低有权限范围内的召回准确率注意过滤后候选集太小可能导致召回结果不足需要做兜底处理核心题3多租户用物理隔离还是逻辑隔离怎么选型背诵要点两种方案对比维度逻辑隔离物理隔离实现方式共用索引/库加租户ID字段过滤每个租户独立索引/独立库/独立集群成本低资源利用率高高资源独立隔离性一般依赖代码正确过滤强数据完全不互通运维复杂度低统一运维高多套实例管理定制化弱统一版本强可单独配置升级选型原则中小租户、通用场景、成本敏感选逻辑隔离性价比最高大客户、数据敏感、合规要求高选物理隔离安全优先混合方案大客户物理隔离中小客户逻辑隔离兼顾成本和安全高频追问只靠Prompt做权限限制为什么不行大模型存在指令逃逸、Prompt注入风险可以被绕过非确定性输出无法100%保证遵守规则检索层已经把敏感数据拿到了上下文里泄露风险已经存在核心结论Prompt中的权限指令只能做辅助绝对不能作为唯一防线权限变更怎么同步会有延迟吗权限变更后需要同步更新索引中的权限标签全量更新有延迟实时性要求高的可以用二次校验兜底权限收回场景先更新检索过滤再更新索引保证即时生效权限放开场景更新索引后生效可接受短暂延迟字段级、行级的细粒度权限怎么实现结构化数据检索时按字段权限返回对应字段敏感字段不返回非结构化文档文档内做分块级权限标记不同块对应不同权限生成侧二次校验敏感信息即使在上下文中也不允许输出到答案极端敏感场景不同权限的文档分不同索引存储3.7 技术选型与底层原理核心题1RAG项目选ES还是Milvus各自适用场景是什么背诵要点企业级RAG是混合检索系统不是纯向量检索系统选型看业务场景ESElasticsearch核心优势原生支持混合检索倒排索引关键词检索 dense_vector向量检索一次查询完成过滤能力强大权限、时间、类型等多条件筛选成熟稳定可解释性强能看到命中关键词、各字段得分调试方便基建复用率高绝大多数企业已有ES运维经验劣势向量检索性能弱于专业向量库亿级以上向量规模性能下降适用场景中小规模百万-千万级向量、多条件过滤多、混合检索为主、企业级RAGMilvus核心优势专业向量数据库向量检索性能极强亿级向量仍能保持高吞吐低延迟向量索引种类丰富支持多种量化、索引方案云原生架构弹性扩容能力强劣势关键词检索、过滤能力弱需要额外做结果融合适用场景超大规模向量、纯向量检索为主、对向量性能要求极高的场景生产高阶方案双库架构ES负责关键词检索、元数据过滤Milvus负责向量召回上层做结果融合兼顾两者优势适合大规模、高要求的生产系统核心题2常见向量数据库有哪些怎么选型背诵要点四款主流选型对比选型定位优势适用场景Milvus开源专业向量库性能强、生态成熟、中文社区活跃中大规模生产环境、国内生态Chroma轻量嵌入式向量库零部署、嵌入代码、开箱即用本地开发、快速Demo、原型验证pgvectorPostgreSQL扩展复用现有数据库、不用新增组件已有PG基建、中小规模数据Elasticsearch搜索引擎向量混合检索强、过滤能力强、基建复用企业级RAG、多条件筛选场景选型决策口诀快速做原型选Chroma已有PG基建选pgvector企业级混合检索选ES大规模纯向量选Milvus核心题3为什么高维向量不用网格划分什么是维度灾难背诵要点网格划分的适用场景适合低维空间如二维经纬度、三维坐标原理把空间切成均匀格子查询时只扫描相邻格子加速检索维度灾难高维空间的特性空间指数爆炸1024维空间每个维度切2份会产生2^1024个格子远超可存储范围数据极度稀疏高维空间中所有点都近似均匀分布没有明显的邻近区域距离失效任意两点的距离都趋近相等欧式距离区分度大幅下降结论网格划分在高维空间完全失效没有加速效果高维向量的主流检索方案近似最近邻ANN索引通过牺牲极小的准确率换取百倍以上的速度提升主流索引类型HNSW层次化近邻图、IVF倒排文件、PQ乘积量化生产最常用HNSW综合召回率和速度表现最优高频追问HNSW和IVF索引有什么区别怎么选HNSW基于图结构多层近邻图召回率高、查询快、构建慢、内存占用高IVF基于聚类把向量聚类成多个簇查询先找簇再扫描构建快、内存小、召回率稍低选型追求高精度、查询频繁选HNSW数据量大、写入频繁、可接受稍低召回选IVF向量量化是什么有什么用用更少的比特存储向量压缩向量体积作用减少内存占用、提升检索速度、降低存储成本代价损失少量语义精度召回率略有下降常用Scalar量化标量量化精度损失小、PQ乘积量化压缩率高精度损失大选型数据量大、内存紧张时用优先试Scalar量化向量检索的召回率和速度怎么权衡索引参数调优HNSW的ef_search、ef_construction参数越大召回越高速度越慢量化压缩压缩率越高速度越快召回越低业务原则在满足召回率要求的前提下尽可能提升速度一般生产环境召回率要求95%以上再优化速度3.8 全链路性能优化核心题1RAG全链路性能优化有哪些手段背诵要点按链路分层优化每层对应不同手段检索层优化向量索引优化选合适的索引类型和参数向量量化压缩减小体积提升速度冷热分离热数据常驻内存分片扩容提升并发能力重排层优化控制重排输入数量只排TopN选用轻量模型批量计算高频结果缓存生成层优化流式输出SSE降低用户感知等待时长分级模型路由简单问题用小模型高频问题答案缓存推理加速框架提升吞吐架构层优化就近部署减少网络传输异步化非关键步骤预计算Embedding离线完成并行执行无依赖环节如两路召回并行核心题2RAG的缓存体系怎么设计背诵要点三级缓存体系逐层降低成本提升速度一级缓存答案缓存缓存高频标准问题的完整答案命中直接返回不走检索和生成性能提升最大TTL几小时到几天按知识更新频率定注意缓存Key包含权限、租户信息防止数据串权二级缓存召回结果缓存缓存相同Query的召回重排结果命中后直接生成跳过检索重排环节适合查询频繁、知识库更新不频繁的场景三级缓存Embedding缓存缓存相同文本的向量结果入库和查询时都能命中减少Embedding调用适合重复文本多、查询重复率高的场景缓存通用注意事项缓存Key要做文本归一化避免相同含义不同写法命中不了设置合理过期时间配合知识库更新主动失效防止缓存污染错误答案不能长期缓存要有更新机制核心题3向量检索慢怎么排查优化背诵要点按从易到难的顺序排查检查索引状态是否建了向量索引是不是全量扫描索引类型和参数是否合理检查数据规模数据量是否过大是否需要分片扩容是否有大量冷数据做冷热分离检查量化配置是否开启向量量化压缩向量体积维度是否过高能否接受降维检查资源配置内存是否足够是否频繁SwapCPU是否打满是否需要升级配置查询参数优化TopK是否过大是否可以缩小HNSW的ef_search是否设得过高核心题4ES检索慢怎么排查优化背诵要点慢查询定位开启慢查询日志用profile API查看执行计划定位是哪个子查询慢是关键词还是向量部分索引优化只给检索字段建索引减少索引体积合理设置分片数避免分片过多热点索引预热加载到内存查询优化过滤条件前置先过滤再打分减少参与打分的文档数避免深度分页用search_after减少返回字段只取必要字段资源优化增加节点内存使用SSD存储冷热分离热数据存高性能节点高频追问首字延迟和整体延迟怎么平衡首字延迟影响用户体验整体延迟影响系统吞吐用流式输出首字返回后逐字输出用户感知等待短优化检索和首Token生成速度优先保障首字延迟后续生成速度可以稍慢不影响体验高并发场景下怎么保障可用性多级缓存扛热点流量消息队列削峰异步处理非实时请求限流熔断保护下游服务降级机制高并发时跳过重排、用小模型、返回缓存答案多副本部署水平扩容知识库越来越大性能持续下降怎么办冷热分离不常用的冷数据归档减少热索引大小分片扩容水平拆分数据分散压力定期优化索引合并段、清理无效数据按业务分库不同业务线独立索引互不影响3.9 评估体系与迭代闭环核心题1RAG系统的核心评估指标有哪些背诵要点分四大维度召回侧指标基础召回率相关文档被召回的比例核心底线指标精准率召回结果中相关的比例TopK命中率TopN结果中包含正确答案的比例MRR第一个相关结果的排名倒数平均值衡量排序质量生成侧指标效果答案准确率答案是否正确、符合事实引用准确率引用是否正确、是否有对应依据拒答准确率该拒答的是否拒答不该拒答的是否回答幻觉率答案中幻觉内容的占比答案完整性是否完整回答了问题性能侧指标体验端到端响应耗时首字延迟吞吐量QPS各环节耗时占比成本侧指标运营单次查询成本Token消耗量基础设施成本核心题2怎么做自动化评估LLM-as-Judge有什么优缺点背诵要点自动化评估体系架构构建测试用例集覆盖正常、异常、边界、对抗等各类场景标注标准答案和相关文档作为金标准持续补充bad case用例集持续迭代自动化执行批量运行所有测试用例记录全链路输出每次版本迭代自动跑回归测试多维度打分规则打分可量化的硬指标召回率、引用匹配等LLM-as-Judge用强模型做评委从准确性、完整性、相关性等维度打分LLM-as-Judge的优缺点优点能评估语义质量不用写复杂规则适配开放式问题缺点自身有偏见和不稳定性打分有波动成本高全量评估开销大对细微事实错误不敏感弥补方案配合规则校验、多模型交叉评测、人工抽检校准核心题3用户反馈怎么形成完整的迭代闭环背诵要点五步闭环从发现问题到优化落地再到验证反馈采集前端提供赞/踩、纠错、举报按钮支持用户标注错误点、补充正确答案全量记录用户行为停留时长、复制、追问等隐式反馈问题归因自动分类bad case召回错误、排序错误、生成幻觉、拒答错误、文档缺失统计各类问题占比优先解决占比最高的问题根因优化召回问题优化查询改写、补充同义词、调整分块、增加混合召回幻觉问题优化Prompt、加强事实校验、提升召回质量文档缺失触发文档入库流程补充知识库效果验证优化后用对应case做回归测试验证是否修复小流量灰度验证线上效果沉淀复用典型bad case加入测试用例集后续版本自动回归沉淀优化方法论形成知识库高频追问没有标注数据怎么做评估先做无标注的指标召回率可以用人工抽样标注小批量用LLM-as-Judge做自动评估快速搭建基线从用户反馈中积累标注数据优先建核心场景的测试集不用追求全量覆盖RAG效果一直上不去一般排查顺序是什么第一步看文档质量和分块是否解析错误、分块不合理第二步看召回核心问题能不能召回到相关内容是不是漏召第三步看重排相关内容有没有排到前面第四步看上下文构建信息是否完整、排序是否合理最后看Prompt和生成环节是不是模型没利用好信息经验80%的效果问题都出在召回和分块多久迭代一次RAG效果比较合理紧急问题即时修复快速上线常规优化小版本每周迭代大版本每月迭代评估流水线自动化后可以做到每次变更都自动跑回归核心是形成数据驱动的迭代机制而不是凭感觉改3.10 进阶方向核心题1什么是Agentic RAG和普通RAG的区别是什么背诵要点普通RAG「一次检索 → 一次生成」的固定流水线被动执行不会主动判断信息是否足够Agentic RAGAgent自主控制检索过程把检索作为一个工具根据推理需要自主决定是否需要检索检索什么关键词检索几次是否需要补充检索核心优势复杂多跳问题能力强可通过多轮检索补全信息信息不足时主动补充不会硬答可交叉验证多份信息降低幻觉适用场景复杂调研、深度问答、多文档推理、知识探索类场景劣势耗时更长、成本更高、流程更复杂简单问答场景没必要核心题2什么是Graph RAG有什么优势背诵要点核心思想从文档中提取实体、关系、事件构建知识图谱配合向量检索一起使用优势复杂逻辑推理强支持多跳关联推理回答「A和B有什么关系」类问题多文档关联能力好能跨文档整合实体关系可解释性强推理路径清晰可见结构化信息处理更准确劣势构建成本高需要实体抽取、关系抽取维护复杂适用场景知识密集型、强逻辑推理、多文档关联的场景比如医疗、法律、金融核心题3RAG怎么支持多模态、多语言背诵要点多模态RAG入库侧用多模态Embedding模型同时支持文本、图片、表格向量化检索侧多模态混合检索图文统一相似度计算生成侧用多模态大模型同时理解文本和图片内容生成答案适用文档包含大量图片、图表、截图的场景多语言RAG方案一统一向量化用多语言Embedding模型不同语言在同一语义空间方案二查询翻译把用户问题翻译成文档语言再检索方案三双语索引每份文档同时存多种语言的向量最佳实践优先选原生多语言Embedding实现最简单效果也最均衡高频追问未来RAG的演进方向是什么从静态流水线到智能Agent化检索更灵活更智能从纯文本到全模态支持图文音视频统一检索从通用检索到个性化检索结合用户画像和历史行为检索和微调深度融合知识和能力协同优化RAG和知识图谱是什么关系互补关系不是替代RAG擅长非结构化长文本落地快成本低知识图谱擅长结构化关系推理精准度高但构建成本高进阶方案两者结合向量检索图谱推理兼顾广度和深度