的策略)
上下文腐败是 AI Agent 实际部署中的核心难题——对话轮次增加后噪声积累、有效信息稀释模型输出质量逐步下降。1. 上下文管理层面主动压缩摘要截断定期对历史对话做摘要替换原始长日志语义压缩用 Embedding 聚类丢弃离群/弱相关消息滑动窗口硬性限制只保留最近 N 轮或 token 阈值记忆分层架构短期记忆Working Context ← 当前对话窗口受限于 context limit 中期记忆Session Memory ← 本次会话重要结论和决策 长期记忆Long-term Memory ← MEMORY.md / 向量数据库模型按需从外部存储读取而非所有信息堆积在 prompt 中。2. Prompt 层面明确边界减少模型自主延伸你是一个 X 领域专家。请只基于用户提供的信息回答 不主动延伸背景知识。如果信息不足明确说无法确定。分离系统指令和动态上下文系统级指令角色、规则固定不变动态用户内容只放在专门区域定期重建上下文把核心信息重新注入而不是累积堆叠3. 架构层面规划-执行分离Plan-and-Execute规划阶段注入任务描述 目标 → 模型输出计划 执行阶段分步调用工具 → 只注入当前步骤结果避免边想边做导致上下文快速膨胀。工具输出最小化工具返回做结构化过滤整段回传是浪费用 JSON Schema / 表格等结构化格式替代自然语言回传子 Agent 隔离不同子任务分发到独立 session避免单一上下文无限增长。OpenClaw 的 sessions_spawn 隔离就是这个思路。4. 实用对照表场景推荐方法长对话20 轮每隔 N 轮触发摘要压缩工具链调用限制 max_depth用 checkpoint 而非全量回传RAG 场景控制召回数量 Rerank 过滤无关文档复杂多步任务完成后主动输出结论存入记忆供后续使用状态累积定期清理中间状态只保留最终结论核心原则上下文是稀缺资源要像管理内存一样管理它及时回收、只保留必要状态、避免不必要的堆积。模型应该需要什么查什么而不是所有东西都摆在面前。