问题
- 上下文难以保持一致:对话一长,前后语义容易脱节。
- 关键事实容易丢失:早期给出的信息在后续轮次中难以被准确引用。
- 调用成本持续上升:每一轮都要重新处理大量历史内容。
可能的成因
- 视野仅限当前调用:模型只能依赖这一轮提供的上下文。
- 信息缺乏结构化组织:重要信息与次要细节混在一起,难以形成稳定记忆。
- 历史内容反复计算:大量固定前缀在多轮对话中被一遍遍重新处理。
带来的影响
- 回答质量不稳定:对话越长,模型越难保持一致性和可追溯性。
- 成本难以预估:每轮上下文大小高度波动,调用费用不可控。
- 难以工程化落地:缺乏明确的上下文管理策略,系统在生产环境中难以维护与扩展。