Appearance
越聊越偏、越聊越慢
chatbot 一旦开始多轮对话,很快就会出现两个现象:越聊越容易跑偏,越聊越慢。
这节课解决什么问题
- 为什么多轮聊天后,回答会开始抓错重点
- 为什么历史消息越长,响应越慢、费用越高
- 为什么无关历史和长输出会污染后续回答
- 为什么必须做裁剪、摘要和上下文压缩
为什么会越聊越偏
因为前面的消息越来越多以后,当前真正重要的信息会被旧信息稀释。
常见表现是:
- 模型抓住了很早以前的一句旧要求
- 模型把已经过时的上下文继续当成当前约束
- 模型在长历史里丢掉了这一轮真正的重点
这就是聊天漂移。
为什么会越聊越慢
因为每一轮请求,系统都要把更长的消息历史重新发给模型。
直接结果就是:
- 输入更长
- 费用更高
- 响应更慢
- 更容易撞到上下文上限
所以聊天产品的问题,最后往往会落到消息管理问题,而不是单纯的模型能力问题。
最常见的处理办法
- 裁掉明显无关的旧消息
- 把长历史摘要成短摘要
- 保留稳定规则,压缩过程性细节
- 把不该继续塞进上下文的内容交给检索
这就是后面“上下文压缩”会出现的原因。
本节产物
- 一份聊天漂移排查清单
- 一份长历史对延迟和费用影响的对比记录
- 一份消息裁剪与摘要规则
课堂实作
- 对比同一个问题在短历史和长历史下的回答差异
- 观察历史消息增长后,响应时间和费用如何变化
- 给一段已经开始跑偏的聊天记录做裁剪或摘要
并入项目
这一课会直接决定后面项目里的消息裁剪、摘要和检索上限怎么设。
面试会怎么问
- 为什么聊天越多轮,回答越容易跑偏
- 为什么聊天越长,响应越慢、费用越高
- 上下文压缩一般有哪些常见做法
