Skip to content

越聊越偏、越聊越慢

chatbot 一旦开始多轮对话,很快就会出现两个现象:越聊越容易跑偏,越聊越慢。


这节课解决什么问题

  • 为什么多轮聊天后,回答会开始抓错重点
  • 为什么历史消息越长,响应越慢、费用越高
  • 为什么无关历史和长输出会污染后续回答
  • 为什么必须做裁剪、摘要和上下文压缩

为什么会越聊越偏

因为前面的消息越来越多以后,当前真正重要的信息会被旧信息稀释。

常见表现是:

  • 模型抓住了很早以前的一句旧要求
  • 模型把已经过时的上下文继续当成当前约束
  • 模型在长历史里丢掉了这一轮真正的重点

这就是聊天漂移。


为什么会越聊越慢

因为每一轮请求,系统都要把更长的消息历史重新发给模型。

直接结果就是:

  • 输入更长
  • 费用更高
  • 响应更慢
  • 更容易撞到上下文上限

所以聊天产品的问题,最后往往会落到消息管理问题,而不是单纯的模型能力问题。


最常见的处理办法

  • 裁掉明显无关的旧消息
  • 把长历史摘要成短摘要
  • 保留稳定规则,压缩过程性细节
  • 把不该继续塞进上下文的内容交给检索

这就是后面“上下文压缩”会出现的原因。


本节产物

  • 一份聊天漂移排查清单
  • 一份长历史对延迟和费用影响的对比记录
  • 一份消息裁剪与摘要规则

课堂实作

  • 对比同一个问题在短历史和长历史下的回答差异
  • 观察历史消息增长后,响应时间和费用如何变化
  • 给一段已经开始跑偏的聊天记录做裁剪或摘要

并入项目

这一课会直接决定后面项目里的消息裁剪、摘要和检索上限怎么设。

面试会怎么问

  • 为什么聊天越多轮,回答越容易跑偏
  • 为什么聊天越长,响应越慢、费用越高
  • 上下文压缩一般有哪些常见做法

大齐 AI 课堂 · 程序员的 Agent 开发课