越聊越偏、越聊越慢

chatbot 一旦开始多轮对话，很快就会出现两个现象：越聊越容易跑偏，越聊越慢。

这节课解决什么问题

为什么多轮聊天后，回答会开始抓错重点
为什么历史消息越长，响应越慢、费用越高
为什么无关历史和长输出会污染后续回答
为什么必须做裁剪、摘要和上下文压缩

为什么会越聊越偏

因为前面的消息越来越多以后，当前真正重要的信息会被旧信息稀释。

常见表现是：

模型抓住了很早以前的一句旧要求
模型把已经过时的上下文继续当成当前约束
模型在长历史里丢掉了这一轮真正的重点

这就是聊天漂移。

为什么会越聊越慢

因为每一轮请求，系统都要把更长的消息历史重新发给模型。

直接结果就是：

输入更长
费用更高
响应更慢
更容易撞到上下文上限

所以聊天产品的问题，最后往往会落到消息管理问题，而不是单纯的模型能力问题。

最常见的处理办法

裁掉明显无关的旧消息
把长历史摘要成短摘要
保留稳定规则，压缩过程性细节
把不该继续塞进上下文的内容交给检索

这就是后面“上下文压缩”会出现的原因。

本节产物

一份聊天漂移排查清单
一份长历史对延迟和费用影响的对比记录
一份消息裁剪与摘要规则

课堂实作

对比同一个问题在短历史和长历史下的回答差异
观察历史消息增长后，响应时间和费用如何变化
给一段已经开始跑偏的聊天记录做裁剪或摘要

并入项目

这一课会直接决定后面项目里的消息裁剪、摘要和检索上限怎么设。

面试会怎么问

为什么聊天越多轮，回答越容易跑偏
为什么聊天越长，响应越慢、费用越高
上下文压缩一般有哪些常见做法