Appearance
Token 与 Context
这是 LLM 原理模块的第一课。
目标是先把两个最基础、也是最容易被误解的概念讲清楚:token 和 context。
这节课解决什么问题
- 为什么模型处理的单位不是“字”也不是“单词”,而是 token
- 为什么中文、英文、代码的 token 成本差异很大
- 为什么 context window 是 Agent 开发里的硬限制
- 为什么很多 Agent 问题,本质上都是上下文管理问题
关键概念
- Tokenizer:把文本切成模型可处理的最小单元
- Context Window:单次推理能看到的总 token 上限
- Token Budget:系统 prompt、历史记录、工具结果、用户输入共享同一预算
对 Agent 开发的直接影响
- 历史消息不能无限追加,必须做压缩或摘要
- 工具返回结果不能原样全塞回去,要做裁剪
- 大文档问答不能靠硬塞全文,必须引入检索
本节产物
- 一个 token 预算观察脚本
- 一份中文、英文、代码输入的 token 对比结果
- 一份上下文超预算时的处理清单
课堂实作
- 用 tokenizer 工具统计同一段内容在不同写法下的 token 数
- 估算系统提示、历史记录、工具结果分别占掉多少预算
- 把一段过长工具输出裁剪成可安全回填的版本
并入项目
这一课先不直接做完整项目,但它会成为后面 Coding Agent 和知识库 Agent 的上下文预算基础。
面试会怎么问
- token 和字符、单词的区别是什么
- 为什么长上下文会增加成本
- Agent 为什么要做记忆分层和上下文压缩
