Token 与 Context

这是 LLM 原理模块的第一课。

目标是先把两个最基础、也是最容易被误解的概念讲清楚：token 和 context。

这节课解决什么问题

为什么模型处理的单位不是“字”也不是“单词”，而是 token
为什么中文、英文、代码的 token 成本差异很大
为什么 context window 是 Agent 开发里的硬限制
为什么很多 Agent 问题，本质上都是上下文管理问题

关键概念

Tokenizer：把文本切成模型可处理的最小单元
Context Window：单次推理能看到的总 token 上限
Token Budget：系统 prompt、历史记录、工具结果、用户输入共享同一预算

对 Agent 开发的直接影响

历史消息不能无限追加，必须做压缩或摘要
工具返回结果不能原样全塞回去，要做裁剪
大文档问答不能靠硬塞全文，必须引入检索

本节产物

一个 token 预算观察脚本
一份中文、英文、代码输入的 token 对比结果
一份上下文超预算时的处理清单

课堂实作

用 tokenizer 工具统计同一段内容在不同写法下的 token 数
估算系统提示、历史记录、工具结果分别占掉多少预算
把一段过长工具输出裁剪成可安全回填的版本

并入项目

这一课先不直接做完整项目，但它会成为后面 Coding Agent 和知识库 Agent 的上下文预算基础。

面试会怎么问

token 和字符、单词的区别是什么
为什么长上下文会增加成本
Agent 为什么要做记忆分层和上下文压缩