Appearance
推理过程与成本
会调 API 不够,还要知道成本是怎么来的。
这节课解决什么问题
- prefill 和 decode 分别在做什么
- 为什么输入越长、输出越长,价格和延迟都会上升
- KV Cache 为什么重要
关键概念
- Prefill:处理输入上下文的阶段
- Decode:逐 token 生成输出的阶段
- KV Cache:缓存历史计算结果,降低重复计算开销
对 Agent 开发的直接影响
- 长工具输出比想象中更贵
- 多轮 Agent 任务要特别注意消息累计
- 该用检索解决的问题,不要全靠加大上下文解决
本节产物
- 一个推理成本估算表
- 一份 prefill 和 decode 成本拆分示例
- 一份高成本链路定位清单
课堂实作
- 估算一次多轮 Agent 任务的输入、输出和累计成本
- 对比短输出和长输出在延迟与费用上的差异
- 找出一个现成提示链路里最容易失控的成本点
并入项目
这一课会直接决定三个项目里的消息裁剪、摘要、检索和工具输出上限怎么设。
面试会怎么问
- 为什么长上下文更慢更贵
- KV Cache 在推理里起什么作用
- Agent 产品要怎么控制 token 成本
