推理过程与成本

会调 API 不够，还要知道成本是怎么来的。

这节课解决什么问题

prefill 和 decode 分别在做什么
为什么输入越长、输出越长，价格和延迟都会上升
KV Cache 为什么重要

关键概念

Prefill：处理输入上下文的阶段
Decode：逐 token 生成输出的阶段
KV Cache：缓存历史计算结果，降低重复计算开销

对 Agent 开发的直接影响

长工具输出比想象中更贵
多轮 Agent 任务要特别注意消息累计
该用检索解决的问题，不要全靠加大上下文解决

本节产物

一个推理成本估算表
一份 prefill 和 decode 成本拆分示例
一份高成本链路定位清单

课堂实作

估算一次多轮 Agent 任务的输入、输出和累计成本
对比短输出和长输出在延迟与费用上的差异
找出一个现成提示链路里最容易失控的成本点

并入项目

这一课会直接决定三个项目里的消息裁剪、摘要、检索和工具输出上限怎么设。

面试会怎么问

为什么长上下文更慢更贵
KV Cache 在推理里起什么作用
Agent 产品要怎么控制 token 成本