Skip to content

推理过程与成本

会调 API 不够,还要知道成本是怎么来的。


这节课解决什么问题

  • prefill 和 decode 分别在做什么
  • 为什么输入越长、输出越长,价格和延迟都会上升
  • KV Cache 为什么重要

关键概念

  • Prefill:处理输入上下文的阶段
  • Decode:逐 token 生成输出的阶段
  • KV Cache:缓存历史计算结果,降低重复计算开销

对 Agent 开发的直接影响

  • 长工具输出比想象中更贵
  • 多轮 Agent 任务要特别注意消息累计
  • 该用检索解决的问题,不要全靠加大上下文解决

本节产物

  • 一个推理成本估算表
  • 一份 prefill 和 decode 成本拆分示例
  • 一份高成本链路定位清单

课堂实作

  • 估算一次多轮 Agent 任务的输入、输出和累计成本
  • 对比短输出和长输出在延迟与费用上的差异
  • 找出一个现成提示链路里最容易失控的成本点

并入项目

这一课会直接决定三个项目里的消息裁剪、摘要、检索和工具输出上限怎么设。

面试会怎么问

  • 为什么长上下文更慢更贵
  • KV Cache 在推理里起什么作用
  • Agent 产品要怎么控制 token 成本

大齐 AI 课堂 · 程序员的 Agent 开发课