Skip to content

Eval 体系

Eval 是 Agent 项目的硬指标体系。


这节课解决什么问题

  • Agent 质量怎么量化
  • 版本迭代后怎么判断变好了还是变差了
  • 失败模式怎么系统化收集

核心内容

  • Eval 数据集
  • 成功率与任务完成率
  • 答案质量与忠实度
  • 失败样本归因

本节产物

  • 一套最小 Eval 数据集
  • 一份版本对比评估结果
  • 一份失败样本归因记录

课堂实作

  • 为当前 Agent 或 RAG 项目收集一批固定评测任务
  • 对两个版本跑同一套评估,比较是否真的变好
  • 把失败样本按工具、检索、生成、状态流转分类

并入项目

这一课会直接成为三个项目的质量判断基线,尤其影响项目二和项目三的迭代节奏。

面试会怎么问

  • Eval 和普通测试有什么区别
  • 怎么设计一套 Agent 评估指标
  • Prompt 改了之后怎么验证没有回退

大齐 AI 课堂 · 程序员的 Agent 开发课