Appearance
Eval 体系
Eval 是 Agent 项目的硬指标体系。
这节课解决什么问题
- Agent 质量怎么量化
- 版本迭代后怎么判断变好了还是变差了
- 失败模式怎么系统化收集
核心内容
- Eval 数据集
- 成功率与任务完成率
- 答案质量与忠实度
- 失败样本归因
本节产物
- 一套最小 Eval 数据集
- 一份版本对比评估结果
- 一份失败样本归因记录
课堂实作
- 为当前 Agent 或 RAG 项目收集一批固定评测任务
- 对两个版本跑同一套评估,比较是否真的变好
- 把失败样本按工具、检索、生成、状态流转分类
并入项目
这一课会直接成为三个项目的质量判断基线,尤其影响项目二和项目三的迭代节奏。
面试会怎么问
- Eval 和普通测试有什么区别
- 怎么设计一套 Agent 评估指标
- Prompt 改了之后怎么验证没有回退
