Eval 体系

Eval 是 Agent 项目的硬指标体系。

这节课解决什么问题

Agent 质量怎么量化
版本迭代后怎么判断变好了还是变差了
失败模式怎么系统化收集

核心内容

Eval 数据集
成功率与任务完成率
答案质量与忠实度
失败样本归因

本节产物

一套最小 Eval 数据集
一份版本对比评估结果
一份失败样本归因记录

课堂实作

为当前 Agent 或 RAG 项目收集一批固定评测任务
对两个版本跑同一套评估，比较是否真的变好
把失败样本按工具、检索、生成、状态流转分类

并入项目

这一课会直接成为三个项目的质量判断基线，尤其影响项目二和项目三的迭代节奏。

面试会怎么问

Eval 和普通测试有什么区别
怎么设计一套 Agent 评估指标
Prompt 改了之后怎么验证没有回退