Appearance
RAG 评估
RAG 系统不能只靠“感觉还不错”来判断质量。
这节课解决什么问题
- RAG 应该评估哪些指标
- 如何区分检索问题和生成问题
- 为什么端到端体验不能替代链路级评估
核心内容
- Recall@K、MRR、NDCG
- Faithfulness、Answer Relevance
- 检索评估与回答评估拆开做
- RAGAS 等自动化评估框架
本节产物
- 一份 RAG 评估结果表
- 一组召回问题和生成问题的归因样例
- 一份上线前的最小评估门槛
课堂实作
- 给一批问答样本跑检索和回答评估
- 区分“没检到”和“检到了但答错了”两类问题
- 写出一版适合当前知识库 Agent 的上线指标
并入项目
这一课会直接进入项目二的验收标准,也会反过来影响项目三里的 research agent 质量判断。
面试会怎么问
- RAG 为什么必须做评估
- 你怎么判断问题出在召回还是生成
- 你会选哪些指标作为上线门槛
