RAG 评估

RAG 系统不能只靠“感觉还不错”来判断质量。

这节课解决什么问题

RAG 应该评估哪些指标
如何区分检索问题和生成问题
为什么端到端体验不能替代链路级评估

核心内容

Recall@K、MRR、NDCG
Faithfulness、Answer Relevance
检索评估与回答评估拆开做
RAGAS 等自动化评估框架

本节产物

一份 RAG 评估结果表
一组召回问题和生成问题的归因样例
一份上线前的最小评估门槛

课堂实作

给一批问答样本跑检索和回答评估
区分“没检到”和“检到了但答错了”两类问题
写出一版适合当前知识库 Agent 的上线指标

并入项目

这一课会直接进入项目二的验收标准，也会反过来影响项目三里的 research agent 质量判断。

面试会怎么问

RAG 为什么必须做评估
你怎么判断问题出在召回还是生成
你会选哪些指标作为上线门槛