Skip to content

RAG 评估

RAG 系统不能只靠“感觉还不错”来判断质量。


这节课解决什么问题

  • RAG 应该评估哪些指标
  • 如何区分检索问题和生成问题
  • 为什么端到端体验不能替代链路级评估

核心内容

  • Recall@K、MRR、NDCG
  • Faithfulness、Answer Relevance
  • 检索评估与回答评估拆开做
  • RAGAS 等自动化评估框架

本节产物

  • 一份 RAG 评估结果表
  • 一组召回问题和生成问题的归因样例
  • 一份上线前的最小评估门槛

课堂实作

  • 给一批问答样本跑检索和回答评估
  • 区分“没检到”和“检到了但答错了”两类问题
  • 写出一版适合当前知识库 Agent 的上线指标

并入项目

这一课会直接进入项目二的验收标准,也会反过来影响项目三里的 research agent 质量判断。

面试会怎么问

  • RAG 为什么必须做评估
  • 你怎么判断问题出在召回还是生成
  • 你会选哪些指标作为上线门槛

大齐 AI 课堂 · 程序员的 Agent 开发课