Skip to content

项目二 · 知识库 Agent

这是 Agent 主线里最贴近真实业务落地的项目。

目标是做一个能基于私有文档回答问题的 Agent,回答要有引用来源,能解释答案从哪来。


项目目标

  • 导入 PDF、Markdown、网页等多种文档
  • 完成切块、向量化、存储和检索链路
  • 支持 Hybrid 检索和 Reranking
  • 输出带引用来源的回答

推荐技术栈

  • LangGraph
  • Chroma、Qdrant 或 pgvector
  • Embedding 模型
  • Reranker 模型
  • FastAPI / Express + React / Vue

核心能力

  • 文档清洗与切块
  • 向量检索与关键词检索融合
  • 精排与上下文组装
  • 多轮对话历史管理
  • 引用溯源与答案可信度控制

项目难点

  • 文档更新后如何增量更新索引
  • 检索到了文档但回答仍然不准,问题可能在生成阶段
  • 不同租户的数据隔离必须做严
  • RAG 质量不能靠感觉判断,必须做评估

简历亮点

  • 从零搭建企业知识库 Agent,支持多格式文档导入、Hybrid 检索和引用溯源回答
  • 基于向量数据库与 Reranking 优化检索链路,提升回答相关性与可解释性
  • 设计多租户隔离与增量索引更新机制,支撑持续运营场景

面试高频追问

  • 为什么只做向量检索不够
  • Reranking 带来的实际价值是什么
  • 怎么区分检索问题和生成问题
  • 文档持续更新时如何保持索引一致性

大齐 AI 课堂 · 程序员的 Agent 开发课