项目二 · 知识库 Agent

这是 Agent 主线里最贴近真实业务落地的项目。

目标是做一个能基于私有文档回答问题的 Agent，回答要有引用来源，能解释答案从哪来。

项目目标

导入 PDF、Markdown、网页等多种文档
完成切块、向量化、存储和检索链路
支持 Hybrid 检索和 Reranking
输出带引用来源的回答

推荐技术栈

LangGraph
Chroma、Qdrant 或 pgvector
Embedding 模型
Reranker 模型
FastAPI / Express + React / Vue

核心能力

文档清洗与切块
向量检索与关键词检索融合
精排与上下文组装
多轮对话历史管理
引用溯源与答案可信度控制

项目难点

文档更新后如何增量更新索引
检索到了文档但回答仍然不准，问题可能在生成阶段
不同租户的数据隔离必须做严
RAG 质量不能靠感觉判断，必须做评估

简历亮点

从零搭建企业知识库 Agent，支持多格式文档导入、Hybrid 检索和引用溯源回答
基于向量数据库与 Reranking 优化检索链路，提升回答相关性与可解释性
设计多租户隔离与增量索引更新机制，支撑持续运营场景

面试高频追问

为什么只做向量检索不够
Reranking 带来的实际价值是什么
怎么区分检索问题和生成问题
文档持续更新时如何保持索引一致性