面试

把 LLM、Agent、RAG、Harness 相关知识点练熟，不怕任何追问。

高频面试题解析

LLM 基础

问：为什么 LLM 会有幻觉？

答题重点：

LLM 本质上是在做下一个 token 的概率预测，不是从结构化知识库里查事实
当上下文不足、问题超出训练数据、提示不够约束时，模型会生成"看起来合理"的内容
工程上通常用工具调用、检索、验证步骤降低幻觉，而不是指望 prompt 彻底消除

问：为什么长 context 会更贵、更慢？

答题重点：

输入 token 越多，prefill 阶段计算越大
注意力计算和缓存管理都会增加成本
工程上会用摘要、检索、分层记忆控制 context 长度

Agent 核心

问：Agent 和普通聊天机器人有什么区别？

答题重点：

聊天机器人通常是一问一答
Agent 有工具、有状态、有多步执行循环，能自主推进任务
Agent 的难点不是"回答得像不像人"，而是"动作做得对不对"

问：为什么 Agent 需要 ReAct，而不是一次生成全部步骤？

答题重点：

多步任务里，后续动作依赖前面工具返回的真实结果
一次性规划缺少反馈闭环，容易偏离实际情况
ReAct 让模型边看结果边调整动作，更适合不确定环境

RAG

问：为什么 RAG 要做 Reranking？

答题重点：

初步检索偏召回，相关但未必最适合回答
Reranking 用更强模型做精排，提升最终上下文质量
检索质量不稳定时，Reranking 往往是最直接的提升手段

问：怎么判断 RAG 问题出在检索还是生成？

答题重点：

先看检索到的文档是否覆盖答案所需信息
如果检索不到，是召回问题；检索到了但答案乱说，是生成问题
评估时要拆成检索指标和回答指标，不能只看最终体验