Appearance
测试与可靠性
Agent 系统最危险的地方,不是它答错一句话,而是它把错误动作执行下去了。
这个模块专门处理主线里最容易被漏掉的一段:测试、评估、可靠性和上线门槛。
子课展开学习:
这个模块讲什么
| 课次 | 主题 | 核心内容 |
|---|---|---|
| 01 | Agent 单元测试 | 工具调用、状态流转、提示模板的稳定测试 |
| 02 | Eval 体系 | 任务成功率、答案质量、失败模式的批量评估 |
| 03 | 可靠性设计 | 重试、超时、幂等、降级、人工介入点 |
| 04 | 可观测性 | Trace、日志、成本统计、错误定位 |
| 05 | 上线门槛 | 什么情况下才能进生产环境 |
为什么这段必须在主线里
- Agent 不测试,项目就很难真正上线
- Agent 不做 Eval,很难知道是进步了还是退步了
- Agent 不做可靠性设计,错误会直接影响真实业务流程
- 面试里几乎一定会问:你怎么验证系统稳定性
