Appearance
Attention 机制直觉
这一课不推公式,重点是建立操作层面的直觉。
这节课解决什么问题
- 模型为什么能理解前后文关系
- 为什么 prompt 中信息的位置会影响效果
- 为什么模型会“记不住”对话早期的内容
关键概念
- Self-Attention:每个 token 对其他 token 分配注意力权重
- 位置编码:让模型知道顺序关系
- 注意力衰减:关键信息放错位置,模型利用率会下降
对 Agent 开发的直接影响
- 系统指令、工具结果、最终任务要按优先级排布
- 重要中间状态不能埋在很长的工具输出里
- 长链路 Agent 要主动做状态重组,而不是机械追加消息
本节产物
- 一份提示词位置敏感性实验记录
- 一个重要信息重排前后效果对比样例
- 一份消息组织优先级规则
课堂实作
- 用同一个任务测试关键信息放在开头、中间、末尾时的回答差异
- 对一段冗长上下文做重排,观察结果是否更稳定
- 给 Agent 消息历史设计一版更适合模型注意力分布的顺序
并入项目
这一课会直接影响项目一和项目二里的系统提示、工具结果和检索结果怎么排布。
面试会怎么问
- Attention 在直觉上是怎么工作的
- 为什么同一个提示词换个位置效果会变
- Agent 里哪些内容应该放在消息末尾或靠前位置
