Attention 机制直觉

这一课不推公式，重点是建立操作层面的直觉。

这节课解决什么问题

模型为什么能理解前后文关系
为什么 prompt 中信息的位置会影响效果
为什么模型会“记不住”对话早期的内容

关键概念

Self-Attention：每个 token 对其他 token 分配注意力权重
位置编码：让模型知道顺序关系
注意力衰减：关键信息放错位置，模型利用率会下降

对 Agent 开发的直接影响

系统指令、工具结果、最终任务要按优先级排布
重要中间状态不能埋在很长的工具输出里
长链路 Agent 要主动做状态重组，而不是机械追加消息

本节产物

一份提示词位置敏感性实验记录
一个重要信息重排前后效果对比样例
一份消息组织优先级规则

课堂实作

用同一个任务测试关键信息放在开头、中间、末尾时的回答差异
对一段冗长上下文做重排，观察结果是否更稳定
给 Agent 消息历史设计一版更适合模型注意力分布的顺序

并入项目

这一课会直接影响项目一和项目二里的系统提示、工具结果和检索结果怎么排布。

面试会怎么问

Attention 在直觉上是怎么工作的
为什么同一个提示词换个位置效果会变
Agent 里哪些内容应该放在消息末尾或靠前位置