Skip to content

Attention 机制直觉

这一课不推公式,重点是建立操作层面的直觉。


这节课解决什么问题

  • 模型为什么能理解前后文关系
  • 为什么 prompt 中信息的位置会影响效果
  • 为什么模型会“记不住”对话早期的内容

关键概念

  • Self-Attention:每个 token 对其他 token 分配注意力权重
  • 位置编码:让模型知道顺序关系
  • 注意力衰减:关键信息放错位置,模型利用率会下降

对 Agent 开发的直接影响

  • 系统指令、工具结果、最终任务要按优先级排布
  • 重要中间状态不能埋在很长的工具输出里
  • 长链路 Agent 要主动做状态重组,而不是机械追加消息

本节产物

  • 一份提示词位置敏感性实验记录
  • 一个重要信息重排前后效果对比样例
  • 一份消息组织优先级规则

课堂实作

  • 用同一个任务测试关键信息放在开头、中间、末尾时的回答差异
  • 对一段冗长上下文做重排,观察结果是否更稳定
  • 给 Agent 消息历史设计一版更适合模型注意力分布的顺序

并入项目

这一课会直接影响项目一和项目二里的系统提示、工具结果和检索结果怎么排布。

面试会怎么问

  • Attention 在直觉上是怎么工作的
  • 为什么同一个提示词换个位置效果会变
  • Agent 里哪些内容应该放在消息末尾或靠前位置

大齐 AI 课堂 · 程序员的 Agent 开发课