Skip to content

Embedding 原理

RAG 的起点是向量化。


这节课解决什么问题

  • 文本为什么能被表示成向量
  • 语义相似度为什么能做检索
  • Embedding 模型该怎么选

核心内容

  • 向量表示
  • 余弦相似度
  • 多语言 Embedding
  • 维度、精度与成本权衡

本节产物

  • 一个最小向量化脚本
  • 一组语义相似度对比样例
  • 一份 embedding 模型选择记录

课堂实作

  • 把几段文本转成向量并比较相似度
  • 对比关键词接近和语义接近的差别
  • 选一个适合中文或混合语料的 embedding 模型并说明理由

并入项目

这一课会直接进入项目二知识库 Agent 的索引层。

面试会怎么问

  • Embedding 和关键词匹配有什么差别
  • 为什么语义相似可以用向量距离表示
  • 中文语料选模型要注意什么

大齐 AI 课堂 · 程序员的 Agent 开发课