Appearance
Embedding 原理
RAG 的起点是向量化。
这节课解决什么问题
- 文本为什么能被表示成向量
- 语义相似度为什么能做检索
- Embedding 模型该怎么选
核心内容
- 向量表示
- 余弦相似度
- 多语言 Embedding
- 维度、精度与成本权衡
本节产物
- 一个最小向量化脚本
- 一组语义相似度对比样例
- 一份 embedding 模型选择记录
课堂实作
- 把几段文本转成向量并比较相似度
- 对比关键词接近和语义接近的差别
- 选一个适合中文或混合语料的 embedding 模型并说明理由
并入项目
这一课会直接进入项目二知识库 Agent 的索引层。
面试会怎么问
- Embedding 和关键词匹配有什么差别
- 为什么语义相似可以用向量距离表示
- 中文语料选模型要注意什么
