跳到内容
术语表

向量检索

向量检索按含义而非精确词语来查找内容。文本被转化为高维嵌入,而诸如余弦距离之类的相似度度量会按存储向量与查询向量的接近程度对其进行排序,即使没有关键词匹配,也能返回概念上相关的段落。

同义词:semantic search, similarity search, nearest-neighbor search, embedding search

向量检索为语义检索提供动力:它不匹配字符串,而是匹配含义。查询会被嵌入到与索引内容相同的向量空间中,索引则按距离度量返回最接近的向量。为在规模化时保持快速,生产系统使用近似最近邻索引,以微小的精确度折中换取重大的延迟收益。当向量检索在混合检索器中与关键词检索配对时最为有效,从而使精确标识符不至于因纯语义匹配而丢失。

常见问题

向量检索中的嵌入是什么?
嵌入是一个数值向量,表示一段文本的含义,由嵌入模型生成。含义相近的文本在向量空间中彼此靠近。
什么是近似最近邻 (ANN) 检索?
ANN 检索以少量精确度换取巨大的速度提升,使用索引结构使相似度查找在所存储向量的数量增长到数百万时仍保持快速。