嵌入
嵌入是一个数值向量,在高维空间中表示文本、图像或其他数据的含义。含义相近的项目会产生彼此靠近的向量,这让系统能够按语义相似度而非精确匹配来比较、聚类和检索内容。
同义词:vector embedding, text embedding, semantic vector, dense representation
嵌入是人类语言与相似度数学之间的桥梁。嵌入模型将每个输入映射为一个定长向量,使语义相关的项目聚集在一起,从而支持向量检索、聚类、分类和去重。在检索流水线中,索引的分块和传入的查询都用同一个模型进行嵌入,以使距离具有意义。由于嵌入模型定义了这个空间,其版本是一项值得跟踪的元数据,有助于可复现性和受控的重新索引。
常见问题
为什么嵌入模型的版本很重要?
来自不同模型的向量不可比较。将模型版本与每个嵌入一起存储,可让你检测漂移,并在升级嵌入模型时安全地重新索引。
嵌入能可逆地还原为原始文本吗?
并不能完全还原,但嵌入可能泄露敏感信息,因此它们应当继承与其所表示的源内容相同的租户隔离和访问控制。