Перейти к содержанию
Глоссарий

Эмбеддинг

Эмбеддинг — это числовой вектор, представляющий смысл текста, изображений или других данных в многомерном пространстве. Элементы со схожим смыслом порождают векторы, расположенные близко друг к другу, что позволяет системам сравнивать, кластеризовать и извлекать контент по семантическому сходству, а не по точным совпадениям.

Синонимы: vector embedding, text embedding, semantic vector, dense representation

Эмбеддинги — это мост между человеческим языком и математикой сходства. Модель эмбеддингов отображает каждый ввод в вектор фиксированной длины, чтобы семантически связанные элементы кластеризовались вместе, что обеспечивает векторный поиск, кластеризацию, классификацию и дедупликацию. В конвейере извлечения и индексированные чанки, и входящий запрос встраиваются одной и той же моделью, чтобы расстояния были осмысленными. Поскольку модель эмбеддингов определяет пространство, её версия — это метаданные, которые стоит отслеживать ради воспроизводимости и контролируемой переиндексации.

Часто задаваемые вопросы

Почему важна версия модели эмбеддингов?
Векторы из разных моделей несопоставимы. Хранение версии модели с каждым эмбеддингом позволяет обнаруживать дрейф и безопасно переиндексировать при обновлении модели эмбеддингов.
Обратимы ли эмбеддинги к исходному тексту?
Не совсем, но эмбеддинги могут утечь чувствительную информацию, поэтому они должны наследовать ту же изоляцию арендаторов и контроль доступа, что и исходный контент, который они представляют.