Эмбеддинг
Эмбеддинг — это числовой вектор, представляющий смысл текста, изображений или других данных в многомерном пространстве. Элементы со схожим смыслом порождают векторы, расположенные близко друг к другу, что позволяет системам сравнивать, кластеризовать и извлекать контент по семантическому сходству, а не по точным совпадениям.
Синонимы: vector embedding, text embedding, semantic vector, dense representation
Эмбеддинги — это мост между человеческим языком и математикой сходства. Модель эмбеддингов отображает каждый ввод в вектор фиксированной длины, чтобы семантически связанные элементы кластеризовались вместе, что обеспечивает векторный поиск, кластеризацию, классификацию и дедупликацию. В конвейере извлечения и индексированные чанки, и входящий запрос встраиваются одной и той же моделью, чтобы расстояния были осмысленными. Поскольку модель эмбеддингов определяет пространство, её версия — это метаданные, которые стоит отслеживать ради воспроизводимости и контролируемой переиндексации.