Перейти к содержанию
Глоссарий

Векторный поиск

Векторный поиск находит контент по смыслу, а не по точным словам. Текст преобразуется в многомерные эмбеддинги, а метрика сходства, такая как косинусное расстояние, ранжирует хранимые векторы по близости к вектору запроса, возвращая концептуально связанные фрагменты даже при отсутствии совпадения ключевых слов.

Синонимы: semantic search, similarity search, nearest-neighbor search, embedding search

Векторный поиск питает семантическое извлечение: вместо сопоставления строк он сопоставляет смысл. Запрос встраивается в то же векторное пространство, что и индексированный контент, а индекс возвращает ближайшие векторы по метрике расстояния. Чтобы оставаться быстрыми при масштабе, продакшен-системы используют индексы приближённых ближайших соседей, которые принимают крошечные компромиссы точности ради значительного выигрыша в задержке. Векторный поиск наиболее эффективен в паре с поиском по ключевым словам в гибридном ретривере, чтобы точные идентификаторы не терялись из-за чисто семантического сопоставления.

Часто задаваемые вопросы

Что такое эмбеддинг в векторном поиске?
Эмбеддинг — это числовой вектор, представляющий смысл фрагмента текста, порождённый моделью эмбеддингов. Тексты со схожим смыслом располагаются близко в векторном пространстве.
Что такое приближённый поиск ближайших соседей (ANN)?
Поиск ANN обменивает небольшую долю точности на большой выигрыш в скорости, используя индексные структуры, чтобы поиски по сходству оставались быстрыми по мере роста числа хранимых векторов до миллионов.