Векторный поиск
Векторный поиск находит контент по смыслу, а не по точным словам. Текст преобразуется в многомерные эмбеддинги, а метрика сходства, такая как косинусное расстояние, ранжирует хранимые векторы по близости к вектору запроса, возвращая концептуально связанные фрагменты даже при отсутствии совпадения ключевых слов.
Синонимы: semantic search, similarity search, nearest-neighbor search, embedding search
Векторный поиск питает семантическое извлечение: вместо сопоставления строк он сопоставляет смысл. Запрос встраивается в то же векторное пространство, что и индексированный контент, а индекс возвращает ближайшие векторы по метрике расстояния. Чтобы оставаться быстрыми при масштабе, продакшен-системы используют индексы приближённых ближайших соседей, которые принимают крошечные компромиссы точности ради значительного выигрыша в задержке. Векторный поиск наиболее эффективен в паре с поиском по ключевым словам в гибридном ретривере, чтобы точные идентификаторы не терялись из-за чисто семантического сопоставления.