Saltar para o conteúdo
Glossário

Busca vetorial

A busca vetorial encontra conteúdo por significado em vez de por palavras exatas. O texto é convertido em incorporações de alta dimensão, e uma métrica de similaridade como a distância de cosseno classifica os vetores armazenados pela proximidade ao vetor de consulta, retornando trechos conceitualmente relacionados mesmo quando nenhuma palavra-chave corresponde.

Sinónimos: semantic search, similarity search, nearest-neighbor search, embedding search

A busca vetorial impulsiona a recuperação semântica: em vez de corresponder cadeias de caracteres, ela corresponde significados. Uma consulta é incorporada no mesmo espaço vetorial que o conteúdo indexado, e o índice retorna os vetores mais próximos por uma métrica de distância. Para permanecerem rápidos em escala, os sistemas de produção usam índices de vizinho mais próximo aproximado que aceitam pequenos compromissos de precisão em troca de grandes ganhos de latência. A busca vetorial é mais eficaz quando combinada com a busca por palavras-chave em um recuperador híbrido, de modo que os identificadores exatos não sejam perdidos pela correspondência puramente semântica.

Perguntas frequentes

O que é uma incorporação na busca vetorial?
Uma incorporação é um vetor numérico que representa o significado de um trecho de texto, produzido por um modelo de incorporação. Textos com significado semelhante ficam próximos no espaço vetorial.
O que é a busca aproximada de vizinho mais próximo (ANN)?
A busca ANN troca uma pequena quantidade de precisão por grandes ganhos de velocidade, usando estruturas de índice para que as buscas de similaridade permaneçam rápidas à medida que o número de vetores armazenados cresce até os milhões.