Aller au contenu
Glossaire

Recherche vectorielle

La recherche vectorielle trouve du contenu par le sens plutôt que par les mots exacts. Le texte est converti en vecteurs de grande dimension, et une métrique de similarité telle que la distance cosinus classe les vecteurs stockés selon leur proximité au vecteur de requête, renvoyant des passages conceptuellement liés même lorsqu'aucun mot-clé ne correspond.

Synonymes : semantic search, similarity search, nearest-neighbor search, embedding search

La recherche vectorielle alimente la récupération sémantique : au lieu de faire correspondre des chaînes de caractères, elle fait correspondre le sens. Une requête est vectorisée dans le même espace vectoriel que le contenu indexé, et l’index renvoie les vecteurs les plus proches selon une métrique de distance. Pour rester rapides à grande échelle, les systèmes de production utilisent des index de plus proche voisin approximatif qui acceptent de minuscules compromis de précision pour des gains majeurs de latence. La recherche vectorielle est la plus efficace lorsqu’elle est associée à la recherche par mots-clés dans un récupérateur hybride, afin que les identifiants exacts ne soient pas perdus au profit d’une correspondance purement sémantique.

Questions fréquentes

Qu'est-ce qu'un vecteur d'embedding dans la recherche vectorielle ?
Un vecteur d'embedding est un vecteur numérique qui représente le sens d'un fragment de texte, produit par un modèle d'embedding. Les textes de sens similaire se retrouvent proches dans l'espace vectoriel.
Qu'est-ce que la recherche du plus proche voisin approximatif (ANN) ?
La recherche ANN échange une petite quantité de précision contre de grands gains de vitesse, en utilisant des structures d'index pour que les recherches de similarité restent rapides à mesure que le nombre de vecteurs stockés croît jusqu'aux millions.