Aller au contenu
Glossaire

Vectorisation

Une vectorisation est un vecteur numérique qui représente le sens d'un texte, d'images ou d'autres données dans un espace de grande dimension. Les éléments de sens similaire produisent des vecteurs proches les uns des autres, ce qui permet aux systèmes de comparer, regrouper et récupérer du contenu par similarité sémantique plutôt que par correspondances exactes.

Synonymes : vector embedding, text embedding, semantic vector, dense representation

Les vectorisations sont le pont entre le langage humain et les mathématiques de la similarité. Un modèle de vectorisation associe chaque entrée à un vecteur de longueur fixe afin que les éléments sémantiquement liés se regroupent, permettant la recherche vectorielle, le regroupement, la classification et la déduplication. Dans un pipeline de récupération, les fragments indexés et la requête entrante sont vectorisés avec le même modèle pour que les distances aient un sens. Comme le modèle de vectorisation définit l’espace, sa version est une métadonnée qu’il vaut la peine de suivre pour la reproductibilité et la réindexation contrôlée.

Questions fréquentes

Pourquoi la version du modèle de vectorisation importe-t-elle ?
Les vecteurs issus de modèles différents ne sont pas comparables. Stocker la version du modèle avec chaque vecteur permet de détecter une dérive et de réindexer en toute sécurité lors de la mise à niveau du modèle de vectorisation.
Les vectorisations sont-elles réversibles vers le texte d'origine ?
Pas exactement, mais les vecteurs peuvent divulguer des informations sensibles, ils devraient donc hériter du même isolement des locataires et des mêmes contrôles d'accès que le contenu source qu'ils représentent.