Vectorisation
Une vectorisation est un vecteur numérique qui représente le sens d'un texte, d'images ou d'autres données dans un espace de grande dimension. Les éléments de sens similaire produisent des vecteurs proches les uns des autres, ce qui permet aux systèmes de comparer, regrouper et récupérer du contenu par similarité sémantique plutôt que par correspondances exactes.
Synonymes : vector embedding, text embedding, semantic vector, dense representation
Les vectorisations sont le pont entre le langage humain et les mathématiques de la similarité. Un modèle de vectorisation associe chaque entrée à un vecteur de longueur fixe afin que les éléments sémantiquement liés se regroupent, permettant la recherche vectorielle, le regroupement, la classification et la déduplication. Dans un pipeline de récupération, les fragments indexés et la requête entrante sont vectorisés avec le même modèle pour que les distances aient un sens. Comme le modèle de vectorisation définit l’espace, sa version est une métadonnée qu’il vaut la peine de suivre pour la reproductibilité et la réindexation contrôlée.