Vai al contenuto
Glossario

Embedding

Un embedding è un vettore numerico che rappresenta il significato di testo, immagini o altri dati in uno spazio ad alta dimensionalità. Elementi con significato simile producono vettori vicini tra loro, permettendo ai sistemi di confrontare, raggruppare e recuperare contenuti per somiglianza semantica invece che per corrispondenze esatte.

Sinonimi: vector embedding, text embedding, semantic vector, dense representation

Gli embedding sono il ponte tra il linguaggio umano e la matematica della somiglianza. Un modello di embedding mappa ogni input su un vettore di lunghezza fissa affinché elementi semanticamente correlati si raggruppino, abilitando ricerca vettoriale, clustering, classificazione e deduplicazione. In una pipeline di recupero, sia i chunk indicizzati sia la query in arrivo vengono trasformati in embedding con lo stesso modello, così le distanze sono significative. Poiché il modello di embedding definisce lo spazio, la sua versione è un metadato da tracciare per riproducibilità e reindicizzazione controllata.

Domande frequenti

Perché la versione del modello di embedding è importante?
I vettori prodotti da modelli diversi non sono confrontabili. Salvare la versione del modello con ogni embedding permette di rilevare drift e reindicizzare in sicurezza quando si aggiorna il modello di embedding.
Gli embedding sono reversibili nel testo originale?
Non esattamente, ma gli embedding possono far trapelare informazioni sensibili, quindi dovrebbero ereditare lo stesso isolamento tenant e gli stessi controlli di accesso del contenuto sorgente che rappresentano.