Ga naar inhoud
Woordenlijst

Embedding

Een embedding is een numerieke vector die de betekenis van tekst, afbeeldingen of andere data in een hoog-dimensionale ruimte weergeeft. Items met vergelijkbare betekenis leveren vectoren op die dicht bij elkaar liggen, waardoor systemen content kunnen vergelijken, clusteren en ophalen op basis van semantische gelijkenis in plaats van exacte overeenkomsten.

Synoniemen: vectorembedding, tekstembedding, semantische vector, dense representatie

Embeddings vormen de brug tussen menselijke taal en similarity math. Een embeddingmodel zet elke invoer om in een vector met vaste lengte, zodat semantisch verwante items samen clusteren en vector search, clustering, classificatie en deduplicatie mogelijk worden. In een retrievalpipeline worden zowel de geïndexeerde chunks als de binnenkomende query met hetzelfde model ingebed, zodat afstanden betekenisvol zijn. Omdat het embeddingmodel de ruimte definieert, is de versie metadata die het waard is te volgen voor reproduceerbaarheid en gecontroleerde herindexering.

Veelgestelde vragen

Waarom is de versie van het embeddingmodel belangrijk?
Vectoren uit verschillende modellen zijn niet vergelijkbaar. Door de modelversie bij elke embedding op te slaan kun je drift detecteren en veilig herindexeren wanneer je het embeddingmodel upgrade.
Zijn embeddings omkeerbaar naar de oorspronkelijke tekst?
Niet precies, maar embeddings kunnen gevoelige informatie lekken, dus ze moeten dezelfde tenantisolatie en toegangscontroles erven als de broncontent die ze vertegenwoordigen.