Glossar

Embedding

Ein Embedding ist ein numerischer Vektor, der die Bedeutung von Text, Bildern oder anderen Daten in einem hochdimensionalen Raum darstellt. Elemente mit ähnlicher Bedeutung erzeugen Vektoren, die nahe beieinander liegen, wodurch Systeme Inhalte nach semantischer Ähnlichkeit statt nach exakten Übereinstimmungen vergleichen, gruppieren und abrufen können.

Synonyme: vector embedding, text embedding, semantic vector, dense representation

Embeddings sind die Brücke zwischen menschlicher Sprache und Ähnlichkeitsmathematik. Ein Embedding-Modell bildet jede Eingabe auf einen Vektor fester Länge ab, sodass semantisch verwandte Elemente zusammengruppieren, was Vektorsuche, Gruppierung, Klassifizierung und Deduplizierung ermöglicht. In einer Abruf-Pipeline werden sowohl die indexierten Chunks als auch die eingehende Anfrage mit demselben Modell eingebettet, damit die Abstände aussagekräftig sind. Da das Embedding-Modell den Raum definiert, ist seine Version eine Metadate, deren Nachverfolgung sich für Reproduzierbarkeit und kontrollierte Neuindexierung lohnt.

Warum ist die Version des Embedding-Modells wichtig?

Vektoren aus verschiedenen Modellen sind nicht vergleichbar. Wenn die Modellversion mit jedem Embedding gespeichert wird, lassen sich Drift erkennen und beim Upgrade des Embedding-Modells sicher neu indexieren.

Sind Embeddings zum Originaltext umkehrbar?

Nicht exakt, aber Embeddings können sensible Informationen preisgeben, daher sollten sie dieselbe Mandantenisolierung und dieselben Zugriffskontrollen wie der Quellinhalt erben, den sie darstellen.

Embedding

Häufig gestellte Fragen

Verwandte Begriffe