Przejdź do treści
Glosariusz

Embedding

Embedding to wektor liczbowy reprezentujący znaczenie tekstu, obrazów lub innych danych w przestrzeni wysokowymiarowej. Elementy o podobnym znaczeniu tworzą wektory leżące blisko siebie, co pozwala systemom porównywać, klastrować i pobierać treści według podobieństwa semantycznego zamiast dokładnych dopasowań.

Synonimy: embedding wektorowy, embedding tekstu, wektor semantyczny, gęsta reprezentacja

Embeddingi są mostem między ludzkim językiem a matematyką podobieństwa. Model embeddingów mapuje każde wejście na wektor o stałej długości, tak aby elementy powiązane semantycznie grupowały się razem, umożliwiając vector search, klastrowanie, klasyfikację i deduplikację. W pipeline retrieval zarówno indeksowane chunki, jak i przychodzące zapytanie są osadzane tym samym modelem, aby odległości miały sens. Ponieważ model embeddingów definiuje przestrzeń, jego wersja jest metadaną wartą śledzenia dla odtwarzalności i kontrolowanego reindeksowania.

Najczęściej zadawane pytania

Dlaczego wersja modelu embeddingów ma znaczenie?
Wektory z różnych modeli nie są porównywalne. Przechowywanie wersji modelu przy każdym embeddingu pozwala wykrywać drift i bezpiecznie reindeksować po aktualizacji modelu embeddingów.
Czy embeddingi da się odwrócić do oryginalnego tekstu?
Nie dokładnie, ale embeddingi mogą ujawniać wrażliwe informacje, dlatego powinny dziedziczyć tę samą izolację tenantów i kontrolę dostępu co treść źródłowa, którą reprezentują.