Glosariusz

Embedding

Embedding to wektor liczbowy reprezentujący znaczenie tekstu, obrazów lub innych danych w przestrzeni wysokowymiarowej. Elementy o podobnym znaczeniu tworzą wektory leżące blisko siebie, co pozwala systemom porównywać, klastrować i pobierać treści według podobieństwa semantycznego zamiast dokładnych dopasowań.

Synonimy: embedding wektorowy, embedding tekstu, wektor semantyczny, gęsta reprezentacja

Embeddingi są mostem między ludzkim językiem a matematyką podobieństwa. Model embeddingów mapuje każde wejście na wektor o stałej długości, tak aby elementy powiązane semantycznie grupowały się razem, umożliwiając vector search, klastrowanie, klasyfikację i deduplikację. W pipeline retrieval zarówno indeksowane chunki, jak i przychodzące zapytanie są osadzane tym samym modelem, aby odległości miały sens. Ponieważ model embeddingów definiuje przestrzeń, jego wersja jest metadaną wartą śledzenia dla odtwarzalności i kontrolowanego reindeksowania.

Dlaczego wersja modelu embeddingów ma znaczenie?

Wektory z różnych modeli nie są porównywalne. Przechowywanie wersji modelu przy każdym embeddingu pozwala wykrywać drift i bezpiecznie reindeksować po aktualizacji modelu embeddingów.

Czy embeddingi da się odwrócić do oryginalnego tekstu?

Nie dokładnie, ale embeddingi mogą ujawniać wrażliwe informacje, dlatego powinny dziedziczyć tę samą izolację tenantów i kontrolę dostępu co treść źródłowa, którą reprezentują.

Powiązane pojęcia

Zacznij bezpłatnie Porozmawiaj ze sprzedażą

Przeglądaj wszystkie pojęcia ze słownika

Najczęściej zadawane pytania

Powiązane pojęcia