Lewati ke konten
Glosarium

Embedding

Embedding adalah vektor numerik yang merepresentasikan makna teks, gambar, atau data lain di ruang berdimensi tinggi. Item dengan makna serupa menghasilkan vektor yang berdekatan, sehingga sistem dapat membandingkan, mengelompokkan, dan mengambil konten berdasarkan kemiripan semantik alih-alih kecocokan persis.

Sinonim: vector embedding, text embedding, semantic vector, dense representation

Embedding adalah jembatan antara bahasa manusia dan matematika kemiripan. Model embedding memetakan setiap input ke vektor panjang tetap sehingga item yang terkait secara semantik berkumpul berdekatan, memungkinkan vector search, clustering, classification, dan deduplication. Dalam pipeline retrieval, chunk yang diindeks dan query yang masuk dibuat embedding dengan model yang sama agar jaraknya bermakna. Karena model embedding mendefinisikan ruang tersebut, versinya adalah metadata yang layak dilacak untuk reproduksibilitas dan reindexing yang terkendali.

Pertanyaan yang sering diajukan

Mengapa versi model embedding penting?
Vektor dari model berbeda tidak dapat dibandingkan. Menyimpan versi model bersama setiap embedding membantu mendeteksi drift dan melakukan reindex dengan aman saat model embedding ditingkatkan.
Apakah embedding dapat dibalik menjadi teks asli?
Tidak persis, tetapi embedding dapat membocorkan informasi sensitif, sehingga harus mewarisi isolasi tenant dan kontrol akses yang sama dengan konten sumber yang direpresentasikannya.