एम्बेडिंग
एम्बेडिंग एक संख्यात्मक सदिश है जो किसी पाठ, छवि या अन्य डेटा के अर्थ को किसी उच्च-आयामी समष्टि में निरूपित करता है। समान अर्थ वाली वस्तुएँ ऐसे सदिश उत्पन्न करती हैं जो परस्पर निकट बैठते हैं, जिससे सिस्टम सामग्री को सटीक मिलानों के बजाय अर्थगत समानता से तुलना, समूहन और पुनःप्राप्त कर पाते हैं।
पर्यायवाची: vector embedding, text embedding, semantic vector, dense representation
एम्बेडिंग मानव-भाषा और समानता-गणित के बीच का सेतु हैं। एक एम्बेडिंग मॉडल प्रत्येक इनपुट को एक नियत-लंबाई सदिश में मानचित्रित करता है ताकि अर्थगत रूप से संबंधित वस्तुएँ साथ समूहित हों, जो सदिश-खोज, समूहन, वर्गीकरण और अपवर्जन को सक्षम बनाता है। किसी पुनःप्राप्ति पाइपलाइन में, अनुक्रमित खंड और आवक प्रश्न दोनों को एक ही मॉडल से एम्बेड किया जाता है ताकि दूरियाँ सार्थक हों। चूँकि एम्बेडिंग मॉडल समष्टि को परिभाषित करता है, उसका संस्करण ऐसा मेटाडेटा है जिसे पुनरुत्पादनीयता और नियंत्रित पुनःअनुक्रमण के लिए ट्रैक करना सार्थक है।