शब्दावली

एम्बेडिंग

एम्बेडिंग एक संख्यात्मक सदिश है जो किसी पाठ, छवि या अन्य डेटा के अर्थ को किसी उच्च-आयामी समष्टि में निरूपित करता है। समान अर्थ वाली वस्तुएँ ऐसे सदिश उत्पन्न करती हैं जो परस्पर निकट बैठते हैं, जिससे सिस्टम सामग्री को सटीक मिलानों के बजाय अर्थगत समानता से तुलना, समूहन और पुनःप्राप्त कर पाते हैं।

पर्यायवाची: vector embedding, text embedding, semantic vector, dense representation

एम्बेडिंग मानव-भाषा और समानता-गणित के बीच का सेतु हैं। एक एम्बेडिंग मॉडल प्रत्येक इनपुट को एक नियत-लंबाई सदिश में मानचित्रित करता है ताकि अर्थगत रूप से संबंधित वस्तुएँ साथ समूहित हों, जो सदिश-खोज, समूहन, वर्गीकरण और अपवर्जन को सक्षम बनाता है। किसी पुनःप्राप्ति पाइपलाइन में, अनुक्रमित खंड और आवक प्रश्न दोनों को एक ही मॉडल से एम्बेड किया जाता है ताकि दूरियाँ सार्थक हों। चूँकि एम्बेडिंग मॉडल समष्टि को परिभाषित करता है, उसका संस्करण ऐसा मेटाडेटा है जिसे पुनरुत्पादनीयता और नियंत्रित पुनःअनुक्रमण के लिए ट्रैक करना सार्थक है।

एम्बेडिंग मॉडल का संस्करण क्यों मायने रखता है?

विभिन्न मॉडलों के सदिश तुलनीय नहीं होते। प्रत्येक एम्बेडिंग के साथ मॉडल-संस्करण संग्रहीत करना आपको बहाव का पता लगाने देता है और एम्बेडिंग मॉडल को उन्नत करते समय सुरक्षित रूप से पुनःअनुक्रमित करने देता है।

क्या एम्बेडिंग मूल पाठ में प्रतिवर्तनीय हैं?

ठीक-ठीक नहीं, पर एम्बेडिंग संवेदनशील जानकारी रिसा सकती हैं, इसलिए उन्हें उसी किरायेदार-पृथक्करण और अभिगम-नियंत्रण विरासत में पाने चाहिए जो उनके द्वारा निरूपित स्रोत-सामग्री के पास हैं।

एम्बेडिंग

अक्सर पूछे जाने वाले प्रश्न

संबंधित शब्द