सामग्री पर जाएँ
शब्दावली

सदिश-खोज

सदिश-खोज सामग्री को सटीक शब्दों के बजाय अर्थ से ढूँढती है। पाठ को उच्च-आयामी एम्बेडिंग में रूपांतरित किया जाता है, और कोज्या-दूरी जैसी कोई समानता-मीट्रिक संग्रहीत सदिशों को इस आधार पर रैंक करती है कि वे प्रश्न-सदिश के कितने निकट हैं, बिना किसी कीवर्ड के मिलान के भी संकल्पनात्मक रूप से संबंधित अनुच्छेद लौटाते हुए।

पर्यायवाची: semantic search, similarity search, nearest-neighbor search, embedding search

सदिश-खोज अर्थगत पुनःप्राप्ति को शक्ति देती है: स्ट्रिंग मिलाने के बजाय, यह अर्थ मिलाती है। एक प्रश्न को अनुक्रमित सामग्री के उसी सदिश-समष्टि में एम्बेड किया जाता है, और अनुक्रमणिका किसी दूरी-मीट्रिक से निकटतम सदिश लौटाती है। पैमाने पर तीव्र बने रहने हेतु, उत्पादन-सिस्टम सन्निकट निकटतम-पड़ोसी अनुक्रमणिकाएँ उपयोग करते हैं जो बड़े विलंबता-लाभ के बदले अति-सूक्ष्म सटीकता-समझौते स्वीकारती हैं। सदिश-खोज तब सर्वाधिक प्रभावी होती है जब इसे किसी संकर पुनःप्राप्तिकर्ता में कीवर्ड-खोज के साथ युग्मित किया जाए, ताकि सटीक पहचानकर्ता शुद्ध अर्थगत मिलान के हाथों न खो जाएँ।

अक्सर पूछे जाने वाले प्रश्न

सदिश-खोज में एम्बेडिंग क्या है?
एम्बेडिंग एक संख्यात्मक सदिश है जो पाठ के किसी टुकड़े के अर्थ को निरूपित करता है, जो किसी एम्बेडिंग मॉडल द्वारा उत्पन्न होता है। समान अर्थ वाले पाठ सदिश-समष्टि में परस्पर निकट उतरते हैं।
सन्निकट निकटतम पड़ोसी (ANN) खोज क्या है?
ANN खोज थोड़ी मात्रा की सटीकता को बड़े गति-लाभ से बदलती है, अनुक्रमणिका-संरचनाओं का उपयोग करते हुए ताकि संग्रहीत सदिशों की संख्या लाखों में बढ़ने पर भी समानता-खोजें तीव्र बनी रहें।