शब्दावली

खंडन

खंडन स्रोत दस्तावेज़ों को एम्बेड करने से पहले छोटी पुनःप्राप्ति इकाइयों में विभाजित करने की प्रक्रिया है। खंड का आकार और सीमा-रणनीति यह निर्धारित करते हैं कि कोई पुनःप्राप्तिकर्ता किसी प्रासंगिक तथ्य को कितनी सटीकता से अवस्थित कर सकता है, किसी ज्ञान-आधार में स्मरण, परिशुद्धता और एम्बेडिंग-लागत को संतुलित करते हुए।

पर्यायवाची: text chunking, document segmentation, passage splitting, chunk strategy

खंडन वह स्थान है जहाँ पुनःप्राप्ति-गुणवत्ता चुपचाप जीती या हारी जाती है। रणनीति एक स्थिर टोकन-खिड़की, एक अतिव्यापी सरकती खिड़की, या शीर्षकों और अनुभागों जैसी अर्थगत संरचना का अनुसरण करने वाली सीमाएँ हो सकती है। प्रत्येक खंड को मेटाडेटा — स्रोत, भाषा, टाइमस्टैम्प, सामग्री-हैश — के साथ एम्बेड और अनुक्रमित किया जाता है, ताकि पुनःप्राप्ति वृद्धिशील रूप से फ़िल्टर, अपवर्जित और ताज़ा कर सके। चूँकि प्रत्येक अनुवर्ती उत्तर उतना ही अच्छा होता है जितना वह अनुच्छेद जो वह पुनःप्राप्त करता है, सुविचारित खंडन आधारित, उद्धरण-योग्य उत्तरों की पूर्वापेक्षा है।

अच्छा खंड किससे बनता है?

एक अच्छा खंड अर्थगत रूप से आत्मनिर्भर होता है, इस आकार का कि कोई एकल तथ्य सीमाओं के पार विभाजित न हो, और स्थिर मेटाडेटा वहन करता है ताकि उसे विश्वसनीय रूप से फ़िल्टर, ताज़ा और उद्धृत किया जा सके।

खंडन उत्तर-गुणवत्ता को कैसे प्रभावित करता है?

अति-बड़े खंड प्रासंगिकता को तनु कर देते हैं और टोकन बर्बाद करते हैं, जबकि अति-छोटे खंड संदर्भ को खंडित कर देते हैं और अर्थ खो देते हैं। सीमा-चयन प्रत्यक्षतः स्मरण और जनित उत्तरों के आधारण को आकार देते हैं।

खंडन

अक्सर पूछे जाने वाले प्रश्न

संबंधित शब्द