खंडन
खंडन स्रोत दस्तावेज़ों को एम्बेड करने से पहले छोटी पुनःप्राप्ति इकाइयों में विभाजित करने की प्रक्रिया है। खंड का आकार और सीमा-रणनीति यह निर्धारित करते हैं कि कोई पुनःप्राप्तिकर्ता किसी प्रासंगिक तथ्य को कितनी सटीकता से अवस्थित कर सकता है, किसी ज्ञान-आधार में स्मरण, परिशुद्धता और एम्बेडिंग-लागत को संतुलित करते हुए।
पर्यायवाची: text chunking, document segmentation, passage splitting, chunk strategy
खंडन वह स्थान है जहाँ पुनःप्राप्ति-गुणवत्ता चुपचाप जीती या हारी जाती है। रणनीति एक स्थिर टोकन-खिड़की, एक अतिव्यापी सरकती खिड़की, या शीर्षकों और अनुभागों जैसी अर्थगत संरचना का अनुसरण करने वाली सीमाएँ हो सकती है। प्रत्येक खंड को मेटाडेटा — स्रोत, भाषा, टाइमस्टैम्प, सामग्री-हैश — के साथ एम्बेड और अनुक्रमित किया जाता है, ताकि पुनःप्राप्ति वृद्धिशील रूप से फ़िल्टर, अपवर्जित और ताज़ा कर सके। चूँकि प्रत्येक अनुवर्ती उत्तर उतना ही अच्छा होता है जितना वह अनुच्छेद जो वह पुनःप्राप्त करता है, सुविचारित खंडन आधारित, उद्धरण-योग्य उत्तरों की पूर्वापेक्षा है।