RAG के लिए चंकिंग रणनीतियाँ

चंकिंग कच्चे, सामान्यीकृत पृष्ठ सामग्री को पुनर्प्राप्ति इकाइयों में बदलती है। खराब विकल्प लागत बढ़ाते हैं (बहुत अधिक टुकड़े), recall को कमजोर करते हैं (बहुत बड़े ब्लॉक) या परिशुद्धता को घटाते हैं (सीमा पर टूटन)। कोई सार्वभौमिक रूप से सर्वोत्तम विधि नहीं है; रणनीति कॉर्पस की संरचना, उसकी अस्थिरता और क्वेरी पैटर्न के अनुरूप होती है। यह मार्गदर्शिका उत्पादन RAG पाइपलाइनों के लिए डिज़ाइन स्थान, समझौतों, मूल्यांकन कार्यप्रवाह और अनुकूलन लीवरों का मानचित्रण करती है।

चंकिंग क्यों मायने रखती है

उद्देश्य:

यह संभावना अधिकतम करना कि प्रासंगिक तथ्य top‑k पुनर्प्राप्ति में दिखें।
सिमेंटिक सामंजस्य बनाए रखना ताकि उत्पन्न उत्तर आधारित हों।
token उपयोग को अनुकूलित करना (बॉयलरप्लेट को बार-बार एम्बेड करने से बचना)।
नियतात्मक वृद्धिशील अद्यतन सक्षम करना (स्थिर चंक ID)।

गलत संरेखित चंकिंग इस रूप में सामने आती है: उच्च अतिरेक, निम्न Recall@k, सीमा पर मतिभ्रमित तथ्य, बढ़ा हुआ embedding व्यय।

स्थिर विंडो चंकिंग

सरल N‑token विंडो (जैसे 500 token)। लाभ: नियतात्मक, लागू करने में आसान, स्थिर अद्यतन व्यवहार। हानि: सीमाएँ अवधारणाओं को बीच से काटती हैं; काट-छाँट कम करने के लिए अतिरेकी ओवरलैप आवश्यक → लागत वृद्धि। संयम से उपयोग करें: विषम या खराब संरचित सामग्री के लिए एक अच्छा आधार जहाँ सिमेंटिक संकेत अविश्वसनीय हों।

ओवरलैपिंग स्लाइडिंग विंडो

विंडो आकार W के साथ ओवरलैप O (जैसे 500 / 50 token) सीमाओं पर तथ्यों की काट-छाँट को कम करता है। ~15% से अधिक ओवरलैप recall में घटते लाभ देता है जबकि इंडेक्स आकार को बढ़ाता जाता है। O को नीचे ट्यून करने के लिए duplication_ratio = distinct_token_count / total_token_count को ट्रैक करें।

सिमेंटिक सीमा पहचान

संरचनात्मक संकेतों के अनुसार खंडित करें: H2/H3 शीर्षक, सूची समूहन, कोड ब्लॉक, तालिका सीमाएँ। न्यूनतम/अधिकतम token सीमाएँ लागू करें (बहुत छोटे सहोदर मर्ज करें, बहुत बड़े अनुभाग विभाजित करें)। लाभ: अधिक सामंजस्य, कम ओवरलैप। जोखिम: विकृत मार्कअप, असंगत शीर्षक पदानुक्रम। पदानुक्रम मरम्मत + शीर्षक अनुपस्थित होने पर अनुच्छेद विभाजन पर वापसी के साथ इसे कम करें।

पदानुक्रमिक चंकिंग

दो-स्तरीय इंडेक्स: मोटे अनुभाग embeddings (जैसे पूरा ट्यूटोरियल अनुभाग) + सूक्ष्म-कणिक उप-चंक। पुनर्प्राप्ति प्रवाह: मोटा ANN → शीर्ष N अनुभाग फ़िल्टर करें → उनके भीतर सूक्ष्म पुनर्प्राप्ति। लाभ: बड़े कॉर्पस के लिए वैश्विक खोज स्थान घटाता है, विलंबता सुधारता है। जटिलता: अधिक चलायमान भाग, कैस्केड स्कोरिंग तर्क की आवश्यकता।

अनुकूली / गतिशील चंकिंग

स्थानीय सिमेंटिक घनत्व और संरचनात्मक संकेतों के आधार पर चंक आकार समायोजित करें। उदाहरण तर्क: एक शीर्षक अनुभाग से शुरू करें, यदि >800 token → सिमेंटिक समानता द्वारा स्कोर किए गए अनुच्छेद समूहों के अनुसार विभाजित करें; यदि <120 token → अगले सहोदर के साथ मर्ज करें जब तक कि विषय विचलन सीमा से अधिक न हो। एक embedding या समानता पूर्व-पास की आवश्यकता है; बेहतर दीर्घकालिक पुनर्प्राप्ति दक्षता के लिए अंतर्ग्रहण के समय एक बार लागत चुकाएँ।

embedding संबंधी विचार

मेटाडेटा बनाए रखें: token_count, model_version, content_hash। काट-छाँट से बचें—token को पूर्व-गणना करें और मॉडल कॉल से पहले विभाजित करें। सघन मॉडल अत्यधिक बॉयलरप्लेट के साथ कमजोर पड़ते हैं; चंकिंग से पहले नेविगेशन अवशेष हटा दें। निम्न-संकेत वाले टुकड़ों (पुनः-मर्ज के उम्मीदवार) को सामने लाने के लिए vector_density (अद्वितीय शब्द / token) की निगरानी करें।

मूल्यांकन विधियाँ

प्रति रणनीति बेंचमार्क:

मीट्रिक	उद्देश्य
Recall@k	तथ्य प्रतिधारण
Precision@k	संदर्भ शोर
चंक संख्या	लागत संकेतक
दोहराव अनुपात	ओवरलैप ट्यूनिंग
प्रति चंक औसत token	विंडो उपयोग
विलंबता (पुनर्प्राप्ति)	इंडेक्स दक्षता

एक गोल्ड क्वेरी सेट पर चलाएँ; किसी रणनीति को तभी अपनाएँ जब recall लाभ लागत और विलंबता के अंतर से अधिक हों।

कार्यान्वयन प्लेबुक

आधार: स्थिर 500 + 10% ओवरलैप; बेंचमार्क एकत्र करें।
सिमेंटिक सीमाएँ लाएँ: जहाँ शीर्षक विश्वसनीय हों वहाँ विंडो बदलें; पुनः मापें।
यदि कॉर्पस >250k चंक हो या विलंबता लक्ष्य से अधिक हो तो पदानुक्रमिक परत जोड़ें।
उच्च-विचरण वाले अनुभाग आकारों के लिए अनुकूली तर्क परिनियोजित करें।
त्रैमासिक पुनर्मूल्यांकन: प्रति गुणवत्ता डेल्टा लागत की तुलना नई मॉडल क्षमताओं से करें।

रोलबैक के लिए प्रति पुनरावृत्ति चंक मैनिफ़ेस्ट diff संग्रहीत करें।

मुख्य निष्कर्ष

परिशुद्धता/लागत में सिमेंटिक सीमाएँ आमतौर पर शुद्ध स्थिर विंडो से बेहतर होती हैं।
ओवरलैप एक डायल है—दोहराव मापें, अनुमान न लगाएँ।
पदानुक्रमिक पुनर्प्राप्ति रैखिक विलंबता वृद्धि के बिना स्केल करने में मदद करती है।
स्थिर चंक ID सुरक्षित वृद्धिशील embedding ताज़गी सक्षम करते हैं।
रणनीति परिवर्तनों का मूल्यांकन कोड परिनियोजन की तरह करें: बेंचमार्क, तुलना, लॉग।