सामग्रीकडे जा
शब्दावली

चंकिंग

चंकिंग म्हणजे source documents embedding करण्यापूर्वी त्यांना लहान retrieval units मध्ये विभागण्याची प्रक्रिया. chunk size आणि boundary strategy यावर retriever संबंधित fact किती अचूक शोधू शकतो हे ठरते, आणि knowledge base मध्ये recall, precision व embedding cost यांचा समतोल साधला जातो.

समानार्थी शब्द: text chunking, document segmentation, passage splitting, chunk strategy

retrieval quality शांतपणे जिंकली किंवा हरली जाते ती चंकिंगमध्ये. strategy fixed token window, overlapping sliding window किंवा headings आणि sections सारख्या semantic structure नुसार boundaries अशी असू शकते. प्रत्येक chunk source, language, timestamps आणि content hash अशा metadata सह embedded आणि indexed होतो, त्यामुळे retrieval filter, deduplicate आणि incrementally refresh करू शकते. downstream answer retrieved passage इतकाच चांगला असतो, म्हणून विचारपूर्वक chunking ही grounded, citable responses साठी आवश्यक अट आहे.

वारंवार विचारले जाणारे प्रश्न

चांगला chunk कसा असतो?
चांगला chunk semantically self-contained असतो, एखादा fact boundary पलीकडे तुटू नये इतका योग्य आकाराचा असतो आणि filter, refresh व reliably cite करता येईल असे stable metadata बाळगतो.
चंकिंग उत्तराच्या गुणवत्तेवर कसा परिणाम करते?
खूप मोठे chunks relevance dilute करून tokens वाया घालवतात, तर खूप छोटे chunks context फोडतात आणि अर्थ हरवतात. boundary choices थेट recall आणि generated answers च्या groundedness ला आकार देतात.