चंकिंग
चंकिंग म्हणजे source documents embedding करण्यापूर्वी त्यांना लहान retrieval units मध्ये विभागण्याची प्रक्रिया. chunk size आणि boundary strategy यावर retriever संबंधित fact किती अचूक शोधू शकतो हे ठरते, आणि knowledge base मध्ये recall, precision व embedding cost यांचा समतोल साधला जातो.
समानार्थी शब्द: text chunking, document segmentation, passage splitting, chunk strategy
retrieval quality शांतपणे जिंकली किंवा हरली जाते ती चंकिंगमध्ये. strategy fixed token window, overlapping sliding window किंवा headings आणि sections सारख्या semantic structure नुसार boundaries अशी असू शकते. प्रत्येक chunk source, language, timestamps आणि content hash अशा metadata सह embedded आणि indexed होतो, त्यामुळे retrieval filter, deduplicate आणि incrementally refresh करू शकते. downstream answer retrieved passage इतकाच चांगला असतो, म्हणून विचारपूर्वक chunking ही grounded, citable responses साठी आवश्यक अट आहे.