Chunking
Ang chunking ay proseso ng paghahati ng source documents sa mas maliliit na retrieval units bago gawing embeddings ang mga ito. Tinutukoy ng chunk size at boundary strategy kung gaano katumpak makakahanap ang retriever ng relevant fact, habang binabalanse ang recall, precision, at embedding cost sa knowledge base.
Mga kasingkahulugan: text chunking, document segmentation, passage splitting, chunk strategy
Sa chunking tahimik na nananalo o natatalo ang retrieval quality. Puwedeng fixed token window ang strategy, overlapping sliding window, o boundaries na sumusunod sa semantic structure gaya ng headings at sections. Bawat chunk ay ini-embed at ini-index kasama ang metadata — source, language, timestamps, content hash — para makapag-filter, mag-deduplicate, at mag-refresh nang incremental ang retrieval. Dahil kasing ganda lang ng retrieved passage ang bawat downstream answer, kailangan ang maingat na chunking para sa grounded at citable responses.