Lumaktaw sa nilalaman
Glossary

Chunking

Ang chunking ay proseso ng paghahati ng source documents sa mas maliliit na retrieval units bago gawing embeddings ang mga ito. Tinutukoy ng chunk size at boundary strategy kung gaano katumpak makakahanap ang retriever ng relevant fact, habang binabalanse ang recall, precision, at embedding cost sa knowledge base.

Mga kasingkahulugan: text chunking, document segmentation, passage splitting, chunk strategy

Sa chunking tahimik na nananalo o natatalo ang retrieval quality. Puwedeng fixed token window ang strategy, overlapping sliding window, o boundaries na sumusunod sa semantic structure gaya ng headings at sections. Bawat chunk ay ini-embed at ini-index kasama ang metadata — source, language, timestamps, content hash — para makapag-filter, mag-deduplicate, at mag-refresh nang incremental ang retrieval. Dahil kasing ganda lang ng retrieved passage ang bawat downstream answer, kailangan ang maingat na chunking para sa grounded at citable responses.

Mga madalas itanong

Ano ang magandang chunk?
Ang magandang chunk ay buo ang semantic meaning, tama ang laki para hindi mahati ang isang fact sa boundary, at may stable metadata para ma-filter, ma-refresh, at ma-cite nang maaasahan.
Paano naaapektuhan ng chunking ang kalidad ng sagot?
Ang sobrang laking chunks ay nagpapalabo ng relevance at nagsasayang ng tokens, habang ang sobrang liit ay nagpuputol ng context at nawawalan ng kahulugan. Direktang hinuhubog ng boundary choices ang recall at groundedness ng generated answers.