مواد پر جائیں
لغت

Chunking

chunking source documents کو embedding سے پہلے چھوٹی retrieval units میں split کرنے کا process ہے۔ chunk size اور boundary strategy طے کرتے ہیں کہ retriever relevant fact کو کتنی precision سے locate کرے گا، knowledge base میں recall، precision، اور embedding cost کو balance کرتے ہوئے۔

مترادفات: text chunking, document segmentation, passage splitting, chunk strategy

Chunking وہ جگہ ہے جہاں retrieval quality خاموشی سے جیتی یا ہارتی ہے۔ strategy fixed token window، overlapping sliding window، یا ایسی boundaries ہو سکتی ہے جو headings اور sections جیسی semantic structure follow کریں۔ ہر chunk metadata کے ساتھ embedded اور indexed ہوتا ہے: source، language، timestamps، content hash، تاکہ retrieval filter، deduplicate، اور incrementally refresh کر سکے۔ چونکہ ہر downstream answer صرف اتنا اچھا ہے جتنا اچھا passage وہ retrieve کرتا ہے، deliberate chunking grounded، citable responses کی prerequisite ہے۔

اکثر پوچھے جانے والے سوالات

اچھا chunk کیا بناتا ہے؟
اچھا chunk semantically self-contained ہوتا ہے، ایسا sized ہوتا ہے کہ single fact boundaries کے across split نہ ہو، اور stable metadata carry کرتا ہے تاکہ اسے reliably filter، refresh، اور cite کیا جا سکے۔
chunking answer quality کو کیسے affect کرتی ہے؟
over-large chunks relevance dilute کرتے اور tokens waste کرتے ہیں، جبکہ over-small chunks context fracture کرتے اور meaning کھو دیتے ہیں۔ boundary choices directly recall اور generated answers کی groundedness shape کرتی ہیں۔