Chunking
chunking source documents کو embedding سے پہلے چھوٹی retrieval units میں split کرنے کا process ہے۔ chunk size اور boundary strategy طے کرتے ہیں کہ retriever relevant fact کو کتنی precision سے locate کرے گا، knowledge base میں recall، precision، اور embedding cost کو balance کرتے ہوئے۔
مترادفات: text chunking, document segmentation, passage splitting, chunk strategy
Chunking وہ جگہ ہے جہاں retrieval quality خاموشی سے جیتی یا ہارتی ہے۔ strategy fixed token window، overlapping sliding window، یا ایسی boundaries ہو سکتی ہے جو headings اور sections جیسی semantic structure follow کریں۔ ہر chunk metadata کے ساتھ embedded اور indexed ہوتا ہے: source، language، timestamps، content hash، تاکہ retrieval filter، deduplicate، اور incrementally refresh کر سکے۔ چونکہ ہر downstream answer صرف اتنا اچھا ہے جتنا اچھا passage وہ retrieve کرتا ہے، deliberate chunking grounded، citable responses کی prerequisite ہے۔