Chunking
Chunking source documents نوں embedding توں پہلے چھوٹے retrieval units وچ ونڈن دا process اے۔ chunk size تے boundary strategy فیصلہ کردے نیں کہ retriever relevant fact کنی precision نال labh سکدا اے، تے knowledge base وچ recall، precision، تے embedding cost نوں balance کردے نیں۔
ہم معنی: text chunking, document segmentation, passage splitting, chunk strategy
Chunking اوہ تھاں اے جتھے retrieval quality چپ چاپ جتی یا ہاری جاندی اے۔ Strategy fixed token window ہو سکدی اے، overlapping sliding window ہو سکدی اے، یا headings تے sections ورگی semantic structure دے مطابق boundaries ہو سکدیاں نیں۔ ہر chunk metadata - source، language، timestamps، content hash - نال embedded تے indexed ہوندا اے، تاں جو retrieval filter، deduplicate، تے incrementally refresh کر سکے۔ ہر downstream answer retrieve کیتے passage جِنّا ای چنگا ہوندا اے، ایس لئی deliberate chunking grounded، citable responses لئی prerequisite اے۔