Chunking
Chunking فرایند شکستن سندهای منبع به واحدهای کوچکتر retrieval پیش از embedding آنهاست. اندازه chunk و راهبرد مرزها تعیین میکند retriever با چه دقتی fact مرتبط را پیدا میکند و recall، precision و هزینه embedding را در یک knowledge base متوازن میسازد.
مترادفها: text chunking, document segmentation, passage splitting, chunk strategy
Chunking جایی است که کیفیت retrieval بیسروصدا برده یا باخته میشود. راهبرد میتواند یک پنجره ثابت token، یک sliding window همپوشان یا مرزهایی باشد که ساختار معنایی مثل headingها و sectionها را دنبال میکنند. هر chunk همراه metadata، مانند source، language، timestamp و content hash، embedding و index میشود تا retrieval بتواند filter، deduplicate و incremental refresh انجام دهد. چون هر پاسخ downstream فقط به اندازه passageای که بازیابی میکند خوب است، chunking آگاهانه پیششرط پاسخهای grounded و قابل citation است.