رفتن به محتوا
واژه‌نامه

Chunking

Chunking فرایند شکستن سندهای منبع به واحدهای کوچک‌تر retrieval پیش از embedding آنهاست. اندازه chunk و راهبرد مرزها تعیین می‌کند retriever با چه دقتی fact مرتبط را پیدا می‌کند و recall، precision و هزینه embedding را در یک knowledge base متوازن می‌سازد.

مترادف‌ها: text chunking, document segmentation, passage splitting, chunk strategy

Chunking جایی است که کیفیت retrieval بی‌سروصدا برده یا باخته می‌شود. راهبرد می‌تواند یک پنجره ثابت token، یک sliding window همپوشان یا مرزهایی باشد که ساختار معنایی مثل headingها و sectionها را دنبال می‌کنند. هر chunk همراه metadata، مانند source، language، timestamp و content hash، embedding و index می‌شود تا retrieval بتواند filter، deduplicate و incremental refresh انجام دهد. چون هر پاسخ downstream فقط به اندازه passageای که بازیابی می‌کند خوب است، chunking آگاهانه پیش‌شرط پاسخ‌های grounded و قابل citation است.

پرسش‌های پرتکرار

چه چیزی یک chunk خوب می‌سازد؟
یک chunk خوب از نظر معنایی self-contained است، آن‌قدر اندازه‌گذاری شده که یک fact واحد میان مرزها split نشود، و metadata پایدار دارد تا بتواند با اطمینان filter، refresh و cite شود.
Chunking چگونه بر کیفیت پاسخ اثر می‌گذارد؟
chunkهای بیش از حد بزرگ relevance را dilute و token را هدر می‌دهند، و chunkهای بیش از حد کوچک context را می‌شکنند و معنا را از دست می‌دهند. انتخاب مرزها مستقیماً recall و groundedness پاسخ‌های generated را شکل می‌دهد.