Чанкинг
Чанкинг — это процесс разбиения исходных документов на меньшие единицы извлечения перед их встраиванием. Размер чанка и стратегия границ определяют, насколько точно ретривер может локализовать релевантный факт, балансируя полноту, точность и стоимость встраивания по всей базе знаний.
Синонимы: text chunking, document segmentation, passage splitting, chunk strategy
Чанкинг — это место, где качество извлечения тихо выигрывается или теряется. Стратегией может быть фиксированное окно токенов, перекрывающееся скользящее окно или границы, следующие семантической структуре, такой как заголовки и разделы. Каждый чанк встраивается и индексируется с метаданными — источник, язык, метки времени, хеш контента — чтобы извлечение могло инкрементально фильтровать, дедуплицировать и обновлять. Поскольку любой нижестоящий ответ настолько хорош, насколько хорош извлечённый им фрагмент, продуманный чанкинг является предпосылкой обоснованных, цитируемых ответов.