Перейти к содержанию
Глоссарий

Чанкинг

Чанкинг — это процесс разбиения исходных документов на меньшие единицы извлечения перед их встраиванием. Размер чанка и стратегия границ определяют, насколько точно ретривер может локализовать релевантный факт, балансируя полноту, точность и стоимость встраивания по всей базе знаний.

Синонимы: text chunking, document segmentation, passage splitting, chunk strategy

Чанкинг — это место, где качество извлечения тихо выигрывается или теряется. Стратегией может быть фиксированное окно токенов, перекрывающееся скользящее окно или границы, следующие семантической структуре, такой как заголовки и разделы. Каждый чанк встраивается и индексируется с метаданными — источник, язык, метки времени, хеш контента — чтобы извлечение могло инкрементально фильтровать, дедуплицировать и обновлять. Поскольку любой нижестоящий ответ настолько хорош, насколько хорош извлечённый им фрагмент, продуманный чанкинг является предпосылкой обоснованных, цитируемых ответов.

Часто задаваемые вопросы

Что делает чанк хорошим?
Хороший чанк семантически самодостаточен, имеет такой размер, чтобы отдельный факт не разбивался через границы, и несёт стабильные метаданные, чтобы его можно было надёжно фильтровать, обновлять и цитировать.
Как чанкинг влияет на качество ответа?
Слишком крупные чанки размывают релевантность и тратят токены, тогда как слишком мелкие дробят контекст и теряют смысл. Выбор границ напрямую формирует полноту и обоснованность сгенерированных ответов.