本文へスキップ
用語集

チャンキング

チャンキングとは、ソース文書を埋め込む前に、より小さな検索単位へ分割するプロセスです。チャンクのサイズと境界戦略は、検索器が関連する事実をどれだけ正確に特定できるかを決め、ナレッジベース全体で再現率・適合率・埋め込みコストのバランスを取ります。

同義語: text chunking, document segmentation, passage splitting, chunk strategy

チャンキングは、検索品質が静かに勝ち取られるか失われるかの場所です。戦略は、固定のトークンウィンドウ、重なりを持つスライディングウィンドウ、あるいは見出しやセクションといった意味構造に従う境界などがあり得ます。各チャンクはメタデータ――ソース、言語、タイムスタンプ、コンテンツハッシュ――とともに埋め込まれ索引付けされるため、検索は増分的にフィルタリング・重複排除・更新ができます。下流のあらゆる回答は、それが検索した一節と同程度の良さにしかならないため、意図的なチャンキングは根拠があり引用可能な応答の前提条件です。

よくある質問

良いチャンクとは何ですか?
良いチャンクは意味的に自己完結し、単一の事実が境界をまたいで分割されないサイズであり、安定したメタデータを持つため、確実にフィルタリング・更新・引用できます。
チャンキングは回答品質にどう影響しますか?
大きすぎるチャンクは関連性を薄め、トークンを浪費します。一方、小さすぎるチャンクは文脈を断片化し意味を失います。境界の選択は再現率と生成回答の根拠性を直接形づくります。