Chunking
Chunking ist der Vorgang, Quelldokumente vor dem Einbetten in kleinere Abrufeinheiten zu zerlegen. Die Chunk-Größe und die Strategie für die Grenzen bestimmen, wie präzise ein Retriever einen relevanten Fakt lokalisieren kann, und balancieren Trefferquote, Präzision und Einbettungskosten über eine Wissensbasis hinweg aus.
Synonyme: text chunking, document segmentation, passage splitting, chunk strategy
Chunking ist der Punkt, an dem die Abrufqualität still gewonnen oder verloren wird. Die Strategie kann ein festes Token-Fenster, ein überlappendes Schiebefenster oder Grenzen sein, die der semantischen Struktur wie Überschriften und Abschnitten folgen. Jeder Chunk wird eingebettet und mit Metadaten indexiert – Quelle, Sprache, Zeitstempel, Inhalts-Hash – sodass der Abruf inkrementell filtern, deduplizieren und aktualisieren kann. Da jede nachgelagerte Antwort nur so gut ist wie die Passage, die sie abruft, ist bewusstes Chunking eine Voraussetzung für geerdete, zitierbare Antworten.