Glossar

Chunking

Chunking ist der Vorgang, Quelldokumente vor dem Einbetten in kleinere Abrufeinheiten zu zerlegen. Die Chunk-Größe und die Strategie für die Grenzen bestimmen, wie präzise ein Retriever einen relevanten Fakt lokalisieren kann, und balancieren Trefferquote, Präzision und Einbettungskosten über eine Wissensbasis hinweg aus.

Synonyme: text chunking, document segmentation, passage splitting, chunk strategy

Chunking ist der Punkt, an dem die Abrufqualität still gewonnen oder verloren wird. Die Strategie kann ein festes Token-Fenster, ein überlappendes Schiebefenster oder Grenzen sein, die der semantischen Struktur wie Überschriften und Abschnitten folgen. Jeder Chunk wird eingebettet und mit Metadaten indexiert – Quelle, Sprache, Zeitstempel, Inhalts-Hash – sodass der Abruf inkrementell filtern, deduplizieren und aktualisieren kann. Da jede nachgelagerte Antwort nur so gut ist wie die Passage, die sie abruft, ist bewusstes Chunking eine Voraussetzung für geerdete, zitierbare Antworten.

Was macht einen guten Chunk aus?

Ein guter Chunk ist semantisch in sich geschlossen, so bemessen, dass ein einzelner Fakt nicht über Grenzen hinweg geteilt wird, und trägt stabile Metadaten, damit er zuverlässig gefiltert, aktualisiert und zitiert werden kann.

Wie wirkt sich Chunking auf die Antwortqualität aus?

Zu große Chunks verwässern die Relevanz und verschwenden Tokens, während zu kleine Chunks den Kontext zersplittern und Bedeutung verlieren. Grenzentscheidungen prägen direkt die Trefferquote und die Erdung der generierten Antworten.

Chunking

Häufig gestellte Fragen

Verwandte Begriffe