Ga naar inhoud
Woordenlijst

Chunking

Chunking is het proces waarbij brondocumenten in kleinere retrieval-eenheden worden opgesplitst voordat ze worden ingebed. De chunkgrootte en grensstrategie bepalen hoe precies een retriever een relevant feit kan vinden, met een balans tussen recall, precisie en embeddingkosten over een kennisbank.

Synoniemen: tekstchunking, documentsegmentatie, passage splitsen, chunkstrategie

Chunking is waar retrievalkwaliteit stilletjes wordt gewonnen of verloren. De strategie kan een vast tokenvenster zijn, een overlappend schuifvenster, of grenzen die semantische structuur volgen, zoals koppen en secties. Elke chunk wordt ingebed en geïndexeerd met metadata, bron, taal, tijdstempels en contenthash, zodat retrieval kan filteren, dedupliceren en incrementeel verversen. Omdat elk downstreamantwoord maar zo goed is als de passage die het ophaalt, is doordachte chunking een voorwaarde voor onderbouwde, citeerbare antwoorden.

Veelgestelde vragen

Wat maakt een goede chunk?
Een goede chunk is semantisch zelfstandig, zo groot dat één feit niet over grenzen wordt verdeeld, en bevat stabiele metadata zodat hij betrouwbaar kan worden gefilterd, ververst en geciteerd.
Hoe beïnvloedt chunking de antwoordkwaliteit?
Te grote chunks verdunnen relevantie en verspillen tokens, terwijl te kleine chunks context breken en betekenis verliezen. Grenskeuzes bepalen direct recall en hoe goed gegenereerde antwoorden onderbouwd zijn.