Chunking
Chunking is het proces waarbij brondocumenten in kleinere retrieval-eenheden worden opgesplitst voordat ze worden ingebed. De chunkgrootte en grensstrategie bepalen hoe precies een retriever een relevant feit kan vinden, met een balans tussen recall, precisie en embeddingkosten over een kennisbank.
Synoniemen: tekstchunking, documentsegmentatie, passage splitsen, chunkstrategie
Chunking is waar retrievalkwaliteit stilletjes wordt gewonnen of verloren. De strategie kan een vast tokenvenster zijn, een overlappend schuifvenster, of grenzen die semantische structuur volgen, zoals koppen en secties. Elke chunk wordt ingebed en geïndexeerd met metadata, bron, taal, tijdstempels en contenthash, zodat retrieval kan filteren, dedupliceren en incrementeel verversen. Omdat elk downstreamantwoord maar zo goed is als de passage die het ophaalt, is doordachte chunking een voorwaarde voor onderbouwde, citeerbare antwoorden.