Découpage
Le découpage est le processus consistant à diviser les documents sources en unités de récupération plus petites avant de les vectoriser. La taille des fragments et la stratégie de délimitation déterminent avec quelle précision un récupérateur peut localiser un fait pertinent, en équilibrant le rappel, la précision et le coût de vectorisation à l'échelle d'une base de connaissances.
Synonymes : text chunking, document segmentation, passage splitting, chunk strategy
Le découpage est l’endroit où la qualité de la récupération se gagne ou se perd silencieusement. La stratégie peut être une fenêtre fixe de jetons, une fenêtre glissante avec chevauchement, ou des limites qui suivent la structure sémantique comme les titres et les sections. Chaque fragment est vectorisé et indexé avec des métadonnées — source, langue, horodatages, empreinte de contenu — afin que la récupération puisse filtrer, dédupliquer et actualiser de manière incrémentale. Comme chaque réponse en aval ne vaut que le passage qu’elle récupère, un découpage délibéré est un prérequis pour des réponses ancrées et citables.