Aller au contenu
Glossaire

Découpage

Le découpage est le processus consistant à diviser les documents sources en unités de récupération plus petites avant de les vectoriser. La taille des fragments et la stratégie de délimitation déterminent avec quelle précision un récupérateur peut localiser un fait pertinent, en équilibrant le rappel, la précision et le coût de vectorisation à l'échelle d'une base de connaissances.

Synonymes : text chunking, document segmentation, passage splitting, chunk strategy

Le découpage est l’endroit où la qualité de la récupération se gagne ou se perd silencieusement. La stratégie peut être une fenêtre fixe de jetons, une fenêtre glissante avec chevauchement, ou des limites qui suivent la structure sémantique comme les titres et les sections. Chaque fragment est vectorisé et indexé avec des métadonnées — source, langue, horodatages, empreinte de contenu — afin que la récupération puisse filtrer, dédupliquer et actualiser de manière incrémentale. Comme chaque réponse en aval ne vaut que le passage qu’elle récupère, un découpage délibéré est un prérequis pour des réponses ancrées et citables.

Questions fréquentes

Qu'est-ce qui fait un bon fragment ?
Un bon fragment est sémantiquement autonome, dimensionné de sorte qu'un fait unique ne soit pas scindé entre des limites, et porte des métadonnées stables pour pouvoir être filtré, actualisé et cité de manière fiable.
Comment le découpage affecte-t-il la qualité des réponses ?
Des fragments trop grands diluent la pertinence et gaspillent des jetons, tandis que des fragments trop petits fracturent le contexte et perdent le sens. Les choix de délimitation façonnent directement le rappel et l'ancrage des réponses générées.