Vai al contenuto
Glossario

Chunking

Il chunking è il processo di suddivisione dei documenti sorgente in unità di recupero più piccole prima di trasformarle in embedding. La dimensione del chunk e la strategia dei confini determinano quanto precisamente un retriever può trovare un fatto rilevante, bilanciando recall, precisione e costo degli embedding in una knowledge base.

Sinonimi: text chunking, document segmentation, passage splitting, chunk strategy

Il chunking è il punto in cui la qualità del recupero viene vinta o persa in modo silenzioso. La strategia può essere una finestra fissa di token, una finestra scorrevole con sovrapposizione oppure confini che seguono una struttura semantica come titoli e sezioni. Ogni chunk viene trasformato in embedding e indicizzato con metadati, come sorgente, lingua, timestamp e hash del contenuto, così il recupero può filtrare, deduplicare e aggiornare in modo incrementale. Poiché ogni risposta a valle è buona solo quanto il passaggio che recupera, un chunking intenzionale è prerequisito per risposte fondate e citabili.

Domande frequenti

Che cosa rende buono un chunk?
Un buon chunk è semanticamente autosufficiente, dimensionato in modo che un singolo fatto non venga diviso tra confini, e porta metadati stabili per poter essere filtrato, aggiornato e citato in modo affidabile.
In che modo il chunking influisce sulla qualità delle risposte?
Chunk troppo grandi diluiscono la rilevanza e sprecano token, mentre chunk troppo piccoli fratturano il contesto e perdono significato. Le scelte sui confini modellano direttamente recall e fondatezza delle risposte generate.