Chunking
Il chunking è il processo di suddivisione dei documenti sorgente in unità di recupero più piccole prima di trasformarle in embedding. La dimensione del chunk e la strategia dei confini determinano quanto precisamente un retriever può trovare un fatto rilevante, bilanciando recall, precisione e costo degli embedding in una knowledge base.
Sinonimi: text chunking, document segmentation, passage splitting, chunk strategy
Il chunking è il punto in cui la qualità del recupero viene vinta o persa in modo silenzioso. La strategia può essere una finestra fissa di token, una finestra scorrevole con sovrapposizione oppure confini che seguono una struttura semantica come titoli e sezioni. Ogni chunk viene trasformato in embedding e indicizzato con metadati, come sorgente, lingua, timestamp e hash del contenuto, così il recupero può filtrare, deduplicare e aggiornare in modo incrementale. Poiché ogni risposta a valle è buona solo quanto il passaggio che recupera, un chunking intenzionale è prerequisito per risposte fondate e citabili.