Chunking
Chunking adalah proses memecah dokumen sumber menjadi unit retrieval yang lebih kecil sebelum dibuat embedding. Ukuran chunk dan strategi batas menentukan seberapa presisi retriever menemukan fakta relevan, menyeimbangkan recall, precision, dan biaya embedding di seluruh basis pengetahuan.
Sinonim: text chunking, document segmentation, passage splitting, chunk strategy
Chunking adalah tempat kualitas retrieval sering menang atau kalah secara diam-diam. Strateginya dapat berupa jendela token tetap, jendela geser dengan overlap, atau batas yang mengikuti struktur semantik seperti heading dan section. Setiap chunk dibuat embedding dan diindeks dengan metadata - sumber, bahasa, timestamp, hash konten - sehingga retrieval dapat memfilter, mendeduplikasi, dan menyegarkan secara bertahap. Karena setiap jawaban downstream hanya sebaik passage yang diambilnya, chunking yang disengaja adalah prasyarat untuk respons yang berbasis bukti dan dapat dikutip.