Lewati ke konten
Glosarium

Chunking

Chunking adalah proses memecah dokumen sumber menjadi unit retrieval yang lebih kecil sebelum dibuat embedding. Ukuran chunk dan strategi batas menentukan seberapa presisi retriever menemukan fakta relevan, menyeimbangkan recall, precision, dan biaya embedding di seluruh basis pengetahuan.

Sinonim: text chunking, document segmentation, passage splitting, chunk strategy

Chunking adalah tempat kualitas retrieval sering menang atau kalah secara diam-diam. Strateginya dapat berupa jendela token tetap, jendela geser dengan overlap, atau batas yang mengikuti struktur semantik seperti heading dan section. Setiap chunk dibuat embedding dan diindeks dengan metadata - sumber, bahasa, timestamp, hash konten - sehingga retrieval dapat memfilter, mendeduplikasi, dan menyegarkan secara bertahap. Karena setiap jawaban downstream hanya sebaik passage yang diambilnya, chunking yang disengaja adalah prasyarat untuk respons yang berbasis bukti dan dapat dikutip.

Pertanyaan yang sering diajukan

Apa ciri chunk yang baik?
Chunk yang baik berdiri sendiri secara semantik, berukuran sehingga satu fakta tidak terpotong di batas, dan membawa metadata stabil agar dapat difilter, disegarkan, dan dikutip dengan andal.
Bagaimana chunking memengaruhi kualitas jawaban?
Chunk yang terlalu besar mengencerkan relevansi dan memboroskan token, sedangkan chunk yang terlalu kecil memecah konteks dan menghilangkan makna. Pilihan batas langsung membentuk recall dan grounding jawaban yang dihasilkan.