Chunking
Chunking คือกระบวนการแบ่งเอกสารต้นทางเป็นหน่วย retrieval ที่เล็กลงก่อนนำไปทำ embedding ขนาด chunk และกลยุทธ์การกำหนดขอบเขตเป็นตัวกำหนดว่า retriever จะค้นหาข้อเท็จจริงที่เกี่ยวข้องได้แม่นเพียงใด โดยสมดุล recall, precision และต้นทุน embedding ทั่วฐานความรู้
คำพ้องความหมาย: text chunking, การแบ่งเอกสาร, การแบ่ง passage, กลยุทธ์ chunk
Chunking เป็นจุดที่คุณภาพ retrieval ชนะหรือแพ้แบบเงียบ ๆ กลยุทธ์อาจเป็นหน้าต่าง token ขนาดคงที่ หน้าต่างเลื่อนแบบซ้อนทับ หรือขอบเขตที่ตามโครงสร้างความหมาย เช่นหัวข้อและส่วนต่าง ๆ แต่ละ chunk จะถูกทำ embedding และจัดทำดัชนีพร้อม metadata เช่นแหล่งที่มา ภาษา timestamp และ content hash เพื่อให้ retrieval กรอง ลบซ้ำ และรีเฟรชแบบเพิ่มทีละส่วนได้ เพราะคำตอบ downstream ทุกคำตอบดีได้เท่ากับ passage ที่ดึงมา chunking ที่ตั้งใจออกแบบจึงเป็นเงื่อนไขพื้นฐานของคำตอบที่มีหลักฐานรองรับและอ้างอิงได้