ข้ามไปยังเนื้อหา
อภิธานศัพท์

Chunking

Chunking คือกระบวนการแบ่งเอกสารต้นทางเป็นหน่วย retrieval ที่เล็กลงก่อนนำไปทำ embedding ขนาด chunk และกลยุทธ์การกำหนดขอบเขตเป็นตัวกำหนดว่า retriever จะค้นหาข้อเท็จจริงที่เกี่ยวข้องได้แม่นเพียงใด โดยสมดุล recall, precision และต้นทุน embedding ทั่วฐานความรู้

คำพ้องความหมาย: text chunking, การแบ่งเอกสาร, การแบ่ง passage, กลยุทธ์ chunk

Chunking เป็นจุดที่คุณภาพ retrieval ชนะหรือแพ้แบบเงียบ ๆ กลยุทธ์อาจเป็นหน้าต่าง token ขนาดคงที่ หน้าต่างเลื่อนแบบซ้อนทับ หรือขอบเขตที่ตามโครงสร้างความหมาย เช่นหัวข้อและส่วนต่าง ๆ แต่ละ chunk จะถูกทำ embedding และจัดทำดัชนีพร้อม metadata เช่นแหล่งที่มา ภาษา timestamp และ content hash เพื่อให้ retrieval กรอง ลบซ้ำ และรีเฟรชแบบเพิ่มทีละส่วนได้ เพราะคำตอบ downstream ทุกคำตอบดีได้เท่ากับ passage ที่ดึงมา chunking ที่ตั้งใจออกแบบจึงเป็นเงื่อนไขพื้นฐานของคำตอบที่มีหลักฐานรองรับและอ้างอิงได้

คำถามที่พบบ่อย

chunk ที่ดีเป็นอย่างไร?
chunk ที่ดีต้องสมบูรณ์ในเชิงความหมาย มีขนาดที่ไม่ทำให้ข้อเท็จจริงเดียวถูกตัดข้ามขอบเขต และมี metadata เสถียรเพื่อให้กรอง รีเฟรช และอ้างอิงได้อย่างน่าเชื่อถือ
chunking ส่งผลต่อคุณภาพคำตอบอย่างไร?
chunk ที่ใหญ่เกินไปทำให้ความเกี่ยวข้องเจือจางและเปลือง token ส่วน chunk ที่เล็กเกินไปทำให้บริบทแตกและความหมายหายไป การเลือกขอบเขตส่งผลโดยตรงต่อ recall และความมีหลักฐานรองรับของคำตอบที่สร้างขึ้น