Bỏ qua đến nội dung
Bảng chú giải thuật ngữ

Chunking

Chunking là quá trình chia tài liệu nguồn thành các đơn vị truy xuất nhỏ hơn trước khi tạo embedding. Kích thước chunk và chiến lược ranh giới quyết định retriever có thể tìm một sự kiện liên quan chính xác đến đâu, cân bằng recall, precision và chi phí embedding trên toàn bộ kho tri thức.

Từ đồng nghĩa: text chunking, document segmentation, passage splitting, chunk strategy

Chunking là nơi chất lượng truy xuất thường thắng hoặc thua một cách âm thầm. Chiến lược có thể là cửa sổ token cố định, cửa sổ trượt có chồng lấn, hoặc ranh giới đi theo cấu trúc ngữ nghĩa như heading và section. Mỗi chunk được embedding và lập chỉ mục với metadata - nguồn, ngôn ngữ, timestamp, content hash - để retrieval có thể lọc, khử trùng lặp và làm mới tăng dần. Vì mọi câu trả lời downstream chỉ tốt bằng đoạn mà nó truy xuất, chunking có chủ đích là điều kiện tiên quyết cho phản hồi grounded và có thể trích dẫn.

Câu hỏi thường gặp

Một chunk tốt cần điều gì?
Một chunk tốt tự đủ nghĩa về mặt ngữ nghĩa, có kích thước để một sự kiện không bị cắt qua ranh giới, và mang metadata ổn định để có thể lọc, làm mới và trích dẫn đáng tin cậy.
Chunking ảnh hưởng chất lượng câu trả lời thế nào?
Chunk quá lớn làm loãng mức liên quan và lãng phí token, còn chunk quá nhỏ làm vỡ ngữ cảnh và mất nghĩa. Lựa chọn ranh giới trực tiếp định hình recall và mức grounded của câu trả lời được tạo.