Chunking
Chunking là quá trình chia tài liệu nguồn thành các đơn vị truy xuất nhỏ hơn trước khi tạo embedding. Kích thước chunk và chiến lược ranh giới quyết định retriever có thể tìm một sự kiện liên quan chính xác đến đâu, cân bằng recall, precision và chi phí embedding trên toàn bộ kho tri thức.
Từ đồng nghĩa: text chunking, document segmentation, passage splitting, chunk strategy
Chunking là nơi chất lượng truy xuất thường thắng hoặc thua một cách âm thầm. Chiến lược có thể là cửa sổ token cố định, cửa sổ trượt có chồng lấn, hoặc ranh giới đi theo cấu trúc ngữ nghĩa như heading và section. Mỗi chunk được embedding và lập chỉ mục với metadata - nguồn, ngôn ngữ, timestamp, content hash - để retrieval có thể lọc, khử trùng lặp và làm mới tăng dần. Vì mọi câu trả lời downstream chỉ tốt bằng đoạn mà nó truy xuất, chunking có chủ đích là điều kiện tiên quyết cho phản hồi grounded và có thể trích dẫn.