Embedding
Embedding là một vector số biểu diễn ý nghĩa của văn bản, hình ảnh hoặc dữ liệu khác trong không gian nhiều chiều. Các mục có nghĩa tương tự tạo ra vector nằm gần nhau, cho phép hệ thống so sánh, phân cụm và truy xuất nội dung theo tương đồng ngữ nghĩa thay vì khớp chính xác.
Từ đồng nghĩa: vector embedding, text embedding, semantic vector, dense representation
Embedding là cây cầu giữa ngôn ngữ con người và toán học tương đồng. Một mô hình embedding ánh xạ mỗi input thành vector độ dài cố định để các mục liên quan về ngữ nghĩa tụ gần nhau, hỗ trợ vector search, clustering, classification và deduplication. Trong pipeline retrieval, cả chunk đã lập chỉ mục và query đi vào đều được embedding bằng cùng một mô hình để khoảng cách có ý nghĩa. Vì mô hình embedding định nghĩa không gian này, phiên bản của nó là metadata đáng theo dõi để tái lập kết quả và reindex có kiểm soát.