Bỏ qua đến nội dung
Bảng chú giải thuật ngữ

Embedding

Embedding là một vector số biểu diễn ý nghĩa của văn bản, hình ảnh hoặc dữ liệu khác trong không gian nhiều chiều. Các mục có nghĩa tương tự tạo ra vector nằm gần nhau, cho phép hệ thống so sánh, phân cụm và truy xuất nội dung theo tương đồng ngữ nghĩa thay vì khớp chính xác.

Từ đồng nghĩa: vector embedding, text embedding, semantic vector, dense representation

Embedding là cây cầu giữa ngôn ngữ con người và toán học tương đồng. Một mô hình embedding ánh xạ mỗi input thành vector độ dài cố định để các mục liên quan về ngữ nghĩa tụ gần nhau, hỗ trợ vector search, clustering, classification và deduplication. Trong pipeline retrieval, cả chunk đã lập chỉ mục và query đi vào đều được embedding bằng cùng một mô hình để khoảng cách có ý nghĩa. Vì mô hình embedding định nghĩa không gian này, phiên bản của nó là metadata đáng theo dõi để tái lập kết quả và reindex có kiểm soát.

Câu hỏi thường gặp

Vì sao phiên bản mô hình embedding quan trọng?
Vector từ các mô hình khác nhau không so sánh được. Lưu phiên bản mô hình cùng mỗi embedding giúp phát hiện drift và reindex an toàn khi nâng cấp mô hình embedding.
Embedding có thể đảo ngược về văn bản gốc không?
Không chính xác, nhưng embedding có thể rò rỉ thông tin nhạy cảm, nên chúng phải thừa hưởng cùng cách ly tenant và kiểm soát truy cập như nội dung nguồn mà chúng đại diện.