ข้ามไปยังเนื้อหา
อภิธานศัพท์

Embedding

Embedding คือเวกเตอร์ตัวเลขที่แทนความหมายของข้อความ รูปภาพ หรือข้อมูลอื่นในพื้นที่มิติสูง รายการที่มีความหมายคล้ายกันจะสร้างเวกเตอร์ที่อยู่ใกล้กัน ทำให้ระบบเปรียบเทียบ จัดกลุ่ม และดึงเนื้อหาตามความคล้ายเชิงความหมายได้ แทนที่จะพึ่งการตรงกันแบบคำต่อคำ

คำพ้องความหมาย: vector embedding, text embedding, semantic vector, dense representation

Embedding เป็นสะพานระหว่างภาษามนุษย์กับคณิตศาสตร์ของความคล้าย โมเดล embedding จะแมปอินพุตแต่ละชิ้นเป็นเวกเตอร์ความยาวคงที่ เพื่อให้รายการที่เกี่ยวข้องกันทางความหมายเกาะกลุ่มกัน ทำให้ทำ vector search, clustering, classification และ deduplication ได้ ใน pipeline retrieval ทั้ง chunk ที่จัดทำดัชนีแล้วและ query ที่เข้ามาจะถูก embedding ด้วยโมเดลเดียวกัน เพื่อให้ระยะทางมีความหมาย เพราะ embedding model เป็นตัวกำหนดพื้นที่ เวอร์ชันของมันจึงเป็น metadata ที่ควรติดตามเพื่อความทำซ้ำได้และการ reindex แบบควบคุม

คำถามที่พบบ่อย

ทำไมเวอร์ชันของ embedding model จึงสำคัญ?
เวกเตอร์จากโมเดลต่างกันเปรียบเทียบกันไม่ได้ การเก็บเวอร์ชันโมเดลไว้กับแต่ละ embedding ช่วยตรวจจับ drift และ reindex ได้อย่างปลอดภัยเมื่ออัปเกรด embedding model
embedding ย้อนกลับเป็นข้อความต้นฉบับได้หรือไม่?
ไม่ตรงทั้งหมด แต่ embedding อาจรั่วไหลข้อมูลอ่อนไหวได้ จึงควรสืบทอด tenant isolation และ access control เดียวกับเนื้อหาต้นทางที่มันแทน