Embedding
Embedding คือเวกเตอร์ตัวเลขที่แทนความหมายของข้อความ รูปภาพ หรือข้อมูลอื่นในพื้นที่มิติสูง รายการที่มีความหมายคล้ายกันจะสร้างเวกเตอร์ที่อยู่ใกล้กัน ทำให้ระบบเปรียบเทียบ จัดกลุ่ม และดึงเนื้อหาตามความคล้ายเชิงความหมายได้ แทนที่จะพึ่งการตรงกันแบบคำต่อคำ
คำพ้องความหมาย: vector embedding, text embedding, semantic vector, dense representation
Embedding เป็นสะพานระหว่างภาษามนุษย์กับคณิตศาสตร์ของความคล้าย โมเดล embedding จะแมปอินพุตแต่ละชิ้นเป็นเวกเตอร์ความยาวคงที่ เพื่อให้รายการที่เกี่ยวข้องกันทางความหมายเกาะกลุ่มกัน ทำให้ทำ vector search, clustering, classification และ deduplication ได้ ใน pipeline retrieval ทั้ง chunk ที่จัดทำดัชนีแล้วและ query ที่เข้ามาจะถูก embedding ด้วยโมเดลเดียวกัน เพื่อให้ระยะทางมีความหมาย เพราะ embedding model เป็นตัวกำหนดพื้นที่ เวอร์ชันของมันจึงเป็น metadata ที่ควรติดตามเพื่อความทำซ้ำได้และการ reindex แบบควบคุม