Embedding
Embedding என்பது text, images, அல்லது பிற data வின் meaning ஐ high-dimensional space இல் பிரதிநிதித்துவப்படுத்தும் numeric vector. ஒத்த meaning கொண்ட items அருகருகே இருக்கும் vectors ஐ உருவாக்குகின்றன; இதனால் systems exact matches அல்லாமல் semantic similarity அடிப்படையில் content ஐ compare, cluster, retrieve செய்ய முடியும்.
இணைச்சொற்கள்: vector embedding, text embedding, semantic vector, dense representation
Embeddings மனித மொழி மற்றும் similarity math இடையிலான bridge. Embedding model ஒவ்வொரு input ஐ fixed-length vector ஆக map செய்கிறது; semantically related items ஒன்றாக cluster ஆகின்றன. இதனால் vector search, clustering, classification, deduplication இயலும். Retrieval pipeline இல் indexed chunks மற்றும் incoming query இரண்டும் அதே model மூலம் embed செய்யப்படும்; அப்போது distances meaningful ஆக இருக்கும். Embedding model space ஐ வரையறுப்பதால், அதன் version reproducibility மற்றும் controlled reindexing க்காக track செய்ய வேண்டிய metadata.