Lumaktaw sa nilalaman
Glossary

Embedding

Ang embedding ay numeric vector na kumakatawan sa kahulugan ng text, images, o ibang data sa high-dimensional space. Ang items na magkapareho ang kahulugan ay gumagawa ng vectors na magkakalapit, kaya maaaring magkumpara, mag-cluster, at mag-retrieve ng content ayon sa semantic similarity sa halip na exact matches.

Mga kasingkahulugan: vector embedding, text embedding, semantic vector, dense representation

Ang embeddings ang tulay sa pagitan ng human language at similarity math. Minamapa ng embedding model ang bawat input sa fixed-length vector para mag-cluster ang semantically related items, na nagbibigay-daan sa vector search, clustering, classification, at deduplication. Sa retrieval pipeline, parehong indexed chunks at incoming query ay ini-embed gamit ang parehong model para may saysay ang distances. Dahil ang embedding model ang tumutukoy sa space, mahalagang metadata ang version nito para sa reproducibility at controlled reindexing.

Mga madalas itanong

Bakit mahalaga ang version ng embedding model?
Hindi maihahambing ang vectors mula sa magkaibang models. Kapag naka-store ang model version kasama ng bawat embedding, makikita mo ang drift at ligtas kang makakapag-reindex kapag nag-upgrade ng embedding model.
Nababalik ba ang embeddings sa orihinal na text?
Hindi eksakto, pero maaaring mag-leak ng sensitibong impormasyon ang embeddings, kaya dapat nilang manahin ang parehong tenant isolation at access controls gaya ng source content na kinakatawan nila.