Embedding
Embedding یک vector عددی است که معنای متن، تصویر یا داده دیگر را در فضایی high-dimensional نمایش میدهد. آیتمهایی با معنای مشابه vectorهایی نزدیک به هم میسازند و این به سامانهها اجازه میدهد محتوا را با similarity معنایی، نه match دقیق، مقایسه، cluster و retrieve کنند.
مترادفها: vector embedding, text embedding, semantic vector, dense representation
Embedding پلی میان زبان انسانی و ریاضیات similarity است. یک مدل embedding هر input را به vectorی با طول ثابت map میکند تا آیتمهای semantic related کنار هم cluster شوند و vector search، clustering، classification و deduplication ممکن شود. در یک retrieval pipeline، هم chunkهای index شده و هم query ورودی با همان مدل embedding میشوند تا distance معنا داشته باشد. چون مدل embedding فضا را تعریف میکند، version آن metadataای است که برای reproducibility و controlled reindexing ارزش پیگیری دارد.