رفتن به محتوا
واژه‌نامه

Embedding

Embedding یک vector عددی است که معنای متن، تصویر یا داده دیگر را در فضایی high-dimensional نمایش می‌دهد. آیتم‌هایی با معنای مشابه vectorهایی نزدیک به هم می‌سازند و این به سامانه‌ها اجازه می‌دهد محتوا را با similarity معنایی، نه match دقیق، مقایسه، cluster و retrieve کنند.

مترادف‌ها: vector embedding, text embedding, semantic vector, dense representation

Embedding پلی میان زبان انسانی و ریاضیات similarity است. یک مدل embedding هر input را به vectorی با طول ثابت map می‌کند تا آیتم‌های semantic related کنار هم cluster شوند و vector search، clustering، classification و deduplication ممکن شود. در یک retrieval pipeline، هم chunkهای index شده و هم query ورودی با همان مدل embedding می‌شوند تا distance معنا داشته باشد. چون مدل embedding فضا را تعریف می‌کند، version آن metadataای است که برای reproducibility و controlled reindexing ارزش پیگیری دارد.

پرسش‌های پرتکرار

چرا version مدل embedding مهم است؟
vectorهای مدل‌های متفاوت قابل مقایسه نیستند. ذخیره version مدل با هر embedding اجازه می‌دهد drift را تشخیص دهید و هنگام upgrade مدل embedding با اطمینان reindex کنید.
آیا embeddingها به متن اصلی reversible هستند؟
نه دقیقاً؛ اما embeddingها می‌توانند اطلاعات حساس را leak کنند، بنابراین باید همان tenant isolation و access control محتوای منبعی را که نمایندگی می‌کنند به ارث ببرند.