انتقل إلى المحتوى
مسرد

التضمين

التضمين متجه عددي يمثّل معنى النص أو الصور أو غيرها من البيانات في فضاء عالي الأبعاد. تُنتج العناصر المتشابهة في المعنى متجهات تقع قريبة بعضها من بعض، مما يتيح للأنظمة مقارنة المحتوى وتجميعه واسترجاعه بالتشابه الدلالي بدلاً من المطابقات التامة.

مرادفات: vector embedding, text embedding, semantic vector, dense representation

التضمينات هي الجسر بين اللغة البشرية ورياضيات التشابه. يُحوِّل نموذج التضمين كل مُدخَل إلى متجه ثابت الطول بحيث تتجمع العناصر المرتبطة دلاليًا معًا، مما يتيح البحث المتجهي والتجميع والتصنيف وإزالة التكرار. في خط أنابيب الاسترجاع، تُضمَّن المقاطع المفهرسة والاستعلام الوارد بالنموذج نفسه حتى تكون المسافات ذات معنى. ولأن نموذج التضمين يحدد الفضاء، فإن نسخته بيانات وصفية تستحق التتبع من أجل قابلية إعادة الإنتاج وإعادة الفهرسة المُتحكَّم بها.

الأسئلة الشائعة

لماذا تهم نسخة نموذج التضمين؟
المتجهات من نماذج مختلفة غير قابلة للمقارنة. يتيح لك تخزين نسخة النموذج مع كل تضمين كشف الانحراف وإعادة الفهرسة بأمان عند ترقية نموذج التضمين.
هل التضمينات قابلة للعكس إلى النص الأصلي؟
ليس تمامًا، لكن التضمينات قد تُسرّب معلومات حساسة، لذا ينبغي أن ترث عزل المستأجرين وضوابط الوصول نفسها التي يملكها المحتوى المصدري الذي تمثّله.