تعرّف على ماهية التضمينات وكيف تعمل على تعزيز الذكاء الاصطناعي من خلال التقاط العلاقات الدلالية في البيانات من أجل معالجة اللغات الطبيعية والتوصيات والرؤية الحاسوبية.
في مجال التعلم الآلي (ML) والذكاء الاصطناعي (AI)، تعد التضمينات تقنية أساسية لتمثيل البيانات المعقدة - مثل الكلمات أو الجمل أو الصور أو غيرها من العناصر - كمتجهات عددية كثيفة في فضاء متعدد الأبعاد. يتم تعلم هذا التحويل من البيانات، مما يتيح للخوارزميات التقاط المعنى الدلالي أو السياق أو الخصائص الأساسية للمدخلات. تتمثل الميزة الأساسية في أن العناصر التي تعتبر متشابهة بناءً على بيانات التدريب يتم تعيينها إلى نقاط قريبة في "فضاء التضمين" هذا، مما يسمح للآلات بفهم العلاقات والأنماط المعقدة بشكل أكثر فعالية بكثير من التمثيلات المتفرقة التقليدية مثل الترميز أحادي النقطة.
التضمينات هي تمثيلات متجهة مكتسبة منخفضة الأبعاد نسبيًا للمتغيرات المنفصلة (مثل الكلمات) أو الكائنات المعقدة (مثل الصور أو ملفات تعريف المستخدمين). وعلى عكس طرق مثل الترميز الأحادي الب ُعد الذي ينشئ متجهات متناثرة عالية الأبعاد حيث يتوافق كل بُعد مع عنصر واحد ويفتقر إلى معلومات العلاقة المتأصلة، فإن التضمينات هي متجهات كثيفة (عادةً ما تحتوي على عشرات إلى آلاف الأبعاد) حيث يساهم كل بُعد في تمثيل خصائص العنصر. والأهم من ذلك هو أن موضع هذه المتجهات في فضاء التضمين يجسد العلاقات الدلالية. على سبيل المثال، في تضمينات الكلمات، فإن الكلمات ذات المعاني المتشابهة أو المستخدمة في سياقات متشابهة، مثل "ملك" و"ملكة" أو "يمشي" و"ركض"، سيكون لها متجهات متقاربة رياضيًا (على سبيل المثال، باستخدام تشابه جيب التمام). يعكس هذا التقارب التشابه الدلالي المستفاد من البيانات.
عادةً ما يتم إنشاء التضمينات باستخدام نماذج الشبكات العصبية (NN) التي يتم تدريبها على مجموعات بيانات كبيرة من خلال تقنيات مثل التعلم الذاتي الخاضع للإشراف. على سبيل المثال، تتضمن إحدى التقنيات الشائعة لتضمين الكلمات، والتي تتمثل في Word2Vec، تدريب نموذج للتنبؤ بكلمة ما بناءً على الكلمات المحيطة بها (سياقها) ضمن مجموعة نصوص ضخمة. أثناء عملية التدريب هذه، تقوم الشبكة بتعديل متغيراتها الداخلية، بما في ذلك متجهات التضمين لكل كلمة، لتقليل أخطاء التنبؤ عبر طرق مثل الترحيل العكسي. وتشفّر المتجهات الناتجة ضمنيًا المعلومات النحوية والدلالية. ويُعد عدد الأبعاد في فضاء التضمين معيارًا بالغ الأهمية يؤثر على قدرة النموذج على التقاط التفاصيل مقابل تكلفته الحسابية ومخاطر الإفراط في التضمين. غالبًا ما يتطلب تصور مساحات البيانات عالية الأبعاد هذه تقنيات تقليل الأبعاد مثل t-SNE أو PCA، والتي يمكن استكشافها باستخدام أدوات مثل TensorFlow Projector.
تعد التضمينات مكونات أساسية في العديد من أنظمة الذكاء الاصطناعي الحديثة في مختلف المجالات:
من المفيد التمييز بين التضمينات والمصطلحات ذات الصلة:
توفر التضمينات طريقة قوية لتمثيل البيانات لنماذج التعلم الآلي، مما يمكّنها من فهم أوجه التشابه الدلالي والأنماط المعقدة في أنواع البيانات المتنوعة، من النصوص إلى الصور. إنها تقنية أساسية تقود التطورات في العديد من تطبيقات الذكاء الاصطناعي وهي جزء لا يتجزأ من قدرات أطر التعلم الآلي الحديثة مثل PyTorch و TensorFlow.