مسرد المصطلحات

CLIP (التدريب المسبق على اللغة والصورة المتباينة)

اكتشف كيف يُحدث برنامج CLIP من OpenAI ثورة في الذكاء الاصطناعي من خلال التعلم بدون لقطات، ومواءمة الصور والنصوص، والتطبيقات الواقعية في مجال الرؤية الحاسوبية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

CLIP (التدريب المسبق للغة والصورة المتباينة) هي شبكة عصبية متعددة الاستخدامات (NN) تم تطويرها بواسطة OpenAI تتفوق في فهم المفاهيم البصرية الموصوفة باستخدام اللغة اليومية. وعلى عكس النماذج التقليدية لتصنيف الصور التي تتطلب مجموعات بيانات مصنفة بدقة، تتعلم شبكة CLIP من خلال تحليل مئات الملايين من أزواج الصور والنصوص التي تم جمعها من الإنترنت. وهو يستخدم تقنية تسمى التعلم التبايني لفهم العلاقات المعقدة بين الصور والأوصاف النصية المقابلة لها. يُمكّن هذا النهج التدريبي الفريد من نوعه CLIP من أداء مهام مختلفة بشكل استثنائي دون تدريب محدد لها، وهي قدرة قوية تُعرف باسم التعلم بدون لقطات.

كيف يعمل المشبك

تتألف بنية CLIP من جزأين رئيسيين: مُشفّر صور ومُشفّر نصوص. يعالج مُشفّر الصور، الذي غالبًا ما يستخدم بنيات مثل محول الرؤية (ViT) أو ResNet، الصور لاستخراج الميزات المرئية الرئيسية. بالتوازي، يقوم مشفر النص، الذي يعتمد عادةً على نموذج المحول السائد في معالجة اللغات الطبيعية (NLP)، بتحليل الأوصاف النصية المرتبطة بها لالتقاط معناها الدلالي. خلال مرحلة التدريب، يتعلم برنامج CLIP إسقاط التمثيلات(التضمينات) لكل من الصور والنص في فضاء مشترك متعدد الأبعاد. الهدف الأساسي من عملية التعلّم التبايني هو زيادة التشابه (غالبًا ما يُقاس بالتشابه في جيب التمام) بين التضمينات لأزواج الصور والنصوص الصحيحة مع تقليل التشابه للأزواج غير الصحيحة ضمن مجموعة معينة. تقوم هذه الطريقة بتعليم النموذج بفعالية ربط الأنماط البصرية بالكلمات والعبارات ذات الصلة، كما هو مفصل في ورقة CLIP الأصلية.

الميزات والمزايا الرئيسية

الميزة الأكثر أهمية لبرنامج CLIP هي قدرته الرائعة على التعلّم من دون الحاجة إلى تصوير. نظرًا لأنه يتعلم اتصالاً واسعًا بين البيانات المرئية واللغة بدلاً من الفئات الثابتة، يمكنه تصنيف الصور بناءً على أوصاف نصية جديدة تمامًا لم يسبق له أن واجهها أثناء التدريب، مما يلغي الحاجة إلى ضبط دقيق لمهمة محددة في العديد من الحالات. على سبيل المثال، يمكن لبرنامج CLIP تحديد صورة موصوفة على أنها "رسم تخطيطي لكلب أزرق" حتى لو لم يتم تدريبه صراحةً على صور مصنفة على هذا النحو، وذلك من خلال الجمع بين مفاهيمه المكتسبة عن "رسم تخطيطي" و"أزرق" و"كلب". تجعل هذه القدرة على التكيف من CLIP ذات قيمة عالية لتطبيقات الرؤية الحاسوبية المتنوعة. وغالبًا ما يحقق أداءً تنافسيًا، حتى عند مقارنته بالنماذج المدربة في إطار نماذج التعلم الخاضعة للإشراف على مجموعات البيانات القياسية مثل ImageNet.

المشبك مقابل الموديلات الأخرى

يختلف نهج CLIP عن نماذج الذكاء الاصطناعي الشائعة الأخرى:

  • مصنفات الصور الخاضعة للإشراف: تتعلم المصنفات التقليدية من مجموعات البيانات حيث يكون لكل صورة تسمية محددة (على سبيل المثال، "قطة" أو "كلب"). وهي تتفوق في التصنيفات المحددة مسبقاً ولكنها تواجه صعوبة في التعامل مع المفاهيم غير المرئية. يتعلّم CLIP من أزواج الصور والنصوص غير المهيكلة، مما يتيح تصنيفًا صفريًا لمطالبات نصية عشوائية.
  • نماذج الكشف عن الكائنات: نماذج مثل Ultralytics YOLO تركز على اكتشاف الكائنات، وتحديد موقع الكائنات داخل الصورة باستخدام المربعات المحدودة وتصنيفها. على الرغم من قوتها في مهام التوطين مثل الكشف أو التقطيع، إلا أنها لا تمتلك فهم CLIP الجوهري لأوصاف اللغة الاعتباطية للتصنيف. يمكنك الاطلاع على مقارنات بين نماذج YOLO لأداء الكشف.
  • نماذج لغة الرؤية الأخرى (VLMs): CLIP هو نوع من النماذج متعددة الوسائط. في حين أن نماذج VLMs الأخرى قد تركز على مهام مثل الإجابة عن الأسئلة المرئية (VQA) أو التعليق التفصيلي للصور، تكمن قوة CLIP الأساسية في تصنيفه القوي للصور بدون أي لقطات ومطابقة تشابه الصور والنصوص. تعرّف على المزيد حول الأنواع المختلفة من الآلة الافتراضية للصور على مدونة Ultralytics .
  • النماذج التوليدية: تركز نماذج مثل Stable Diffusion أو DALL-E على إنشاء الصور من النص(تحويل النص إلى صورة). في حين أن CLIP لا ينشئ صورًا بنفسه، إلا أن برنامج تشفير النص الخاص به غالبًا ما يُستخدم ضمن النماذج التوليدية لضمان توافق الصورة الناتجة بشكل جيد مع مطالبة النص المدخل.

التطبيقات الواقعية

تصلح قدرات CLIP الفريدة للعديد من الاستخدامات العملية:

  • الإشراف على المحتوى: تصفية الصور أو الإبلاغ عنها تلقائيًا استنادًا إلى الأوصاف النصية للمحتوى غير اللائق أو غير المرغوب فيه، دون الحاجة إلى أمثلة مصنفة مسبقًا لكل انتهاك محتمل. يستخدم OpenAI برنامج CLIP كجزء من أدوات الإشراف على المحتوى.
  • البحث الدلالي عن الصور: تمكين المستخدمين من البحث في مكتبات الصور الضخمة (مثل مواقع الصور المخزنة مثل Unsplash أو مجموعات الصور الشخصية) باستخدام استعلامات اللغة الطبيعية بدلاً من الكلمات المفتاحية أو العلامات فقط. على سبيل المثال، البحث عن "شاطئ هادئ عند غروب الشمس مع أشجار النخيل".
  • تحسين إمكانية الوصول: إنشاء أوصاف الصور ذات الصلة تلقائياً للمستخدمين ضعاف البصر.
  • توجيه الذكاء الاصطناعي التوليدي: كما ذكرنا، تساعد مشفِّرات CLIP في توجيه نماذج الذكاء الاصطناعي التوليدي لإنتاج صور تعكس بدقة المطالبات النصية المعقدة.

القيود والتوجهات المستقبلية

على الرغم من قدراته الرائدة، إلا أن برنامج CLIP لا يخلو من القيود. إذ أن اعتماده على بيانات الإنترنت الضخمة غير المنسقة يعني أنه يمكن أن يرث التحيزات المجتمعية الموجودة في النصوص والصور، مما يثير مخاوف بشأن العدالة في الذكاء الاصطناعي والتحيز الخوارزمي المحتمل. بالإضافة إلى ذلك، يمكن أن يواجه برنامج CLIP صعوبات في المهام التي تتطلب تفكيراً مكانياً دقيقاً (على سبيل المثال، عدّ الأشياء بدقة) أو التعرف على التفاصيل المرئية الدقيقة للغاية. تعمل الأبحاث بنشاط على استكشاف طرق للتخفيف من هذه التحيزات، وتعزيز الفهم الدقيق، ودمج المعرفة الدلالية لبرنامج CLIP مع نقاط القوة في تحديد المواقع في نماذج مثل YOLOv11. يمكن تبسيط الجمع بين أنواع النماذج المختلفة وإدارة التجارب باستخدام منصات مثل Ultralytics HUB. ابق على اطلاع على أحدث التطورات في مجال الذكاء الاصطناعي من خلال موارد مثل مدونةUltralytics .

قراءة الكل
OSZAR »