مسرد المصطلحات

التعلُّم المعزز

اكتشف التعلُّم المعزز، حيث يقوم الوكلاء بتحسين الإجراءات من خلال التجربة والخطأ لتعظيم المكافآت. استكشف المفاهيم والتطبيقات والفوائد!

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعلم المعزز (RL) هو نوع من التعلم الآلي (ML) حيث يتعلم الوكيل الذكي اتخاذ سلسلة من القرارات من خلال محاولة تعظيم المكافأة التي يتلقاها مقابل أفعاله. على عكس التعلم تحت الإشراف، الذي يتعلم من الأمثلة المصنفة أو التعلم غير الخاضع للإشراف، الذي يجد أنماطًا في البيانات غير المصنفة، يتعلم التعلم المعزز من خلال التجربة والخطأ من خلال التفاعل مع البيئة. يتلقى الوكيل تغذية راجعة في شكل مكافآت أو عقوبات بناءً على الإجراءات التي يتخذها، ويوجه عملية التعلم نحو تحقيق هدف محدد.

المفاهيم الأساسية

تحدد العديد من المكونات الرئيسية نظام التعلم المعزز:

  • الوكيل: المتعلم أو الكيان المتخذ للقرار الذي يتفاعل مع البيئة.
  • البيئة: النظام الخارجي أو العالم الخارجي الذي يعمل فيه العامل.
  • الحالة: تمثيل للوضع الحالي أو التكوين الحالي للبيئة التي يدركها الوكيل.
  • إجراء: قرار أو حركة يقوم بها الوكيل داخل البيئة.
  • المكافأة: إشارة عددية يتم تلقيها من البيئة بعد القيام بفعل ما، تشير إلى مدى جودة أو سوء هذا الفعل في حالة معينة. وعادةً ما يكون هدف الوكيل هو تعظيم المكافأة التراكمية مع مرور الوقت.
  • السياسة: الاستراتيجية أو المخطط الذي يستخدمه الوكيل لتحديد الإجراء التالي بناءً على الحالة الحالية. هذا هو في الأساس ما يتعلمه الوكيل.
  • دالة القيمة: تنبؤ بالمكافآت المستقبلية المتوقعة التي يمكن تحقيقها من حالة معينة أو من خلال اتخاذ إجراء معين في حالة معينة، باتباع سياسة معينة.
  • عملية اتخاذ القرار ماركوف (MDP): إطار رياضي يُستخدم عادةً لنمذجة مشاكل RL، ويحدد التفاعلات بين العامل والبيئة.

أحد التحديات الأساسية في RLL هو المفاضلة بين الاستكشاف والاستغلال: يجب على الوكيل أن يوازن بين استكشاف إجراءات جديدة لاكتشاف مكافآت محتملة أعلى (الاستكشاف) واختيار إجراءات معروفة بأنها تحقق مكافآت جيدة (الاستغلال).

كيف يعمل التعلّم المعزز

عادةً ما تكون عملية RL تكرارية. يراقب الوكيل الحالة الحالية للبيئة، ويختار إجراءً بناءً على سياسته الحالية، وينفذ الإجراء، ويتلقى مكافأة (أو عقوبة) والحالة التالية من البيئة. تُستخدم هذه التغذية الراجعة لتحديث سياسة الوكيل أو دالة القيمة، مما يحسّن من عملية اتخاذ القرار مع مرور الوقت. تتضمن خوارزميات التعلّم المعزز الشائعة أساليب التعلّم الكمي والتعلّم المعزز المعزز المعزز (SARSA) والتدرج في السياسة، وكل منها يستخدم استراتيجيات مختلفة لتعلّم السياسة وتحديثها. يجمع التعلّم المعزّز العميق (DRL) بين التعلّم المعزّز العميق وتقنيات التعلّم العميق، باستخدام الشبكات العصبية (NN) لتقريب السياسات أو وظائف القيمة، مما يمكّن التعلّم المعزّز العميق من معالجة المشاكل ذات مساحات الحالة المعقدة عالية الأبعاد مثل الصور أو بيانات الاستشعار.

المقارنة مع نماذج التعلم الأخرى

يختلف RL بشكل كبير عن نماذج تعلّم الآلة الأخرى:

  • التعلّم تحت الإشراف: يتعلم من مجموعة بيانات تحتوي على أمثلة مصنفة (أزواج من المدخلات والمخرجات). الهدف هو تعلم دالة تعيين تتنبأ بالمخرجات للمدخلات الجديدة. تتضمن الأمثلة تصنيف الصور والانحدار. يتعلم التعلّم المسترشد من التفاعل والتغذية الراجعة (المكافآت)، وليس من الإجابات الصحيحة المحددة مسبقًا.
  • التعلّم غير الخاضع للإشراف: يتعلم الأنماط والهياكل من البيانات غير المعنونة. وتشمل الأمثلة على ذلك التجميع وتقليل الأبعاد. يركز التعلّم المستند إلى الهدف، حيث يتعلّم سياسة لزيادة المكافآت إلى أقصى حد، بينما يركز التعلّم غير الخاضع للإشراف على اكتشاف بنية البيانات.

التطبيقات الواقعية

لقد مكّنت تقنية RL من تحقيق اختراقات في مجالات مختلفة:

الأهمية في النظام البيئي للذكاء الاصطناعي

يُعد التعلّم المعزز عنصراً حاسماً في مجال الذكاء الاصطناعي الأوسع نطاقاً، خاصةً لإنشاء أنظمة ذاتية قادرة على اتخاذ القرارات المعقدة. في حين أن شركات مثل Ultralytics متخصصة في نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة النماذج باستخدام التعلم تحت الإشراف، فإن قدرات الإدراك التي توفرها هذه النماذج غالباً ما تكون مدخلات (حالات) أساسية لعوامل RL. على سبيل المثال، قد يستخدم الروبوت نموذج الكشف عن الأجسام الذي تم نشره عبر Ultralytics HUB لفهم محيطه قبل أن تقرر سياسة RL خطوته التالية. يوفر فهم RL سياقًا لكيفية ملاءمة الإدراك المتقدم لبناء أنظمة ذكية ذاتية التحكم، والتي غالبًا ما يتم تطويرها باستخدام أطر عمل مثل PyTorch واختبارها في بيئات المحاكاة مثل Gymnasium (OpenAI Gym سابقًا). تتضمن العديد من التطبيقات في العالم الحقيقي دمج الإدراك(الرؤية الحاسوبية) مع اتخاذ القرار (RL).

قراءة الكل
OSZAR »