اكتشف التعلُّم المعزز، حيث يقوم الوكلاء بتحسين الإجراءات من خلال التجربة والخطأ لتعظيم المكافآت. استكشف المفاهيم والتطبيقات والفوائد!
التعلم المعزز (RL) هو نوع من التعلم الآلي (ML) حيث يتعلم الوكيل الذكي اتخاذ سلسلة من القرارات من خلال محاولة تعظيم المكافأة التي يتلقاها مقابل أفعاله. على عكس التعلم تحت الإشراف، الذي يتعلم من الأمثلة المصنفة أو التعلم غير الخاضع للإشراف، الذي يجد أنماطًا في البيانات غير المصنفة، يتعلم التعلم المعزز من خلال التجربة والخطأ من خلال التفاعل مع البيئة. يتلقى الوكيل تغذية راجعة في شكل مكافآت أو عقوبات بناءً على الإجراءات التي يتخذها، ويوجه عملية التعلم نحو تحقيق هدف محدد.
تحدد العديد من المكونات الرئيسية نظام التعلم المعزز:
أحد التحديات الأساسية في RLL هو المفاضلة بين الاستكشاف والاستغلال: يجب على الوكيل أن يوازن بين استكشاف إجراءات جديدة لاكتشاف مكافآت محتملة أعلى (الاستكشاف) واختيار إجراءات معروفة بأنها تحقق مكافآت جيدة (الاستغلال).
عادةً ما تكون عملية RL تكرارية. يراقب الوكيل الحالة الحالية للبيئة، ويختار إجراءً بناءً على سياسته الحالية، وينفذ الإجراء، ويتلقى مكافأة (أو عقوبة) والحالة التالية من البيئة. تُستخدم هذه التغذية الراجعة لتحديث سياسة الوكيل أو دالة القيمة، مما يحسّن من عملية اتخاذ القرار مع مرور الوقت. تتضمن خوارزميات التعلّم المعزز الشائعة أساليب التعلّم الكمي والتعلّم المعزز المعزز المعزز (SARSA) والتدرج في السياسة، وكل منها يستخدم استراتيجيات مختلفة لتعلّم السياسة وتحديثها. يجمع التعلّم المعزّز العميق (DRL) بين التعلّم المعزّز العميق وتقنيات التعلّم العميق، باستخدام الشبكات العصبية (NN) لتقريب السياسات أو وظائف القيمة، مما يمكّن التعلّم المعزّز العميق من معالجة المشاكل ذات مساحات الحالة المعقدة عالية الأبعاد مثل الصور أو بيانات الاستشعار.
يختلف RL بشكل كبير عن نماذج تعلّم الآلة الأخرى:
لقد مكّنت تقنية RL من تحقيق اختراقات في مجالات مختلفة:
يُعد التعلّم المعزز عنصراً حاسماً في مجال الذكاء الاصطناعي الأوسع نطاقاً، خاصةً لإنشاء أنظمة ذاتية قادرة على اتخاذ القرارات المعقدة. في حين أن شركات مثل Ultralytics متخصصة في نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة النماذج باستخدام التعلم تحت الإشراف، فإن قدرات الإدراك التي توفرها هذه النماذج غالباً ما تكون مدخلات (حالات) أساسية لعوامل RL. على سبيل المثال، قد يستخدم الروبوت نموذج الكشف عن الأجسام الذي تم نشره عبر Ultralytics HUB لفهم محيطه قبل أن تقرر سياسة RL خطوته التالية. يوفر فهم RL سياقًا لكيفية ملاءمة الإدراك المتقدم لبناء أنظمة ذكية ذاتية التحكم، والتي غالبًا ما يتم تطويرها باستخدام أطر عمل مثل PyTorch واختبارها في بيئات المحاكاة مثل Gymnasium (OpenAI Gym سابقًا). تتضمن العديد من التطبيقات في العالم الحقيقي دمج الإدراك(الرؤية الحاسوبية) مع اتخاذ القرار (RL).