تحسين نماذج التعلم العميق باستخدام TensorRT للاستدلال الأسرع والفعال على وحدات معالجة الرسومات NVIDIA . تحقيق أداء في الوقت الفعلي مع YOLO وتطبيقات الذكاء الاصطناعي.
TensorRT هو مُحسِّن استدلالي عالي الأداء للتعلم العميق (DL) ومكتبة وقت تشغيل تم تطويرها بواسطة NVIDIA. وهي مصممة خصيصًا لزيادة إنتاجية الاستدلال إلى أقصى حد وتقليل زمن انتقال الاستدلال لتطبيقات التعلم العميق التي تعمل على وحدات معالجة الرسوماتNVIDIA . يأخذ TensorRT نماذج الشبكات العصبية المدربة من أطر عمل مختلفة ويطبق العديد من التحسينات لإنشاء محرك وقت تشغيل مُحسَّن للغاية للنشر. تُعد هذه العملية ضرورية لنشر النماذج بكفاءة في بيئات الإنتاج، خاصةً عندما تكون السرعة والاستجابة أمرًا بالغ الأهمية.
يحقق TensorRT تحسينات كبيرة في الأداء من خلال العديد من التقنيات المتطورة:
يتضمن سير العمل عادةً أخذ نموذج مُدرَّب (على سبيل المثال، من PyTorch أو TensorFlowغالبًا عبر تنسيق وسيط مثل ONNX) وتغذيته إلى مُحسِّن TensorRT . يقوم TensorRT بتحليل النموذج، وينفذ تحسينات الرسم البياني والتحسينات الخاصة بالهدف بناءً على الدقة المحددة GPU المستهدفة، وأخيراً يولد خطة استدلال محسّنة تُعرف باسم محرك TensorRT . يمكن بعد ذلك نشر ملف المحرك هذا للاستدلال السريع.
يعتبر TensorRT وثيق الصلة بمرحلة نشر النماذج في دورة حياة التعلم الآلي. إن قدرته على تسريع الاستدلال بشكل كبير يجعله لا غنى عنه للتطبيقات التي تتطلب الاستدلال في الوقت الفعلي، مثل اكتشاف الأجسام باستخدام نماذج مثل Ultralytics YOLOوتجزئة الصور ومعالجة اللغة الطبيعية. وهو مكون رئيسي في حزمة برمجيات NVIDIA إلى جانب أدوات مثل CUDAمما يمكّن المطورين من الاستفادة من الإمكانات الكاملة لأجهزة NVIDIA بدءًا من وحدات معالجة الرسومات القوية في مركز البيانات إلى وحدات NVIDIA Jetson الموفرة للطاقة للذكاء الاصطناعي Edge. يوفر Ultralytics تكاملاً سلسًا، مما يسمح للمستخدمين بتصدير نماذج YOLO إلى تنسيق TensorRT للنشر الأمثل، وغالبًا ما يتم استخدامه مع منصات مثل Triton Inference Server.
يُستخدَم TensorRT على نطاق واسع في مختلف الصناعات التي تحتاج إلى استدلال سريع وفعال للذكاء الاصطناعي:
بينما يركز TensorRT على تحسين الاستدلال خصيصًا لوحدات معالجة الرسومات NVIDIA توجد أدوات أخرى في النظام البيئي:
إن أهم ما يميز TensorRT هو تكامله العميق مع أجهزة NVIDIA واستراتيجيات التحسين القوية المصممة خصيصًا لوحدات معالجة الرسومات، وغالبًا ما ينتج عنها أعلى معايير الأداء (انظر معايير MLPerf) على منصات NVIDIA مقارنةً بأوقات تشغيل الأغراض العامة. يمكن تبسيط إدارة النماذج وعمليات النشر باستخدام منصات مثل Ultralytics HUB.