Optimiza los modelos de aprendizaje profundo con TensorRT para una inferencia más rápida y eficiente en las GPUs NVIDIA . Consigue rendimiento en tiempo real con YOLO y aplicaciones de IA.
TensorRT es un optimizador de inferencia de Deep Learning (DL) de alto rendimiento y una biblioteca en tiempo de ejecución desarrollada por NVIDIA. Está diseñada específicamente para maximizar el rendimiento de inferencia y minimizar la latencia de inferencia para aplicaciones de aprendizaje profundo que se ejecutan en GPUsNVIDIA . TensorRT toma modelos de redes neuronales entrenados de varios marcos y aplica numerosas optimizaciones para generar un motor de tiempo de ejecución altamente optimizado para su despliegue. Este proceso es crucial para implantar modelos de forma eficiente en entornos de producción, especialmente cuando la velocidad y la capacidad de respuesta son fundamentales.
TensorRT consigue importantes mejoras de rendimiento mediante varias técnicas sofisticadas:
El flujo de trabajo suele consistir en tomar un modelo entrenado (por ejemplo, de PyTorch o TensorFlowa menudo a través de un formato intermedio como ONNX) e introducirlo en el optimizador TensorRT . TensorRT analiza el modelo, realiza optimizaciones del grafo y optimizaciones específicas del objetivo basadas en la precisión especificada y GPU objetivo, y finalmente genera un plan de inferencia optimizado, conocido como motor TensorRT . Este archivo de motor puede desplegarse para una inferencia rápida.
TensorRT es muy relevante para la fase de despliegue de modelos del ciclo de vida del aprendizaje automático. Su capacidad para acelerar significativamente la inferencia lo hace indispensable para aplicaciones que requieren inferencia en tiempo real, como la detección de objetos con modelos como Ultralytics YOLOla segmentación de imágenes y el procesamiento del lenguaje natural. Es un componente clave en la pila de software NVIDIA , junto con herramientas como CUDAque permite a los desarrolladores aprovechar todo el potencial del hardware NVIDIA , desde las potentes GPU para centros de datos hasta los módulos NVIDIA Jetson de bajo consumo para la IA Edge. Ultralytics proporciona una integración perfecta, permitiendo a los usuarios exportar los modelos YOLO al formato TensorRT para una implantación optimizada, a menudo utilizado con plataformas como el Servidor de InferenciaTriton .
TensorRT se utiliza ampliamente en diversos sectores en los que se necesita una inferencia de IA rápida y eficaz:
Aunque TensorRT se centra en optimizar la inferencia específicamente para las GPU NVIDIA , existen otras herramientas en el ecosistema:
El diferenciador clave de TensorRT es su profunda integración con el hardware NVIDIA y sus agresivas estrategias de optimización adaptadas a las GPU, que a menudo producen los benchmarks de mayor rendimiento (ver Benchmarks MLPerf) en plataformas NVIDIA en comparación con tiempos de ejecución de propósito más general. La gestión de modelos y despliegues puede agilizarse utilizando plataformas como Ultralytics HUB.