Explora la diferencia entre la inferencia en tiempo real y la inferencia por lotes al utilizar Ultralytics YOLO11 para diversas aplicaciones de visión por ordenador.
Si has visto un coche autoconducido en acción, habrás sido testigo de la inferencia de IA en tiempo real. Un coche autoconducido suele utilizar cámaras, sensores e IA para procesar su entorno y tomar decisiones casi instantáneas. Sin embargo, cuando no se necesitan respuestas rápidas, la inferencia en tiempo real puede consumir muchos recursos.
Una opción mejor en estos casos es la inferencia por lotes. En lugar de procesar los datos continuamente en tiempo real, una inferencia por lotes puede manejar grandes conjuntos de datos a intervalos programados. Este enfoque ayuda a ahorrar recursos, reducir el consumo de energía y disminuir los costes de infraestructura.
Por ejemplo, en aplicaciones de visión por ordenador, modelos como Ultralytics YOLO11 pueden utilizarse para tareas en tiempo real como la detección de objetos y la segmentación de instancias. Sin embargo, procesar grandes volúmenes de datos visuales en tiempo real puede ser exigente.
Con la inferencia por lotes, YOLO11 puede ejecutarse sobre datos visuales por lotes, reduciendo la carga del sistema y mejorando la eficiencia sin sacrificar el rendimiento. Esto facilita el despliegue de soluciones de IA de Visión a escala sin sobrecargar el hardware ni aumentar los costes.
En este artículo exploraremos la inferencia por lotes, sus ventajas y cómo puede aplicarse la inferencia por lotes con YOLO11 en aplicaciones de visión por ordenador. ¡Vamos a empezar!
Puedes pensar en la inferencia por lotes como abordar una gran tarea de una sola vez, en lugar de manejarla pieza a pieza a medida que llega. En lugar de procesar constantemente los datos en tiempo real, la inferencia por lotes te permite procesar grandes grupos de datos a intervalos determinados. Este enfoque es mucho más eficaz cuando no se necesitan respuestas inmediatas, lo que ayuda a ahorrar recursos informáticos, reducir el consumo de energía y recortar costes.
Cuando se trata de visión por ordenador, hay ciertas aplicaciones en las que la baja latencia es vital. La baja latencia se refiere al retraso mínimo entre la recepción de la entrada (como una imagen o un fotograma de vídeo) y la respuesta del sistema. Por ejemplo, en la supervisión de la seguridad en tiempo real, incluso pequeños retrasos pueden suponer riesgos para la seguridad.
Sin embargo, en muchos otros escenarios de visión por ordenador, la baja latencia no es tan crítica. Aquí es donde brilla la inferencia por lotes: cuando el sistema no necesita reaccionar instantáneamente. La inferencia por lotes funciona alimentando datos visuales a un modelo de visión por ordenador en grupos o lotes, lo que permite al sistema procesar grandes conjuntos de datos a la vez en lugar de hacerlo continuamente en tiempo real.
A continuación te explicamos los pasos que hay que seguir para hacer una inferencia por lotes:
Ahora que ya hemos explicado qué es la inferencia por lotes y en qué se diferencia de la inferencia en tiempo real, veamos con más detalle cuándo utilizarla.
La inferencia por lotes es ideal para analizar datos históricos. Supongamos que tienes grabaciones de vigilancia de una estación de metro durante el último mes, e intentas identificar patrones concretos, como el número de personas que entran y salen a distintas horas del día.
En lugar de procesar cada fotograma en tiempo real, la inferencia por lotes te permite procesar el metraje de todo un mes por lotes, identificando acontecimientos o tendencias clave sin necesidad de obtener resultados inmediatos. De este modo, puedes analizar grandes volúmenes de datos con mayor eficacia y obtener información sobre patrones a largo plazo, sin abrumar al sistema ni requerir una supervisión constante.
La inferencia por lotes también es una solución óptima cuando los recursos del sistema son limitados. Al ejecutar la inferencia durante las horas de menor actividad (como por la noche), puedes ahorrar en costes informáticos y asegurarte de que el sistema no se sobrecarga durante las horas de mayor uso. Esto lo convierte en un enfoque eficaz y rentable para empresas o proyectos que necesitan procesar grandes conjuntos de datos pero no requieren análisis en tiempo real.
El paquetePython Ultralytics admite la inferencia por lotes para modelos como YOLO11. Con YOLO11, puedes ejecutar fácilmente la inferencia por lotes especificando el argumento "lote", que determina cuántas imágenes o fotogramas de vídeo se procesan a la vez.
Durante el proceso de inferencia por lotes, se generan predicciones para todas las imágenes del lote simultáneamente. Por defecto, el tamaño del lote está fijado en 1, pero puedes ajustarlo al número que prefieras.
Por ejemplo, si el tamaño del lote se establece en 5, YOLO11 procesará cinco imágenes o fotogramas de vídeo a la vez y generará predicciones para los cinco a la vez. Los tamaños de lote mayores suelen dar lugar a tiempos de inferencia más rápidos, ya que procesar varias imágenes en un lote es más eficiente que manejarlas individualmente.
A continuación, vamos a explorar algunos casos reales de uso de la visión por ordenador para la inferencia por lotes.
En la investigación médica, es muy habitual trabajar con grandes cantidades de datos visuales. Aquí, la inferencia por lotes puede ayudar a los científicos a analizar los datos más fácilmente en campos como la química, la biología y la genética. En lugar de analizarlos de uno en uno, los datos se procesan por lotes, ahorrando tiempo y esfuerzo.
Por ejemplo, en los centros médicos, la inferencia por lotes puede ser especialmente útil para analizar grandes conjuntos de imágenes médicas, como resonancias magnéticas o tomografías computarizadas. Los hospitales pueden recoger estas exploraciones a lo largo del día y procesarlas por lotes durante la noche.
Este enfoque permite a los hospitales aprovechar mejor su hardware y su personal, reducir los costes operativos y garantizar que todas las exploraciones se revisan de forma coherente y uniforme. También es beneficioso para grandes proyectos de investigación y estudios a largo plazo, en los que es necesario manejar grandes cantidades de datos.
Los coches autoconducidos utilizan tecnologías de IA, como la visión por ordenador, para procesar el mundo que les rodea. Con la ayuda de modelos avanzados como YOLO11, los sistemas de a bordo del coche pueden reconocer otros vehículos, líneas de carril, señales de tráfico y personas en la calle. Aunque la inferencia en tiempo real es fundamental en la carretera, la tecnología de autoconducción también depende en gran medida de la inferencia por lotes entre bastidores.
Después de que un coche complete un viaje, los datos que recoge, como horas de grabaciones de cámaras, lecturas de sensores y escaneos LIDAR, pueden procesarse posteriormente en grandes lotes. Esto permite a los ingenieros actualizar los modelos de IA del coche, aumentar la seguridad del sistema y mejorar su capacidad para hacer frente a diversas condiciones de conducción.
La inferencia por lotes también se utiliza en simulaciones de conducción autónoma para probar cómo reaccionarían los coches autoconducidos en distintas situaciones, como atravesar cruces muy transitados o responder a movimientos impredecibles de peatones. Este enfoque ahorra tiempo, reduce costes y evita los riesgos asociados a probar cada escenario en la vida real.
Del mismo modo, para las tiendas minoristas, la inferencia por lotes con modelos de visión por ordenador como YOLO11 puede mejorar significativamente la eficacia operativa. Por ejemplo, los sistemas de cámaras de las tiendas pueden captar miles de imágenes a lo largo del día, que luego pueden procesarse por lotes durante la noche.
Esto permite a las tiendas analizar lo que está ocurriendo en la tienda, como el comportamiento de los clientes, los patrones de tráfico y las interacciones con los productos, sin necesidad de un procesamiento en tiempo real, lo que puede suponer un reto para las tiendas más pequeñas.
Otro ejemplo interesante es utilizar la inferencia por lotes para generar mapas de calor, que visualizan las zonas de mayor y menor actividad de los clientes dentro de la tienda. Analizando estos mapas de calor, los minoristas pueden identificar qué zonas atraen más tráfico peatonal y qué partes de la tienda podrían necesitar más atención u optimización de la colocación de los productos. Estos datos pueden ayudar a los minoristas a tomar mejores decisiones sobre la distribución de la tienda, la colocación de los productos e incluso las estrategias promocionales para mejorar la experiencia del cliente y las ventas.
He aquí algunas de las principales ventajas que la inferencia por lotes puede aportar a diversos sectores:
Aunque utilizar la inferencia por lotes tiene muchas ventajas, también hay que tener en cuenta algunas limitaciones. He aquí algunos factores a tener en cuenta:
La inferencia por lotes es una forma eficaz de procesar grandes volúmenes de datos visuales que no requieren resultados inmediatos. En lugar de analizar cada imagen en tiempo real, las procesa por lotes en momentos programados, como por la noche.
Este método es rentable, reduce la carga computacional y sigue proporcionando resultados precisos. Desde ayudar a las tiendas a gestionar el inventario hasta asistir a los médicos en el análisis de exploraciones médicas y mejorar las tecnologías de los coches autoconducidos, la inferencia por lotes hace que la visión por ordenador sea más accesible, asequible y práctica para las aplicaciones del mundo real.
¿Listo para sumergirte en la IA? Explora nuestro repositorio de GitHub, conéctate con nuestra comunidad y consulta nuestras opciones de licencia para iniciar tu viaje por la visión computerizada. Obtén más información sobre innovaciones como la IA en la fabricación y la visión por ordenador en la industria logística en nuestras páginas de soluciones.
Comienza tu viaje con el futuro del aprendizaje automático