Glosario

Sobreajuste

Aprende a identificar, prevenir y abordar el sobreajuste en el aprendizaje automático. Descubre técnicas para mejorar la generalización de los modelos y el rendimiento en el mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El sobreajuste en el aprendizaje automático (AM) se produce cuando un modelo aprende demasiado bien los datos de entrenamiento, captando el ruido y las fluctuaciones aleatorias en lugar del patrón subyacente. Esto conduce a un rendimiento excelente en el conjunto de datos de entrenamiento, pero a una generalización deficiente en datos nuevos y desconocidos. Esencialmente, el modelo se vuelve demasiado complejo y se adapta específicamente a los ejemplos de entrenamiento, algo parecido a memorizar respuestas en lugar de comprender conceptos. Es un reto habitual cuando se entrenan modelos de IA, especialmente con algoritmos complejos como las redes neuronales utilizadas en Ultralytics YOLO para tareas como la detección de objetos y la segmentación de imágenes.

Comprender el sobreajuste

El sobreajuste surge porque los modelos de ML pretenden minimizar los errores en los datos de entrenamiento. Si un modelo posee una complejidad excesiva (por ejemplo, demasiados parámetros o capas en un modelo de aprendizaje profundo ), puede ajustarse incluso al ruido aleatorio presente en el conjunto de entrenamiento. Este ruido no representa verdaderos patrones subyacentes y es poco probable que esté presente en nuevos conjuntos de datos. Imagina adaptar un traje perfectamente a las medidas exactas de alguien en un día concreto: podría no quedarle bien si su peso fluctúa ligeramente o si se lo prueba otra persona. En el ML, este "ajuste perfecto" en los datos de entrenamiento se traduce en inflexibilidad y un rendimiento deficiente en los datos del mundo real, lo que a menudo se denomina generalización deficiente.

El problema opuesto es la inadaptación, cuando un modelo es demasiado simple para captar la estructura subyacente de los datos. Un modelo insuficientemente ajustado funciona mal tanto en los datos de entrenamiento como en los nuevos, porque no ha aprendido lo suficiente. El objetivo es encontrar un equilibrio óptimo, que a menudo se discute en el contexto del equilibrio entre sesgo y varianza, creando un modelo que generalice bien los datos no vistos. Una varianza elevada es característica de un ajuste excesivo, mientras que un sesgo elevado es característico de un ajuste insuficiente. Comprender este concepto de compensación es crucial para el desarrollo de modelos.

Ejemplos reales de sobreajuste

  • Análisis de imágenes médicas: Considera un modelo entrenado para el análisis de imágenes médicas, como la detección de tumores en resonancias magnéticas. Si los datos de entrenamiento proceden principalmente de un único modelo de escáner de IRM, la IA podría sobreajustarse a las características específicas de la imagen (como los patrones de ruido o la resolución) de esa máquina. Cuando se le presentan exploraciones de un escáner diferente o imágenes de menor calidad, su rendimiento puede disminuir significativamente porque ha aprendido artefactos específicos de la máquina en lugar de características generales del tumor. El sesgo del conjunto de datos puede agravar este problema.
  • Vehículos autónomos: Un modelo de detección de objetos utilizado en un vehículo autón omo podría entrenarse en gran medida con imágenes captadas durante un tiempo claro y soleado. Este modelo podría alcanzar una gran precisión en datos de prueba similares, pero no detectar con fiabilidad a peatones, ciclistas u otros vehículos en condiciones adversas como lluvia intensa, niebla o de noche. Se adaptó en exceso a las señales visuales específicas del entorno de entrenamiento (por ejemplo, sombras duras, iluminación brillante) en lugar de aprender las características generales y sólidas de los objetos en diferentes condiciones. Garantizar datos de entrenamiento diversos, potencialmente utilizando conjuntos de datos como COCO o Argoverse, ayuda a mitigar esto.

Identificar el sobreajuste

La sobreadaptación suele identificarse comparando el rendimiento de un modelo en el conjunto de datos de entrenamiento frente a otro conjunto de datos de validación.

  • Métricas de rendimiento: Controla métricas como la exactitud, la precisión, la recuperación y la puntuación F1. Si las métricas de entrenamiento siguen mejorando mientras que las métricas de validación se estancan o empeoran, es probable que el modelo esté sobreajustado. El valor de la función de pérdida suele disminuir significativamente en el conjunto de entrenamiento, pero aumenta o se estanca en el conjunto de validación. Puedes explorar varias métricas de rendimientoYOLO para su evaluación.
  • Curvas de aprendizaje: Trazar el rendimiento del modelo (por ejemplo, la pérdida o la precisión) a lo largo de las épocas para los conjuntos de entrenamiento y validación proporciona una visión visual. Una diferencia cada vez mayor entre la curva de entrenamiento (que mejora) y la curva de validación (que se estanca o degrada) es un signo clásico de sobreajuste. Visualizar las curvas de aprendizaje ayuda a diagnosticarlo.

Evitar el sobreajuste

Varias técnicas pueden ayudar a mitigar el sobreajuste y mejorar la generalización del modelo:

  • Validación cruzada: Las técnicas como la validación cruzada K-Fold utilizan subconjuntos diferentes de los datos para el entrenamiento y la validación, proporcionando una estimación más sólida del rendimiento del modelo en datos no vistos.
  • Aumento de datos: Aumentar artificialmente el tamaño y la diversidad del conjunto de datos de entrenamiento aplicando transformaciones como rotación, escalado, recorte y cambios de color. Las técnicas de aumento de datosUltralytics YOLO están integradas para ayudar a mejorar la robustez.
  • Regularización: Añadir penalizaciones a la función de pérdida basadas en la complejidad del modelo (por ejemplo, la magnitud de los pesos). Entre los métodos habituales se encuentran la regularización L1 y L2, que desalientan los pesos grandes. Más información sobre los métodos de regularización L1 y L2.
  • Detención temprana: Supervisar el rendimiento del modelo en el conjunto de datos de validación durante el entrenamiento y detener el proceso de entrenamiento cuando el rendimiento de validación empieza a degradarse, evitando que el modelo aprenda ruido en épocas posteriores. Ver una explicación de la parada anticipada en Keras.
  • Desactivación: Poner a cero aleatoriamente una fracción de las activaciones neuronales durante el entrenamiento. Esto obliga a la red a aprender características más robustas que no dependen de una sola neurona. El concepto de Dropout se explica en detalle aquí.
  • Poda del modelo: Eliminar parámetros o conexiones menos importantes dentro de una red neuronal entrenada para reducir su complejidad sin afectar significativamente al rendimiento. Neural Magic ofrece herramientas para la poda.
  • Simplificar la arquitectura del modelo: Utilizar un modelo menos complejo (por ejemplo, menos capas o parámetros) puede evitar el sobreajuste, especialmente si el conjunto de datos es pequeño. Esto podría implicar elegir una variante del modelo más pequeña, como comparar YOLOv8n frente a YOLOv8x.
  • Consigue más datos: Aumentar la cantidad de datos de entrenamiento de alta calidad suele ser una de las formas más eficaces de mejorar la generalización y reducir el sobreajuste. Explora varios conjuntos de datosUltralytics .

Al comprender y abordar el sobreajuste, los desarrolladores pueden construir modelos de IA más fiables y eficaces. Herramientas como Ultralytics HUB pueden ayudar en el seguimiento de experimentos y la evaluación de modelos, contribuyendo a la detección y mitigación del sobreajuste durante el ciclo de vida de desarrollo del modelo.

Leer todo
OSZAR »