Glossaire

Données de formation

Découvrez l'importance des données d'entraînement dans l'IA. Apprenez comment des ensembles de données de qualité permettent d'obtenir des modèles d'apprentissage automatique précis et robustes pour des tâches réelles.

Dans les domaines de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), les données d'entraînement sont l'ensemble de données fondamental utilisé pour enseigner aux modèles comment effectuer des tâches spécifiques, telles que la classification ou la prédiction. Il s'agit d'une vaste collection d'exemples, où chaque exemple associe généralement une entrée à une sortie ou à une étiquette souhaitée correspondante. Grâce à des processus tels que l'apprentissage supervisé, le modèle analyse ces données, identifie les modèles et les relations sous-jacents et ajuste ses paramètres internes(poids du modèle) pour apprendre la correspondance entre les entrées et les sorties. Cet apprentissage permet au modèle de faire des prédictions ou de prendre des décisions précises lorsqu'il est confronté à de nouvelles données inédites.

Qu'est-ce qu'une donnée de formation ?

Les données d'entraînement constituent le manuel et les exercices d'entraînement d'un modèle d'IA. Il s'agit d'un ensemble d'informations soigneusement sélectionnées et formatées spécifiquement pour servir d'exemples pendant la phase d'apprentissage. Par exemple, dans les tâches de vision artificielle (CV) telles que la détection d'objets, les données d'entraînement sont constituées d'images ou de trames vidéo (les caractéristiques d'entrée) associées à des annotations (étiquettes) qui spécifient l'emplacement(boîtes de délimitation) et la classe des objets dans ces images. La création de ces étiquettes est une étape cruciale connue sous le nom d'étiquetage des données. Le modèle traite ces données de manière itérative, en comparant ses prédictions aux véritables étiquettes et en ajustant ses paramètres à l'aide de techniques telles que la rétropropagation et la descente de gradient afin de minimiser l'erreur ou la fonction de perte.

Importance des données de formation

Les performances et la fiabilité d'un modèle d'IA sont directement liées à la qualité, à la quantité et à la diversité de ses données d'apprentissage. Des données représentatives et de haute qualité sont essentielles pour construire des modèles qui atteignent une précision élevée et qui se généralisent bien aux scénarios du monde réel(Généralisation en ML). À l'inverse, des données d'entraînement insuffisantes, bruyantes ou biaisées peuvent entraîner des problèmes importants tels que des performances médiocres, un surajustement (lorsque le modèle fonctionne bien sur les données d'entraînement mais mal sur les nouvelles données) ou des résultats injustes et discriminatoires en raison de biais inhérents à l'ensemble de données. Le traitement des biais est un aspect essentiel de l'éthique de l'IA. Par conséquent, la collecte, l'annotation et la préparation méticuleuses des données sont des étapes critiques dans le développement de systèmes d'IA performants.

Exemples de données de formation dans des applications réelles

Les données d'entraînement sont le carburant d'innombrables applications d'IA dans divers domaines. En voici deux exemples :

  1. Véhicules autonomes: Les voitures autonomes s'appuient fortement sur des données d'entraînement pour les systèmes de perception. Ces données comprennent de vastes quantités d'images provenant de caméras, de capteurs LiDAR et de radars, méticuleusement étiquetées avec des objets tels que d'autres véhicules, des piétons, des cyclistes, des feux de circulation et des marquages de voies. Les modèles tels que ceux utilisés dans la technologie de Waymo sont formés sur des ensembles de données tels qu'Argoverse pour apprendre à naviguer dans des environnements complexes en toute sécurité. Explorez l'IA dans les solutions automobiles pour plus de détails.
  2. Analyse des sentiments: Dans le cadre du traitement du langage naturel (NLP), les modèles d'analyse des sentiments déterminent la tonalité émotionnelle d'un texte. Les données d'apprentissage consistent en des échantillons de texte (par exemple, des commentaires de clients, des messages sur les médias sociaux) étiquetés avec des sentiments tels que "positif", "négatif" ou "neutre"(Sentiment Analysis - Wikipedia). Cela permet aux entreprises d'évaluer automatiquement l'opinion publique ou la satisfaction des clients.

Qualité et préparation des données

Garantir la qualité des données de formation est primordial et implique plusieurs étapes clés. Le nettoyage des données (Wikipedia) permet de corriger les erreurs, les incohérences et les valeurs manquantes. Le prétraitement des données transforme les données brutes en un format adapté au modèle. Des techniques telles que l'augmentation des données élargissent artificiellement l'ensemble de données en créant des copies modifiées des données existantes (par exemple, en faisant pivoter ou en recadrant des images), ce qui permet d'améliorer la robustesse du modèle et de réduire l'ajustement excessif. La compréhension de vos données par l'exploration, facilitée par des outils tels que l'Explorateur d'ensembles de données Ultralytics, est également cruciale avant de commencer le processus de formation.

Données de formation vs. données de validation et de test

Dans un projet de ML classique, les données sont réparties en trois ensembles distincts :

  • Données de formation : La partie la plus importante, utilisée directement pour former le modèle en ajustant ses paramètres. Une formation efficace implique souvent un examen minutieux des conseils pour la formation du modèle.
  • Données de validation: Un sous-ensemble distinct utilisé périodiquement pendant la formation pour évaluer les performances du modèle sur des données à partir desquelles il n'a pas explicitement appris. Cela permet d'ajuster les hyperparamètres (par exemple, le taux d'apprentissage, la taille du lot) par le biais de processus tels que l'optimisation des hyperparamètres (Wikipedia) et fournit un avertissement précoce contre le surajustement. Le mode de validation est utilisé pour cette évaluation.
  • Données d'essai: Un ensemble de données indépendant, qui n'a pas été vu pendant la formation et la validation et qui n'est utilisé qu'une fois que le modèle a été entièrement formé. Il fournit une évaluation finale et impartiale de la capacité de généralisation du modèle et des performances attendues dans le monde réel. Il est essentiel de tester rigoureusement les modèles avant de les déployer.

Il est essentiel de maintenir une séparation stricte entre ces ensembles de données pour développer des modèles fiables et évaluer avec précision leurs capacités. Des plateformes comme Ultralytics HUB offrent des outils pour gérer efficacement ces ensembles de données tout au long du cycle de développement du modèle. Les modèles de pointe comme Ultralytics YOLO sont souvent pré-entraînés sur de grands ensembles de données de référence comme COCO ou ImageNet, qui servent de données d'entraînement étendues.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers
OSZAR »