Glossaire

Nettoyage des données

Maîtrise le nettoyage des données pour les projets d'IA et de ML. Apprends des techniques pour corriger les erreurs, améliorer la qualité des données et booster efficacement les performances des modèles !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le nettoyage des données est le processus essentiel qui consiste à identifier et à corriger ou supprimer les erreurs, les incohérences, les inexactitudes et les enregistrements corrompus d'un ensemble de données. Il permet de s'assurer que les données sont exactes, cohérentes et utilisables, ce qui est fondamental pour construire des modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) fiables et efficaces. Imagine que c'est comme préparer des ingrédients de haute qualité avant de cuisiner ; sans données propres, le résultat final (le modèle d'IA) sera probablement imparfait, selon le principe "garbage in, garbage out" commun à la science des données. Des données propres permettent d'améliorer les performances des modèles, d'obtenir des informations plus fiables et de réduire les biais dans l'IA.

Pertinence en matière d'IA et d'apprentissage automatique

En IA et en ML, la qualité des données d'entraînement a un impact direct sur la précision du modèle et sa capacité à se généraliser à de nouvelles données inédites. Le nettoyage des données est une première étape essentielle du flux de travail de ML, qui précède souvent des tâches telles que l 'ingénierie des caractéristiques et l'entraînement des modèles. Des modèles comme Ultralytics YOLOutilisés pour des tâches exigeantes comme la détection d'objets ou la segmentation d'instances, dépendent fortement d'ensembles de données propres et bien structurés pour apprendre efficacement. Les erreurs telles que les images mal étiquetées, les formats de boîtes englobantes incohérents, les valeurs manquantes ou les entrées en double peuvent dégrader considérablement les performances et conduire à des prédictions peu fiables dans les applications du monde réel. Le nettoyage des données permet de s'assurer que le modèle apprend des modèles significatifs plutôt que du bruit ou des erreurs présentes dans les données brutes, ce qui permet d'éviter des problèmes tels que le surajustement.

Tâches courantes de nettoyage des données

Le nettoyage des données fait appel à diverses techniques adaptées aux problèmes spécifiques d'un ensemble de données. Les tâches courantes comprennent :

  • Traitement des données manquantes: Identifier les entrées comportant des valeurs manquantes et décider de les supprimer, de les estimer (imputation) ou d'utiliser des algorithmes robustes aux données manquantes. Il existe différentes stratégies de traitement des données manquantes en fonction du contexte.
  • Corriger les erreurs et les incohérences : Corriger les fautes de frappe, normaliser les unités ou les formats (par exemple, les formats de date, les majuscules) et résoudre les points de données contradictoires. Cela est essentiel pour maintenir l'intégrité des données.
  • Suppression des enregistrements en double : Identifier et éliminer les entrées identiques ou quasi identiques qui peuvent fausser l'analyse ou l'entraînement au modèle.
  • Traitement des valeurs aberrantes : Détecter les points de données qui diffèrent significativement des autres observations. Selon la cause, les valeurs aberrantes peuvent être supprimées, corrigées ou conservées. Diverses méthodes de détection des valeurs aberrantes peuvent être employées.
  • Traiter les erreurs structurelles : Corriger les problèmes liés à la structure des données, tels que les conventions de dénomination incohérentes ou les entrées mal placées.

Applications dans le monde réel

Le nettoyage des données est indispensable à travers de nombreuses applications d'IA/ML :

  1. Analyse d'images médicales: Dans les ensembles de données de soins de santé comme l'ensemble de données sur les tumeurs cérébrales, le nettoyage des données consiste à supprimer les scans de mauvaise qualité ou corrompus (par exemple, les images floues), à normaliser les formats d'image (comme DICOM), à corriger les diagnostics mal étiquetés et à s'assurer que la confidentialité des données des patients est maintenue conformément à des réglementations telles que HIPAA. Des données propres sont essentielles pour former des modèles de diagnostic fiables. Les Instituts nationaux de la santé (NIH) mettent l'accent sur la qualité des données dans la recherche biomédicale. En savoir plus sur l'IA dans le domaine de la santé.
  2. Gestion des stocks dans le commerce de détail: Pour les systèmes qui utilisent la vision par ordinateur pour suivre les stocks, comme ceux qui utilisent potentiellement l'ensemble de données SKU-110K, le nettoyage consiste à corriger les produits mal identifiés dans les images, à supprimer les doublons causés par des erreurs de numérisation, à normaliser les noms ou les codes de produits dans différentes sources de données, et à traiter les incohérences dans les registres de vente utilisés pour les prévisions de la demande ou les systèmes de recommandation. Cela permet de garantir des inventaires précis et des opérations efficaces de la chaîne d'approvisionnement, ce qui contribue à Atteindre l'efficacité de la vente au détail grâce à l'IA. Les plateformes comme Google Cloud AI for Retail s'appuient souvent sur des données d'entrée propres.

Nettoyage des données et concepts connexes

Il est important de distinguer le nettoyage des données des étapes connexes de préparation des données :

  • Prétraitement des données: C'est un terme plus large qui englobe le nettoyage des données, mais aussi d'autres transformations visant à préparer les données pour les modèles ML, comme la normalisation (mise à l'échelle des caractéristiques numériques), le codage des variables catégorielles et l'extraction des caractéristiques. Alors que le nettoyage se concentre sur la correction des erreurs, le prétraitement se concentre sur le formatage des données pour les algorithmes. Consulte le guideUltralytics sur le prétraitement des données annotées pour plus de détails.
  • Étiquetage des données: Il s'agit du processus d'ajout d'étiquettes ou d'annotations informatives (labels) aux données brutes, comme le dessin de boîtes de délimitation autour des objets dans les images pour l'apprentissage supervisé. Le nettoyage des données peut impliquer la correction d'étiquettes incorrectes identifiées lors des contrôles de qualité, mais il est distinct de l'acte initial d'étiquetage. Le guide sur la collecte et l'annotation des données donne des indications sur l'étiquetage. Ultralytics HUB propose des outils pour gérer les ensembles de données étiquetées.
  • Augmentation des données: Cette technique augmente artificiellement la taille et la diversité de l'ensemble de données d'entraînement en créant des copies modifiées des données existantes (par exemple, en faisant pivoter les images, en changeant la luminosité). L'augmentation des données vise à améliorer la généralisation et la robustesse des modèles, tandis que le nettoyage des données se concentre sur l'amélioration de la qualité des données d'origine. Tu trouveras plus d'informations dans Le guide ultime de l'augmentation des données en 2025.

Le nettoyage des données est une pratique fondamentale, souvent itérative, qui augmente considérablement la fiabilité et les performances des systèmes d'IA en garantissant que les données sous-jacentes sont saines. Des outils comme la bibliothèque Pandas sont couramment utilisés pour les tâches de manipulation et de nettoyage des données dans les flux de travail de ML Python. Garantir la qualité des données grâce à un nettoyage rigoureux est vital pour développer une IA digne de confiance, en particulier lorsqu'on travaille avec des tâches complexes de vision par ordinateur (VA) ou des ensembles de données de référence à grande échelle comme COCO ou ImageNet.

Tout lire
OSZAR »