Glossaire

Réseau adversarial génératif (GAN)

Découvre comment les GAN révolutionnent l'IA en générant des images réalistes, en améliorant les données et en favorisant les innovations dans les domaines de la santé, des jeux et bien plus encore.

Les réseaux adversoriels génératifs (GAN) représentent une classe puissante de cadres d'apprentissage machine (ML), introduits pour la première fois par Ian Goodfellow et ses collègues en 2014. Ils appartiennent au domaine de l'IA générative, se concentrant sur la création de nouvelles données qui ressemblent à un ensemble de données d'entraînement donné. L'idée centrale des GAN implique deux réseaux neuronaux (NN), le générateur et le discriminateur, engagés dans un jeu compétitif. Ce processus contradictoire pousse le système à produire des résultats synthétiques très réalistes, tels que des images, de la musique ou du texte.

Comment fonctionnent les GANS

L'architecture d'un GAN se compose de deux éléments principaux qui sont formés simultanément :

Le générateur : Ce réseau prend un bruit aléatoire (un vecteur de nombres aléatoires, souvent échantillonné à partir d'une distribution gaussienne) en entrée et tente de le transformer en données qui imitent la distribution des données réelles. Par exemple, il peut générer une image synthétique d'un chat qui ressemble aux images de l'ensemble de données d'apprentissage. Son objectif est de produire des sorties qui ne se distinguent pas des données réelles, ce qui permet de tromper le discriminateur.
Le discriminateur : Ce réseau agit comme un classificateur binaire. Il reçoit à la fois des échantillons de données réelles (provenant de l'ensemble de données réel) et de faux échantillons de données (créés par le générateur). Sa tâche consiste à déterminer si chaque échantillon d'entrée est réel ou faux. Il apprend cela grâce à des techniques d'apprentissage supervisé standard, dans le but de classer correctement les échantillons réels et générés.

Le processus de formation contradictoire

La formation d'un GAN est un processus dynamique dans lequel le générateur et le discriminateur s'affrontent et s'améliorent ensemble :

Le générateur produit un lot de données synthétiques.
Le discriminateur est entraîné sur un lot contenant à la fois des données réelles et les données synthétiques du générateur, apprenant ainsi à les différencier. La rétro-propagation est utilisée pour mettre à jour ses poids en fonction de la précision de sa classification.
Le générateur est ensuite entraîné sur la base des résultats du discriminateur. Son objectif est de produire des données que le Discriminateur classe à tort comme réelles. Les gradients repassent par le discriminateur (temporairement fixé) pour mettre à jour les poids du générateur.

Ce cycle se poursuit, conduisant idéalement à un équilibre où le générateur produit des données si réalistes que le discriminateur ne peut que deviner au hasard (avec une précision de 50 %) si un échantillon est vrai ou faux. À ce stade, le générateur a appris à se rapprocher de la distribution des données sous-jacentes de l'ensemble d'apprentissage.

Applications principales

Les GAN ont permis des avancées significatives dans divers domaines :

Génération d'images : Création d'images photoréalistes, telles que des visages humains(StyleGAN par NVIDIA Research), des animaux ou des objets qui n'existent pas. Cela a des applications dans les domaines de l'art, du design et du divertissement, mais soulève également des questions éthiques concernant les deepfakes.
Augmentation des données synthétiques : Générer des données synthétiques réalistes pour compléter les ensembles de données réels. Ceci est particulièrement utile dans des domaines tels que l'analyse d'images médicales, où les données réelles peuvent être rares ou soumises à des contraintes de confidentialité. Par exemple, les GAN peuvent créer des images radiographiques synthétiques montrant des conditions rares afin d'améliorer la robustesse des modèles de vision par ordinateur (VA) utilisés pour des tâches telles que la détection ou la segmentation d' objets. Cette augmentation peut améliorer la formation de modèles tels que Ultralytics YOLO11.
Traduction d'image à image : Transformer des images d'un domaine à un autre (par exemple, convertir des croquis en photos, changer les saisons d'un paysage ou effectuer un transfert de style neuronal).
Super-résolution : Améliore la résolution des images de faible qualité.
Synthèse texte-image : Génération d'images à partir de descriptions textuelles (bien que souvent surpassée par des architectures plus récentes comme les modèles de diffusion).

GANS vs. autres modèles

Il est important de distinguer les GAN des autres types de modèles :

Modèles discriminatifs : La plupart des modèles de classification et de régression standard (comme ceux utilisés pour la classification d'images ou la détection d'objets standard) sont discriminatifs. Ils apprennent les limites de décision pour séparer les différentes classes ou prédire une valeur en fonction des caractéristiques d'entrée. En revanche, les GAN sont génératifs - ils apprennent la distribution de probabilité sous-jacente des données elles-mêmes pour créer de nouveaux échantillons.
Modèles de diffusion : Les modèles de diffusion sont une autre classe puissante de modèles génératifs qui ont récemment gagné en importance, atteignant souvent des résultats de pointe dans la génération d'images. Ils fonctionnent en ajoutant progressivement du bruit aux données, puis en apprenant à inverser ce processus. Bien qu'ils produisent parfois des images plus fidèles et offrent une formation plus stable que les GAN, ils peuvent être plus gourmands en ressources informatiques lors de l'inférence.

Défis et progrès

La formation des GAN peut être notoirement difficile en raison de problèmes tels que :

Effondrement du mode : Le générateur ne produit qu'une variété limitée de sorties, ne parvenant pas à capturer toute la diversité des données d'apprentissage. Pour en savoir plus sur l'effondrement des modes.
Instabilité de la formation : Le générateur et le discriminateur peuvent ne pas converger en douceur, ce qui entraîne des oscillations ou des divergences. Le problème du gradient qui s'évanouit peut également se produire.
Évaluation : Quantifier la qualité et la diversité des échantillons générés reste un défi. Des mesures telles que le score d'inception (IS) et la distance d'inception de Fréchet (FID) sont couramment utilisées mais présentent des limites.

Les chercheurs ont développé de nombreuses variantes de GAN pour relever ces défis, comme les Wasserstein GAN(WGAN) pour une meilleure stabilité et les Conditional GAN(cGAN) qui permettent de générer des données conditionnées par des attributs spécifiques (par exemple, générer une image d'un chiffre spécifique). Des outils comme PyTorch et TensorFlow fournissent des outils et des bibliothèques facilitant la mise en œuvre et la formation des GAN.

Réseau adversarial génératif (GAN)

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Comment fonctionnent les GANS

Le processus de formation contradictoire

Applications principales

GANS vs. autres modèles

Défis et progrès

Lire plus de blogs

Rejoins la communauté Ultralytics

Réseau adversarial génératif (GAN)

Entraîne les modèles YOLO simplementavec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Comment fonctionnent les GANS

Le processus de formation contradictoire

Applications principales

GANS vs. autres modèles

Défis et progrès

Lire plus de blogs

Rejoins la communauté Ultralytics

Entraîne les modèles YOLO simplement
avec Ultralytics HUB