L'IA generativa sta cambiando la strada da percorrere per la computer vision

Abirami Vina

5 minuti di lettura

24 marzo 2025

Scoprite le interessanti intuizioni di una tavola rotonda a YOLO Vision 2024. Scoprite come l'IA generativa sta delineando la strada da percorrere per i modelli di IA di Vision in tempo reale.

L'IA generativa è una branca dell'intelligenza artificiale (IA) che crea nuovi contenuti, come immagini, testi o audio, apprendendo modelli dai dati esistenti. Grazie ai recenti progressi, oggi può essere utilizzata per produrre contenuti altamente realistici che spesso imitano la creatività umana.

Tuttavia, l'impatto dell'IA generativa va oltre la semplice creazione di contenuti. Con la continua evoluzione dei modelli di visione artificiale in tempo reale, come i modelli YOLO di Ultralytics, l'IA generativa sta ridefinendo il modo in cui i dati visivi vengono elaborati e aumentati, aprendo la strada ad applicazioni innovative in scenari reali. 

Questo nuovo cambiamento tecnologico è stato un interessante argomento di conversazione a YOLO Vision 2024 (YV24), un evento ibrido annuale ospitato da Ultralytics. L'YV24 ha visto riunirsi appassionati di AI e leader del settore per discutere delle ultime scoperte nel campo della computer vision. L'evento si è concentrato sull'innovazione, l'efficienza e il futuro delle soluzioni di IA in tempo reale.

Uno dei momenti salienti dell'evento è stata la tavola rotonda YOLO in the Age of Generative AI. Il panel ha visto la partecipazione di Glenn Jocher, fondatore e CEO di Ultralytics, Jing Qiu, Senior Machine Learning Engineer di Ultralytics, e Ao Wang della Tsinghua University. I partecipanti hanno analizzato il modo in cui l'IA generativa sta influenzando la computer vision e le sfide legate alla creazione di modelli di IA pratici.

In questo articolo, rivedremo i punti chiave della loro discussione e daremo un'occhiata più da vicino a come l'IA generativa sta trasformando l'IA di visione.

Sviluppo dei modelli YOLO di Ultralytics

Oltre a Glenn Jocher, molti ingegneri qualificati hanno svolto un ruolo fondamentale nello sviluppo dei modelli YOLO di Ultralytics. Uno di loro, Jing Qiu, ha raccontato il suo inizio inaspettato con YOLO. Ha spiegato che la sua passione per l'intelligenza artificiale è nata durante gli anni dell'università. Ha dedicato molto tempo all'esplorazione e all'apprendimento di questo campo. Jing Qiu ha ricordato come sia entrato in contatto con Glenn Jocher su GitHub e come sia stato coinvolto in vari progetti di IA.

In aggiunta a quanto detto da Jing Qiu, Glenn Jocher ha descritto GitHub come "un modo incredibile di condividere, dove persone che non hai mai incontrato si uniscono per aiutarsi a vicenda, contribuendo al lavoro degli altri. È una grande comunità e un ottimo modo per iniziare a lavorare nell'IA".

__wf_reserved_inherit
Figura 1. Glenn Jocher e Jing Qiu parlano sul palco di YV24.

L'interesse di Jing Qiu per l'intelligenza artificiale e il suo lavoro su Ultralytics YOLOv5 hanno contribuito a perfezionare il modello. In seguito, ha svolto un ruolo chiave nello sviluppo di Ultralytics YOLOv8, che ha introdotto ulteriori miglioramenti. Lo ha descritto come un viaggio incredibile. Oggi Jing Qiu continua a migliorare e a lavorare su modelli come Ultralytics YOLO11

YOLOv10: ottimizzato per le prestazioni reali

Partecipando alla tavola rotonda in remoto dalla Cina, Ao Wang si è presentato come uno studente di dottorato. Inizialmente ha studiato ingegneria del software, ma la sua passione per l'intelligenza artificiale lo ha portato a orientarsi verso la computer vision e il deep learning.

Il suo primo incontro con il famoso modello YOLO è avvenuto durante la sperimentazione di varie tecniche e modelli di intelligenza artificiale. È rimasto impressionato dalla sua velocità e precisione, che lo ha spinto ad approfondire le attività di computer vision come il rilevamento degli oggetti. Recentemente, Ao Wang ha contribuito a YOLOv10, una versione recente del modello YOLO. La sua ricerca si è concentrata sull'ottimizzazione del modello per renderlo più veloce e preciso.

La differenza fondamentale tra l'IA generativa e l'IA di visione

Poi il gruppo ha iniziato a discutere di IA generativa e Jing Qiu ha sottolineato che l'IA generativa e l'IA visiva hanno scopi molto diversi. L'IA generativa crea o genera cose come testo, immagini e video, mentre l'IA di visione analizza ciò che già esiste, soprattutto immagini.

Glenn Jocher ha sottolineato che anche le dimensioni sono una grande differenza. I modelli di intelligenza artificiale generativa sono enormi e spesso contengono miliardi di parametri - impostazioni interne che aiutano il modello ad apprendere dai dati. I modelli di computer vision sono molto più piccoli. Il modello YOLO più piccolo che abbiamo è circa mille volte più piccolo del più piccolo LLM [Large Language Model]. Quindi, 3 milioni di parametri contro tre miliardi".

__wf_reserved_inherit
Figura 3. La tavola rotonda sull'IA generativa e l'IA della visione a YV24.

Jing Qiu ha aggiunto che i processi di formazione e implementazione dell'IA generativa e della computer vision sono molto diversi. L'intelligenza artificiale generativa ha bisogno di server enormi e potenti per funzionare. I modelli come YOLO, invece, sono costruiti per essere efficienti e possono essere addestrati e distribuiti su hardware standard. Questo rende i modelli YOLO di Ultralytics più pratici per l'uso nel mondo reale.

Anche se sono diversi, questi due campi stanno iniziando a intrecciarsi. Glenn Jocher ha spiegato che l'IA generativa sta apportando nuovi progressi all'IA di visione, rendendo i modelli più intelligenti ed efficienti. 

L'impatto dell'IA generativa sulla computer vision

L'intelligenza artificiale generativa è progredita rapidamente e queste scoperte stanno influenzando molte altre aree dell'intelligenza artificiale, compresa la computer vision. Vediamo quindi alcune affascinanti intuizioni del gruppo di esperti in materia.

I progressi dell'hardware rendono possibili le innovazioni dell'IA

All'inizio del panel, Glenn Jocher ha spiegato che le idee di apprendimento automatico esistono da molto tempo, ma i computer non erano abbastanza potenti per farle funzionare. Le idee sull'intelligenza artificiale necessitano di hardware più potente per diventare realtà.

L'avvento delle GPU (Graphics Processing Unit) negli ultimi 20 anni, con le loro capacità di elaborazione in parallelo, ha cambiato tutto. Hanno reso l'addestramento dei modelli di intelligenza artificiale molto più veloce ed efficiente, consentendo lo sviluppo dell'apprendimento profondo a un ritmo rapido.

Oggi i chip per l'IA, come le TPU (Tensor Processing Unit) e le GPU ottimizzate, consumano meno energia pur gestendo modelli più grandi e complessi. Questo ha reso l'IA più accessibile e utile nelle applicazioni del mondo reale.

Con ogni nuovo miglioramento dell'hardware, le applicazioni di IA generativa e di computer vision diventano sempre più potenti. Questi progressi rendono l'IA in tempo reale più veloce, più efficiente e pronta per essere utilizzata in un maggior numero di settori.

Come l'intelligenza artificiale generativa sta plasmando i modelli di rilevamento degli oggetti

Alla domanda su come l'IA generativa stia influenzando la computer vision, Jing Qiu ha risposto che i trasformatori - modelli che aiutano l'IA a concentrarsi sulle parti più importanti di un'immagine - hanno cambiato il modo in cui l'IA comprende ed elabora le immagini. Il primo grande passo è stato DETR (Detection Transformer), che ha utilizzato questo nuovo approccio per il rilevamento degli oggetti. Ha migliorato l'accuratezza, ma ha avuto problemi di prestazioni che lo hanno reso più lento in alcuni casi.

Per risolvere questo problema, i ricercatori hanno creato modelli ibridi come RT-DETR. Questi modelli combinano reti neurali convoluzionali (CNN, modelli di apprendimento profondo che imparano ed estraggono automaticamente le caratteristiche dalle immagini) e trasformatori, bilanciando velocità e precisione. Questo approccio sfrutta i vantaggi dei trasformatori e rende più veloce il rilevamento degli oggetti.

È interessante notare che YOLOv10 utilizza livelli di attenzione basati su trasformatori (parti del modello che agiscono come un riflettore per evidenziare le aree più importanti di un'immagine ignorando i dettagli meno rilevanti) per aumentare le sue prestazioni. 

Ao Wang ha anche ricordato come l'IA generativa stia cambiando il modo in cui vengono addestrati i modelli. Tecniche come la modellazione di immagini mascherate aiutano l'IA ad apprendere dalle immagini in modo più efficiente, riducendo la necessità di grandi set di dati etichettati manualmente. In questo modo, l'addestramento della computer vision diventa più veloce e meno dispendioso in termini di risorse.

Il futuro dell'IA generativa e dell'IA visiva 

Un'altra idea chiave discussa dal panel è stata quella di come l'IA generativa e l'IA visiva possano unirsi per costruire modelli più capaci. Glenn Jocher ha spiegato che, sebbene questi due approcci abbiano punti di forza diversi, la loro combinazione potrebbe aprire nuove possibilità. 

Ad esempio, i modelli di Vision AI come YOLO spesso suddividono un'immagine in una griglia per identificare gli oggetti. Questo metodo basato sulla griglia potrebbe aiutare i modelli linguistici a migliorare la loro capacità di individuare i dettagli e di descriverli, una sfida che molti modelli linguistici devono affrontare oggi. In sostanza, la fusione di queste tecniche potrebbe portare a sistemi in grado di individuare con precisione e spiegare chiaramente ciò che vedono.

__wf_reserved_inherit
Figura 4. Il futuro dell'intelligenza artificiale generativa e della visione. Immagine dell'autore.

Punti di forza

L'IA generativa e la computer vision stanno progredendo insieme. Se da un lato l'IA generativa crea immagini e video, dall'altro migliora l'analisi di immagini e video apportando nuove idee innovative che potrebbero rendere i modelli di IA di visione più precisi ed efficienti. 

In questo interessante panel talk di YV24, Glenn Jocher, Jing Qiu e Ao Wang hanno condiviso le loro riflessioni su come queste tecnologie stanno plasmando il futuro. Grazie al miglioramento dell'hardware dell'IA, l'IA generativa e l'IA di visione continueranno a evolversi, portando a innovazioni ancora maggiori. Questi due campi stanno lavorando insieme per creare un'IA più intelligente, più veloce e più utile per la vita quotidiana.

Unitevi alla nostra comunità ed esplorate il nostro repository GitHub per saperne di più sulla Vision AI. Scoprite le nostre opzioni di licenza per dare il via ai vostri progetti di computer vision. Siete interessati a innovazioni come l'IA nella produzione o la computer vision nella guida autonoma? Visitate le nostre pagine dedicate alle soluzioni per saperne di più. 

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti
OSZAR »