Glossário

IA generativa

Descobre como a IA generativa cria conteúdos originais como texto, imagens e áudio, transformando as indústrias com aplicações inovadoras.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Inteligência Artificial Generativa (IA) representa um ramo significativo no domínio mais vasto da inteligência artificial (IA), centrando-se especificamente na criação de sistemas capazes de gerar conteúdos totalmente novos e originais. Este conteúdo pode abranger várias modalidades, incluindo texto, imagens, áudio, código e até dados sintéticos. Ao contrário dos modelos de IA discriminativos, que são treinados para classificar ou fazer previsões com base nos dados de entrada (como identificar objectos numa imagem utilizando a deteção de objectos), os modelos generativos aprendem os padrões, estruturas e distribuições de probabilidade subjacentes num conjunto de dados de treino. Em seguida, utiliza este conhecimento adquirido para produzir novos resultados que imitam as caraterísticas dos dados originais. As recentes descobertas, particularmente impulsionadas por arquitecturas como os transformadores generativos pré-treinados (GPT) e os modelos de difusão, permitiram a criação de conteúdos extraordinariamente realistas e complexos, ultrapassando os limites da criatividade das máquinas.

Como funciona a IA generativa

A ideia central por trás da maioria dos modelos generativos é aprender uma representação da distribuição dos dados. Uma vez aprendida esta distribuição, o modelo pode fazer uma amostragem da mesma para gerar novos pontos de dados estatisticamente semelhantes aos dados em que foi treinado. Isto envolve arquitecturas complexas de redes neuronais (NN) e técnicas de formação sofisticadas. Algumas arquitecturas proeminentes incluem:

IA generativa vs. visão por computador

Embora ambos sejam subcampos da IA, a IA generativa e a visão computacional (CV) têm objectivos fundamentalmente diferentes. A CV centra-se em permitir que as máquinas interpretem e compreendam a informação visual do mundo, realizando tarefas como a classificação de imagens, a deteção de objectos e a segmentação de instâncias. A IA generativa, pelo contrário, centra-se na criação de novos conteúdos visuais (ou outros).

As principais diferenças destacadas durante debates como os do YOLO Vision 2024 incluem:

  1. Tamanho do modelo: Os modelos generativos, especialmente os LLM e os modelos de imagem de grande dimensão, contêm frequentemente milhares de milhões ou mesmo triliões de parâmetros. Os modelos CV concebidos para análise em tempo real, como o Ultralytics YOLO11são normalmente muito mais pequenos e mais eficientes, tendo algumas variantes apenas alguns milhões de parâmetros(comparando os modelos YOLO ).
  2. Recursos computacionais: O treinamento e a execução de grandes modelos generativos requerem um poder computacional substancial, muitas vezes envolvendo clusters distribuídos de GPUs. Muitos modelos de CV, incluindo os da Ultralytics, são optimizados para serem eficientes e podem ser implementados em hardware padrão ou dispositivos de ponta especializados utilizando estruturas como ONNX ou TensorRT.
  3. Objetivo: A CV analisa os dados existentes; a IA generativa sintetiza novos dados.

Apesar destas diferenças, os domínios estão cada vez mais interligados. A IA generativa está a revelar-se valiosa para a CV ao gerar dados sintéticos de alta qualidade. Estes dados sintéticos podem aumentar os conjuntos de dados do mundo real, ajudando a treinar modelos de CV mais robustos e precisos, especialmente para cenários em que os dados reais são escassos ou difíceis de obter, como nas simulações de condução autónoma ou na imagiologia de doenças raras(IA nos cuidados de saúde).

Aplicações no mundo real

A IA generativa está a transformar numerosas indústrias:

  • Criação de conteúdos: Automatiza a criação de artigos, textos de marketing, guiões(GPT-3), cria imagens e obras de arte únicas(Midjourney, DALL-E 3), compõe música e gera conteúdos de vídeo(OpenAI Sora).
  • Geração de dados sintéticos: Criação de conjuntos de dados realistas para treinar modelos de ML em áreas como a robótica, finanças(modelos de visão computacional em finanças) e cuidados de saúde, melhorando o desempenho do modelo e abordando questões de privacidade dos dados. Por exemplo, gerar imagens médicas sintéticas para treinar ferramentas de diagnóstico sem utilizar dados de pacientes reais.
  • Descoberta de medicamentos e ciência dos materiais: Concebe novas estruturas moleculares e prevê as suas propriedades, acelerando a investigação e o desenvolvimento, como demonstrado por organizações como a Google DeepMind.
  • Personalização: Potenciar experiências de utilizador altamente personalizadas através da geração de conteúdos dinâmicos em chatbots, assistentes virtuais e motores de recomendação.
  • Desenvolvimento de software: Ajuda os programadores gerando trechos de código, sugerindo correcções de erros e até criando funções inteiras com base em descrições de linguagem natural(GitHub Copilot).

Desafios e considerações éticas

O rápido avanço da IA generativa também traz desafios. Garantir a utilização ética destas poderosas ferramentas é fundamental, especialmente no que diz respeito a deepfakes, desinformação, direitos de propriedade intelectual e preconceitos inerentes aprendidos com os dados de treino. Para resolver estes problemas, é necessário um desenvolvimento cuidadoso do modelo, métodos de deteção robustos e orientações claras delineadas nos princípios da ética da IA. Além disso, os importantes recursos computacionais necessários suscitam preocupações ambientais e de acessibilidade. Plataformas como o Ultralytics HUB têm como objetivo simplificar os fluxos de trabalho e reduzir potencialmente os obstáculos à entrada em determinadas tarefas de IA.

Lê tudo
OSZAR »