Saiba como a combinação de geração aumentada de recuperação (RAG) com visão por computador está a ajudar os sistemas de IA a interpretar documentos, elementos visuais e conteúdos complexos do mundo real.
Usando ferramentas de IA como ChatGPT ou Gémeos está rapidamente a tornar-se uma forma comum de encontrar informações. Quer esteja a redigir uma mensagem, a resumir um documento ou a responder a uma pergunta, estas ferramentas oferecem frequentemente uma solução mais rápida e fácil.
Mas se já utilizou grandes modelos de linguagem (LLMs) algumas vezes, provavelmente já reparou nas suas limitações. Quando recebem perguntas muito específicas ou urgentes, podem dar respostas incorretas, muitas vezes com confiança.
Isto acontece porque os LLM autónomos dependem apenas dos dados nos quais foram treinados. Não têm acesso às últimas atualizações ou conhecimento especializado para além deste conjunto de dados. Como resultado, as suas respostas podem estar desatualizadas ou imprecisas.
Para ajudar a resolver isto, os investigadores desenvolveram um método chamado geração aumentada de recuperação (RAG) . O RAG melhora os modelos de linguagem permitindo-lhes extrair informações novas e relevantes de fontes fidedignas ao responder a consultas.
Neste artigo, iremos explorar como funciona o RAG e como melhora as ferramentas de IA, recuperando informações relevantes e atualizadas. Veremos também como isto funciona em conjunto com a visão computacional , um campo da inteligência artificial focado na interpretação de dados visuais, para ajudar os sistemas a compreender não só texto, mas também imagens, layouts e documentos visualmente complexos.
Ao fazer uma pergunta a um chatbot de IA, geralmente esperamos mais do que apenas uma resposta que pareça boa. O ideal é que uma boa resposta seja clara, precisa e genuinamente útil. Para isso, o modelo de IA precisa de mais do que competências linguísticas; também precisa de acesso à informação correta, especialmente para tópicos específicos ou urgentes.
O RAG é uma técnica que ajuda a preencher esta lacuna. Reúne a capacidade do modelo de linguagem de compreender e gerar texto com o poder de recuperar informação relevante de fontes externas. Em vez de depender apenas dos dados de treino, o modelo extrai ativamente conteúdo de suporte de bases de conhecimento fiáveis ao formar a sua resposta.
Pode pensar nisto como se estivesse a fazer uma pergunta a alguém e a pedir-lhe que consulte uma referência fidedigna antes de responder. A resposta ainda está nas suas próprias palavras, mas é baseada nas informações mais relevantes e atualizadas.
Esta abordagem ajuda os LLMs a responder com respostas mais completas, precisas e adaptadas à consulta do utilizador, tornando-os muito mais fiáveis em aplicações do mundo real, onde a precisão realmente importa.
O RAG melhora a forma como um grande modelo de linguagem responde introduzindo dois passos principais: recuperação e geração. Em primeiro lugar, recupera informações relevantes de uma base de conhecimento externa. Em seguida, utiliza essa informação para gerar uma resposta bem formada e sensível ao contexto.
Vamos dar uma vista de olhos a um exemplo simples para ver como funciona este processo. Imagine que está a utilizar um assistente de IA para gerir as suas finanças pessoais e quer verificar se ficou dentro do seu objetivo de gastos do mês.
O processo começa quando faz uma pergunta ao assistente, como por exemplo: "Cumpri o meu orçamento este mês?" Em vez de confiar apenas no que aprendeu durante a formação, o sistema utiliza um recuperador para pesquisar os seus registos financeiros mais recentes (coisas como extratos bancários ou resumos de transações). Concentra-se em compreender a intenção por trás da sua pergunta e reúne as informações mais relevantes.
Uma vez recuperada esta informação, o modelo de linguagem assume o controlo. Processa a sua pergunta e os dados extraídos dos seus registos para gerar uma resposta clara e útil. Em vez de listar detalhes brutos, a resposta resume os seus gastos e fornece uma visão direta e significativa, como confirmar se atingiu o seu objetivo e apontar as principais áreas de gastos.
Esta abordagem ajuda o LLM a fornecer respostas que não são apenas precisas, mas também baseadas nas suas informações reais e atualizadas, tornando a experiência muito mais útil do que um modelo a trabalhar apenas com dados de treino estáticos.
Normalmente, as informações nem sempre são partilhadas em texto simples. Desde exames e diagramas médicos a diapositivos de apresentação e documentos digitalizados, os recursos visuais contêm frequentemente detalhes importantes. Os LLM tradicionais, que são criados principalmente para ler e compreender texto, podem ter dificuldades com este tipo de conteúdo.
No entanto, o RAG pode ser utilizado em conjunto com a visão computacional para preencher esta lacuna. Quando os dois são reunidos, formam o que é conhecido como um sistema RAG multimodal - uma configuração que pode lidar tanto com texto como com recursos visuais, ajudando os chatbots de IA a fornecer respostas mais precisas e completas.
No centro desta abordagem estão os modelos de visão e linguagem (VLMs) , que são concebidos para processar e raciocinar sobre ambos os tipos de entrada. Nesta configuração, o RAG recupera a informação mais relevante de grandes fontes de dados, enquanto o VLM, possibilitado pela visão computacional, interpreta imagens, layouts e diagramas.
Isto é especialmente útil para documentos do mundo real, como formulários digitalizados, relatórios médicos ou diapositivos de apresentação, onde podem ser encontrados detalhes vitais tanto no texto como nos recursos visuais. Por exemplo, ao analisar um documento que inclui imagens juntamente com tabelas e parágrafos, um sistema multimodal pode extrair elementos visuais, gerar um resumo do que mostram e combiná-lo com o texto circundante para fornecer uma resposta mais completa e útil.
Agora que já discutimos o que é o RAG e como funciona com a visão computacional, vamos dar uma vista de olhos a alguns exemplos do mundo real e a projetos de investigação que mostram como esta abordagem está a ser utilizada.
Digamos que está a tentar extrair insights de um relatório financeiro ou de um documento legal digitalizado. Estes tipos de ficheiros incluem frequentemente não só texto, mas também tabelas, gráficos e layouts que ajudam a explicar a informação. Um modelo de linguagem simples pode ignorar ou interpretar mal estes elementos visuais, levando a respostas incompletas ou imprecisas.
O VisRAG foi criado por investigadores para enfrentar este desafio. É um pipeline RAG baseado em VLM que trata cada página como uma imagem em vez de processar apenas o texto. Isto permite que o sistema compreenda tanto o conteúdo como a sua estrutura visual. Como resultado, pode encontrar as partes mais relevantes e dar respostas mais claras, precisas e baseadas no contexto completo do documento.
A resposta visual a perguntas (VQA) é uma tarefa em que um sistema de IA responde a perguntas sobre imagens. Muitos sistemas VQA existentes concentram-se em responder a perguntas sobre um único documento sem ter de procurar informações adicionais - isto é conhecido como ambiente fechado.
O VDocRAG é uma estrutura RAG que adota uma abordagem mais realista. Integra o VQA com a capacidade de recuperar primeiro documentos relevantes. Isto é útil em situações do mundo real, nas quais a pergunta de um utilizador pode aplicar-se a um de muitos documentos, e o sistema precisa de encontrar o correto antes de responder. Para tal, o VDocRAG utiliza VLMs para analisar documentos como imagens, preservando tanto o texto como a estrutura visual.
Isto torna o VDocRAG especialmente impactante em aplicações como a pesquisa empresarial, a automatização de documentos e o suporte ao cliente . Pode ajudar as equipas a extrair respostas rapidamente de documentos complexos e formatados visualmente, como manuais ou ficheiros de políticas, onde compreender o layout é tão importante como ler as palavras.
A legendagem de imagens envolve a geração de uma descrição escrita do que está a acontecer numa imagem. É utilizado numa variedade de aplicações - desde tornar o conteúdo online mais acessível até potenciar a pesquisa de imagens e suportar sistemas de moderação e recomendação de conteúdo.
No entanto, gerar legendas precisas nem sempre é fácil para os modelos de IA. É especialmente difícil quando a imagem mostra algo diferente daquilo para que o modelo foi treinado. Muitos sistemas de legendagem dependem muito de dados de treino, pelo que, quando confrontados com cenas desconhecidas, as suas legendas podem sair vagas ou imprecisas.
Para lidar com isto, os investigadores desenvolveram o Re-ViLM , um método que traz a geração aumentada de recuperação (RAG) para a legendagem de imagens. Em vez de gerar uma legenda a partir do zero, o Re-ViLM recupera pares de imagem e texto semelhantes de uma base de dados e utiliza-os para orientar a saída da legenda.
Esta abordagem baseada na recuperação ajuda o modelo a fundamentar as suas descrições em exemplos relevantes, melhorando tanto a precisão como a fluência. Os primeiros resultados mostram que o Re-ViLM gera legendas mais naturais e contextualizadas utilizando exemplos reais, ajudando a reduzir descrições vagas ou imprecisas.
Aqui está uma rápida análise dos benefícios da aplicação de técnicas de geração aumentada de recuperação para recuperar e utilizar informações visuais:
Apesar destes benefícios, existem ainda algumas limitações a reter quando se utiliza o RAG para trabalhar com dados visuais. Aqui estão alguns dos principais:
A geração aumentada de recuperação está a melhorar a forma como os grandes modelos de linguagem respondem a perguntas, permitindo-lhes procurar informações relevantes e atualizadas de fontes externas. Quando combinados com a visão por computador, estes sistemas podem processar não só texto, mas também conteúdo visual, como gráficos, tabelas, imagens e documentos digitalizados, resultando em respostas mais precisas e completas.
Esta abordagem torna os LLM mais adequados para tarefas do mundo real que envolvem documentos complexos. Ao unir a recuperação e a compreensão visual, estes modelos podem interpretar diversos formatos de forma mais eficaz e fornecer insights mais úteis em contextos práticos do quotidiano.
Junte-se à nossa comunidade em crescimento! Explore o nosso repositório no GitHub para aprofundar a IA. Pronto para começar os seus próprios projetos de visão computacional? Consulte as nossas opções de licenciamento . Descubra mais sobre a IA na área da saúde e a visão computacional no retalho nas nossas páginas de soluções!
Começa a tua viagem com o futuro da aprendizagem automática