Os detectores de objectos em duas fases representam uma classe de arquitecturas de deteção de objectos conhecida pela sua elevada precisão, particularmente em cenas complexas. Ao contrário dos seus homólogos, estes detectores dividem a tarefa de deteção de objectos em duas etapas distintas: primeiro, identificam potenciais regiões numa imagem que podem conter objectos (proposta de região) e, em segundo lugar, classificam os objectos nessas regiões propostas e refinam as suas localizações utilizando caixas delimitadoras. Esta abordagem metódica permite uma análise pormenorizada, mas muitas vezes tem o custo da velocidade de cálculo em comparação com métodos alternativos. Estes modelos são uma pedra angular na evolução da visão por computador (CV).
Como funcionam os detectores de duas fases
A operação de um detetor de duas fases envolve um pipeline sequencial, normalmente aproveitando redes neurais profundas (NN), especificamente Redes Neurais Convolucionais (CNNs), para extração de caraterísticas.
- Fase 1: Proposta de região: A primeira etapa visa gerar um conjunto gerenciável de regiões candidatas (Regiões de Interesse, ou RoIs) onde os objetos provavelmente estarão localizados. Os primeiros modelos, como a R-CNN, utilizavam métodos externos, como a pesquisa selectiva, enquanto os avanços posteriores, nomeadamente a arquitetura Faster R-CNN, integraram esta etapa na própria rede neuronal, utilizando uma rede de proposta de região (RPN). A RPN analisa eficazmente os mapas de caraterísticas produzidos pela rede de base e prevê potenciais localizações e tamanhos de objectos.
- Etapa 2: Classificação e refinamento: As regiões propostas na primeira fase são então passadas para a segunda fase. Para cada RdI, as caraterísticas são extraídas do mapa de caraterísticas partilhado (utilizando técnicas como RoIPooling ou RoIAlign para lidar com tamanhos de regiões variáveis). Estas caraterísticas alimentam uma cabeça de deteção que executa duas tarefas: classificar o objeto dentro da RdI (por exemplo, "carro", "pessoa", "fundo") e refinar as coordenadas da caixa delimitadora para ajustar o objeto com maior precisão.
Caraterísticas principais
Os detectores de dois estágios são caracterizados principalmente por:
- Elevada precisão: A separação entre a geração de propostas e a classificação/refinamento permite que a segunda fase concentre os seus recursos num conjunto mais pequeno de regiões promissoras, o que conduz frequentemente a uma maior precisão de localização e classificação. Tendem a ter um bom desempenho em objectos pequenos e em cenas com muita gente. O desempenho é frequentemente medido utilizando métricas como a precisão média (mAP) e a intersecção sobre a união (IoU).
- Velocidade de inferência mais lenta: O processamento da imagem em duas fases distintas, especialmente com a sobrecarga de gerar e processar individualmente numerosas propostas de regiões, torna estes detectores computacionalmente mais intensivos e geralmente mais lentos do que os detectores de objectos de uma fase. Isto pode limitar a sua utilização em aplicações que requerem uma inferência rigorosa em tempo real.
Comparação com detectores de uma fase
A principal distinção reside na conduta operacional. Os detectores de uma fase, como o Ultralytics YOLO (incluindo modelos como o YOLO11 e YOLOv8) e o SSD (Single Shot MultiBox Detetor), prevêem diretamente as caixas delimitadoras e as probabilidades de classe a partir da imagem completa numa única passagem pela rede. Tratam a deteção de objectos como um problema de regressão. Esta abordagem unificada confere vantagens significativas em termos de velocidade, tornando-os adequados para aplicações em tempo real. No entanto, historicamente, enfrentaram desafios para igualar a precisão dos detectores de duas fases, especialmente para objectos pequenos, embora esta diferença tenha diminuído consideravelmente com os avanços modernos. Podes explorar as comparações entre diferentes modelos de deteção de objectos para obteres mais detalhes.
Arquitecturas notáveis
A evolução dos detectores de duas fases inclui vários modelos influentes:
- R-CNN (Regiões com caraterísticas CNN): O trabalho pioneiro que combinava propostas de regiões com caraterísticas CNN, mas era lento devido ao processamento de cada região de forma independente.
- R-CNN rápida: Melhora a velocidade partilhando a computação entre propostas utilizando RoIPooling num mapa de caraterísticas convolucional partilhado.(Documento Fast R-CNN)
- R-CNN mais rápida: Aumenta ainda mais a velocidade e a elegância ao integrar a etapa de proposta de região na rede através do RPN, criando um sistema treinável quase de ponta a ponta.
- Máscara R-CNN: Estende o Faster R-CNN para realizar a segmentação de instâncias, adicionando um ramo para prever máscaras de segmentação para cada objeto detectado.(Documento sobre a máscara R-CNN)
Aplicações no mundo real
A elevada precisão dos detectores de duas fases torna-os valiosos em cenários onde a precisão é fundamental:
- Análise de imagens médicas: A deteção de anomalias subtis como pequenos tumores, lesões ou pólipos em exames médicos (TAC, RMN) requer uma elevada precisão para ajudar no diagnóstico. A localização precisa é fundamental para o planeamento do tratamento. Vê mais sobre IA nos cuidados de saúde e investigação em revistas como Radiology: Artificial Intelligence. Podes explorar conjuntos de dados como o Brain Tumor dataset para tarefas relacionadas.
- Condução autónoma: Detetar e localizar com precisão pedestres, ciclistas, outros veículos e sinais de trânsito, especialmente os pequenos ou parcialmente ocultos, é crucial para os sistemas de segurança dos carros autónomos. Empresas como a Waymo dependem muito de sistemas de perceção robustos.
- Compreensão detalhada da cena: As aplicações que requerem uma compreensão detalhada das interações dos objectos ou uma contagem precisa beneficiam de uma maior precisão.
- Controlo de qualidade no fabrico: Identificar pequenos defeitos ou verificar a colocação de componentes em montagens complexas exige frequentemente uma elevada precisão. Sabe mais sobre a IA no fabrico.
O treino destes modelos envolve normalmente grandes conjuntos de dados rotulados, como o conjunto de dados COCO, e uma afinação cuidadosa. Ultralytics fornece recursos para treinamento de modelos e compreensão das métricas de desempenho. Embora Ultralytics se concentre em modelos eficientes de uma etapa, como o Ultralytics YOLO, a compreensão dos detectores de duas etapas fornece um contexto valioso no campo mais amplo da deteção de objectos.