용어집

멀티 모달 학습

AI에서 멀티모달 학습의 힘을 알아보세요! 모델이 다양한 데이터 유형을 통합하여 보다 풍부한 실제 문제 해결을 지원하는 방법을 살펴보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

다중 모달 학습은 모달리티라고 하는 여러 데이터 유형의 정보를 처리하고 통합할 수 있는 모델을 설계하고 훈련하는 데 중점을 둔 인공지능(AI)머신러닝(ML) 의 하위 분야입니다. 일반적인 모달리티에는 텍스트, 이미지(컴퓨터 비전(CV)), 오디오(음성 인식), 비디오, 센서 데이터(LiDAR 또는 온도 판독값 등)가 포함됩니다. 다중 모달 학습의 핵심 목표는 다양한 데이터 소스에 존재하는 상호 보완적인 정보를 활용하여 복잡한 시나리오를 보다 총체적이고 인간처럼 이해할 수 있는 AI 시스템을 구축하는 것입니다.

정의 및 핵심 개념

다중 모달 학습에는 다양한 유형의 데이터 간의 관계와 상관관계를 이해하기 위한 알고리즘 학습이 포함됩니다. 학습 과정은 각 모달리티를 개별적으로 분석하는 대신 정보를 효과적으로 결합하거나 융합하는 기술에 중점을 둡니다. 주요 개념은 다음과 같습니다:

  • 정보 융합: 서로 다른 양식의 정보를 결합하는 데 사용되는 방법을 말합니다. 융합은 초기(원시 데이터 결합), 중간(각 양식에서 추출한 특징 결합), 후기(각 양식에서 학습된 개별 모델의 결과물 결합) 등 다양한 단계에서 이루어질 수 있습니다. 효과적인 정보 융합은 각 데이터 유형의 강점을 활용하기 위해 매우 중요합니다.
  • 교차 모달 학습: 여기에는 한 양식의 정보를 사용하여 다른 양식의 정보를 추론하거나 검색할 수 있는 학습 표현이 포함됩니다(예: 이미지에서 텍스트 캡션 생성).
  • 데이터 정렬: 서로 다른 양식에 걸쳐 해당 정보가 올바르게 일치하는지 확인합니다(예: 오디오 트랙의 음성 단어와 비디오의 해당 시각적 프레임을 일치시키는 것). 적절한 데이터 정렬은 효과적인 융합을 위한 전제 조건인 경우가 많습니다.

멀티모달 학습은 다양한 입력을 처리하도록 조정된 트랜스포머컨볼루션 신경망(CNN) 과 같은 아키텍처를 사용하여 딥러닝(DL)의 기술에 크게 의존하며, 종종 다음과 같은 프레임워크를 사용합니다. PyTorchPyTorch 공식 사이트) 또는 TensorFlowTensorFlow 공식 사이트).

관련성 및 응용 분야

멀티모달 학습의 중요성은 정보가 본질적으로 다면적인 복잡한 실제 문제를 해결할 수 있는 보다 강력하고 다재다능한 AI 시스템을 만들 수 있는 능력에서 비롯됩니다. 대규모 기초 모델을 포함한 오늘날의 많은 고급 AI 모델은 멀티모달 기능을 활용합니다.

다음은 다중 모달 학습이 어떻게 적용되는지에 대한 몇 가지 구체적인 예시입니다:

다른 중요한 응용 분야로는 웨이모와 같은 회사에서 카메라, 라이다, 레이더의 데이터를 결합하는 자율 주행(자율주행차의 AI), 이미징 데이터와 환자 기록을 결합하는 의료 이미지 분석, 로봇이 시각, 청각, 촉각 정보를 통합하여 환경과 상호작용하는 로봇 공학 분야의 AI 응용 분야(로보틱스)가 있습니다.

주요 차이점

멀티 모달 학습을 관련 용어와 구별하는 것이 도움이 됩니다:

  • 다중 모드 모델: 다중 모드 학습은 여러 데이터 유형을 사용하여 AI를 훈련하는 프로세스 또는 연구 분야입니다. 멀티모달 모델은 이러한 기술을 사용하여 설계 및 학습된 결과물인 AI 시스템 또는 아키텍처입니다.
  • 컴퓨터 비전(CV): CV는 시각적 데이터(이미지, 동영상)를 처리하고 이해하는 데만 집중합니다. 멀티 모달 학습은 시각적 데이터를 텍스트나 오디오와 같은 다른 모달과 통합하여 CV를 뛰어넘습니다.
  • 자연어 처리(NLP): NLP는 인간의 언어(텍스트, 음성)를 이해하고 생성하는 것을 다룹니다. 다중 모달 학습은 언어 데이터를 이미지나 센서 판독값과 같은 다른 모달과 통합합니다.
  • 기초 모델: 방대한 양의 데이터에 대해 사전 학습된 대규모 모델로, 다양한 다운스트림 작업에 적용할 수 있도록 설계되는 경우가 많습니다. GPT-4와 같은 많은 최신 기초 모델에는 다중 모드 기능이 통합되어 있지만 개념은 서로 다르며, 다중 모드 학습은 이러한 강력한 모델을 구축하는 데 자주 사용되는 방법론입니다.

과제 및 향후 방향

다중 모달 학습은 다양한 소스의 데이터를 효과적으로 정렬하고, 최적의 융합 전략을 개발하며, 하나 이상의 모달에서 누락되거나 노이즈가 있는 데이터를 처리하는 등 고유한 과제를 안고 있습니다. 멀티모달 학습에서 이러한 과제를 해결하는 것은 여전히 활발한 연구 분야입니다.

이 분야는 빠르게 진화하고 있으며, 인간처럼 세상을 인식하고 추론하는 AI 시스템으로 경계를 넓혀 인공 일반 지능(AGI)의 발전에 잠재적으로 기여하고 있습니다. 현재 Ultralytics HUB와 같은 플랫폼은 주로 다음과 같은 모델을 사용하여 컴퓨터 비전 작업에 중점을 둔 워크플로우를 지원합니다. Ultralytics YOLO (예 Ultralytics YOLOv8), 더 광범위한 AI 환경은 멀티 모달 기능의 통합을 증가시키는 방향으로 나아가고 있습니다. 새로운 모델 기능 및 애플리케이션에 대한 업데이트는 Ultralytics 블로그에서 계속 확인하세요. 이 분야에 대한 더 광범위한 개요를 보려면 멀티모달 학습에 대한 Wikipedia 페이지에서 자세한 내용을 읽어보세요.

모두 보기
OSZAR »