용어집

CLIP(대비 언어-이미지 사전 교육)

OpenAI의 CLIP이 제로 샷 학습, 이미지-텍스트 정렬, 컴퓨터 비전 분야의 실제 애플리케이션을 통해 AI를 혁신하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

CLIP(대조 언어-이미지 사전 훈련)은 일상 언어로 설명된 시각적 개념을 이해하는 데 탁월한 능력을 발휘하는 OpenAI에서 개발한 다용도 신경망(NN) 입니다. 꼼꼼하게 레이블이 지정된 데이터 세트가 필요한 기존의 이미지 분류 모델과 달리, CLIP은 인터넷에서 스크랩한 수억 개의 이미지-텍스트 쌍을 분석하여 학습합니다. 대조 학습이라는 기술을 사용하여 이미지와 해당 텍스트 설명 사이의 복잡한 관계를 파악합니다. 이 독특한 학습 접근 방식을 통해 CLIP은 제로 샷 학습이라고 알려진 강력한 기능으로 특별한 교육 없이도 다양한 작업을 매우 잘 수행할 수 있습니다.

Clip 작동 방식

CLIP의 아키텍처는 이미지 인코더와 텍스트 인코더의 두 가지 주요 부분으로 구성됩니다. 이미지 인코더는 주로 Vision Transformer(ViT) 또는 ResNet과 같은 아키텍처를 활용하여 이미지를 처리하여 주요 시각적 특징을 추출합니다. 이와 동시에 텍스트 인코더는 일반적으로 자연어 처리(NLP)에서 널리 사용되는 트랜스포머 모델을 기반으로 관련 텍스트 설명을 분석하여 의미적 의미를 포착합니다. 훈련 단계에서 CLIP은 이미지와 텍스트의 표현(임베딩)을 공유된 다차원 공간에 투영하는 방법을 학습합니다. 대조 학습 프로세스의 핵심 목표는 올바른 이미지-텍스트 쌍의 임베딩 간의 유사도(코사인 유사도로 측정)를 최대화하는 동시에 주어진 배치 내에서 잘못된 쌍의 유사도를 최소화하는 것입니다. 이 방법은 원본 CLIP 백서에 자세히 설명된 대로 시각적 패턴을 관련 단어 및 구문과 연결하도록 모델을 효과적으로 학습시킵니다.

주요 기능 및 장점

CLIP의 가장 큰 장점은 놀라운 제로 샷 학습 기능입니다. 고정된 카테고리가 아닌 시각 데이터와 언어 간의 광범위한 연관성을 학습하기 때문에 학습 중에 접한 적이 없는 완전히 새로운 텍스트 설명을 기반으로 이미지를 분류할 수 있으므로 많은 경우 작업별 미세 조정이 필요하지 않습니다. 예를 들어, CLIP은 "스케치", "파란색", "개"라는 학습된 개념을 결합하여 "파란 강아지의 스케치"로 설명된 이미지에 대해 명시적으로 훈련되지 않았더라도 잠재적으로 "스케치"로 표시된 이미지를 식별할 수 있습니다. 이러한 적응성 덕분에 CLIP은 다양한 컴퓨터 비전(CV) 애플리케이션에 매우 유용합니다. 이미지넷과 같은 표준 벤치마크 데이터 세트에서 지도 학습 패러다임에 따라 훈련된 모델과 비교했을 때에도 경쟁력 있는 성능을 발휘하는 경우가 많습니다.

클립과 다른 모델 비교

CLIP의 접근 방식은 다른 일반적인 인공지능(AI) 모델과 다릅니다:

  • 지도 이미지 분류기: 기존 분류기는 각 이미지에 특정 레이블(예: '고양이', '개')이 있는 데이터 세트에서 학습합니다. 사전 정의된 카테고리에는 탁월하지만 보이지 않는 개념에는 어려움을 겪습니다. CLIP은 구조화되지 않은 이미지-텍스트 쌍으로부터 학습하여 임의의 텍스트 프롬프트에 대해 제로 샷 분류를 가능하게 합니다.
  • 객체 감지 모델: 다음과 같은 모델 Ultralytics YOLO 와 같은 모델은 바운딩 박스를 사용하여 이미지 내에서 객체의 위치를 식별하고 분류하는 객체 감지에 중점을 둡니다. 감지 또는 세그먼트와 같은 로컬라이제이션 작업에는 강력하지만, 분류를 위한 임의의 언어 설명에 대한 CLIP의 본질적인 이해는 가지고 있지 않습니다. 탐지 성능에 대한 YOLO 모델 간의 비교를 확인할 수 있습니다.
  • 기타 비전-언어 모델(VLM): CLIP은 일종의 멀티 모달 모델입니다. 다른 VLM은 시각적 질문 답변(VQA) 또는 상세한 이미지 캡션과 같은 작업에 초점을 맞출 수 있지만, CLIP의 주요 강점은 강력한 제로 샷 이미지 분류 및 이미지와 텍스트 유사성 매칭에 있습니다. Ultralytics 블로그에서 다양한 유형의 VLM에 대해 자세히 알아보세요.
  • 생성 모델: 안정적 확산 또는 DALL-E와 같은 모델은 텍스트에서 이미지를 생성하는 데 중점을 둡니다(텍스트 대 이미지). CLIP이 이미지를 직접 생성하지는 않지만, 텍스트 인코더는 출력 이미지가 입력 텍스트 프롬프트와 잘 정렬되도록 하기 위해 생성 모델 내에서 자주 사용됩니다.

실제 애플리케이션

CLIP의 고유한 기능은 여러 가지 실용적인 용도로 활용할 수 있습니다:

  • 콘텐츠 검토: 부적절하거나 원치 않는 콘텐츠에 대한 텍스트 설명을 기반으로 이미지를 자동으로 필터링하거나 플래그를 지정하여 모든 위반 가능성에 대한 사전 레이블이 지정된 예시 없이도 이미지를 자동으로 필터링할 수 있습니다. OpenAI는 콘텐츠 검토 도구의 일부로 CLIP을 사용합니다.
  • 시맨틱 이미지 검색: 사용자가 키워드나 태그 대신 자연어 쿼리를 사용하여 방대한 이미지 라이브러리(예: Unsplash와 같은 스톡 사진 사이트 또는 개인 사진 컬렉션)를 검색할 수 있도록 지원합니다. 예를 들어 "야자수가 있는 해질녘의 고요한 해변"을 검색하는 것이 그 예입니다.
  • 접근성 개선: 시각 장애가 있는 사용자를 위해 관련 이미지 설명을 자동으로 생성합니다.
  • 생성 AI 안내: 앞서 언급했듯이 CLIP의 인코더는 복잡한 텍스트 프롬프트를 정확하게 반영하는 이미지를 생성하도록 생성 AI 모델을 조정하는 데 도움이 됩니다.

제한 사항 및 향후 방향

CLIP의 획기적인 기능에도 불구하고 한계가 없는 것은 아닙니다. 방대하고 검열되지 않은 인터넷 데이터에 의존하기 때문에 텍스트와 이미지에 존재하는 사회적 편견을 그대로 물려받을 수 있어 AI의 공정성과 알고리즘의 잠재적 편향성에 대한 우려가 제기되고 있습니다. 또한 CLIP은 정확한 공간 추론이 필요한 작업(예: 물체를 정확하게 세는 것)이나 매우 세밀한 시각적 디테일을 인식하는 데 어려움을 겪을 수 있습니다. 이러한 편향을 완화하고, 세분화된 이해도를 높이고, CLIP의 의미론적 지식을 YOLOv11과 같은 모델의 현지화 강점과 통합하는 방법을 적극적으로 모색하고 있습니다. 다양한 모델 유형을 결합하고 실험을 관리하는 작업은 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다. Ultralytics 블로그와 같은 리소스를 통해 최신 AI 개발에 대한 최신 소식을 받아보세요.

모두 보기
OSZAR »