OpenAI의 CLIP이 제로 샷 학습, 이미지-텍스트 정렬, 컴퓨터 비전 분야의 실제 애플리케이션을 통해 AI를 혁신하는 방법을 알아보세요.
CLIP(대조 언어-이미지 사전 훈련)은 일상 언어로 설명된 시각적 개념을 이해하는 데 탁월한 능력을 발휘하는 OpenAI에서 개발한 다용도 신경망(NN) 입니다. 꼼꼼하게 레이블이 지정된 데이터 세트가 필요한 기존의 이미지 분류 모델과 달리, CLIP은 인터넷에서 스크랩한 수억 개의 이미지-텍스트 쌍을 분석하여 학습합니다. 대조 학습이라는 기술을 사용하여 이미지와 해당 텍스트 설명 사이의 복잡한 관계를 파악합니다. 이 독특한 학습 접근 방식을 통해 CLIP은 제로 샷 학습이라고 알려진 강력한 기능으로 특별한 교육 없이도 다양한 작업을 매우 잘 수행할 수 있습니다.
CLIP의 아키텍처는 이미지 인코더와 텍스트 인코더의 두 가지 주요 부분으로 구성됩니다. 이미지 인코더는 주로 Vision Transformer(ViT) 또는 ResNet과 같은 아키텍처를 활용하여 이미지를 처리하여 주요 시각적 특징을 추출합니다. 이와 동시에 텍스트 인코더는 일반적으로 자연어 처리(NLP)에서 널리 사용되는 트랜스포머 모델을 기반으로 관련 텍스트 설명을 분석하여 의미적 의미를 포착합니다. 훈련 단계에서 CLIP은 이미지와 텍스트의 표현(임베딩)을 공유된 다차원 공간에 투영하는 방법을 학습합니다. 대조 학습 프로세스의 핵심 목표는 올바른 이미지-텍스트 쌍의 임베딩 간의 유사도(코사인 유사도로 측정)를 최대화하는 동시에 주어진 배치 내에서 잘못된 쌍의 유사도를 최소화하는 것입니다. 이 방법은 원본 CLIP 백서에 자세히 설명된 대로 시각적 패턴을 관련 단어 및 구문과 연결하도록 모델을 효과적으로 학습시킵니다.
CLIP의 가장 큰 장점은 놀라운 제로 샷 학습 기능입니다. 고정된 카테고리가 아닌 시각 데이터와 언어 간의 광범위한 연관성을 학습하기 때문에 학습 중에 접한 적이 없는 완전히 새로운 텍스트 설명을 기반으로 이미지를 분류할 수 있으므로 많은 경우 작업별 미세 조정이 필요하지 않습니다. 예를 들어, CLIP은 "스케치", "파란색", "개"라는 학습된 개념을 결합하여 "파란 강아지의 스케치"로 설명된 이미지에 대해 명시적으로 훈련되지 않았더라도 잠재적으로 "스케치"로 표시된 이미지를 식별할 수 있습니다. 이러한 적응성 덕분에 CLIP은 다양한 컴퓨터 비전(CV) 애플리케이션에 매우 유용합니다. 이미지넷과 같은 표준 벤치마크 데이터 세트에서 지도 학습 패러다임에 따라 훈련된 모델과 비교했을 때에도 경쟁력 있는 성능을 발휘하는 경우가 많습니다.
CLIP의 접근 방식은 다른 일반적인 인공지능(AI) 모델과 다릅니다:
CLIP의 고유한 기능은 여러 가지 실용적인 용도로 활용할 수 있습니다:
CLIP의 획기적인 기능에도 불구하고 한계가 없는 것은 아닙니다. 방대하고 검열되지 않은 인터넷 데이터에 의존하기 때문에 텍스트와 이미지에 존재하는 사회적 편견을 그대로 물려받을 수 있어 AI의 공정성과 알고리즘의 잠재적 편향성에 대한 우려가 제기되고 있습니다. 또한 CLIP은 정확한 공간 추론이 필요한 작업(예: 물체를 정확하게 세는 것)이나 매우 세밀한 시각적 디테일을 인식하는 데 어려움을 겪을 수 있습니다. 이러한 편향을 완화하고, 세분화된 이해도를 높이고, CLIP의 의미론적 지식을 YOLOv11과 같은 모델의 현지화 강점과 통합하는 방법을 적극적으로 모색하고 있습니다. 다양한 모델 유형을 결합하고 실험을 관리하는 작업은 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다. Ultralytics 블로그와 같은 리소스를 통해 최신 AI 개발에 대한 최신 소식을 받아보세요.