기초 모델은 라벨이 지정되지 않은 방대한 양의 광범위한 데이터에 대해 사전 학습된 대규모 인공 지능(AI) 모델로, 다양한 다운스트림 작업에 맞게 조정하거나 미세 조정할 수 있도록 설계되었습니다. 트랜스포머와 같은 아키텍처를 기반으로 하는 이러한 모델은 데이터에서 일반적인 패턴, 구조, 표현을 학습하여 처음부터 작업별로 학습할 필요 없이 다양한 전문 애플리케이션을 위한 다목적 기반을 형성합니다. 기초 모델의 개발은 머신 러닝(ML)의 중요한 패러다임 전환을 의미하며, 효율적으로 전문화할 수 있는 범용 모델을 구축하는 방향으로 나아가고 있습니다.
주요 특징
파운데이션 모델은 몇 가지 핵심 속성으로 정의됩니다:
- 규모: 일반적으로 수십억 또는 수조 개의 매개 변수를 포함하는 매우 큰 규모이며 인터넷이나 기타 광범위한 소스(빅 데이터)에서 스크랩한 방대한 데이터 세트에 대해 학습합니다.
- 사전 학습: 일반적으로 모델이 명시적인 레이블 없이 데이터 자체의 고유한 구조에서 학습하는 자가 지도 학습 또는 비지도 방법을 사용하여 집중적인 사전 학습 단계를 거칩니다.
- 적응력: 주요 이점은 적응성입니다. 사전 학습을 마치면 감정 분석, 이미지 인식, 사물 감지 등 특정 작업에 대해 비교적 적은 양의 레이블이 지정된 데이터로 사전 학습 중에 얻은 일반적인 지식을 활용하여 미세 조정할 수 있습니다. 이 과정은 일종의 전이 학습입니다.
- 동질화: 이전에는 여러 전문 모델이 필요했던 기능을 하나의 적응 가능한 프레임워크로 통합하여 잠재적으로 MLOps를 간소화하는 경향이 있습니다.
파운데이션 모델 작동 방식
파운데이션 모델을 만들고 사용하는 데는 일반적으로 두 단계가 필요합니다:
- 사전 학습: 모델은 방대하고 다양한 데이터 세트에 대해 학습됩니다. GPT-3와 같은 언어 모델의 경우, 여기에는 문장의 다음 단어를 예측하는 것이 포함됩니다. 비전 모델의 경우, 마스크된 이미지 패치를 재구성하거나 이미지와 텍스트 간의 연관성을 학습(CLIP)하는 작업이 포함될 수 있습니다. 이 단계에는 상당한 컴퓨팅 리소스(GPU, TPU).
- 미세 조정/적응: 사전 학습된 모델은 작업별로 레이블이 지정된 더 작은 데이터 세트를 사용하여 특정 다운스트림 작업에 맞게 조정됩니다. 미세 조정과 같은 기술은 모델 가중치를 조정하는 반면, 프롬프트 엔지니어링과 같은 방법은 가중치를 변경하지 않고 모델의 출력을 안내하며, 특히 대규모 언어 모델(LLM)과 관련이 있습니다.
예제 및 애플리케이션
파운데이션 모델은 다양한 영역에 걸쳐 있습니다:
파운데이션 모델과 다른 모델
- 작업별 모델: 기초 모델과 달리, 기존 ML은 단일 작업을 위해 특정 데이터 세트에서 처음부터 모델을 훈련하는 경우가 많습니다(예를 들어 Ultralytics YOLO 모델을 항공 이미지에서 물체를 감지하기 위한 목적으로만 훈련하는 경우). 효과적이기는 하지만, 새로운 작업마다 상당한 레이블이 지정된 데이터와 노력이 필요합니다. 기초 모델은 전이 학습을 통해 이 문제를 줄이는 것을 목표로 합니다.
- 대규모 언어 모델(LLM): LLM은 언어 작업을 위해 특별히 고안된 대표적인 기초 모델 유형입니다. "기초 모델"이라는 용어는 더 광범위하며 시각, 오디오 및 기타 양식에 대한 모델을 포함합니다.
- CV 모델: ViT 또는 SAM 같은 일부 대형 비전 모델은 기본 모델로 간주되지만, 특정 버전을 포함한 많은 CV 모델은 YOLOv8 또는 YOLO11 등 특정 애플리케이션(농업용 AI, 자동차용 AI)을 위해 훈련된 많은 CV 모델은 일반적으로 범용 기본 모델 자체가 아니라 해당 비전 작업을 위해 특별히 미세 조정되거나 훈련됩니다. 그러나 사전 학습된 백본을 사용하는 추세는 일반적인 기능을 활용한다는 핵심 아이디어를 공유합니다.
교육 및 리소스
사전 학습 기반 모델에는 계산 비용이 많이 들기 때문에 대규모 GPU 또는 TPU 클러스터와 상당한 엔지니어링 노력이 필요하며, 일반적으로 다음과 같은 대규모 연구실이나 기업에서 수행합니다. Google, Meta AI, OpenAI와 같은 대규모 연구소나 기업에서 수행합니다. 하지만 사전 학습을 거치면 이러한 모델을 보다 효율적으로 적용할 수 있습니다. Ultralytics HUB와 같은 플랫폼은 사용자 지정 모델을 학습시키고, 데이터 세트Ultralytics 데이터 세트Ultralytics 를 관리하고, 솔루션(모델 배포 옵션)을 배포하는 도구를 제공하며, 종종 기초 지식을 구현하는 사전 학습된 가중치를 활용합니다. 효과적인 적응을 위해서는 여전히 신중한 하이퍼파라미터 튜닝과 잠재적으로 데이터 보강이 필요합니다.
중요성과 미래
파운데이션 모델은 AI 환경을 변화시키고 있습니다Roboflow 운데이션 모델에 대한Roboflow ). 재단 모델은 개발을 가속화하고, 새로운 애플리케이션을 가능하게 하며, AI 윤리, 편향성, 컴퓨팅 액세스와 관련된 중요한 고려 사항을 제기합니다. 스탠퍼드 대학의 기초 모델 연구 센터(CRFM) 와 같은 연구 기관에서는 기초 모델의 능력과 사회적 영향력을 연구하는 데 전념하고 있습니다. 미래에는 과학, 산업, 일상 생활 전반에서 혁신을 주도하는 더 강력하고 효율적이며 잠재적으로 다중 모드 기반 모델이 등장할 가능성이 높습니다(AI 사용 사례).