용어집

합성 데이터

AI/ML을 위한 합성 데이터의 힘을 활용하세요! 데이터 부족, 개인정보 보호 문제, 비용을 극복하는 동시에 모델 학습과 혁신을 촉진하세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

합성 데이터는 실제 이벤트나 측정값에서 직접 수집한 것이 아니라 실제 데이터의 통계적 특성을 모방하여 인위적으로 생성한 정보를 말합니다. 인공 지능(AI)머신 러닝(ML) 분야에서 합성 데이터는 실제 학습 데이터의 중요한 대안 또는 보완 자료로 사용됩니다. 충분한 실제 데이터를 수집하는 것이 어렵거나, 비용이 많이 들고, 시간이 많이 걸리거나(데이터 수집 및 주석 가이드), 데이터 개인정보 보호 문제가 제기될 때 특히 유용합니다. 이렇게 인위적으로 생성된 정보는 다음과 같은 모델을 학습시키는 데 도움이 됩니다. Ultralytics YOLO와 같은 모델을 훈련하고, 시스템을 테스트하고, 현실에서 드물거나 위험할 수 있는 시나리오를 탐색하여 궁극적으로 혁신과 모델 성능을 향상시키는 데 도움이 됩니다.

합성 데이터 생성 방법

합성 데이터 생성에는 필요한 복잡성과 충실도에 따라 다양한 기법이 사용됩니다. 몇 가지 일반적인 접근 방식은 다음과 같습니다:

  • 통계 모델링: 확률 분포에서 샘플링하거나 실제 데이터에서 파생된 회귀 모델과 같은 통계적 방법을 사용합니다.
  • 시뮬레이션: 데이터를 생성하기 위한 가상 환경 또는 프로세스를 생성합니다. 이는 로봇 공학 및 자율 시스템에서 흔히 사용되며, NVIDIA Omniverse 또는 Unity Simulation과 같은 플랫폼을 사용합니다.
  • 딥러닝 모델: 딥러닝(DL) 기술, 특히 생성적 적대 신경망(GAN) 과 최근에는 확산 모델을 사용합니다. 이러한 모델은 실제 데이터의 기본 패턴을 학습하여 새롭고 유사한 데이터 포인트를 생성합니다. 최초의 GAN 논문은 이 분야의 기본 개념을 소개했습니다.

AI 및 컴퓨터 비전에서의 중요성

합성 데이터는 AI 개발과 컴퓨터 비전에 몇 가지 중요한 이점을 제공합니다:

  • 데이터 부족 문제 극복: 실제 데이터가 제한적이거나 수집 비용이 많이 드는 경우 대량의 데이터를 제공하여 강력한 모델을 학습하는 데 도움을 줍니다(모델 학습을 위한 팁).
  • 데이터 프라이버시 강화: 민감한 실제 정보를 포함하지 않고 통계적 속성을 유지하는 데이터를 생성하여 개인정보 보호 규정을 준수하고 차등 개인정보 보호와 같은 기술을 사용할 수 있도록 지원합니다.
  • 편향성 감소: 과소 대표되는 그룹이나 시나리오의 대표성을 완화하거나 강화하도록 신중하게 제어하여 데이터 세트 편향성을 해결하고 AI의 공정성을 높일 수 있습니다.
  • 엣지 케이스 커버: 현실에서 포착하기 어려운 희귀하거나 위험한 시나리오(예: 자율주행 차량의 사고, 희귀 질환)를 나타내는 데이터를 생성할 수 있습니다. 이를 통해 모델 일반화가 향상됩니다.
  • 비용 및 시간 효율성: 실제 데이터를 수집하고 라벨을 붙이는 것보다 더 저렴하고 빠르게 생성할 수 있는 경우가 많습니다(데이터 라벨링 설명).

컴퓨터 비전에서 합성 이미지는 사용 가능한 데이터 세트에서 찾기 어려운 다양한 조건(예: 다양한 조명, 날씨, 시점)에서 물체 감지, 이미지 분할, 포즈 추정과 같은 작업을 위한 모델을 훈련하는 데 자주 사용됩니다.

실제 애플리케이션

합성 데이터는 다양한 산업 분야에서 활용되고 있습니다:

  • 자동차 분야의 AI: 자율주행차 모델을 학습하려면 방대한 양의 다양한 주행 데이터가 필요합니다. Waymo의 시뮬레이션 환경과 같은 시뮬레이션은 사고나 비정상적인 도로 상황과 같은 드문 이벤트를 포함한 가상 시나리오를 생성하여 실제 위험 없이 안전성을 테스트하는 데 매우 중요합니다. 이를 통해 신뢰할 수 있는 자율주행 시스템의 개발을 가속화할 수 있습니다.
  • 의료 분야의 AI: 종양 검출과 같은 의료 이미지 분석을 위한 AI 모델 개발은 환자 개인정보 보호 규정(예: HIPAA)과 희귀 질환에 대한 라벨링된 데이터의 부족으로 인해 종종 어려움에 직면합니다. 합성 의료 이미지 또는 환자 기록(예: Synthea와 같은 도구를 사용하여 생성된)을 사용하면 연구자들이 개인정보 보호에 영향을 주지 않고 모델을 훈련할 수 있어 데이터에 대한 접근성을 민주화할 수 있습니다.

다른 애플리케이션으로는 금융 모델링(금융 분야의 AI), 소매업(더 스마트한 소매업을 위한 AI), 로봇 공학 교육 등이 있습니다.

합성 데이터 대 데이터 증강

합성 데이터와 데이터 증강은 모두 데이터 집합을 향상시키는 것을 목표로 하지만, 서로 다른 개념입니다:

  • 데이터 증강: 기존의 실제 데이터 포인트에 변형(회전, 자르기, 색상 이동 등)을 적용하여 약간 수정된 버전을 생성합니다. 원본 데이터 분포를 기반으로 학습 세트의 다양성을 높입니다. Ultralytics 모델은 종종 기본 제공 증강 기능을 통합합니다(문서 통합).
  • 합성 데이터: 시뮬레이션이나 GAN과 같은 생성 모델을 사용하여 인위적으로 생성된 완전히 새로운 데이터를 말합니다. 반드시 특정 실제 데이터 포인트에서 시작하지 않으며 원본 데이터 세트에 전혀 없는 시나리오를 나타낼 수 있습니다.

본질적으로 데이터 증강은 기존 데이터의 변수를 확장하는 반면, 합성 데이터는 완전히 새로운 데이터 포인트와 시나리오를 생성할 수 있어 Ultralytics HUB와 같은 플랫폼을 통해 관리되는 AI 모델 학습에서 실제 데이터를 보완하거나 심지어 대체할 수 있는 강력한 방법을 제공합니다.

모두 보기
OSZAR »