용어집

적대적 공격

AI 시스템에 대한 적대적 공격의 영향, 유형, 실제 사례, AI 보안 강화를 위한 방어 전략에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

적대적 공격은 인공 지능(AI)머신 러닝(ML)에서 중요한 보안 과제를 나타냅니다. 이러한 공격에는 ML 모델을 속여 잘못된 예측이나 분류를 하도록 고의적으로 악의적인 입력(적대적 예시라고 함)을 만드는 것이 포함됩니다. 이러한 입력에는 사람이 거의 감지할 수 없지만 표적 모델을 속이기에 충분한 미묘한 교란이 포함되어 있는 경우가 많아 딥러닝 모델과 같은 최첨단 시스템에서도 취약점이 드러납니다.

적대적 공격의 작동 방식

적대적 공격의 핵심 아이디어는 모델이 학습하고 의사 결정을 내리는 방식을 악용하는 것입니다. 모델, 특히 신경망(NN)과 같은 복잡한 모델은 방대한 양의 데이터에서 패턴을 학습합니다. 공격자는 모델에 대한 지식(화이트박스 공격)을 활용하거나 모델의 입출력 동작(블랙박스 공격)을 관찰하여 모델의 결정을 한계를 넘어 오류로 이어질 수 있는 입력의 작은 변화를 찾아냅니다. 예를 들어, 이미지의 픽셀이나 문장의 단어를 약간만 변경해도 사람에게는 정상으로 보이지만 모델의 출력은 크게 달라질 수 있습니다.

실제 사례 및 적용

적대적 공격은 다양한 AI 애플리케이션 전반에 걸쳐 실질적인 위험을 초래합니다:

  1. 컴퓨터 비전(CV): 물체 감지에서 공격자는 신중하게 디자인된 스티커를 정지 표지판에 부착하여 자율 주행 차량의 비전 시스템이 다음과 같은 모델을 사용하도록 만들 수 있습니다. Ultralytics YOLO와 같은 모델을 사용하여 속도 제한 표지판으로 잘못 분류하거나 아예 감지하지 못할 수도 있습니다. 이는 차량용 AI 솔루션의 안전에 심각한 영향을 미칠 수 있습니다. 마찬가지로 안면 인식 시스템은 안경이나 옷에 인쇄된 적대적인 패턴에 의해 속일 수 있습니다.
  2. 자연어 처리(NLP): 악성 이메일에 미묘하게 변경된 문자나 동의어를 삽입하여 분류기를 속임으로써 스팸 필터를 우회할 수 있습니다. 감정 분석을 수행하는 콘텐츠 검토 시스템도 마찬가지로 회피할 수 있어 유해한 콘텐츠가 통과할 수 있습니다.
  3. 의료 이미지 분석: 의료 스캔에 악의적인 노이즈가 추가되면 모델이 종양 탐지를 놓치거나 양성 종양을 악성으로 잘못 식별하는 등 오진으로 이어질 수 있어 의료 분야의 AI에 영향을 미칠 수 있습니다.

적대적 공격의 유형

적대적 예시를 생성하는 방법에는 다음과 같은 여러 가지가 있습니다:

  • 빠른 그라데이션 부호 방법(FGSM): 입력에 대한 손실 함수의 기울기를 사용하여 섭동을 생성하는 간단하고 빠른 방법입니다.
  • 예상 경사 하강(PGD): 효과적인 섭동을 찾기 위해 여러 단계의 작은 단계를 거치는 반복적인 방법으로, 일반적으로 FGSM보다 강력합니다.
  • 칼리니 & 와그너(C&W) 공격: 최적화 기반 공격은 매우 효과적이지만 계산 집약적인 경우가 많습니다.

적대적 공격에 대한 방어 기능

AI 모델을 보호하려면 몇 가지 방어 전략이 필요합니다:

  • 적대적 훈련: 적대적 예시로 학습 데이터를 보강하여 모델을 더욱 강력하게 만드는 것입니다.
  • 방어 증류: 동일한 작업에 대해 훈련된 다른 강력한 모델의 확률 출력으로 모델을 훈련합니다.
  • 입력 전처리/변환: 데이터 전처리 중에 평활화 또는 데이터 증강과 같은 기술을 적용하여 모델에 입력을 공급하기 전에 잠재적으로 불리한 노이즈를 제거할 수 있습니다.
  • 모델 앙상블: 여러 모델의 예측을 결합하여 견고성을 개선합니다.
  • 전문 툴킷: 모델 견고성을 테스트하고 방어를 구현하기 위해 IBM Adversarial Robustness Toolbox와 같은 라이브러리를 사용합니다. 강력한 모델을 개발하는 동안 데이터 세트를 체계적으로 관리하고 실험을 추적할 수 있는 Ultralytics HUB와 같은 플랫폼이 도움이 될 수 있습니다.

적대적 공격 대 기타 AI 보안 위협

적대적 공격은 특히 입력을 조작하여 추론 시 모델의 의사 결정 무결성을 표적으로 삼습니다. 이러한 공격은 OWASP AI 보안 상위 10가지와 같은 프레임워크에 설명된 다른 AI 보안 위협과는 다릅니다:

  • 데이터 중독: 학습 데이터를 손상시켜 학습 단계에서 모델을 손상시키거나 백도어를 생성하거나 성능을 저하시키는 것입니다.
  • 모델 반전/추출: 모델 자체 또는 모델에 포함된 민감한 정보를 탈취하여 지적 재산권 또는 데이터 프라이버시를 침해하는 공격입니다.
  • 알고리즘 편향: AI 윤리와 관련된 중요한 문제이기도 하지만, 편향은 일반적으로 추론 시 악의적인 입력 조작보다는 왜곡된 데이터나 결함이 있는 가정에서 비롯되어 불공정한 결과를 초래합니다. 올바른 데이터 보안 관행은 다양한 위협을 완화하는 데 매우 중요합니다.

적대적 공격과 방어의 미래

적대적 머신러닝 분야는 새로운 공격과 방어가 지속적으로 등장하면서 역동적인 군비 경쟁이 벌어지고 있습니다. 연구는 보다 정교한 공격(예: 물리적으로 실현 가능한 공격, 다양한 양상에 대한 공격)과 보편적으로 적용할 수 있는 강력한 방어를 개발하는 데 초점을 맞추고 있습니다. 신뢰할 수 있는 딥 러닝 시스템을 구축하려면 이러한 진화하는 위협을 이해하는 것이 중요합니다. 설명 가능한 AI(XAI) 의 원칙을 통합하면 모델 취약성을 이해하는 데 도움이 되며, 강력한 AI 윤리를 준수하면 책임감 있는 개발을 유도할 수 있습니다. NIST와 같은 조직과 다음과 같은 기업은 GoogleMicrosoft 는 연구와 가이드라인을 적극적으로 제공하고 있습니다. 지속적인 경계와 연구는 다음과 같은 모델을 보장합니다. Ultralytics YOLO11 과 같은 모델이 실제 배포에서 높은 정확도와 안정성을 유지할 수 있도록 보장합니다. 안전한 모델 교육배포에 대한 모범 사례에 대해서는 Ultralytics 종합 튜토리얼을 살펴보세요.

모두 보기
OSZAR »