용어집

자신감

AI 신뢰도 점수를 정의하세요. 모델이 예측 확실성을 측정하고, 신뢰도에 대한 임계값을 설정하고, 신뢰도와 정확도를 구분하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

인공 지능(AI) 및 머신 러닝(ML)의 맥락에서 신뢰도는 모델이 예측에 부여한 점수를 나타내며, 모델이 특정 결과에 대해 얼마나 확신하는지를 나타냅니다. 객체 감지 또는 이미지 분류와 같은 작업의 경우, 감지된 각 객체 또는 할당된 클래스 레이블에는 일반적으로 0에서 1(또는 0%에서 100%) 범위의 신뢰도 점수가 제공됩니다. 이 점수를 통해 사용자는 다음과 같은 모델에 의한 개별 예측의 신뢰도를 측정할 수 있습니다. Ultralytics YOLO. 점수가 높을수록 모델이 학습 중에 학습한 패턴을 기반으로 한 예측이 더 확실하다는 것을 의미합니다. 신뢰도를 이해하는 것은 모델 결과를 해석하고 AI 예측을 기반으로 정보에 입각한 결정을 내리는 데 매우 중요하며, 특히 자동차 솔루션의 AI와 같이 안전이 중요한 애플리케이션에서 중요합니다.

신뢰가 결정되는 방법

신뢰도 점수는 일반적으로 신경망(NN)의 출력 계층에서 도출됩니다. 분류 작업의 경우, 각 클래스에 대해 확률과 유사한 값을 생성하기 위해 원시 출력(로짓)에 Softmax나 시그모이드와 같은 활성화 함수를 적용하는 경우가 많습니다. YOLO 같은 객체 감지 모델에서 신뢰 점수는 제안된 경계 상자에 객체가 존재할 확률("객체성 점수"라고도 함)과 해당 객체가 특정 클래스에 속할 확률을 결합하여 객체가 존재한다는 조건에 따라 계산할 수 있습니다. 이는 추론 프로세스 중에 감지의 유효성을 평가하는 데 사용되는 주요 결과입니다. 이 점수는 COCO와 같은 데이터 세트에서 학습한 모델 가중치를 기반으로 계산됩니다.

신뢰도 임계값

실제로 모델의 모든 예측이 똑같이 유용하거나 신뢰할 수 있는 것은 아닙니다. 신뢰도 점수가 매우 낮은 예측은 종종 배경 잡음이나 불확실한 분류를 나타냅니다. 이를 걸러내기 위해 일반적으로 '신뢰도 임계값'을 적용합니다. 이 임계값은 사용자가 정의한 값(예: 0.5 또는 50%)으로, 이 임계값 이상의 신뢰도 점수를 가진 예측만 유효한 출력으로 간주됩니다. 적절한 임계값을 설정하는 것은 매우 중요하며 종종 특정 애플리케이션에 따라 달라집니다:

  • 높은 리콜 시나리오: 검진을 위한 의료 이미지 분석과 같은 애플리케이션에서는 처음에는 낮은 임계값을 사용하여 사람이 검토해야 하는 오탐이 더 많더라도 잠재적인 발견을 놓칠 가능성을 최소화할 수 있습니다(높은 회상률). 의료 분야의 AI에는 종종 신중한 임계값 조정이 필요합니다.
  • 고정밀 시나리오: 자율 주행이나 제조 분야의 AI 품질 관리와 같은 애플리케이션에서는 매우 확실한 예측( 고정밀)을 기반으로만 조치를 취하여 오류의 위험을 줄이려면 임계값이 높을수록 좋습니다. AI 안전 연구는 강력한 의사결정을 강조합니다.

신뢰 임계값은 종종 비최대 억제(NMS) 와 같은 기술과 함께 작동하여 동일한 개체에 대해 겹치는 경계 상자를 제거하여 최종 탐지 집합을 구체화합니다. 명령줄 인터페이스(CLI) 또는 Python API를 통해 Ultralytics 모델을 사용할 때 이 임계값을 쉽게 구성할 수 있습니다. 최적의 임계값을 찾으려면 하이퍼파라미터 튜닝이 필요할 수 있습니다.

실제 애플리케이션

신뢰도 점수는 AI 모델을 책임감 있고 효과적으로 배포하는 데 있어 기본이 됩니다:

  1. 의료 진단 지원:종양 발견과 같은 잠재적 이상 징후가 있는지 의료 스캔(예: 엑스레이 또는 MRI)을 분석하는 시스템에서 신뢰도 점수는 케이스의 우선순위를 정하는 데 도움이 됩니다. 신뢰도가 낮은 예측은 방사선 전문의의 정밀 검사가 필요한 모호한 발견을 나타낼 수 있으며, 신뢰도가 높은 예측은 검토 프로세스를 간소화할 수 있습니다. 방사선학 AI 연구는 종종 신뢰도 수준에 대해 논의합니다.
  2. 자율 시스템: 자율 주행 자동차 또는 로봇 공학에서 신뢰도 점수는 안전에 매우 중요합니다. 보행자 또는 다른 차량(Waymo의 접근 방식에 대해 알아보기)을 감지하면 시스템이 제동이나 방향 전환과 같은 작업을 시작하기 전에 높은 신뢰도 임계값을 충족해야 합니다. 신뢰도가 낮은 감지는 무시되거나 덜 중요한 경고를 트리거할 수 있습니다. 이렇게 하면 시스템이 확실한 경우에만 결정적으로 작동합니다.

신뢰도 대 다른 지표

개별 예측의 신뢰도 점수를 전체 모델 평가 지표와 혼동하지 않는 것이 중요합니다. 서로 연관되어 있지만 성능의 다른 측면을 측정합니다:

  • 정확도: 전체 데이터 세트에서 정확한 예측의 전체 비율을 측정합니다. 모델 성능에 대한 일반적인 감각을 제공하지만 개별 예측의 확실성을 반영하지는 않습니다. 모델은 정확도가 높을 수 있지만 여전히 낮은 신뢰도로 일부 예측을 할 수 있습니다.
  • 정밀도: 실제로 정확했던 양성 예측의 비율(정탐/(정탐 + 오탐)의 비율)을 나타냅니다. 정확도가 높을수록 오경보가 적습니다. 신뢰도는 예측에 대한 모델의 믿음을 반영하며, 이는 정확도와 일치할 수도 있고 일치하지 않을 수도 있습니다.
  • 리콜 (민감도): 모델이 올바르게 식별한 실제 양성 사례의 비율을 측정합니다(정탐/(정탐 + 오탐)). 민감도가 높을수록 놓치는 탐지 건수가 적다는 뜻입니다. 신뢰도는 실제 양성 사례의 수와는 직접적인 관련이 없습니다.
  • F1-Score: 정확도와 회수율의 조화 평균으로, 두 지표의 균형을 맞추는 단일 지표를 제공합니다. 신뢰도는 예측 수준 점수로 유지됩니다.
  • 평균 평균 정밀도(mAP): 다양한 신뢰도 임계값과 클래스에 걸쳐 정밀도-리콜 곡선을 요약하는 객체 탐지의 공통 지표입니다. mAP 계산에는 신뢰도 임계값이 포함되지만, 신뢰도 점수 자체는 각각의 개별 탐지에 적용됩니다.
  • 보정: 신뢰도 점수가 실제 정답 확률과 얼마나 잘 일치하는지를 나타냅니다. 잘 보정된 모델의 신뢰도가 80%인 예측은 약 80%의 확률로 정확해야 합니다. 모델의 신뢰도 점수가 본질적으로 항상 잘 보정되는 것은 아닙니다(보정에 관한 연구 참조).

요약하면, 신뢰도는 개별 AI 예측의 확실성을 평가하여 실제 애플리케이션에서 더 나은 필터링, 우선순위 지정 및 의사 결정을 내릴 수 있도록 하는 유용한 결과물입니다. 신뢰도는 Ultralytics 허브에서 추적되는 것과 같이 모델의 전반적인 성능을 평가하는 메트릭을 보완하지만, 그것과는 구별됩니다.

모두 보기
OSZAR »