용어집

XGBoost

분류 및 회귀 작업에서 정확한 예측을 위한 강력하고 빠르며 다재다능한 머신 러닝 알고리즘인 XGBoost에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

익스트림 그라디언트 부스팅의 약자인 XGBoost는 속도와 성능을 위해 설계된 강력하고 널리 사용되는 오픈 소스 머신 러닝(ML) 알고리즘입니다. 새로운 모델이 이전 모델의 오류를 수정하면서 순차적으로 모델을 구축하는 앙상블 방식인 그라데이션 부스팅 프레임워크 계열에 속합니다. XGBoost는 고급 정규화 기법(예: L1 및 L2 정규화)을 통합하여 과적합을 방지하고 계산 리소스를 최적화함으로써 기존의 그라데이션 부스팅을 개선하여 더 빠른 훈련과 예측을 가능하게 합니다. 따라서 분류회귀 작업, 특히 구조화된 데이터나 표 형식의 데이터에서 매우 효과적입니다.

그라데이션 부스팅 이해

XGBoost의 핵심은 제롬 H. 프리드먼이 개발한 기술인 그라데이션 부스팅을 최적화하여 구현한 것입니다. 그라데이션 부스팅은 약한 학습자(일반적으로 의사 결정 트리)로 구성된 앙상블을 단계적으로 구축합니다. 각각의 새로운 트리는 이전 트리의 앙상블이 만든 잔여 오차(실제 값과 예측 값의 차이)를 예측하려고 시도합니다. XGBoost는 효율성과 모델 정확도를 크게 향상시키는 몇 가지 주요 혁신을 통해 이 프로세스를 개선합니다.

주요 기능 및 개선 사항

XGBoost는 표준 그라데이션 부스팅 알고리즘에 비해 몇 가지 개선 사항을 도입했습니다:

  • 정규화: L1(올가미) 및 L2(능선) 정규화 조건을 목적 함수에 통합하여 과적합을 방지하고 모델 일반화를 개선하는 데 도움이 됩니다.
  • 병렬 처리: 효율성을 위해 설계된 XGBoost는 멀티코어 GPU를 활용하여 훈련 중에 더 빠른 계산을 수행할 수 있습니다.
  • 누락된 값 처리: 누락된 데이터 값을 처리하는 루틴이 내장되어 있어 데이터 자체에서 최적의 임포팅 전략을 학습합니다.
  • 트리 가지치기: 표준 그라데이션 부스팅에 비해 고급 트리 가지치기 기술 ('max_depth' 매개변수를 사용한 깊이 우선 가지치기 및 게인을 기반으로 한 사후 가지치기 등)을 사용합니다.
  • 교차 검증 기능 내장: 사용자가 부스팅 프로세스를 반복할 때마다 교차 검증을 실행할 수 있으므로 최적의 부스팅 라운드 수를 쉽게 얻을 수 있습니다.
  • 캐시 인식: 캐시 계층 구조를 인식하여 하드웨어 사용량을 최적화합니다.
  • 유연성: 사용자 지정 목표 및 평가 기능을 지원하여 표준 분류 및 회귀를 넘어 다양한 작업에 적응할 수 있는 기능을 제공합니다. 이는 효과적인 하이퍼파라미터 튜닝에 도움이 됩니다.

다른 알고리즘과의 비교

XGBoost는 표 형식의 데이터에 매우 효과적이지만, 다른 인기 알고리즘과는 다릅니다:

  • LightGBM: 특히 매우 큰 데이터 세트에서 속도가 빠른 것으로 알려진 또 다른 그래디언트 부스팅 프레임워크입니다. LightGBM은 고유한 리프 단위 트리 성장 전략을 사용하는데, 이는 더 빠를 수 있지만 XGBoost의 레벨 단위 성장에 비해 작은 데이터 세트에서는 과적합이 발생하기 쉽습니다.
  • CatBoost: 이러한 변수를 정교하게 처리하기 때문에 범주형 특징이 많이 포함된 데이터 세트에 특히 탁월합니다. 범주형 데이터에 대한 하이퍼파라미터 튜닝이 XGBoost에 비해 덜 필요한 경우가 많습니다.
  • 딥러닝(DL) 모델: 컨볼루션 신경망(CNN) 과 같은 알고리즘 또는 다음과 같은 모델 Ultralytics YOLO 와 같은 모델은 주로 이미지나 텍스트와 같은 비정형 데이터용으로 설계되어 컴퓨터 비전(CV)(객체 감지, 이미지 분할)과 같은 작업에 탁월합니다. 반면, XGBoost는 일반적으로 비즈니스 분석에서 흔히 볼 수 있는 정형화된 표 형식의 데이터 세트에 더 우수합니다.

실제 애플리케이션

XGBoost의 성능과 견고함은 다양한 예측 모델링 애플리케이션에 적합합니다:

  • 금융 서비스: 신용 위험 평가, 사기 탐지, 알고리즘 트레이딩 전략에 광범위하게 사용됩니다. 예를 들어, 은행에서는 고객 신청 데이터를 기반으로 대출 불이행 가능성을 예측하는 모델을 구축하는 데 XGBoost를 사용합니다. 금융 분야의 AI에 대해 자세히 알아보세요.
  • 소매 및 이커머스: 고객 행동 분석, 고객 이탈 예측, 판매 예측, 추천 엔진 구축에 적용됩니다. 예를 들어, 온라인 소매업체는 특정 마케팅 캠페인에 반응할 가능성이 높은 고객을 예측하기 위해 XGBoost를 사용할 수 있습니다.
  • 헬스케어: 임상 데이터를 기반으로 환자 결과와 질병 위험을 예측하고 병원 운영을 최적화하는 데 사용됩니다. 의료 분야의 AI에 대해 자세히 알아보세요.
  • 제조: 예측 유지보수(장비 고장 예측), 품질 관리 분석, 생산 프로세스 최적화에 활용됩니다. 제조 분야의 AI 살펴보기.
  • 경쟁적인 데이터 과학: XGBoost는 높은 정확도와 효율성으로 인해 Kaggle에서 주최하는 데이터 과학 경진대회와 같은 대회에서 가장 인기 있는 알고리즘입니다.

XGBoost는 속도, 정확성, 복잡한 표 형식의 데이터 세트를 효과적으로 처리하는 능력으로 인해 머신 러닝 환경에서 여전히 관련성이 높고 강력한 도구로 선호되고 있습니다. 공식 XGBoost 라이브러리를 통해 계속 개발되고 있으며, 엔드투엔드 ML 수명 주기를 관리하기 위해 Scikit-learn과 같은 인기 있는 ML 라이브러리 및 Ultralytics HUB와 같은 플랫폼과 잘 통합됩니다.

모두 보기
OSZAR »