용어집

BERT(트랜스포머의 양방향 인코더 표현)

Google 의 혁신적인 NLP 모델인 BERT에 대해 알아보세요. 양방향 컨텍스트 이해가 검색 및 챗봇과 같은 AI 작업을 어떻게 혁신하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

트랜스포머의 양방향 인코더 표현의 약자인 BERT는 Google AI 언어 연구진이 개발한 자연어 처리(NLP) 사전 학습을 위한 획기적인 기술입니다. 2018년에 영향력 있는 논문"BERT: 언어 이해를 위한 심층 양방향 트랜스포머의 사전 훈련"을 통해 소개된 BERT는 기계가 인간의 언어를 이해하는 방식을 혁신적으로 변화시켰습니다. 이 논문은 Wikipedia와 같은 일반 텍스트 코퍼스만을 사용해 사전 학습된 최초의 심층 양방향 비지도 언어 표현 중 하나였습니다. BERT는 강력한 Transformer 아키텍처, 특히 인코더 부분을 활용하여 문장의 다른 모든 단어와 연관된 단어를 순차적으로 처리하는 것이 아니라 동시에 처리합니다. 이를 통해 이전의 단방향 모델에 비해 문맥을 더 깊이 이해할 수 있습니다.

Bert의 작동 방식

텍스트를 한 방향(왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽)으로 처리하던 이전 모델과 달리 BERT는 트랜스포머 인코더와 자체 주의 메커니즘을 사용해 단어의 전체 시퀀스를 한 번에 처리합니다. 이러한 양방향 접근 방식을 통해 한 단어의 앞뒤에 있는 주변 단어를 기반으로 단어의 문맥을 파악할 수 있습니다. 예를 들어, BERT는 전체 문장 문맥을 고려하여 "현금을 인출하기 위해 은행에 가야 해요"에서 "은행"의 의미와 " 강둑이 진흙탕이었어요"의 의미를 구분할 수 있습니다.

BERT는 방대한 양의 텍스트 데이터에 대한 사전 학습 단계에서 이러한 복잡한 언어 관계를 학습합니다. 여기에는 두 가지 주요 비지도 작업이 포함됩니다:

  1. 마스크 언어 모델(MLM): 입력 토큰(단어 또는 하위 단어)의 일부가 무작위로 마스킹(숨김)되며, 모델은 문맥에 따라 이러한 마스킹된 토큰을 예측하는 방법을 학습합니다.
  2. 다음 문장 예측(NSP): 모델은 문장 쌍을 받아 두 번째 문장이 원본 텍스트의 첫 번째 문장 뒤에 오는 실제 다음 문장인지 아니면 그냥 임의의 문장인지 예측하는 방법을 학습합니다.

이 사전 학습의 결과는 구문과 의미를 포착하는 풍부한 언어 임베딩을 갖춘 모델입니다. 이렇게 사전 학습된 BERT 모델은 소규모의 작업별 데이터 세트를 사용하여 다양한 특정 다운스트림 NLP 작업에 맞게 빠르게 조정하거나'미세 조정'할 수 있습니다. 사전 학습된 지식을 활용하는 이 과정은 일종의 전이 학습입니다.

주요 기능 및 이점

  • 심층적인 양방향 컨텍스트: BERT의 가장 큰 혁신은 단어의 앞뒤 단어를 동시에 살펴봄으로써 단어의 문맥을 이해하는 능력입니다. 따라서 초기 버전의 GPT와 같은 단방향 모델에 비해 언어의 뉘앙스를 훨씬 더 풍부하고 정확하게 이해할 수 있습니다.
  • 최첨단 성능: 출시 당시 BERT는 질문 답변 (예: SQuAD 데이터 세트) 및 자연어 이해(NLU) 작업을 포함한 광범위한 NLP 벤치마크에서 최고 수준의 결과를 달성했습니다.
  • 이전 학습의 강자: BERT의 사전 훈련된 모델은 강력한 기반 역할을 합니다. 개발자는 감정 분석이나 명사 인식(NER)과 같은 특정 작업에 대해 BERT를 미세 조정함으로써 모델을 처음부터 훈련하는 것에 비해 훨씬 적은 작업별 데이터와 훈련 시간으로 높은 성능을 달성할 수 있습니다.
  • 광범위한 가용성: 사전 훈련된 BERT 모델은 다음과 같은 플랫폼을 통해 쉽게 액세스할 수 있습니다. Hugging Face 와 같은 플랫폼에서 쉽게 액세스할 수 있으며 다음과 같은 인기 있는 딥 러닝(DL) 프레임워크와 함께 사용할 수 있습니다. PyTorchTensorFlow.

실제 애플리케이션

언어의 뉘앙스를 이해하는 BERT의 능력은 다양한 실제 인공지능(AI) 애플리케이션에서 상당한 개선을 이끌어냈습니다:

  • 검색 엔진: Google 검색은 사용자 검색어, 특히 대화형 또는 복잡한 검색어를 더 잘 이해하여 보다 관련성 높은 검색 결과를 제공하기 위해 BERT를 도입한 것으로 유명합니다. Google AI 블로그 게시물에 설명된 대로 BERT는 "약국에서 약을 구할 수 있나요?"와 같은 검색어의 의도를 파악하여 "for" 및 "to"와 같은 전치사의 중요성을 이해하도록 도와줍니다.
  • 챗봇 및 가상 비서: BERT는 챗봇과 가상 비서가 사용자 요청을 보다 정확하게 이해하고, 대화의 맥락을 유지하며, 고객 서비스, 예약 시스템 및 정보 검색에서 보다 유용한 응답을 제공할 수 있도록 기능을 향상시킵니다.
  • 감정 분석: 기업은 BERT 기반 모델을 사용하여 고객 리뷰, 소셜 미디어 댓글, 설문조사 응답을 분석하여 여론과 제품 피드백을 보다 정확하게 측정합니다.
  • 텍스트 요약 및 질문 답변: BERT를 미세 조정하여 긴 문서를 자동으로 요약(텍스트 요약)하거나 주어진 텍스트 구절을 기반으로 질문에 답하는 시스템을 만들 수 있습니다.

BERT는 주로 NLP에 사용되지만, 대중화된 트랜스포머 아키텍처는 다음과 같은 모델에 사용되는 비전 트랜스포머(ViT )와 같은 컴퓨터 비전(CV)의 발전에도 영향을 미쳤습니다. RT-DETR. Ultralytics 허브와 같은 플랫폼은 트랜스포머 원칙에 기반한 모델을 포함해 다양한 AI 모델의 훈련과 배포를 용이하게 합니다.

모두 보기
OSZAR »