용어집

접지

AI를 기반으로 추상적인 개념을 실제 데이터에 연결하여 동적 애플리케이션의 컨텍스트, 정확성 및 신뢰를 향상시키는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

인공지능에서의 접지란 언어나 기호 같은 추상적인 정보를 이미지나 소리와 같은 구체적인 실제 감각 데이터에 연결하는 필수적인 과정을 말합니다. 이를 통해 AI 시스템은 내부적으로 처리하는 개념(예: 텍스트 설명의 단어)을 센서를 통해 인식하는 사물(예: 카메라 피드에 있는 사물)과 연결하여 세상에 대한 의미 있는 이해를 구축할 수 있습니다. 이러한 기능은 단순한 패턴 인식을 넘어 인간이 단어를 사물 및 행동과 연관시키는 방식에 더 가까운 형태의 이해를 달성하기 위해 환경과 지능적이고 맥락적으로 상호 작용할 수 있는 AI를 만드는 데 기본이 됩니다. 접지는 특히 여러 유형의 데이터를 동시에 처리하는 멀티모달 모델에서 텍스트와 시각 등 서로 다른 정보 양식 간의 간극을 메우는 데 필수적입니다.

관련성 및 주요 개념

접지는 시각적 인식과 자연어 이해(NLU) 사이의 간극을 메우는 것을 목표로 하는 YOLO 모델과 같은 시각-언어 모델(VLM)에 특히 중요합니다. 일반적으로 '자동차', '사람', '개' 등 미리 정의된 카테고리 세트에 속하는 객체를 식별하는 기존의 객체 감지와 달리, 접지를 사용하면 모델이 자유 형식의 텍스트 설명을 기반으로 객체의 위치를 찾을 수 있습니다. 예를 들어, '사람'과 '자전거'만을 감지하는 것이 아니라 이미지 또는 비디오 프레임 내에서 해당 객체 구성을 구체적으로 찾아 "파란색 자전거를 타고 있는 빨간 헬멧을 쓴 사람 찾기"라는 쿼리에 대해 접지된 VLM이 응답할 수 있습니다. 여기에는 텍스트 개념('사람', '빨간 헬멧', '라이딩', '파란 자전거')을 시각 데이터 내의 해당 픽셀 및 공간 관계에 연결하는 작업이 포함됩니다. 언어를 특정 시각적 세부 사항에 연결하는 이러한 기능은 문맥적 이해를 향상시키며, 키워드뿐만 아니라 의미가 정보 검색을 주도하는 시맨틱 검색의 발전과도 밀접한 관련이 있습니다.

접지의 실제 적용 사례

접지를 통해 다양한 분야에서 더욱 정교하고 인터랙티브한 AI 애플리케이션을 구현할 수 있습니다:

  • 대화형 로봇 공학: 로봇은 "창문 옆에 있는 초록색 상자 집어"와 같이 주변 환경의 특정 물체를 지칭하는 자연어로 주어진 명령을 이해하고 실행할 수 있습니다. 이를 위해서는 "녹색 상자"와 "창문"이라는 단어를 로봇의 센서가 인식하는 실제 물체에 근거를 두어야 합니다. 로봇 공학에서 AI의 역할에 대해 자세히 알아보고 Boston Dynamics와 같은 기업의 사례를 살펴보세요.
  • 향상된 자율 주행 시스템: 자율주행차는 "앞에 주차된 배달 트럭을 조심하세요"와 같이 텍스트나 음성으로 설명된 복잡한 교통 시나리오를 더 잘 해석할 수 있습니다. 여기에는 차량의 컴퓨터 비전(CV) 시스템에 의해 식별된 특정 차량에 대한 설명이 포함됩니다. Waymo와 같은 회사에서 사용하는 기술에 대해 알아보세요.
  • 상세한 의료 이미지 분석: 방사선 전문의는 텍스트 쿼리를 사용하여 "환자 노트에 설명된 병변 강조 표시"와 같이 의료 스캔(예: 엑스레이 또는 MRI) 내에서 특정 이상 징후나 관심 영역을 정확히 찾아낼 수 있습니다. 이를 통해 진단 효율성과 정확성이 향상됩니다. 종양 탐지에 YOLO 사용하는 방법에 대한 관련 연구와 Radiology와 같은 저널에 발표된 연구를 참조하세요 : 인공 지능.
  • 콘텐츠 기반 이미지/비디오 검색: 사용자는 단순한 태그나 키워드를 넘어 '구름이 있는 산 너머 일몰 사진 찾기'와 같이 매우 구체적인 자연어 쿼리를 사용하여 방대한 시각적 데이터베이스를 검색할 수 있습니다.

기술적 측면

효과적인 접지를 달성하기 위해서는 고급 딥러닝(DL) 기술이 필요한 경우가 많습니다. 주의 메커니즘, 특히 교차 모드 주의는 모델이 텍스트 입력(예: 프롬프트의 특정 단어)과 감각 입력(예: 이미지의 특정 영역) 모두에서 관련 부분에 집중할 수 있도록 도와줍니다. 자연어 처리(NLP)에 널리 사용되는 트랜스포머 네트워크는 CLIP과 같은 모델에서 볼 수 있듯이 접지와 관련된 멀티모달 작업에 적용되는 경우가 많습니다. 이러한 모델을 훈련하려면 텍스트와 시각적 요소를 명시적으로 연결하는 주석이 포함된 고품질의 대규모 주석 데이터 세트가 필요하며, 이는 종종 Ultralytics HUB와 같은 플랫폼을 통해 관리되는 좋은 데이터 라벨링 관행의 중요성을 강조합니다. 또한 대조 학습과 같은 기법을 사용하여 모델에 해당 텍스트와 이미지 쌍을 효과적으로 연결하도록 가르치는데, 종종 다음과 같은 프레임워크를 사용합니다. PyTorch 또는 TensorFlow.

관련 개념과의 차이점

  • 개체 감지: 표준 개체 감지는 미리 정의된 개체 클래스(예: '고양이', '자동차')의 인스턴스를 식별하고 그 주위에 경계 상자를 그립니다. 그러나 접지 기능은 고정된 카테고리에 국한되지 않고 잠재적으로 복잡하고 개방적인 어휘의 자연어 설명을 기반으로 객체를 찾습니다.
  • 시맨틱 세분화: 이 작업은 이미지의 모든 픽셀에 클래스 레이블을 할당합니다(예: '도로', '하늘', '건물'에 속하는 모든 픽셀에 레이블을 붙이는 것). 접지는 모든 픽셀을 분류하는 대신 특정 언어 구문을 이미지 내의 특정 영역이나 객체 인스턴스에 연결하는 데 중점을 둡니다. 이는 인스턴스 분할의 일종인 참조 표현식 분할과 더 밀접한 관련이 있습니다.

도전 과제

강력한 접지 기능을 개발하는 데는 몇 가지 어려움이 있습니다. 자연어에 내재된 모호성과 가변성을 처리하는 것은 어렵습니다. 필요한 대규모의 정확한 주석이 달린 데이터 세트를 생성하는 것은 노동 집약적이고 비용이 많이 듭니다. 분산 학습 이나 클라우드 학습을 포함하는 복잡한 멀티모달 모델을 학습하는 데 필요한 컴퓨팅 리소스는 상당할 수 있습니다. 실시간 추론을 위해 모델이 효율적으로 접지를 수행할 수 있도록 보장하는 것도 실제 배포에 있어 중요한 장애물입니다. 보이지 않는 객체 설명에 대한 일반화를 개선하고 데이터 의존성을 줄이기 위해 제로 샷 학습 및 소수 샷 학습과 같은 영역에서 연구가 계속되고 있으며, arXiv와 같은 플랫폼에서 지속적인 작업을 종종 찾을 수 있습니다.

접지는 여전히 AI의 중요한 영역으로, 시스템이 인간의 인지를 더 가깝게 반영하고 보다 자연스러운 인간과 AI의 상호 작용을 가능하게 하는 더 깊고 실행 가능한 세계 이해를 향해 나아가고 있습니다.

모두 보기
OSZAR »