バウンディングボックスが物体検出、AI、機械学習システムをどのように実現するかを学びます。コンピュータ・ビジョン・アプリケーションにおけるバウンディング・ボックスの役割を探ります!
バウンディングボックス(bounding box)とは、コンピュータビジョン(CV)において、画像やビデオフレーム内のオブジェクトの位置とおおよその範囲を示すために使われる矩形の枠のことである。通常、左上と右下の角(または中心点、幅、高さ)の座標によって定義され、これらのボックスは、オブジェクトがどこに位置し、どれだけの空間を占めるかを指定するためのシンプルで効果的な方法を提供します。バウンディングボックスは、物体検出、物体追跡、画像注釈を含む様々なCVタスクの基本的な構成要素であり、現代の多くの人工知能(AI)や機械学習(ML)システムの基礎となっている。バウンディングボックスは、どのような物体が存在するかだけでなく、それらが視覚シーンのどこに位置するかを機械が理解するために不可欠である。
バウンディングボックスは、物体検出モデルの学習と評価の両方において極めて重要である。例えば Ultralytics YOLOのようなモデルが取り組むタスクでは、バウンディングボックスは学習プロセスにおける「グランドトゥルース(真実の根拠)」の役割を果たします。つまり、学習データ内のオブジェクトの正しい位置とサイズを表し、オブジェクトの位置を正確に特定するようモデルに教えます。このプロセスは、多くの場合、CVATのようなプラットフォームを使用したり、データセット管理のためにUltralytics HUBのようなプラットフォームと統合したりしながら、人間や自動化されたツールが画像内のオブジェクトの周りにこれらのボックスを描く、注意深いデータアノテーションから始まります。推論中、学習されたモデルは、クラスラベルと信頼度スコアとともに、検出されたオブジェクトの周りのバウンディングボックスを予測します。このローカリゼーション能力は、単に物体を識別するだけでなく、その正確な位置を必要とするアプリケーションには不可欠です。
MLモデルにおけるバウンディングボックスの使用と評価には、いくつかのメトリクスとテクニックが密接に関連している:
標準的な(軸合わせされた)バウンディングボックスは単純な矩形でオブジェクトを特定するが、他のコンピュータビジョン技術は異なる詳細レベルを提供したり、異なるシナリオを処理したりする:
バウンディングボックスは、多くの実用的なAIアプリケーションに不可欠である: