用語集

平均平均精度(mAP)

自動運転やヘルスケアなどのAIアプリケーションにおける物体検出モデルの評価における平均平均精度(mAP)の重要性を発見してください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

平均平均精度(mAP)は、一般的なUltralyticsのような物体検出モデルの性能を評価するために広く使用されている指標です。 Ultralytics YOLOファミリーのような物体検出モデルの性能を評価するために広く使用されている指標です。mAPは、様々なクラスと信頼レベルにわたって物体を正しく識別し、位置を特定するモデルの能力を要約する単一の包括的なスコアを提供します。より単純なメトリクスとは異なり、mAPは、すべての関連オブジェクトを見つけること(リコール)と、見つかったオブジェクトが本当に正しいことを確認すること(精度)の間のトレードオフのバランスを効果的にとり、自律システムや医療診断のような複雑なアプリケーションで使用されるモデルを評価する上で非常に重要です。mAPを理解することは、コンピュータビジョン(CV)モデルの開発や導入に携わる人にとって不可欠です。

基本を理解する精度と再現率

mAPを理解するには、まずPrecisionと Recallを把握することが不可欠である。物体検出の文脈では

  • 精度:識別されたオブジェクトのいくつが実際に正しかったかを測定する。精度が高いということは、モデルが誤った予測をほとんどしていないことを意味する。
  • リコール:実際に存在するオブジェクトのうち、モデルによって正しく識別されたオブジェクトの数を測定する。高いリコールは、モデルが関連するオブジェクトのほとんどを発見した(偽陰性が少ない)ことを意味する。

mAPは、このトレードオフの異なるポイントにわたってモデルを評価する方法を提供し、パフォーマンスのよりバランスの取れたビューを提供します。WikipediaでPrecisionとRecallの基礎についてもっと知ることができます。

mAPの計算方法

mAPの計算にはいくつかの段階があり、異なる物体クラスや検出しきい値にわたってモデルの性能をロバストに評価することができる:

  1. 信頼度の並べ替え:各オブジェクトクラスについて、モデルの予測(検出されたバウンディングボックス)は、信頼度スコアに基づいて、高いものから低いものへとソートされる。
  2. 精度-再現曲線:各クラスについて,精度-再現曲線が生成される.この曲線は、さまざまな信頼しきい値で計算された想起値に対する精度をプロットする。しきい値が小さくなるにつれて、一般に想起は増加し(より多くのオブジェクトが検出される)、一方精度は低下するかもしれない(より多くの偽陽性が含まれるかもしれない)。
  3. 平均精度 (AP): 1つのクラスの平均精度 (AP) は,その精度-再現曲線の下の面積として計算される.これは,すべての想起レベルにわたって,その特定のクラスに対するモデルのパフォーマンスを要約する単一の数値を提供する.この面積を近似するさまざまな手法が存在します.
  4. 平均平均精度 (mAP):最後に、mAP はデータセット内のすべてのオブジェクトクラスにわたる AP 値を平均することで計算される。これにより、データセット全体におけるモデルの全体的なパフォーマンススコアが得られる。

多くの場合、mAPは特定のIntersection over Union(IoU)閾値で報告される。IoUは、予測されたバウンディングボックスとグランドトゥルース(実際の)バウンディングボックスの重なりを測定します。一般的なmAPのバリエーションは以下の通り:

  • [email protected](またはmAP50):固定のIoUしきい値0.5を用いて計算。これはPASCAL VOCチャレンジのようなベンチマークで使用される標準的な指標です。グランドトゥルースとのIoUが0.5以上の場合のみ、検出は正しいとみなされる。
  • [email protected]:.95(またはmAP[.5:.95]):複数のIoUしきい値(通常は0.5から0.95まで、0.05のステップ)にわたってmAPを平均することにより算出。COCOデータセットの評価で一般的に使用されているこの指標は、さまざまなローカライズ精度要件での性能を考慮することで、より包括的な評価を提供します。

これらのメトリクスがYOLO モデルにどのように適用されるかの詳細については、Ultralytics YOLO Performance Metricsガイドをご覧ください。

mAPが重要な理由

平均平均精度は、オブジェクト検出モデルのパフォーマンスを全体的に見ることができるため、非常に重要です。これは、学習データで定義されたすべてのクラスにわたる分類精度(オブジェクトクラスが正しいか)とローカライズ精度(バウンディングボックスが正しく配置されているか)の両方を同時に考慮します。このため、特に複数のオブジェクト・カテゴリーや不均衡なクラス分布を持つデータセットでは、精度やリコールを単独で見るよりも情報量が多くなります。一般的にmAPスコアが高いほど、よりロバストで信頼性の高いオブジェクト検出モデルであることを示します。注意深いデータ増強ハイパーパラメータのチューニング、適切なモデルアーキテクチャの選択(例えば YOLO11のような)適切なモデル・アーキテクチャを選択することなどが、mAPを向上させるための一般的な戦略である。

実世界での応用

mAPは、精度と信頼性が最優先される実世界のタスクでモデルを評価する上で非常に重要である:

その他の用途としては、セキュリティ監視、ロボット工学(ロボット工学にコンピュータ・ビジョンを統合)、小売分析(よりスマートな小売在庫管理のためのAI)、農業などがある。

mAPと他の指標との比較

mAPを機械学習(ML)で使われる関連評価指標と区別することは重要だ:

  • 精度:主に分類タスクで使用される精度は、インスタンス総数の中で正しい予測(真陽性と真陰性の両方)の全体的な割合を測定します。これはローカライゼーションの品質を直接評価するものではなく、特に背景クラスが優勢な不均衡なデータセットでは、物体検出において誤解を招く可能性があります。
  • インターセクション・オーバー・ユニオン(IoU):予測されたバウンディングボックスとグラウンドトゥルースのバウンディングボックスの空間的な重なりを測定します。IoUは個々の検出についてローカライゼーションの品質を評価しますが、mAPはIoUの閾値(0.5または0.5:0.95の範囲)を取り入れて、検出が真陽性とみなされるかどうかを決定し、クラスと信頼レベルにわたってパフォーマンスを集計します。IoU自体はmAPの計算の中で使用されるコンポーネントであり、その代わりではない。

これらの違いを理解することは、特定のタスクと評価目標に基づいて適切なメトリックを選択するために極めて重要である。詳細については、「モデルの評価と微調整」ガイドを参照してください。

ツールとベンチマーク

Ultralytics HUBのようなツールは、ユーザーがモデルの訓練、追跡、評価を行うことを可能にし、モデルの訓練と 検証の過程で重要なパフォーマンス指標としてmAPを目立たせている。以下のようなMLフレームワーク PyTorchTensorFlowなどのMLフレームワークは、これらの物体検出モデルの構築と学習のための基礎となるコンポーネントを提供します。COCOや PASCAL VOCのような標準化されたデータセットは、公的なリーダーボードや研究論文で物体検出モデルを比較するための主要なメトリックとしてmAPを使用し、この分野の進歩を推進しています。Ultralytics モデル比較のページでは、mAPで測定される様々なモデルの性能を調べて比較することができます。

すべて読む
OSZAR »