プロンプト・エンリッチメントでAIを使いこなす!文脈、明確な指示、正確な結果を得るための例を使用して、大規模言語モデルの出力を強化します。
プロンプトエンリッチメントとは、人工知能(AI)モデル、特に大規模言語モデル(LLM)によって処理される前に、ユーザーの初期入力プロンプトを自動的または半自動的に強化するプロセスである。主な目的は、関連する文脈情報を追加したり、潜在的な曖昧さを明確にしたり、制約を設定したり、特定の詳細を含めることによって、AIの出力の品質、関連性、特異性を向上させることである。この技術により、ユーザーとAIシステム間のインタラクションが洗練され、プロンプトエンジニアリングに関する深い専門知識をユーザーに要求することなく、プロンプトがより効果的になり、全体的なユーザーエクスペリエンス(UX)が向上する。
エンリッチメントプロセスは通常、元のユーザープロンプトを分析することから始まる。この分析に基づいて、システムは追加の情報ソースまたは事前定義されたルールを活用してプロンプトを補強する。これには、ユーザーとの対話履歴にアクセスしたり、ナレッジベースから関連ドキュメントを取得したり、進行中の会話のコンテキストを取り入れたり、モデルが必要とする特定のフォーマット指示を適用したりすることが含まれる。たとえば、「最新のUltralytics 開発について要約してください」というような単純なプロンプトを、「Ultralytics YOLOv11の主な機能とパフォーマンスの向上について、YOLOv8と比較して要約してください」と強化することができます。 YOLOv8オブジェクト検出タスクに焦点を当てて。"システムが(例えばUltralytics Docsから)関連するデータスニペットをフェッチし、LLMに送信する前にプロンプトのコンテキストウィンドウに組み込むRAG(Retrieval-Augmented Generation)のような技術が一般的に使用されている。これにより、包括的で正確な応答を生成するために必要な背景をモデルが持つことができる。
プロンプト・エンリッチメントは、多くのAI主導型アプリケーションで利用価値があり、インタラクションの質とタスクのパフォーマンスを向上させる:
プロンプト・エンリッチメントと類似の用語のニュアンスの違いを理解することは極めて重要である:
プロンプト・エンリッチメントは、LLMや自然言語理解(NLU)と最も一般的に関連しているが、その原理はコンピュータ・ビジョン(CV)にも関連してきている。従来のCVタスクは、以下のようなモデルを用いた標準的な物体検出のようなものであった。 Ultralytics YOLOのようなモデルを使用した標準的な物体検出のような従来のCVタスクは、通常、複雑なテキストプロンプトではなく画像入力に依存している。しかし、CLIP、YOLO、YOLOEのような新しいマルチモーダルモデルやプロンプト可能なビジョンシステムは、ゼロショット検出のようなタスクをガイドするために、テキストや画像のプロンプトを受け入れます。これらのモデルでは、単純なテキストプロンプト(例えば「車両を検出する」)をより多くのコンテキスト(例えば「この交通カメラフィードで救急車や消防車のような緊急車両のみを検出する」)で豊かにすることで、パフォーマンスと特異性を大幅に向上させることができます。Ultralytics HUBのようなプラットフォームは、複雑なビジョンタスクを定義したり、結果を分析したりする際のユーザーとの対話を簡素化するために、このような技術を統合できる可能性があります。