用語集

プロンプト・エンリッチメント

プロンプト・エンリッチメントでAIを使いこなす!文脈、明確な指示、正確な結果を得るための例を使用して、大規模言語モデルの出力を強化します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

プロンプトエンリッチメントとは、人工知能(AI)モデル、特に大規模言語モデル(LLM)によって処理される前に、ユーザーの初期入力プロンプトを自動的または半自動的に強化するプロセスである。主な目的は、関連する文脈情報を追加したり、潜在的な曖昧さを明確にしたり、制約を設定したり、特定の詳細を含めることによって、AIの出力の品質、関連性、特異性を向上させることである。この技術により、ユーザーとAIシステム間のインタラクションが洗練され、プロンプトエンジニアリングに関する深い専門知識をユーザーに要求することなく、プロンプトがより効果的になり、全体的なユーザーエクスペリエンス(UX)が向上する。

プロンプト・エンリッチメントの仕組み

エンリッチメントプロセスは通常、元のユーザープロンプトを分析することから始まる。この分析に基づいて、システムは追加の情報ソースまたは事前定義されたルールを活用してプロンプトを補強する。これには、ユーザーとの対話履歴にアクセスしたり、ナレッジベースから関連ドキュメントを取得したり、進行中の会話のコンテキストを取り入れたり、モデルが必要とする特定のフォーマット指示を適用したりすることが含まれる。たとえば、「最新のUltralytics 開発について要約してください」というような単純なプロンプトを、「Ultralytics YOLOv11の主な機能とパフォーマンスの向上について、YOLOv8と比較して要約してください」と強化することができます。 YOLOv8オブジェクト検出タスクに焦点を当てて。"システムが(例えばUltralytics Docsから)関連するデータスニペットをフェッチし、LLMに送信する前にプロンプトのコンテキストウィンドウに組み込むRAG(Retrieval-Augmented Generation)のような技術が一般的に使用されている。これにより、包括的で正確な応答を生成するために必要な背景をモデルが持つことができる。

応用と実例

プロンプト・エンリッチメントは、多くのAI主導型アプリケーションで利用価値があり、インタラクションの質とタスクのパフォーマンスを向上させる:

  • カスタマー・サポート・チャットボット私の注文のステータスは何ですか」と尋ねる顧客は、API統合を介して 顧客関係管理(CRM)システムから取得したユーザーIDまたは最近の注文番号でプロンプトをエンリッチすることができます。エンリッチされたプロンプトにより、チャットボットは、フォローアップの明確な質問をするのではなく、特定の最新情報を即座に提供することができます。
  • パーソナライゼーションのためのバーチャルアシスタントユーザーがGoogle アシスタントやAlexaのようなバーチャルアシスタントに「音楽を再生して」と頼むと、ユーザーのリスニング履歴、好みのジャンル、時間帯、さらには接続デバイスを介して検出された現在のアクティビティに基づいて、プロンプトを充実させることができ、よりパーソナライズされた音楽の選択につながる。
  • コンテンツ作成ツール: テキスト生成を使った創作アシスタントは、"物語を書いてください "といった漠然としたプロンプトを受け取るかもしれない。プロンプトを充実させることで、「反抗的な主人公が登場する、ディストピア的な未来を舞台にした短いSFストーリーを書いてください」といった、過去のインタラクションに基づいた詳細を追加することができ、ユーザーの興味に沿ったアウトプットにすることができる。
  • 意味検索システム:社内文書を検索する場合、「第4四半期の業績に関するレポートを検索する」というようなクエリを、ユーザーの部署、役割、アクセス権限で強化することで、膨大なデータレイクから最も関連性が高く、許容される文書を検索することができる。

プロンプト・エンリッチメントと関連コンセプトの比較

プロンプト・エンリッチメントと類似の用語のニュアンスの違いを理解することは極めて重要である:

  • プロンプト・エンジニアリングプロンプトエンジニアリングは、AIから望ましい反応を引き出すために、人間が慎重にプロンプトを作成する手動プロセスである。逆に、プロンプト・エンリッチメントは、このエンハンスメントプロセスを自動化または半自動化することを目的としており、多くの場合、最初のあまり洗練されていないユーザープロンプトを基に構築されます。
  • プロンプトチューニングこの手法では、勾配降下法(gradient descent)を用いてソフトなプロンプト埋め込みを学習し、凍結された事前学習済みモデルを特定のタスクに対応させる。これは、テキストプロンプトそのものではなく、モデルの入力表現の一部を変更する。これはPEFT(Parameter-Efficient Fine-Tuning)の一種である。
  • 微調整これは、事前に訓練されたモデルの重みを、より小さな、タスク固有のデータセット上で更新することを含む。プロンプトエンリッチメントはモデルのパラメータを変更するのではなく、既存のモデルに供給される入力プロンプトを変更するだけである。
  • リトリーバル・アグメンテッド・ジェネレーション(RAG)RAGは、プロンプトエンリッチメントシステムでしばしば採用される特定の方法である。これは、関連する外部データを検索し、プロンプトのコンテキストに追加することで、事実の根拠を高め、幻覚を減らすことに重点を置いている。

コンピュータ・ビジョンにおける関連性

プロンプト・エンリッチメントは、LLMや自然言語理解(NLU)と最も一般的に関連しているが、その原理はコンピュータ・ビジョン(CV)にも関連してきている。従来のCVタスクは、以下のようなモデルを用いた標準的な物体検出のようなものであった。 Ultralytics YOLOのようなモデルを使用した標準的な物体検出のような従来のCVタスクは、通常、複雑なテキストプロンプトではなく画像入力に依存している。しかし、CLIPYOLOYOLOEのような新しいマルチモーダルモデルやプロンプト可能なビジョンシステムは、ゼロショット検出のようなタスクをガイドするために、テキストや画像のプロンプトを受け入れます。これらのモデルでは、単純なテキストプロンプト(例えば「車両を検出する」)をより多くのコンテキスト(例えば「この交通カメラフィードで救急車や消防車のような緊急車両のみを検出する」)で豊かにすることで、パフォーマンスと特異性を大幅に向上させることができます。Ultralytics HUBのようなプラットフォームは、複雑なビジョンタスクを定義したり、結果を分析したりする際のユーザーとの対話を簡素化するために、このような技術を統合できる可能性があります

すべて読む
OSZAR »