フローデプロイのトレースを有効にしてフィードバックを収集する

2025-06-19

重要

この記事で "(プレビュー)" と付記されている項目は、現在、パブリックプレビュー段階です。このプレビューはサービスレベルアグリーメントなしで提供されており、運用環境ではお勧めしません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

運用環境に生成 AI アプリケーションをデプロイしたら、理解を深め、パフォーマンスを最適化することができます。要求、集計されたメトリック、ユーザーフィードバックのトレースデータは、重要な役割を果たします。

この記事では、トレースを有効にし、集計されたメトリックを収集し、フローデプロイの推論時にユーザーフィードバックを収集する方法について説明します。

注

展開済みアプリケーション (プロンプトフロー以外) の継続的な監視を実行する改善された方法については、Azure AI オンライン評価の使用を検討してください。

[前提条件]

注

この機能には ハブベースのプロジェクト を使用する必要があります。 Foundry プロジェクトはサポートされていません。「自分が持っているプロジェクトの種類を確認する方法」と「ハブベースのプロジェクトを作成する」を参照してください。

Azure サブスクリプション。 Azure サブスクリプションをお持ちでない場合は、無料アカウントを作成してください。
ない場合は、ハブベースのプロジェクトを作成します。

Azure CLI と Azure CLI に対する Azure Machine Learning の拡張機能。
Azure AI Foundry プロジェクト。まだプロジェクトがない場合は、プロジェクトを作成できます。
Application Insights リソース。 Application Insights リソースがまだない場合は、作成できます。
Azure ロールベースのアクセス制御は、Azure Machine Learning の操作に対するアクセスを許可するために使用されます。この記事の手順を実行するには、選択したリソースグループに対する所有者または共同作成者のアクセス許可が必要です。詳細については、 Azure AI Foundry ポータルのロールベースのアクセス制御に関するページを参照してください。

リアルタイム推論のフローをデプロイする

フローを適切にテストした後 (フレックスフローまたは DAG フロー)、運用環境にフローをデプロイできます。この記事では、例としてリアルタイム推論のフローのデプロイを使用します。フレックスフローの場合は、flow.flex.yaml ではなく、flow.dag.yaml ファイルを準備する必要があります。

Docker コンテナーや Kubernetes クラスターなどの他のプラットフォームにデプロイすることもできます。

最新のプロンプトフロー基本イメージを使用してフローをデプロイし、トレースとフィードバック収集 API をサポートします。

デプロイのトレースを有効にしてシステムメトリックを収集する

Azure AI Foundry ポータルを使用してデプロイする場合は、デプロイウィザードで デプロイ>Application Insights 診断>詳細設定 を選択します。これにより、トレースデータとシステムメトリックが Application Insights にリンクされたプロジェクトに収集されます。

SDK または CLI を使用している場合は、Application Insights にリンクされたプロジェクトにデータを収集する app_insights_enabled: true プロパティをデプロイ .yaml ファイルに追加します。

app_insights_enabled: true

デプロイ .yaml ファイルに APPLICATIONINSIGHTS_CONNECTION_STRING 環境変数によって、他のアプリケーション分析情報を指定することもできます。 Application Insights の接続文字列は、Azure portal の [概要 ] ページにあります。

environment_variables:
  APPLICATIONINSIGHTS_CONNECTION_STRING: <connection_string>

注

app_insights_enabled: trueのみを設定しても、プロジェクトにリンクされた Application Insights リソースがない場合、デプロイは失敗しませんが、データは収集されません。

app_insights_enabled: trueと前の環境変数の両方を同時に指定すると、トレースデータとメトリックが Application Insights にリンクされたプロジェクトに送信されます。別のアプリケーション分析情報を指定する場合は、環境変数のみを保持します。

他のプラットフォームにデプロイする場合は、環境変数 APPLICATIONINSIGHTS_CONNECTION_STRING: <connection_string> を使用して、指定したアプリケーションの分析情報に対するトレースデータとメトリックを収集することもできます。

Application Insights でトレースデータを表示する

トレースは、実行中に特定のイベントまたはアプリケーションの状態を記録します。これには、関数呼び出し、変数値、およびシステムイベントに関するデータを含めることができます。トレースは、アプリケーションのコンポーネントを個別の入力と出力に分割するのに役立ちます。このプロセスは、アプリケーションのデバッグと理解に不可欠です。トレースの詳細については、この Web サイトを参照してください。トレースデータは OpenTelemetry 仕様に従います。

詳細なトレースは、指定したアプリケーション分析情報で確認できます。次のスクリーンショットは、複数のノードを含むデプロイされたフローのイベントの例を示しています。 Application Insights>Investigate>Transaction 検索を選択し、各ノードを選択して詳細なトレースを表示します。

依存関係の種類イベントは、デプロイからの呼び出しを記録します。イベントの名前はフローフォルダーの名前です。詳細については、 Application Insights でのトランザクション検索と診断に関するページを参照してください。

Application Insights でシステムメトリックを表示する

メトリック名	タイプ	ディメンション	説明
`token_consumption`	counter	- `flow` - `node` - `llm_engine` - `token_type`: `prompt_tokens`: LLM API 入力トークン; `completion_tokens`: LLM API 応答トークン; `total_tokens` = `prompt_tokens + completion tokens`	OpenAI トークン消費メトリック。
`flow_latency`	ヒストグラム	`flow`、 `response_code`、 `streaming`、 `response_type`	要求の実行コスト ( `response_type`) は、完全バイトか最初のバイトか最後のバイトかを意味します。
`flow_request`	counter	`flow`、 `response_code`、 `exception`、 `streaming`	フローリクエストの数。
`node_latency`	ヒストグラム	`flow`、 `node`、 `run_status`	ノード実行コスト。
`node_request`	counter	`flow`、 `node`、 `exception`、 `run_status`	ノードの実行数。
`rpc_latency`	ヒストグラム	`flow`、 `node`、 `api_call`	リモート手続き呼び出しのコスト。
`rpc_request`	カウンター	`flow`、 `node`、 `api_call`、 `exception`	リモートプロシージャコールのカウント。
`flow_streaming_response_duration`	ヒストグラム	`flow`	最初のバイトの送信から最後のバイトの送信までのストリーミング応答送信コスト。

ワークスペースの既定の Application Insights メトリックは、Azure portal のワークスペースの概要ページで確認できます。

Application Insights を開き、左側のウィンドウで [使用量と推定コスト ] を選択します。 [ カスタムメトリック (プレビュー)]>[ディメンションなし] を選択し、変更を保存します。
左側のウィンドウで [ メトリック ] タブを選択します。 [メトリック名前空間] で、promptflow 標準メトリックを選択します。メトリック のドロップダウンリスト から、さまざまな集計方法を使用してメトリックを探索できます。

フィードバックを収集して Application Insights に送信する

プロンプトフローサービスは、顧客がフィードバックを収集するのに役立つ新しい /feedback API を提供します。フィードバックペイロードには、任意の JSON 形式のデータを指定できます。プロンプトフローサービスは、お客様がフィードバックデータをトレーススパンに保存するのに役立ちます。データは、顧客が構成したトレースエクスポーターターゲットに保存されます。プロンプトフローサービスでは、OpenTelemetry 標準トレースコンテキスト伝達もサポートされます。要求ヘッダーで設定されたトレースコンテキストを考慮し、そのコンテキストを要求親スパンコンテキストとして使用します。分散トレース機能を使用して、フィードバックトレースをチャット要求トレースに関連付けることができます。

次のサンプルコードは、トレースが有効になっているマネージドエンドポイントにデプロイされたフローをスコア付けし、スコアリング要求の同じトレーススパンにフィードバックを送信する方法を示しています。フローには、入力 question と chat_historyがあります。出力は answer になります。エンドポイントがスコア付けされると、フローのデプロイ時に指定されたとおりにフィードバックが収集され、Application Insights に送信されます。

import urllib.request
import json
import os
import ssl
from opentelemetry import trace, context
from opentelemetry.baggage.propagation import W3CBaggagePropagator
from opentelemetry.trace.propagation.tracecontext import TraceContextTextMapPropagator
from opentelemetry.sdk.trace import TracerProvider

# Initialize your tracer.
tracer = trace.get_tracer("my.genai.tracer")
trace.set_tracer_provider(TracerProvider())

# Request data goes here.
# The example below assumes JSON formatting, which might be updated
# depending on the format your endpoint expects.
data = {
    "question": "hello",
    "chat_history": []
}

body = str.encode(json.dumps(data))

url = 'https://basic-chat-endpoint-0506.eastus.inference.ml.azure.com/score'
feedback_url = 'https://basic-chat-endpoint-0506.eastus.inference.ml.azure.com/feedback'
# Replace this with the primary/secondary key, AMLToken, or Microsoft Entra ID token for the endpoint.
api_key = ''
if not api_key:
    raise Exception("A key should be provided to invoke the endpoint")

# The azureml-model-deployment header will force the request to go to a specific deployment.
# Remove this header to have the request observe the endpoint traffic rules.
headers = {'Content-Type':'application/json', 'Authorization':('Bearer '+ api_key), 'azureml-model-deployment': 'basic-chat-deployment' }

try:
    with tracer.start_as_current_span('genai-request') as span:

        ctx = context.get_current()
        TraceContextTextMapPropagator().inject(headers, ctx)
        print(headers)
        print(ctx)
        req = urllib.request.Request(url, body, headers)
        response = urllib.request.urlopen(req)

        result = response.read()
        print(result)

        # Now you can process the answer and collect feedback.
        feedback = "thumbdown"  # Example feedback (modify as needed).

        # Make another request to save the feedback.
        feedback_body = str.encode(json.dumps(feedback))
        feedback_req = urllib.request.Request(feedback_url, feedback_body, headers)
        urllib.request.urlopen(feedback_req)


except urllib.error.HTTPError as error:
    print("The request failed with status code: " + str(error.code))

    # Print the headers - they include the requert ID and the timestamp, which are useful for debugging the failure.
    print(error.info())
    print(error.read().decode("utf8", 'ignore'))

Application Insights では、要求のトレースおよび、フィードバックを表示できます。

高度な使用方法: カスタム OpenTelemetry コレクターサービスにトレースをエクスポートする

場合によっては、デプロイされた OpenTelemetry コレクターサービスにトレースデータをエクスポートすることが必要になる場合があります。このサービスを有効にするには、 OTEL_EXPORTER_OTLP_ENDPOINTを設定します。独自のスパン処理ロジックと独自のトレース永続ターゲットをカスタマイズする場合は、このエクスポーターを使用します。

次の方法で共有

フロー デプロイのトレースを有効にしてフィードバックを収集する

[前提条件]

リアルタイム推論のフローをデプロイする

デプロイのトレースを有効にしてシステム メトリックを収集する

Application Insights でトレース データを表示する

Application Insights でシステム メトリックを表示する

フィードバックを収集して Application Insights に送信する

高度な使用方法: カスタム OpenTelemetry コレクター サービスにトレースをエクスポートする

関連コンテンツ

フィードバック

その他のリソース

フローデプロイのトレースを有効にしてフィードバックを収集する

デプロイのトレースを有効にしてシステムメトリックを収集する

Application Insights でトレースデータを表示する

Application Insights でシステムメトリックを表示する

高度な使用方法: カスタム OpenTelemetry コレクターサービスにトレースをエクスポートする