カスタム LLM スコアラーの作成

2025-06-11

MLflow の定義済みの LLM ジャッジスコアラーは、よりシンプルなアプリケーションで一般的な品質ディメンションの優れた開始点を提供しますが、アプリケーションがより複雑になるにつれてカスタム LLM ジャッジを作成し、ユースケースの特定の微妙なビジネス要件を満たし、ドメインエキスパートの判断に合わせて評価基準を調整する必要があります。 MLflow は、これらの固有の要件に合わせて調整された カスタム LLM ジャッジを 作成するための堅牢で柔軟な方法を提供します。

カスタムジャッジを作成するためのアプローチ

MLflowは、カスタムジャッジを構築するための2つのアプローチを提供します。ガイドラインベースのジャッジから始めて、より詳細な制御が必要な場合や、評価基準を合格/失敗ガイドラインとして記述できない場合にのみ、プロンプトベースのジャッジを使用することをお勧めします。ガイドラインベースのジャッジには、ビジネス利害関係者に簡単に説明できるという明確な利点があり、多くの場合、ドメインの専門家が直接書くことができます。

ガイドラインベースのスコアラー (ここから開始することをお勧めします)

次の場合に最適です。 合格/失敗条件としてフレーム化された、特定の自然言語基準の明確なセットに基づく評価。ルール、スタイルガイド、または情報の包含/除外に関するコンプライアンスを確認するのに最適です。
しくみ:The response must be politeなど、アプリに対する特定の入力またはアプリからの出力を参照する一連のプレーン言語ルールを指定します。 LLM は、ガイドラインが合格または失敗したかどうかを判断し、その理由の根拠を提供します。

ガイドラインの概要 »

プロンプトに基づいたスコアラー

次の場合に最適です。 スコアラーのプロンプトを完全に制御する必要がある、またはスコアラーに複数の出力値 ("great"、"ok"、"bad" など) を指定する必要がある複雑で微妙な評価。
しくみ: 評価基準を定義し、アプリのトレース内の特定のフィールドのプレースホルダーを含むプロンプトテンプレートを提供します。スコアラーが選択できる出力の選択肢を定義します。 LLMは次に、適切な出力選択肢を選択し、その選択の根拠を提供します。

プロンプトベースのジャッジを使ってみる »

次のステップ

これらの推奨されるアクションとチュートリアルを使用して、体験を続けます。

ガイドラインベースのスコアラーを作成する - 自然言語ルールを使用して評価基準を定義する (推奨)
プロンプトベースのスコアラーを作成する - カスタムプロンプトと出力の選択肢を使用して複雑なジャッジを作成する
運用環境でスコアラーを実行する - 継続的な監視のためにカスタムジャッジをデプロイする

リファレンスガイド

このガイドで説明されている概念と機能の詳細なドキュメントを確認します。

LLM ジャッジ - LLM ジャッジのしくみとそのアーキテクチャを理解する
カスタムジャッジ: ガイドラインに基づく - ガイドラインに基づく評価の徹底解析
カスタムジャッジ: プロンプトベース - プロンプトベースのジャッジに関する技術的な詳細

次の方法で共有

カスタム LLM スコアラーの作成

カスタム ジャッジを作成するためのアプローチ

ガイドラインベースのスコアラー (ここから開始することをお勧めします)

プロンプトに基づいたスコアラー

次のステップ

リファレンス ガイド

フィードバック

その他のリソース

カスタムジャッジを作成するためのアプローチ

リファレンスガイド