MLflow の 定義済みの LLM ジャッジ スコアラー は、よりシンプルなアプリケーションで一般的な品質ディメンションの優れた開始点を提供しますが、アプリケーションがより複雑になるにつれてカスタム LLM ジャッジを作成し、ユース ケースの特定の微妙なビジネス要件を満たし、ドメインエキスパートの判断に合わせて評価基準を調整する必要があります。 MLflow は、これらの固有の要件に合わせて調整された カスタム LLM ジャッジを 作成するための堅牢で柔軟な方法を提供します。
カスタム ジャッジを作成するためのアプローチ
MLflowは、カスタムジャッジを構築するための2つのアプローチを提供します。 ガイドラインベースのジャッジから始めて、より詳細な制御が必要な場合や、評価基準を合格/失敗ガイドラインとして記述できない場合にのみ、プロンプトベースのジャッジを使用することをお勧めします。 ガイドラインベースのジャッジには、ビジネス利害関係者に簡単に説明できるという明確な利点があり、多くの場合、ドメインの専門家が直接書くことができます。
ガイドラインベースのスコアラー (ここから開始することをお勧めします)
- 次の場合に最適です。 合格/失敗条件としてフレーム化された、特定の自然言語基準の明確なセットに基づく評価。 ルール、スタイル ガイド、または情報の包含/除外に関するコンプライアンスを確認するのに最適です。
-
しくみ:
The response must be polite
など、アプリに対する特定の入力またはアプリからの出力を参照する一連のプレーン言語ルールを指定します。 LLM は、ガイドラインが合格または失敗したかどうかを判断し、その理由の根拠を提供します。
プロンプトに基づいたスコアラー
- 次の場合に最適です。 スコアラーのプロンプトを完全に制御する必要がある、またはスコアラーに複数の出力値 ("great"、"ok"、"bad" など) を指定する必要がある複雑で微妙な評価。
- しくみ: 評価基準を定義し、アプリのトレース内の特定のフィールドのプレースホルダーを含むプロンプト テンプレートを提供します。 スコアラーが選択できる出力の選択肢を定義します。 LLMは次に、適切な出力選択肢を選択し、その選択の根拠を提供します。
次のステップ
これらの推奨されるアクションとチュートリアルを使用して、体験を続けます。
- ガイドラインベースのスコアラーを作成 する - 自然言語ルールを使用して評価基準を定義する (推奨)
- プロンプト ベースのスコアラーを作成 する - カスタム プロンプトと出力の選択肢を使用して複雑なジャッジを作成する
- 運用環境でスコアラーを実行 する - 継続的な監視のためにカスタム ジャッジをデプロイする
リファレンス ガイド
このガイドで説明されている概念と機能の詳細なドキュメントを確認します。
- LLM ジャッジ - LLM ジャッジのしくみとそのアーキテクチャを理解する
- カスタム ジャッジ: ガイドラインに基づく - ガイドラインに基づく評価の徹底解析
- カスタムジャッジ: プロンプトベース - プロンプトベース のジャッジに関する技術的な詳細