メトリックを使用して ML.NET モデルを評価する

2025-06-22

ML.NET モデルの評価に使用されるメトリックについて理解します。

評価メトリックは、モデルによって実行される機械学習タスクの種類に固有です。

たとえば、分類タスクの場合、モデルは、予測されたカテゴリが実際のカテゴリとどの程度一致しているかを測定することによって評価されます。クラスタリングの場合、評価は、クラスター化された項目が互いにどの程度近づいているか、およびクラスター間にどれだけの分離があるかに基づいています。

二項分類の評価メトリック

メトリック	説明	探す
精度	精度は、テストデータセットに対する正しい予測の割合です。これは、入力サンプルの合計数に対する正しい予測の数の比率です。各クラスに属するサンプルの数が類似している場合は、うまく機能します。	1.00 に近いほど良くなります。ただし、正確に 1.00 は問題を示します (一般的には、ラベル/ターゲットの漏えい、オーバーフィット、トレーニングデータによるテスト)。テストデータが不均衡な場合 (ほとんどのインスタンスがいずれかのクラスに属している場合)、データセットが小さいか、スコアが 0.00 または 1.00 に近づくと、精度によって分類子の有効性が実際にキャプチャされないため、追加のメトリックを確認する必要があります。
AUC	aucROC または曲線の下の面積は、真陽性率と偽陽性率をスイープすることによって作成された曲線の下の面積を測定します。	1.00 に近いほど良くなります。モデルを許容するには、0.50 を超える必要があります。 AUC が 0.50 以下のモデルは価値がありません。
AUCPR	aucPR または Precision-Recall 曲線の曲線下の面積: クラスが不均衡な場合の予測の成功の有用な尺度 (高度に歪んだデータセット)。	1.00 に近いほど良くなります。 1.00 に近い高いスコアは、分類子が正確な結果 (高精度) を返し、すべての肯定的な結果の大部分 (高い再現率) を返していることを示しています。
F1 スコア	F1 スコアは、バランスの取れた F スコアまたは F メジャーとも呼ばれます。精度と再現率の調和平均です。 F1 スコアは、精度と再現率のバランスを求める場合に役立ちます。	1.00 に近いほど良くなります。 F1 スコアは 1.00 で最高値に達し、最低スコアは 0.00 に達します。分類子の精度が示されます。

二項分類メトリックの詳細については、次の記事を参照してください。

複数クラス分類とテキスト分類の評価メトリック

メトリック	説明	探す
マイクロ精度	マイクロ平均精度は、平均メトリックを計算するためにすべてのクラスの貢献度を集計します。正しく予測されるインスタンスの割合です。マイクロ平均では、クラスメンバーシップは考慮されません。基本的に、すべてのサンプルクラスペアは、精度メトリックに等しく寄与します。	1.00 に近いほど良くなります。多クラス分類タスクでは、クラスの不均衡があると思われる場合 (つまり、1 つのクラスの例が他のクラスよりも多い場合) は、マクロ精度よりもマイクロ精度が適しています。
マクロの精度	マクロ平均精度は、クラスレベルでの平均精度です。各クラスの精度が計算され、マクロ精度はこれらの精度の平均です。基本的に、すべてのクラスは精度メトリックに等しく寄与します。少数派クラスには、より大きなクラスと同じ重みが与えられます。マクロ平均メトリックは、データセットに含まれるそのクラスのインスタンスの数に関係なく、各クラスに同じ重みを与えます。	1.00 に近いほど良くなります。各クラスに対して個別にメトリックを計算し、平均を受け取ります (したがって、すべてのクラスを均等に扱います)。
ログ損失	対数損失は、予測入力が 0.00 から 1.00 までの確率値である分類モデルのパフォーマンスを測定します。予測される確率が実際のラベルから分岐すると、対数損失が増加します。	0.00 に近いほど良くなります。完璧なモデルでは、対数損失は 0.00 になります。機械学習モデルの目標は、この値を最小限にすることです。
Log-Loss 削減	対数損失の減少は、ランダム予測に対する分類子の利点として解釈できます。	-inf と 1.00 の範囲。1.00 は完全な予測であり、0.00 は平均予測を示します。たとえば、値が 0.20 の場合、"正しい予測の確率はランダム推測よりも 20% 優れています" と解釈できます。

一般に、マイクロ精度は ML 予測のビジネスニーズに合わせて調整されます。多クラス分類タスクの品質を選択するために 1 つのメトリックを選択する場合は、通常はマイクロ精度にする必要があります。

たとえば、サポートチケット分類タスクの場合: (受信チケットをサポートチームにマップ)

マイクロ精度 — 受信チケットはどのくらいの頻度で適切なチームに分類されますか?
マクロの精度 - 平均的なチームの場合、受信チケットがチームにとって正しい頻度はどのくらいですか?

マクロ精度は、この例では小さなチームの太りすぎです。年間10枚のチケットしか手に入る小さなチームは、年間10,000枚のチケットを持つ大規模なチームと同じくらいカウントされます。この場合のマイクロ精度は、"チケットルーティングプロセスを自動化することで会社がどれだけの時間/コストを節約できるか" というビジネスニーズとより適切に関連付けます。

多クラス分類メトリックの詳細については、「精度、再現率、F スコアのマイクロ平均とマクロ平均」を参照してください。

回帰と推奨事項の評価メトリック

回帰タスクと推奨タスクの両方で、数値が予測されます。回帰の場合、数値には、入力プロパティの影響を受ける任意の出力プロパティを指定できます。推奨事項の場合、数値は通常、評価値 (1 から 5 など) またははい/いいえの推奨事項 (それぞれ 1 と 0 で表されます) です。

メトリック	説明	探す
R-Squared	R 二乗 (R2)、または決定係数は、モデルの予測力を -inf から 1.00 までの値として表します。 1.00 は、完璧なフィット感があることを意味し、フィット感は任意に悪い可能性があるため、スコアは負の値になる可能性があります。スコアが 0.00 の場合は、モデルがラベルの期待値を推測することを意味します。負の R2 値は、適合がデータの傾向に従っていないと、モデルがランダムな推測よりも悪いパフォーマンスを示します。これは、非線形回帰モデルまたは制約付き線形回帰でのみ可能です。 R2 は、実際のテストデータ値が予測値にどの程度近いかを測定します。	1.00 に近いほど、品質が向上します。ただし、低い R 2 乗値 (0.50 など) が完全に正常であるか、シナリオに十分な場合があり、高い R 2 乗値が常に適切で疑わしいとは限りません。
絶対損失	絶対損失または平均絶対誤差 (MAE) は、予測が実際の結果にどの程度近いかを測定します。これは、すべてのモデル誤差の平均です。モデル誤差は、予測ラベル値と正しいラベル値の間の絶対距離です。この予測エラーは、テストデータセットのレコードごとに計算されます。最後に、平均値は記録されたすべての絶対誤差に対して計算されます。	0.00 に近いほど、品質が向上します。平均絶対誤差では、測定されるデータと同じスケールが使用されます (特定の範囲に正規化されません)。絶対損失、2 乗損失、RMS 損失は、同じデータセットまたは類似のラベル値分布を持つデータセットのモデル間で比較を行う場合にのみ使用できます。
二乗損失	二乗損失または平均二乗誤差 (MSE) ( 平均二乗偏差 (MSD) とも呼ばれます) は、ポイントから回帰直線までの距離 (これらの距離は誤差 E) を取得して、回帰直線が一連のテストデータ値にどの程度近いかを示します(これらの距離は誤差 E です)。 squaring は、より大きな違いに重みを与えます。	常に負以外の値であり、 0.00 に近い値の方が適しています。データによっては、平均二乗誤差に対して非常に小さな値を取得できない場合があります。
RMS 損失	RMS 損失または 2 乗平均平方根誤差 (RMSE) ( 平方根平均偏差、RMSD とも呼ばれます) は、モデルによって予測される値と、モデル化されている環境から観察された値の差を測定します。 RMS 損失は二乗損失の平方根であり、ラベルと同じ単位を持ちます。絶対損失に似ていますが、より大きな違いに重みを与えます。根平均二乗誤差は、実験結果を検証するために、気候学、予測、回帰分析でよく使用されます。	常に負以外の値であり、 0.00 に近い値の方が適しています。 RMSD は、スケールに依存するため、データセット間ではなく、特定のデータセットの異なるモデルの予測エラーを比較するための精度の尺度です。

回帰メトリックの詳細については、次の記事を参照してください。

クラスタリングの評価メトリック

メトリック	説明	探す
平均距離	データポイントと割り当てられたクラスターの中心間の距離の平均。平均距離は、クラスター重心に対するデータポイントの近接度の尺度です。これは、クラスターがどれだけ厳密であるかを示す尺度です。	0 に近い値の方が適しています。平均距離が 0 に近いほど、データはクラスター化されます。ただし、クラスターの数が増えると、このメトリックは減少し、極端な場合 (各個別のデータポイントが独自のクラスターである場合) は 0 に等しくなります。
Davies Bouldin Index	クラスター内距離とクラスター間距離の平均比率。クラスターがタイトになり、クラスターが離れている分、この値は小さくなります。	0 に近い値の方が適しています。離れていて分散が少ないクラスターでは、スコアが向上します。
正規化された相互情報	クラスタリングモデルのトレーニングに使用されるトレーニングデータに、グラウンドトゥルースラベル (つまり、教師ありクラスタリング) が付属している場合に使用できます。正規化相互情報メトリックは、類似のデータポイントが同じクラスターに割り当てられ、異なるデータポイントが異なるクラスターに割り当てられるかどうかを測定します。正規化された相互情報は、0 ~ 1 の値です。	1 に近い値の方が適しています。

メトリック	説明	探す
割引累積利益	割引累積ゲイン (DCG) は、ランク付け品質の尺度です。これは、2 つの前提から派生しています。 1: 関連性の高いアイテムは、ランキング順に上位に表示される場合に便利です。 2: 有用性は関連性を追跡します。関連性が高いほど、項目の有用性が高くなります。割引累積利益は、順位付け注文の特定のポジションに対して計算されます。これは、関心のある位置までの順位付けインデックスの対数で割った関連性の評価を合計します。これは、$\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1} $ 関連性の採点が、グラウンドトゥルースラベルとしてランク付けトレーニングアルゴリズムに提供されます。ランク付けテーブル内の各位置に対して 1 つの DCG 値が提供されるため、割引累積利益という名前が付けられます。	値を大きくした方が良いです。
正規化された割引累積利益	DCG を正規化すると、さまざまな長さのランク付けリストのメトリックを比較できます。	1 に近い値の方が適しています。

異常検出の評価メトリック

メトリック	説明	探す
ROC 曲線の下の領域	受信側演算子曲線の下の領域は、モデルが異常なデータポイントと通常のデータポイントをどの程度適切に分離するかを測定します。	1 に近い値の方が適しています。モデルの有効性を示すのは、0.5 より大きい値だけです。 0.5 以下の値は、モデルが異常な通常のカテゴリに入力をランダムに割り当てるよりも優れていることを示します。
誤検知数での検出率	誤検知カウントでの検出率は、正しく識別された異常の数とテストセット内の異常の合計数の比率であり、各誤検知によってインデックスが付けられます。つまり、偽陽性項目ごとに誤検知カウントでの検出率の値があります。	1 に近い値の方が適しています。誤検知がない場合、この値は 1 です。

文の類似性の評価メトリック

メトリック	説明	探す
ピアソンの相関関係	ピアソン相関 (相関係数とも呼ばれます) は、2 つのデータセット間の依存関係または関係を測定します。	1 に近い絶対値は最も似ています。このメトリックの範囲は、-1 から 1 です。絶対値 1 は、データセットが同一であることを意味します。値 0 は、2 つのデータセット間にリレーションシップがないことを意味します。