リフト チャートは、マイニング モデルがランダムな推測と比較したときに提供される改善点をグラフィカルに表し、リフト スコアの観点から変化を測定します。 データセットのさまざまな部分と異なるモデルのリフト スコアを比較することで、最適なモデルと、モデルの予測を適用することで得られるデータ セット内のケースの割合を判断できます。
リフト チャートを使用すると、同じ予測可能な属性を持つ複数のモデルの予測の精度を比較できます。 また、単一の結果 (予測可能な属性の 1 つの値) またはすべての結果 (指定された属性のすべての値) に対して、予測の精度を評価することもできます。
利益チャートは、リフト チャートと同じ情報を含む関連グラフの種類ですが、各モデルの使用に関連する予想利益の増加も表示されます。
リフト チャートについて
抽象のリフト チャートを理解するのは難しい場合があります。 したがって、リフト チャート ツールの使用とグラフ内の情報を説明するために、このセクションでは、リフト チャートを使用して、対象のメーリング キャンペーンへの応答を推定するシナリオを示します。
このシナリオのマーケティング部門は、10% の応答率が、メール キャンペーンの多かれ少なかれ一般的であることを認識しています。 データベースのテーブルに 10,000 人の潜在的な顧客が格納されているリストがあります。 一般的な応答率に基づいて、通常、見込み顧客の約 1,000 人のみが応答を期待できます。 ただし、プロジェクトの予算が十分でなく、データベース内の 10,000 人の顧客全員に到達でき、応答率を向上させたいと考えています。 このシナリオでは、予算によって 5,000 人の顧客のみに広告を郵送できるものとします。 マーケティング部門には、次の 2 つのオプションがあります。
対象となる 5,000 人の顧客をランダムに選択します。
マイニング モデルを使用して、応答する可能性が最も高い 5,000 人の顧客を対象とします。
リフト チャートを使用すると、両方のオプションの予想される結果を比較できます。 たとえば、会社がランダムに 5,000 人の顧客を選択した場合、一般的な応答率に基づいて、500 件の応答しか受信しないと予想される場合があります。 このシナリオは、リフト チャート内の ランダム な線が表すものです。 ただし、マーケティング部門がマイニング モデルを使用してメーリングをターゲットにした場合、モデルは応答する可能性が最も高い顧客を識別するため、より良い応答率を期待できます。 モデルが完璧であれば、間違ったことのない予測が作成され、会社はモデルによって推奨される 1,000 人の潜在的な顧客だけにメールを送信することで、1,000 件の応答を受け取ることを期待できます。 このシナリオは、リフト チャートの 理想的な 線を表します。
実際には、マイニング モデルはこれら 2 つの両極端の間にある可能性が最も高いということです。ランダムな推測と完全な予測の間。 ランダムな推測による改善は、リフトと見なされます。
リフト チャートを作成する場合は、特定の値をターゲットにして、その結果に対してのみリフトを測定するか、考えられるすべての結果に対してリフトを測定するモデルの一般的な評価を作成できます。 これらの選択は、次のセクションで説明するように、最終的なグラフに影響します。
目標値付きリフトチャート
次のグラフは、基本的なデータ マイニング チュートリアルで作成する対象メーリング モデルのリフト チャートを示しています。 このグラフでは、ターゲット属性は [Bike Buyer] で、ターゲット値は 1 です。つまり、顧客が自転車を購入すると予測されます。 したがって、リフト チャートは、これらの潜在顧客を特定するときにモデルが提供する改善を示しています。
このグラフには、同じデータに基づく複数のモデルが含まれています。 これらのモデルの 1 つは、特定の顧客をターゲットにするようにカスタマイズされています。 モデルをカスタマイズするには、モードのトレーニングに使用するデータにフィルターを追加します。 このフィルターは、トレーニングと評価の両方で使用されるケースを、30 歳未満のお客様に制限します。 フィルター処理の 1 つの効果は、基本モデルとフィルター処理されたモデルで使用されるデータ セットが異なるため、リフト チャートの評価に使用されるケースの数も異なうことに注意してください。 この点は、予測結果やその他の統計を解釈するときに覚えておく必要があります。
グラフの x 軸は、予測の比較に使用されるテスト データセットの割合を表します。 グラフの y 軸は、予測値の割合を表します。
ここに青で示されている斜めの直線がすべてのグラフに表示されます。 これはランダムな推測の結果を表し、リフトを評価するためのベースラインです。 リフト チャートに追加するモデルごとに、2 つの線が追加されます。1 つの線は、常に完全に予測されるモデルを作成できる場合はトレーニング データセットの理想的な結果を示し、2 番目の線はモデルの実際のリフトまたは結果の改善を示します。
この例では、フィルター処理されたモデルの理想的な線は濃い青色で表示され、実際のリフトの線は黄色で表示されます。 グラフから、理想的な折れ線のピークが約 40% であることを確認できます。つまり、完璧なモデルを使用している場合は、総人口の 40% のみに宛名を送信することで、対象となる顧客の 100% に到達できます。 母集団の 40% をターゲットにしたときのフィルター処理されたモデルの実際の効果は 60 ~ 70% です。つまり、顧客全体の 40% に宛名を送信することで、対象となる顧客の 60 ~ 70% にアプローチできることを意味します。
[マイニング凡例] には、曲線上の任意のポイントにある実際の値が含まれます。 測定する場所を変更するには、縦の灰色のバーをクリックして移動します。 グラフでは、灰色の線が 30% に移動しました。これは、フィルター処理されたモデルとフィルター処理されていないモデルの両方が最も効果的に見えるポイントであり、その後のリフトの量が減少するためです。
マイニング凡例には、グラフの解釈に役立つスコアと統計も含まれています。 これらの結果は、灰色の線でのモデルの精度を表します。このシナリオでは、テスト ケース全体の 30% を含むように配置されています。
系列とモデル | スコア | 対象集団 | 確率を予測する |
---|---|---|---|
すべての対象を絞ったメール送信 | 0.71 | 47.40% | 61.38% |
30 歳未満のターゲットメーリング | 0.85 | 51.81% | 46.62% |
ランダム推測モデル | 31.00% | ||
理想的なモデル: 対象を絞ったすべてのメール送信 | 62.48% | ||
理想的なモデル: 30 以下のターゲットメーリング | 65.28% |
結果の解釈
これらの結果から、すべてのケースの 30% で測定された場合、一般的なモデル [Targeted mailing all]は、目標母集団の 47.40% の自転車購入動作を予測できることがわかります。 つまり、データベース内の顧客のわずか 30% に対してターゲットメールを送信した場合、対象ユーザーの半分未満に達する可能性があります。 フィルター処理されたモデルを使用した場合は、少し優れた結果が得られ、対象となる顧客の約 51% に達する可能性があります。
予測確率の値は、"購入する可能性が高い" ケースの中に顧客を含めるために必要なしきい値を表します。 各ケースについて、モデルは各予測の精度を推定し、その値を格納します。この値を使用して、顧客を除外または対象にすることができます。 たとえば、購入者である可能性が高い基本モデルから顧客を特定するには、クエリを使用して、予測確率が 61% 以上のケースを取得します。 フィルター処理されたモデルの対象となる顧客を取得するには、年齢と PredictProbability
値が少なくとも 46% であるすべての条件を満たすケースを取得するクエリを作成します。
モデルを比較するのは興味深いことです。 フィルター処理されたモデルは、より多くの潜在顧客をキャプチャするように見えますが、予測確率スコアが 46% の顧客をターゲットにすると、自転車を購入しないユーザーに宛名を送信する確率も 53% になります。 そのため、どのモデルの方が優れているかを決定する場合は、フィルター処理されたモデルの精度が高く、ターゲット サイズが小さいと、基本モデルの選択性とのバランスを取る必要があります。
Score の値は、正規化された母集団全体のモデルの有効性を計算することによって、モデルを比較するのに役立ちます。 スコアが高いほど良いので、この場合は、予測確率が低いにもかかわらず、30 歳未満の顧客をターゲットにすることが最も効果的な戦略であると判断できます。
目標値のないモデルのリフト チャート
予測可能な列の状態を指定しない場合は、次の図に示すグラフの種類を作成します。 このグラフは、予測可能な属性のすべての状態に対してモデルがどのように実行されるかを示しています。 たとえば、このグラフは、自転車を購入する可能性が高い顧客と、自転車を購入する可能性が低い顧客の両方をモデルがどの程度予測しているかを示します。
x 軸は、予測可能な列が指定されたグラフと同じですが、y 軸は正しい予測の割合を表すようになりました。 したがって、理想的な線は対角線であり、データの 50% で、モデルは 50% のケースを正しく予測し、予想できる最大値を示します。
グラフ内をクリックすると、縦の灰色のバーを移動できます。 マイニング凡例 には、ケース全体の割合と、正しく予測されたケースの割合が表示されます。 たとえば、灰色のスライダー バーを 50% のマークに配置すると、 マイニング凡例 には次の精度スコアが表示されます。 これらの図は、基本的なデータ マイニング チュートリアルで作成したTM_Decision ツリー モデルに基づいています。
シリーズ、モデル | スコア | 対象集団 | 確率を予測する |
---|---|---|---|
TM_決定木 | 0.77 | 40.50% | 72.91% |
理想的なモデル | 50.00% |
次の表は、母集団の 50% で、作成したモデルがケースの 40% を正しく予測していることを示しています。 これは合理的に正確なモデルであると考えるかもしれません。 ただし、この特定のモデルでは、予測可能な属性のすべての値が予測されます。 そのため、モデルは、顧客の 90% が自転車を購入しないと予測する場合に正確である可能性があります。
リフト チャートに関する制限事項
リフト チャートでは、予測可能な属性が不連続値である必要があります。 つまり、リフト チャートを使用して、連続する数値を予測するモデルの精度を測定することはできません。
予測可能な属性のすべての不連続値の予測精度が 1 行で表示されます。 予測可能な属性の個々の値の予測精度線を表示する場合は、ターゲット値ごとに個別のリフト チャートを作成する必要があります。
モデルがすべて同じ予測可能な属性を持っている限り、リフト チャートに複数のモデルを追加できます。 属性を共有しないモデルは、[ 入力 ] タブで選択できなくなります。
リフト チャートまたは利益チャートには時系列モデルを表示できません。 時系列予測の精度を測定する一般的な方法は、履歴データの一部を予約し、そのデータを予測と比較することです。 詳細については、「 Microsoft Time Series Algorithm」を参照してください。