データセットのトレーニングとテスト

2017-06-13

データをトレーニングセットとテストセットに分離することは、データマイニングモデルの評価の重要な部分です。通常、データセットをトレーニングセットとテストセットに分割すると、ほとんどのデータがトレーニングに使用され、データの小さな部分がテストに使用されます。 Analysis Services は、テストセットとトレーニングセットが類似していることを確認するために、データをランダムにサンプリングします。トレーニングとテストに同様のデータを使用することで、データの不一致の影響を最小限に抑え、モデルの特性をより深く理解できます。

トレーニングセットを使用してモデルが処理されたら、テストセットに対して予測を行ってモデルをテストします。テストセット内のデータには、予測する属性の既知の値が既に含まれているため、モデルの推測が正しいかどうかを簡単に判断できます。

データマイニング構造のテストセットとトレーニングセットの作成

SQL Server 2014 では、元のデータセットをマイニング構造のレベルで分離します。トレーニングおよびテストデータセットのサイズ、およびどの行がどのセットに属しているかに関する情報は、構造と共に格納され、その構造に基づくすべてのモデルは、トレーニングとテストにセットを使用できます。

マイニング構造に対するテストデータセットは、次の方法で定義できます。

データマイニングウィザードを使用して、作成時にマイニング構造を分割します。
データマイニングデザイナーの [ マイニング構造 ] タブでの構造プロパティの変更。
Analysis Management オブジェクト (AMO) または XML データ定義言語 (DDL) を使用したプログラムによる構造体の作成と変更。

データマイニングウィザードを使用したマイニング構造の分割

既定では、マイニング構造のデータソースを定義した後、データマイニングウィザードは、モデルのトレーニング用にソースデータの 70% を持つセットと、モデルをテストするためのソースデータの 30% のセットの 2 つのセットにデータを分割します。この既定値は、データマイニングで 70 ~ 30 の比率が使用されることが多いために選択されましたが、Analysis Services では、要件に合わせてこの比率を変更できます。

また、トレーニングケースの最大数を設定するようにウィザードを構成することも、制限を組み合わせて、指定したケースの最大数までのケースの最大割合を許可することもできます。ケースの最大割合とケースの最大数の両方を指定すると、Analysis Services では、テストセットのサイズとして 2 つの制限のうち小さい方が使用されます。たとえば、テストケースに 30% のホールドアウトを指定し、テストケースの最大数を 1000 と指定した場合、テストセットのサイズは 1000 ケースを超えることはありません。これは、より多くのトレーニングデータがモデルに追加された場合でも、テストセットのサイズが一貫していることを確認する場合に便利です。

異なるマイニング構造に同じデータソースビューを使用し、すべてのマイニング構造とそのモデルでデータがほぼ同じ方法で分割されるようにする場合は、ランダムサンプリングの初期化に使用されるシードを指定する必要があります。 HoldoutSeedの値を指定すると、Analysis Services はその値を使用してサンプリングを開始します。それ以外の場合、サンプリングでは、マイニング構造の名前にハッシュアルゴリズムを使用してシード値を作成します。

注

EXPORTステートメントと IMPORT ステートメントを使用してマイニング構造のコピーを作成すると、エクスポートプロセスによって新しい ID が作成されますが、同じ名前が使用されるため、新しいマイニング構造のトレーニングデータセットとテストデータセットは同じになります。ただし、2 つのマイニング構造が同じ基になるデータソースを使用しているが、名前が異なる場合、マイニング構造ごとに作成されるセットは異なります。

テストデータセットを作成するための構造体プロパティの変更

マイニング構造を作成して処理し、後でテストデータセットを確保することを決定した場合は、マイニング構造のプロパティを変更できます。データのパーティション分割方法を変更するには、次のプロパティを編集します。

プロパティ	説明
`HoldoutMaxCases`	テストセットに含めるケースの最大数を指定します。
`HoldoutMaxPercent`	テストセットに含めるケースの数を、完全なデータセットに対する割合で指定します。データ・セットを持たない場合は、0 を指定します。
`HoldoutSeed`	パーティションのデータをランダムに選択するときにシードとして使用する整数値を指定します。この値はトレーニングセット内のケースの数には影響しませんが、代わりにパーティションが繰り返し行われることを保証します。

テストデータセットを既存の構造に追加または変更する場合は、構造と関連するすべてのモデルを再処理する必要があります。また、ソースデータを分割すると、データの異なるサブセットでモデルがトレーニングされるため、モデルとは異なる結果が表示されることがあります。

プログラムによる保留の指定

DMX ステートメント、AMO、または XML DDL を使用して、マイニング構造のテストおよびトレーニングデータセットを定義できます。 ALTER MINING STRUCTURE ステートメントは、保留パラメーターの使用をサポートしていません。

DMX データマイニング拡張機能 (DMX) 言語では、CREATE MINING STRUCTURE ステートメントが WITH HOLDOUT 句を含むように拡張されました。
ASSL Analysis Services スクリプト言語 (ASSL) を使用して、新しいマイニング構造を作成するか、テストデータセットを既存のマイニング構造に追加できます。
AMO AMO を使用して、保留データセットを表示および変更することもできます。

データマイニングスキーマ行セットに対してクエリを実行することで、既存のマイニング構造のホールドアウトデータセットに関する情報を表示できます。これを行うには、DISCOVER ROWSET 呼び出しを行うか、DMX クエリを使用します。

保留データに関する情報の取得

既定では、トレーニングデータセットとテストデータセットに関するすべての情報がキャッシュされるため、既存のデータを使用して新しいモデルをトレーニングしてテストできます。また、キャッシュされた保留データに適用するフィルターを定義して、データのサブセットに対してモデルを評価することもできます。

ケースをトレーニングデータセットとテストデータセットに分割する方法は、ホールドアウトを構成する方法と提供するデータによって異なります。トレーニングまたはテストに使用されるケースの数を決定する場合、またはトレーニングセットとテストセットに含まれるケースに関する追加の詳細を見つける場合は、DMX クエリを作成してモデル構造にクエリを実行できます。たとえば、次のクエリは、モデルのトレーニングセットで使用されたケースを返します。

SELECT * from <structure>.CASES WHERE IsTrainingCase()

テストケースのみを取得し、さらにマイニング構造のいずれかの列でテストケースをフィルター処理するには、次の構文を使用します。

SELECT * from <structure>.CASES WHERE IsTestCase() AND <structure column name> = '<value>'

ホールドアウトデータの使用に関する制限事項

ホールドアウトを使用するには、マイニング構造の MiningStructureCacheMode プロパティを既定値の KeepTrainingCases に設定する必要があります。 CacheMode プロパティを ClearAfterProcessing に変更し、マイニング構造を再処理すると、パーティションは失われます。
時系列モデルからデータを削除することはできません。そのため、ソースデータをトレーニングセットとテストセットに分割することはできません。マイニング構造とモデルの作成を開始し、Microsoft Time Series アルゴリズムを選択した場合、ホールドアウトデータセットを作成するオプションは無効になります。また、ケースレベルまたは入れ子になったテーブルレベルでマイニング構造に KEY TIME 列が含まれている場合は、ホールドアウトデータの使用も無効になります。
完全なデータセットがテストに使用され、トレーニング用のデータが残っていないよう、誤ってホールドアウトデータセットを構成する可能性があります。ただし、その場合、Analysis Services はエラーを発生させ、問題を修正できるようにします。 Analysis Services では、データの 50% 以上がテストのために保留されている場合に、構造が処理されるときに警告も表示されます。
ほとんどの場合、既定のホールドアウト値 30 は、トレーニングデータとテストデータのバランスを適切に保ちます。十分なトレーニングを提供するためにデータセットの大きさを判断する簡単な方法や、トレーニングセットがどれだけスパースであり、オーバーフィットを回避できるかを判断する簡単な方法はありません。ただし、モデルを構築した後は、クロス検証を使用して、特定のモデルに関してデータセットを評価できます。
前の表に示したプロパティに加えて、読み取り専用プロパティ ( HoldoutActualSize) は AMO および XML DDL で提供されます。ただし、パーティションの実際のサイズは、構造が処理されるまで正確に決定できないため、 HoldoutActualSize プロパティの値を取得する前に、モデルが処理されているかどうかを確認する必要があります。

トピック	リンクス
モデルのフィルターがトレーニングデータセットとテストデータセットと対話する方法について説明します。	マイニングモデルのフィルター (Analysis Services - データマイニング)
トレーニングデータとテストデータの使用がクロス検証にどのように影響するかを説明します。	クロス検証 (Analysis Services - データマイニング)
マイニング構造でトレーニングセットとテストセットを操作するためのプログラムインターフェイスに関する情報を提供します。	AMO の概念とオブジェクトモデルマイニング構造要素 (ASSL)
ホールドアウトセットを作成するための DMX 構文を提供します。	マイニング構造の作成 (DMX)
トレーニングセットとテストセット内のケースに関する情報を取得します。	データマイニングスキーマ行セットデータマイニングスキーマ行セットのクエリ (Analysis Services - データマイニング)

こちらもご覧ください

データマイニングツール
 データマイニングの概念
 データマイニングソリューション
 テストと検証 (データマイニング)

次の方法で共有

データ セットのトレーニングとテスト

データ マイニング構造のテスト セットとトレーニング セットの作成

データ マイニング ウィザードを使用したマイニング構造の分割

テスト データ セットを作成するための構造体プロパティの変更