マイニングモデルと構造をカスタマイズする

2017-03-06

ビジネスニーズを満たすアルゴリズムを選択したら、次の方法でマイニングモデルをカスタマイズして、結果を向上させることができます。

モデル内のさまざまなデータ列を使用するか、列の使用法、コンテンツタイプ、または分離方法を変更します。
マイニングモデルにフィルターを作成して、モデルのトレーニングに使用されるデータを制限します。
データの分析に使用されたアルゴリズムを変更します。
しきい値、ツリー分割、およびその他の重要な条件を制御するアルゴリズムパラメーターを設定します。

このトピックでは、これらのオプションについて説明します。

モデルで使用されるデータの変更

モデルで使用するデータの列と、そのデータを使用して処理する方法に関して行う決定は、分析の結果に大きく影響します。次のトピックでは、これらの選択肢を理解するのに役立つ情報を提供します。

特性選択の活用

Analysis Services のほとんどのデータマイニングアルゴリズムでは、 特徴選択 と呼ばれるプロセスを使用して、モデルへの追加に最も役立つ属性のみを選択します。列と属性の数を減らすと、モデルのパフォーマンスと品質が向上します。使用できる機能の選択方法は、選択したアルゴリズムによって異なります。

機能の選択 (データマイニング)。

使用を変更すること

マイニングモデルに含める列と各列の使用方法を変更できます。予想される結果が得られない場合は、入力として使用した列を例として示し、列が適切な選択肢かどうか、および次のようなデータの処理を改善するためにできることがあるかどうかを自問する必要があります。

誤って数値としてラベル付けされたカテゴリ変数を識別する。
カテゴリを追加して属性の数を折りたたみ、相関関係を見つけやすくします。
数値のビン分割または離散化の方法を変更する。
一意の値が多い列、または実際にデータを参照していて、住所やミドルネームなどの分析に役立たない列を削除する。

マイニング構造から列を物理的に削除する必要はありません。列に無視のフラグを設定できます。列はマイニングモデルから削除されますが、構造内の他のマイニングモデルでも使用でき、ドリルスルークエリで参照される鉱石でも使用できます。

モデル列のエイリアスの作成

Analysis Services は、マイニングモデルを作成するときに、マイニング構造にあるのと同じ列名を使用します。マイニングモデル内の任意の列にエイリアスを追加できます。これにより、列の内容や使用法を簡単に理解したり、クエリを作成する際の利便性のために名前を短くしたりできます。別名は、列のコピーを作成し、説明的な名前を付ける場合にも役立ちます。

エイリアスを作成するには、マイニングモデル列の Name プロパティを編集します。 Analysis Services では、列の ID として元の名前が引き続き使用され、 Name に入力した新しい値が列の別名になり、列の使用法の横にあるかっこで囲まれたグリッドに表示されます。

マイニングモデル列のエイリアス

この図は、マイニング構造列の複数のコピーを持つ関連モデルを示しています。すべて Income に関連しています。構造体列の各コピーは、異なる方法で分離されています。ダイアグラム内のモデルはそれぞれ、マイニング構造とは異なる列を使用します。ただし、モデル間で列を比較する際の便宜上、各モデルの列の名前が [Income] に変更されました。

フィルターの追加

マイニングモデルにフィルターを追加できます。フィルターは、モデルケース内のデータを一部のサブセットに制限する WHERE 条件のセットです。このフィルターは、モデルのトレーニング時に使用され、必要に応じて、モデルのテスト時や精度チャートの作成時に使用できます。

フィルターを追加することで、マイニング構造を再利用できますが、データの非常に異なるサブセットに基づいてモデルを作成できます。または、フィルターを使用して特定の行を削除し、分析の品質を向上させることができます。

詳細については、「マイニングモデルのフィルター (Analysis Services - データマイニング)」を参照してください。

アルゴリズムの変更

マイニング構造に追加する新しいモデルは同じデータセットを共有しますが、異なるアルゴリズム (データでサポートされている場合) を使用するか、アルゴリズムのパラメーターを変更することで、異なる結果を得ることができます。モデリングフラグを設定することもできます。

アルゴリズムの選択によって、得られる結果の種類が決まります。特定のアルゴリズムのしくみ、または特定のアルゴリズムを使用してメリットを得るビジネスシナリオの一般的な情報については、「データマイニングアルゴリズム (Analysis Services - データマイニング)」を参照してください。

要件と制限の説明と、各アルゴリズムがサポートするカスタマイズの詳細については、各アルゴリズムのテクニカルリファレンストピックを参照してください。


Microsoft デシジョンツリーアルゴリズム	Microsoft タイムシリーズアルゴリズム
Microsoft クラスタリングアルゴリズム	Microsoft ニューラルネットワークアルゴリズム
Microsoft Naive Bayes アルゴリズム	Microsoft ロジスティック回帰アルゴリズム
Microsoft アソシエーションアルゴリズム	Microsoft 線形回帰アルゴリズム
Microsoft シーケンスクラスタリングアルゴリズム

アルゴリズムパラメーターのカスタマイズ

各アルゴリズムでは、アルゴリズムの動作をカスタマイズし、モデルの結果を微調整するために使用できるパラメーターがサポートされています。各パラメーターの使用方法の説明については、次のトピックを参照してください。

各アルゴリズムの種類のトピックには、そのアルゴリズムに基づくモデルで使用できる予測関数も一覧表示されます。

プロパティ名	対象
自動周期検出	Microsoft タイムシリーズアルゴリズム技術リファレンス
CLUSTER_COUNT	Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス
CLUSTER_SEED	Microsoft クラスタリングアルゴリズムテクニカルリファレンス
クラスタリング方法	Microsoft クラスタリングアルゴリズムテクニカルリファレンス
複雑さペナルティ	Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft タイムシリーズアルゴリズム技術リファレンス
FORCE_REGRESSOR	Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft 線形回帰アルゴリズムのテクニカルリファレンスモデリングフラグ (データマイニング)
予測方法	Microsoft タイムシリーズアルゴリズム技術リファレンス
HIDDEN_NODE_RATIO	Microsoft ニューラルネットワークアルゴリズムテクニカルリファレンス
歴史的なモデルの数	Microsoft タイムシリーズアルゴリズム技術リファレンス
歴史的モデルのギャップ	Microsoft タイムシリーズアルゴリズム技術リファレンス
ホールドアウト割合	Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス Microsoft ニューラルネットワークアルゴリズムテクニカルリファレンス注: このパラメーターは、マイニング構造に適用される保留率の値とは異なります。
HOLDOUT_SEED	Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス Microsoft ニューラルネットワークアルゴリズムテクニカルリファレンス注: このパラメーターは、マイニング構造に適用されるホールドアウトシード値とは異なります。
不安定性感度	Microsoft タイムシリーズアルゴリズム技術リファレンス
最大入力属性	Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft 線形回帰アルゴリズムのテクニカルリファレンス Microsoft Naive Bayes アルゴリズムテクニカルリファレンス Microsoft ニューラルネットワークアルゴリズムテクニカルリファレンス Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス
アイテムセット数の最大値	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
MAXIMUM_ITEMSET_SIZE (最大項目集合サイズ)	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
最大出力属性	Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft 線形回帰アルゴリズムのテクニカルリファレンス Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス Microsoft Naive Bayes アルゴリズムテクニカルリファレンス Microsoft ニューラルネットワークアルゴリズムテクニカルリファレンス
最大シーケンス状態	Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス
最大シリーズ値	Microsoft タイムシリーズアルゴリズム技術リファレンス
最大状態数	Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft ニューラルネットワークアルゴリズムテクニカルリファレンス Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス
最大限のサポート	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
最低重要度	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
最小アイテムセットサイズ	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
最小依存確率	Microsoft Naive Bayes アルゴリズムテクニカルリファレンス
最小確率	Microsoft アソシエーションアルゴリズムテクニカルリファレンス
最小シリーズ値	Microsoft タイムシリーズアルゴリズム技術リファレンス
最小限のサポート	Microsoft アソシエーションアルゴリズムテクニカルリファレンス Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス Microsoft タイムシリーズアルゴリズム技術リファレンス
MISSING_VALUE_SUBSTITUTION	Microsoft タイムシリーズアルゴリズム技術リファレンス
モデリングの基数	Microsoft クラスタリングアルゴリズムテクニカルリファレンス
PERIODICITY_HINT	Microsoft タイムシリーズアルゴリズム技術リファレンス
予測スムージング	Microsoft タイムシリーズアルゴリズム技術リファレンス
サンプルサイズ	Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス Microsoft ニューラルネットワークアルゴリズムテクニカルリファレンス
SCORE_METHOD	Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス
分割法	Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス
STOPPING_TOLERANCE	Microsoft クラスタリングアルゴリズムテクニカルリファレンス

こちらもご覧ください

データマイニングアルゴリズム (Analysis Services - データマイニング)物理アーキテクチャ (Analysis Services - データマイニング)