データ マイニング プロジェクトに新しいマイニング構造を追加するたびに、Microsoft SQL Server Analysis Services のデータ マイニング ウィザードが起動します。 ウィザードを使用すると、データ ソースを選択し、分析に使用するデータを定義するデータ ソース ビューを設定し、最初のモデルを作成するのに役立ちます。
ウィザードの最後のフェーズでは、必要に応じてデータをトレーニング セットとテスト セットに分割し、ドリルスルーなどの機能を有効にすることができます。
開始する前に知っておくべきこと
ウィザードを開始する前に知っておくべきことを次に示します。
リレーショナル データベースまたは OLAP データベース内の既存のキューブから、データ マイニング構造とモデルを構築しますか?
ケース レコードを一意に識別するキーを含む列はどれですか?
予測に使用する列または属性はどれですか? 分析の入力として使用するのに適している列または属性はどれですか?
どのアルゴリズムを使用する必要がありますか? SQL Server Analysis Services で提供されるアルゴリズムはすべて異なる特性を持ち、結果が異なります。 幸いなことに、データ セットごとに 1 つのモデルに限定されるわけではないので、さまざまなモデルを追加して自由に試してみてください。
統合データ セットでモデルをテストできる必要がありますか? その場合は、オプションを使用して、テストのためにデータを確保することを検討してください。 パーセンテージを選択し、必要に応じて指定された行数で上限を設定できます。
データ マイニング ウィザードの開始
データ マイニング ウィザードを使用するには、少なくとも 1 つのデータ マイニングまたは OLAP プロジェクトを含むソリューションを SQL Server Data Tools (SSDT) で開いている必要があります。
ソリューションがデータ マイニングの準備ができている場合は、ソリューション エクスプローラーで [ マイニング構造 ] ノードを右クリックし、[ 新しいマイニング構造 ] を選択するだけでウィザードを開始できます。
ソリューションに既存のプロジェクトが含まれていない場合は、新しいデータ マイニング プロジェクトを追加できます。 [ ファイル ] メニューの [ 新規作成] を選択し、[ プロジェクト] を選択します。 テンプレートである Analysis Services 多次元プロジェクトとデータ マイニング プロジェクトを必ず選択してください。
Analysis Services インポート ウィザードを使用して、既存のデータ マイニング ソリューションからメタデータを取得することもできます。 ただし、インポートする個々のオブジェクトを選択することはできません。キューブ、データ ソース ビューなど、データベース全体がインポートされます。また、インポートによって作成された新しいソリューションは、ローカルの既定のデータベースを使用するように自動的に構成されることに注意してください。 オブジェクトを処理または参照する前に、これを別のインスタンスに変更することが必要になる場合があります。以前のバージョンの Analysis Services からインポートする場合は、プロバイダーへの参照を更新する必要があります。
次に、マイニング構造と、関連付けられている 1 つのデータ マイニング モデルを作成します。 マイニング構造だけを作成し、後でモデルを追加することもできますが、一般的に最初にテスト モデルを作成するのが最も簡単です。
リレーショナル マイニング モデルと OLAP マイニング モデル
次に重要なオプションは、リレーショナル データ ソースを使用するか、モデルを多次元 (OLAP) データに基づくかです。
データ ソースがリレーショナルかキューブかに応じて、データ マイニング ウィザードはこの時点で 2 つのパスに分岐します。 データ選択プロセス以外はすべてアルゴリズムの選択、ホールドアウト データ セットの追加機能などと同じですが、キューブ データの選択はリレーショナル データを使用するよりも少し複雑です。 (キューブに基づいてモデルを作成する場合は、最後にいくつかの追加オプションも表示されます)。
各オプションのチュートリアルの詳細については、次のトピックを参照してください。
リレーショナル マイニング構造を作成する
リレーショナル データ マイニング モデルを構築するときに行う決定について順を見てみます。
OLAP マイニング構造を作成する
OLAP キューブからデータを選択するときに行う追加のオプションと選択について説明します。
注
データ マイニングを行うためにキューブまたは OLAP データベースは必要ありません。 データがキューブに既に格納されている場合、または OLAP ディメンションまたは OLAP 集計または計算の結果をマイニングする場合を除き、データ マイニングにはリレーショナル テーブルまたはデータ ソースを使用することをお勧めします。
アルゴリズムの選択
次に、データの処理に使用するアルゴリズムを決定する必要があります。 この決定は難しい場合があります。 Analysis Services で提供される各アルゴリズムには異なる機能があり、異なる結果が生成されるため、データとビジネス上の問題に最も適したモデルを決定する前に、いくつかの異なるモデルを試すことができます。 各アルゴリズムが最適なタスクの説明については、次のトピックを参照してください。
データ マイニング アルゴリズム (Analysis Services - データ マイニング)
ここでも、異なるアルゴリズムを使用して複数のモデルを作成したり、アルゴリズムのパラメーターを変更して異なるモデルを作成したりできます。 選択したアルゴリズムにロックされていないので、同じデータに複数の異なるモデルを作成することをお勧めします。
モデリングに使用するデータを定義する
ソースからデータを選択するだけでなく、データ ソース ビューのどのテーブルに ケース データが含まれているかを指定する必要があります。 ケース テーブルはデータ マイニング モデルのトレーニングに使用されます。そのため、分析するエンティティ (顧客とその人口統計情報など) を含める必要があります。 各ケースは一意である必要があり、 ケース キーによって識別できる必要があります。
ケース テーブルを指定するだけでなく、 入れ子になったテーブル をデータに含めることができます。 入れ子になったテーブルには、通常、ケース テーブル内のエンティティに関する追加情報 (顧客によって実行されたトランザクションや、エンティティとの多対一リレーションシップを持つ属性など) が含まれます。 たとえば、 Customers ケース テーブルに結合された入れ子になったテーブルには、各顧客が購入した製品の一覧が含まれる場合があります。 Web サイトへのトラフィックを分析するモデルでは、入れ子になったテーブルに、ユーザーがアクセスしたページのシーケンスが含まれる場合があります。 詳細については、「ネストされたテーブル (Analysis Services - データ マイニング)」を参照してください。
その他の機能
適切なデータの選択とデータ ソースの正しい構成を支援するために、データ マイニング ウィザードには次の追加機能があります。
データ型の自動 -detection: ウィザードでは、列の値の一意性と分布が調べられ、最適なデータ型が推奨され、データの使用の種類が提案されます。 これらの候補は、リストから値を選択することでオーバーライドできます。
変数の提案: ダイアログ ボックスをクリックして、モデルに含まれる列間の相関関係を計算するアナライザーを開始し、これまでにモデルの構成を考えると、列が結果属性の予測子である可能性があるかどうかを判断できます。 これらの候補は、異なる値を入力することでオーバーライドできます。
特徴選択: ほとんどのアルゴリズムは、適切な予測器である列を自動的に検出し、それらを優先的に使用します。 値が多すぎる列では、データのカーディナリティを低下させ、意味のあるパターンを見つける可能性を高めるために 、特徴選択 が適用されます。 モデル パラメーターを使用して、特徴選択の動作に影響を与えることができます。
キューブの自動スライス: マイニング モデルが OLAP データ ソースに基づいている場合、キューブ属性を使用してモデルをスライスする機能が自動的に提供されます。 これは、キューブ データのサブセットに基づいてモデルを作成する場合に便利です。
ウィザードが完了しました
ウィザードの最後の手順では、マイニング構造と関連するマイニング モデルに名前を付けます。 作成したモデルの種類によっては、次の重要なオプションもあります。
[ ドリルスルーを許可] を選択した場合、モデルで ドリルスルー 機能が有効になります。 ドリルスルーを使用すると、適切なアクセス許可を持つユーザーは、モデルの構築に使用されるソース データを探索できます。
OLAP モデルを構築する場合は、オプションの選択、 新しいデータ マイニング キューブの作成、 またはデータ マイニング ディメンションの作成を行うことができます。 どちらのオプションでも、完成したモデルを簡単に閲覧でき、基になるデータにアクセスできます。
データ マイニング ウィザードが完了したら、データ マイニング デザイナーを使用して、マイニング構造とモデルの変更、モデルの精度の表示、構造とモデルの特性の表示、モデルを使用した予測の実行を行います。
関連コンテンツ
データ マイニング モデルの作成時に行う必要がある決定の詳細については、次のリンクを参照してください。
データ マイニング アルゴリズム (Analysis Services - データ マイニング)