データマイニングプロジェクト

2017-07-17

データマイニングプロジェクトは、Analysis Services ソリューションの一部です。デザインプロセス中に、このプロジェクトで作成したオブジェクトは、ワークスペースデータベースの一部としてテストおよびクエリを実行できます。ユーザーがプロジェクト内のオブジェクトを照会または参照できるようにするには、多次元モードで実行されている Analysis Services のインスタンスにプロジェクトを配置する必要があります。

このトピックでは、データマイニングプロジェクトを理解して作成するために必要な基本情報について説明します。

データマイニングプロジェクトの作成

SQL Server Data Tools (SSDT) では、テンプレート、 OLAP、およびデータマイニングプロジェクトを使用してデータマイニングプロジェクトをビルドします。 AMO を使用して、プログラムでデータマイニングプロジェクトを作成することもできます。 Analysis Services スクリプト言語 (ASSL) を使用して、個々のデータマイニングオブジェクトをスクリプト化できます。詳細については、「多次元モデルデータアクセス (Analysis Services - 多次元データ)」を参照してください。

既存のソリューション内にデータマイニングプロジェクトを作成する場合、既定では、データマイニングオブジェクトはソリューションファイルと同じ名前の Analysis Services データベースに配置されます。この名前とターゲットサーバーは、[ プロジェクトのプロパティ ] ダイアログボックスを使用して変更できます。詳細については、「 Analysis Services プロジェクトのプロパティの構成 (SSDT)」を参照してください。

警告

プロジェクトを正常にビルドして配置するには、OLAP/データマイニングモードで実行されている Analysis Services のインスタンスにアクセスできる必要があります。表形式モデルをサポートする Analysis Services のインスタンスでデータマイニングソリューションを開発または展開したり、PowerPivot ブックから直接データを使用したり、メモリ内データストアを使用する表形式モデルからデータを使用したりすることはできません。持っている Analysis Services のインスタンスがデータマイニングをサポートできるかどうかを判断するには、「 Analysis Services インスタンスのサーバーモードの決定」を参照してください。

作成する各データマイニングプロジェクト内で、次の手順を実行します。

キューブ、データベース、Excel やテキストファイルなど、モデルの構築に使用する生データを含む データソースを選択します。
分析に使用するデータソース内のデータのサブセットを定義し、 データソースビューとして保存します。
モデリングをサポートする マイニング構造 を定義します。
アルゴリズムを選択し、アルゴリズムでデータを処理する方法を指定することで、マイニングモデルをマイニング構造に追加します。
選択したデータまたはフィルター処理されたデータのサブセットをモデルに設定して、モデルをトレーニングします。
モデルを探索、テスト、再構築します。

プロジェクトが完了したら、ユーザーがプロジェクトをデプロイして参照またはクエリを実行したり、アプリケーション内のマイニングモデルへのプログラムによるアクセスを提供したりして、予測と分析をサポートできます。

データマイニングプロジェクトのオブジェクト

すべてのデータマイニングプロジェクトには、次の 4 種類のオブジェクトが含まれています。すべての型の複数のオブジェクトを持つことができます。

データソース
データソースビュー
マイニング構造
マイニングモデル

たとえば、1 つのデータマイニングプロジェクトに複数のデータソースへの参照を含めることができます。各データソースは複数のデータソースビューをサポートします。さらに、各データソースビューは複数のマイニング構造をサポートでき、それぞれに関連するマイニングモデルが多数あります。

さらに、プロジェクトには、プラグインアルゴリズム、カスタムアセンブリ、またはカスタムストアドプロシージャが含まれる場合があります。ただし、これらのオブジェクトについてはここでは説明しません。詳細については、「開発者ガイド (Analysis Services)」を参照してください。

データソース

データソースは、Analysis Services サーバーがデータソースへの接続に使用する接続文字列と認証情報を定義します。データソースには、複数のテーブルまたはビューを含めることができます。単一の Excel ブックまたはテキストファイルのように単純にすることも、オンライン分析処理 (OLAP) データベースや大規模なリレーショナルデータベースのように複雑にすることもできます。

1 つのデータマイニングプロジェクトで複数のデータソースを参照できます。マイニングモデルで一度に使用できるデータソースは 1 つだけですが、プロジェクトでは複数のモデルを異なるデータソースに描画できます。

Analysis Services は多くの外部プロバイダーからのデータをサポートしており、SQL Server データマイニングではリレーショナルデータとキューブデータの両方をデータソースとして使用できます。ただし、リレーショナルソースに基づくプロジェクトモデルと OLAP キューブに基づくモデルの両方の種類を開発する場合は、これらを別々のプロジェクトで開発および管理することができます。

通常、OLAP キューブに基づくモデルは、OLAP デザインソリューション内で開発する必要があります。 1 つの理由は、キューブに基づくモデルがキューブを処理してデータを更新する必要があるということです。一般に、キューブデータは、それがデータの保存とアクセスの主要な手段である場合、または多次元プロジェクトによって作成された集計、ディメンション、属性が必要な場合にのみ使用する必要があります。
プロジェクトでリレーショナルデータのみを使用する場合は、他のオブジェクトを不必要に再処理しないように、別のプロジェクト内にリレーショナルモデルを作成する必要があります。多くの場合、キューブの作成をサポートするために使用されるステージングデータベースまたはデータウェアハウスには、データマイニングを実行するために必要なビューが既に含まれています。また、キューブ内の集計とディメンションを使用する代わりに、これらのビューをデータマイニングに使用できます。
メモリ内または PowerPivot データを直接使用してデータマイニングモデルを構築することはできません。

データソースは、サーバーまたはプロバイダーと一般的な種類のデータのみを識別します。データの書式設定と集計を変更する必要がある場合は、データソースビューオブジェクトを使用します。

データソースからのデータの処理方法を制御するには、派生列または計算を追加したり、集計を変更したり、データソースビューのデータ内の列の名前を変更したりできます。 (マイニング構造列を変更するか、マイニングモデル列のレベルでモデリングフラグとフィルターを使用して、下流のデータを操作することもできます)。

データクレンジングが必要な場合、またはデータウェアハウス内のデータを変更して、追加の変数の作成、データ型の変更、または代替集計の作成を行う必要がある場合は、データマイニングをサポートする追加のプロジェクトの種類を作成する必要があります。これらの関連プロジェクトの詳細については、「データマイニングソリューションの関連プロジェクト」を参照してください。

データソースビュー

データソースへのこの接続を定義したら、モデルに関連する特定のデータを識別するビューを作成します。

データソースビューでは、データソース内のデータをマイニングモデルに提供する方法をカスタマイズすることもできます。データの構造を変更してプロジェクトに関連性を高めたり、特定の種類のデータのみを選択したりすることができます。

たとえば、データソースビューエディターを使用すると、次のことができます。

日付パーツ、部分文字列などの派生列を作成します。
GROUP BY などの Transact-SQL ステートメントを使用して値を集計する
データを一時的に制限する、またはサンプルデータを制限する

データソースビュー内のデータを変更する方法の詳細については、「多次元モデルのデータソースビュー」を参照してください。

警告

データをフィルター処理する場合は、データソースビューで行うことができますが、マイニングモデルのレベルでデータにフィルターを作成することもできます。フィルター定義はマイニングモデルと共に格納されるため、モデルフィルターを使用すると、モデルのトレーニングに使用されたデータを簡単に判断できます。さらに、フィルター条件が異なる複数の関連モデルを作成できます。詳細については、「マイニングモデルのフィルター (Analysis Services - データマイニング)」を参照してください。

作成するデータソースビューには、分析に直接使用されない追加のデータを含めることができます。たとえば、テスト、予測、またはドリルスルーに使用するデータをデータソースビューに追加することができます。これらの用途の詳細については、「テストと検証 (データマイニング)」および「ドリルスルー」を参照してください。

マイニング構造

データソースとデータソースビューを作成したら、プロジェクト内で マイニング構造 を定義することで、ビジネス上の問題に最も関連するデータの列を選択する必要があります。マイニング構造は、モデル化、トレーニング、テストで実際に使用するデータソースビューのデータ列をプロジェクトに指示します。

新しいマイニング構造を追加するには、データマイニングウィザードを開始します。ウィザードでは、マイニング構造が自動的に定義され、データを選択するプロセスが説明されます。必要に応じて、最初のマイニングモデルを構造に追加できます。マイニング構造内では、データソースビューまたは OLAP キューブからテーブルと列を選択し、入れ子になったテーブルがデータに含まれている場合はテーブル間のリレーションシップを定義します。

データマイニングウィザードでは、リレーショナル分析処理 (OLAP) データソースを使用するかオンライン分析処理 (OLAP) を使用するかによって、データの選択が大きく異なります。

リレーショナルデータソースからデータを選択する場合、マイニング構造の設定は簡単です。データソースビューのデータから列を選択し、別名などの追加のカスタマイズを設定するか、列の値をグループ化またはビン分割する方法を定義します。詳細については、「リレーショナルマイニング構造の作成」を参照してください。
OLAP キューブのデータを使用する場合、マイニング構造は OLAP ソリューションと同じデータベース内にある必要があります。マイニング構造を作成するには、OLAP ソリューションのディメンションと関連メジャーから属性を選択します。通常、数値は尺度に含まれ、カテゴリ変数は次元に含まれます。詳細については、「 OLAP マイニング構造の作成」を参照してください。
DMX を使用してマイニング構造を定義することもできます。詳細については、「データマイニング拡張機能 (DMX) データ定義ステートメント」を参照してください。

最初のマイニング構造を作成したら、構造列をコピー、変更、エイリアス化できます。

各マイニング構造には、複数のマイニングモデルを含めることができます。そのため、完了したら、マイニング構造をもう一度開き、データマイニングデザイナーを使用して構造にマイニングモデルを追加できます。

また、モデルの構築に使用されるトレーニングデータセットと、マイニングモデルのテストまたは検証に使用する保留データセットにデータを分離するオプションもあります。

警告

時系列モデルなど、一部のモデルの種類では、トレーニングに継続的な一連のデータが必要なため、ホールドアウトデータセットの作成はサポートされていません。詳細については、データ・セットのトレーニングとテストを参照してください。

マイニングモデル

マイニングモデルでは、データに対して使用するアルゴリズムまたは分析方法が定義されます。各マイニング構造に、1 つ以上のマイニングモデルを追加します。

ニーズに応じて、1 つのプロジェクトに多数のモデルを組み合わせたり、モデルまたは分析タスクの種類ごとに個別のプロジェクトを作成したりできます。

構造とモデルを作成したら、アルゴリズムを使用してデータソースビューからデータを実行して各モデルを処理します。これにより、データの数学的モデルが生成されます。このプロセスは、 モデルのトレーニングとも呼ばれます。詳細については、「処理要件と考慮事項 (データマイニング)」を参照してください。

モデルが処理されたら、マイニングモデルを視覚的に調査し、それに対する予測クエリを作成できます。トレーニングプロセスのデータがキャッシュされている場合は、 ドリルスルー クエリを使用して、モデルで使用されるケースに関する詳細情報を返すことができます。

運用環境にモデルを使用する場合 (たとえば、予測を行う場合や、一般ユーザーによる探索に使用する場合)、モデルを別のサーバーにデプロイできます。将来モデルを再処理する必要がある場合は、基になるマイニング構造の定義 (および、必ずしもデータソースとデータソースビューの定義) を同時にエクスポートする必要もあります。

モデルをデプロイする場合は、構造とモデルに対して正しい処理オプションが設定されていること、および潜在的なユーザーがクエリの実行、モデルの表示、またはモデルデータ構造へのドリルスルーに必要なアクセス許可を持っていることを確認する必要もあります。詳細については、「セキュリティの概要 (データマイニング)」を参照してください。

完成したデータマイニングプロジェクトの使用

このセクションでは、完成したデータマイニングプロジェクトを使用する方法について説明します。精度グラフの作成、データの調査と検証、およびデータマイニングパターンをユーザーが使用できるようにします。

警告

データマイニングモデルで使用するグラフ、クエリ、視覚化は、データマイニングプロジェクトの一部として保存されず、配置できません。これらのオブジェクトを保持する必要がある場合は、表示されるコンテンツを保存するか、各オブジェクトの説明に従ってスクリプト化する必要があります。

モデルの表示と探索

モデルを作成したら、ビジュアルツールとクエリを使用してモデル内のパターンを調べ、基になるパターンと統計の詳細を確認できます。データマイニングデザイナーの [ マイニングモデルビューアー ] タブの Analysis Services には、マイニングモデルの種類ごとにビューアーが用意されており、マイニングモデルの探索に使用できます。

これらの視覚化は一時的なものであり、Analysis Services とのセッションを終了すると保存されずに閉じられます。そのため、プレゼンテーションまたは詳細な分析のためにこれらの視覚エフェクトを別のアプリケーションにエクスポートする必要がある場合は、ビューアーインターフェイスの各タブまたはウィンドウに用意されている コピー コマンドを使用します。

Excel 用データマイニングアドインには、Visio 図面でモデルを表したり、Visio ツールを使用して図面に注釈を付けたり変更したりするために使用できる Visio テンプレートも用意されています。詳細については、「 Microsoft SQL Server 2008 SP2 Data Mining Add-ins for Microsoft Office 2007」を参照してください。

モデルのテストと検証

モデルを作成したら、結果を調査し、最適なパフォーマンスを示すモデルに関する決定を行うことができます。

Analysis Services には、マイニングモデルを直接比較し、最も正確で有用なマイニングモデルを選択するために使用できるツールを提供するために使用できるいくつかのグラフが用意されています。これらのツールには、リフトチャート、利益チャート、分類マトリックスが含まれます。これらのグラフは、データマイニングデザイナーの [ マイニング精度グラフ ] タブを使用して生成できます。

また、クロス検証レポートを使用して、データの反復的なサブサンプリングを実行して、モデルが特定のデータセットに偏っているかどうかを判断することもできます。レポートで提供される統計を使用して、モデルを客観的に比較し、トレーニングデータの品質を評価できます。

これらのレポートとグラフはプロジェクトや ssASnoversion データベースには保存されないため、結果を保持または複製する必要がある場合は、結果を保存するか、DMX または AMO を使用してオブジェクトのスクリプトを作成する必要があります。また、クロス検証にストアドプロシージャを使用することもできます。

詳細については、「テストと検証 (データマイニング)」を参照してください。

予測の作成

Analysis Services には、予測を作成するための基礎となるデータマイニング拡張機能 (DMX) と呼ばれるクエリ言語が用意されており、スクリプト化が容易です。 DMX 予測クエリの構築に役立つよう、SQL Server には、SQL Server Management Studio で使用できるクエリビルダーが用意されています。 SQL Server Management Studio にはクエリエディター用の DMX テンプレートも多数用意されています。予測クエリを初めて使用する場合は、データマイニングデザイナーと SQL Server Management Studio の両方で提供されるクエリビルダーを使用することをお勧めします。詳細については、「データマイニングツール」を参照してください。

SQL Server Data Tools (SSDT) または SQL Server Management Studio で作成した予測は保持されないため、クエリが複雑な場合や結果を再現する必要がある場合は、予測クエリを DMX クエリファイルに保存するか、スクリプトを作成するか、Integration Services パッケージの一部としてクエリを埋め込むことをお勧めします。

データマイニングオブジェクトへのプログラムによるアクセス

Analysis Services には、データマイニングプロジェクトとその中のオブジェクトをプログラムで操作するために使用できるツールがいくつか用意されています。 DMX 言語には、データソースとデータソースビューの作成、およびデータマイニング構造とモデルの作成、トレーニング、使用に使用できるステートメントが用意されています。詳細については、「データマイニング拡張機能 (DMX) リファレンス」を参照してください。

これらのタスクは、Analysis Services スクリプト言語 (ASSL) を使用するか、Analysis Management オブジェクト (AMO) を使用して実行することもできます。詳細については、「 Analysis Services での XMLA を使用した開発」を参照してください。

次のトピックでは、データマイニングウィザードを使用してデータマイニングプロジェクトと関連オブジェクトを作成する方法について説明します。

タスク	トピック
マイニング構造列を操作する方法について説明します	リレーショナルマイニング構造を作成する
新しいマイニングモデルを追加し、構造とモデルを処理する方法の詳細について説明します	マイニングモデルを構造に追加する (Analysis Services - データマイニング)
マイニングモデルを構築するアルゴリズムのカスタマイズに役立つリソースへのリンクを提供します	マイニングモデルと構造をカスタマイズする
各マイニングモデルビューアーに関する情報へのリンクを提供します	データマイニングモデルビューアー
リフトチャート、利益チャート、または分類マトリックスを作成する方法、またはマイニング構造をテストする方法について説明します	テストと検証 (データマイニング)
処理オプションとアクセス許可について説明します	データマイニングオブジェクトの処理
Analysis Services に関する詳細情報を提供します	多次元モデルデータベース (SSAS)

こちらもご覧ください

データマイニングデザイナー
 SQL Server データツール (SSDT) を使用した多次元モデルの作成
 ワークスペースデータベース (SSAS テーブル)

次の方法で共有

データ マイニング プロジェクト

データ マイニング プロジェクトの作成

データ マイニング プロジェクトのオブジェクト

データ ソース

データ ソース ビュー