次の方法で共有


データ マイニング プロジェクト

データ マイニング プロジェクトは、Analysis Services ソリューションの一部です。 デザイン プロセス中に、このプロジェクトで作成したオブジェクトは、ワークスペース データベースの一部としてテストおよびクエリを実行できます。 ユーザーがプロジェクト内のオブジェクトを照会または参照できるようにするには、多次元モードで実行されている Analysis Services のインスタンスにプロジェクトを配置する必要があります。

このトピックでは、データ マイニング プロジェクトを理解して作成するために必要な基本情報について説明します。

データ マイニング プロジェクトの作成

SQL Server Data Tools (SSDT) では、テンプレート、 OLAP、およびデータ マイニング プロジェクトを使用してデータ マイニング プロジェクトをビルドします。 AMO を使用して、プログラムでデータ マイニング プロジェクトを作成することもできます。 Analysis Services スクリプト言語 (ASSL) を使用して、個々のデータ マイニング オブジェクトをスクリプト化できます。 詳細については、「 多次元モデル データ アクセス (Analysis Services - 多次元データ)」を参照してください。

既存のソリューション内にデータ マイニング プロジェクトを作成する場合、既定では、データ マイニング オブジェクトはソリューション ファイルと同じ名前の Analysis Services データベースに配置されます。 この名前とターゲット サーバーは、[ プロジェクトのプロパティ ] ダイアログ ボックスを使用して変更できます。 詳細については、「 Analysis Services プロジェクトのプロパティの構成 (SSDT)」を参照してください。

警告

プロジェクトを正常にビルドして配置するには、OLAP/データ マイニング モードで実行されている Analysis Services のインスタンスにアクセスできる必要があります。 表形式モデルをサポートする Analysis Services のインスタンスでデータ マイニング ソリューションを開発または展開したり、PowerPivot ブックから直接データを使用したり、メモリ内データ ストアを使用する表形式モデルからデータを使用したりすることはできません。 持っている Analysis Services のインスタンスがデータ マイニングをサポートできるかどうかを判断するには、「 Analysis Services インスタンスのサーバー モードの決定」を参照してください。

作成する各データ マイニング プロジェクト内で、次の手順を実行します。

  1. キューブ、データベース、Excel やテキスト ファイルなど、モデルの構築に使用する生データを含む データ ソースを選択します。

  2. 分析に使用するデータ ソース内のデータのサブセットを定義し、 データ ソース ビューとして保存します。

  3. モデリングをサポートする マイニング構造 を定義します。

  4. アルゴリズムを選択し、アルゴリズムでデータを処理する方法を指定することで、マイニング モデルをマイニング構造に追加します。

  5. 選択したデータまたはフィルター処理されたデータのサブセットをモデルに設定して、モデルをトレーニングします。

  6. モデルを探索、テスト、再構築します。

プロジェクトが完了したら、ユーザーがプロジェクトをデプロイして参照またはクエリを実行したり、アプリケーション内のマイニング モデルへのプログラムによるアクセスを提供したりして、予測と分析をサポートできます。

データ マイニング プロジェクトのオブジェクト

すべてのデータ マイニング プロジェクトには、次の 4 種類のオブジェクトが含まれています。 すべての型の複数のオブジェクトを持つことができます。

  • データ ソース

  • データ ソース ビュー

  • マイニング構造

  • マイニング モデル

たとえば、1 つのデータ マイニング プロジェクトに複数のデータ ソースへの参照を含めることができます。各データ ソースは複数のデータ ソース ビューをサポートします。 さらに、各データ ソース ビューは複数のマイニング構造をサポートでき、それぞれに関連するマイニング モデルが多数あります。

さらに、プロジェクトには、プラグイン アルゴリズム、カスタム アセンブリ、またはカスタム ストアド プロシージャが含まれる場合があります。ただし、これらのオブジェクトについてはここでは説明しません。 詳細については、「 開発者ガイド (Analysis Services)」を参照してください。

データ ソース

データ ソースは、Analysis Services サーバーがデータ ソースへの接続に使用する接続文字列と認証情報を定義します。 データ ソースには、複数のテーブルまたはビューを含めることができます。単一の Excel ブックまたはテキスト ファイルのように単純にすることも、オンライン分析処理 (OLAP) データベースや大規模なリレーショナル データベースのように複雑にすることもできます。

1 つのデータ マイニング プロジェクトで複数のデータ ソースを参照できます。 マイニング モデルで一度に使用できるデータ ソースは 1 つだけですが、プロジェクトでは複数のモデルを異なるデータ ソースに描画できます。

Analysis Services は多くの外部プロバイダーからのデータをサポートしており、SQL Server データ マイニングではリレーショナル データとキューブ データの両方をデータ ソースとして使用できます。 ただし、リレーショナル ソースに基づくプロジェクト モデルと OLAP キューブに基づくモデルの両方の種類を開発する場合は、これらを別々のプロジェクトで開発および管理することができます。

  • 通常、OLAP キューブに基づくモデルは、OLAP デザイン ソリューション内で開発する必要があります。 1 つの理由は、キューブに基づくモデルがキューブを処理してデータを更新する必要があるということです。 一般に、キューブ データは、それがデータの保存とアクセスの主要な手段である場合、または多次元プロジェクトによって作成された集計、ディメンション、属性が必要な場合にのみ使用する必要があります。

  • プロジェクトでリレーショナル データのみを使用する場合は、他のオブジェクトを不必要に再処理しないように、別のプロジェクト内にリレーショナル モデルを作成する必要があります。 多くの場合、キューブの作成をサポートするために使用されるステージング データベースまたはデータ ウェアハウスには、データ マイニングを実行するために必要なビューが既に含まれています。また、キューブ内の集計とディメンションを使用する代わりに、これらのビューをデータ マイニングに使用できます。

  • メモリ内または PowerPivot データを直接使用してデータ マイニング モデルを構築することはできません。

データ ソースは、サーバーまたはプロバイダーと一般的な種類のデータのみを識別します。 データの書式設定と集計を変更する必要がある場合は、データ ソース ビュー オブジェクトを使用します。

データ ソースからのデータの処理方法を制御するには、派生列または計算を追加したり、集計を変更したり、データ ソース ビューのデータ内の列の名前を変更したりできます。 (マイニング構造列を変更するか、マイニング モデル列のレベルでモデリング フラグとフィルターを使用して、下流のデータを操作することもできます)。

データ クレンジングが必要な場合、またはデータ ウェアハウス内のデータを変更して、追加の変数の作成、データ型の変更、または代替集計の作成を行う必要がある場合は、データ マイニングをサポートする追加のプロジェクトの種類を作成する必要があります。 これらの関連プロジェクトの詳細については、「 データ マイニング ソリューションの関連プロジェクト」を参照してください。

データ ソース ビュー

データ ソースへのこの接続を定義したら、モデルに関連する特定のデータを識別するビューを作成します。

データ ソース ビューでは、データ ソース内のデータをマイニング モデルに提供する方法をカスタマイズすることもできます。 データの構造を変更してプロジェクトに関連性を高めたり、特定の種類のデータのみを選択したりすることができます。

たとえば、データ ソース ビュー エディターを使用すると、次のことができます。

  • 日付パーツ、部分文字列などの派生列を作成します。

  • GROUP BY などの Transact-SQL ステートメントを使用して値を集計する

  • データを一時的に制限する、またはサンプル データを制限する

データ ソース ビュー内のデータを変更する方法の詳細については、「 多次元モデルのデータ ソース ビュー」を参照してください。

警告

データをフィルター処理する場合は、データ ソース ビューで行うことができますが、マイニング モデルのレベルでデータにフィルターを作成することもできます。 フィルター定義はマイニング モデルと共に格納されるため、モデル フィルターを使用すると、モデルのトレーニングに使用されたデータを簡単に判断できます。 さらに、フィルター条件が異なる複数の関連モデルを作成できます。 詳細については、「 マイニング モデルのフィルター (Analysis Services - データ マイニング)」を参照してください。

作成するデータ ソース ビューには、分析に直接使用されない追加のデータを含めることができます。 たとえば、テスト、予測、またはドリルスルーに使用するデータをデータ ソース ビューに追加することができます。 これらの用途の詳細については、「テストと検証 (データ マイニング)」および「ドリルスルー」を参照してください。

マイニング構造

データ ソースとデータ ソース ビューを作成したら、プロジェクト内で マイニング構造 を定義することで、ビジネス上の問題に最も関連するデータの列を選択する必要があります。 マイニング構造は、モデル化、トレーニング、テストで実際に使用するデータ ソース ビューのデータ列をプロジェクトに指示します。

新しいマイニング構造を追加するには、データ マイニング ウィザードを開始します。 ウィザードでは、マイニング構造が自動的に定義され、データを選択するプロセスが説明されます。必要に応じて、最初のマイニング モデルを構造に追加できます。 マイニング構造内では、データ ソース ビューまたは OLAP キューブからテーブルと列を選択し、入れ子になったテーブルがデータに含まれている場合はテーブル間のリレーションシップを定義します。

データ マイニング ウィザードでは、リレーショナル分析処理 (OLAP) データ ソースを使用するかオンライン分析処理 (OLAP) を使用するかによって、データの選択が大きく異なります。

  • リレーショナル データ ソースからデータを選択する場合、マイニング構造の設定は簡単です。データ ソース ビューのデータから列を選択し、別名などの追加のカスタマイズを設定するか、列の値をグループ化またはビン分割する方法を定義します。 詳細については、「 リレーショナル マイニング構造の作成」を参照してください。

  • OLAP キューブのデータを使用する場合、マイニング構造は OLAP ソリューションと同じデータベース内にある必要があります。 マイニング構造を作成するには、OLAP ソリューションのディメンションと関連メジャーから属性を選択します。 通常、数値は尺度に含まれ、カテゴリ変数は次元に含まれます。 詳細については、「 OLAP マイニング構造の作成」を参照してください。

  • DMX を使用してマイニング構造を定義することもできます。 詳細については、「 データ マイニング拡張機能 (DMX) データ定義ステートメント」を参照してください。

最初のマイニング構造を作成したら、構造列をコピー、変更、エイリアス化できます。

各マイニング構造には、複数のマイニング モデルを含めることができます。 そのため、完了したら、マイニング構造をもう一度開き、 データ マイニング デザイナー を使用して構造にマイニング モデルを追加できます。

また、モデルの構築に使用されるトレーニング データ セットと、マイニング モデルのテストまたは検証に使用する保留データ セットにデータを分離するオプションもあります。

警告

時系列モデルなど、一部のモデルの種類では、トレーニングに継続的な一連のデータが必要なため、ホールドアウト データ セットの作成はサポートされていません。 詳細については、 データ・セットのトレーニングとテストを参照してください。

マイニング モデル

マイニング モデルでは、データに対して使用するアルゴリズムまたは分析方法が定義されます。 各マイニング構造に、1 つ以上のマイニング モデルを追加します。

ニーズに応じて、1 つのプロジェクトに多数のモデルを組み合わせたり、モデルまたは分析タスクの種類ごとに個別のプロジェクトを作成したりできます。

構造とモデルを作成したら、アルゴリズムを使用してデータ ソース ビューからデータを実行して各モデルを 処理 します。これにより、データの数学的モデルが生成されます。 このプロセスは、 モデルのトレーニングとも呼ばれます。 詳細については、「 処理要件と考慮事項 (データ マイニング)」を参照してください。

モデルが処理されたら、マイニング モデルを視覚的に調査し、それに対する予測クエリを作成できます。 トレーニング プロセスのデータがキャッシュされている場合は、 ドリルスルー クエリを使用して、モデルで使用されるケースに関する詳細情報を返すことができます。

運用環境にモデルを使用する場合 (たとえば、予測を行う場合や、一般ユーザーによる探索に使用する場合)、モデルを別のサーバーにデプロイできます。 将来モデルを再処理する必要がある場合は、基になるマイニング構造の定義 (および、必ずしもデータ ソースとデータ ソース ビューの定義) を同時にエクスポートする必要もあります。

モデルをデプロイする場合は、構造とモデルに対して正しい処理オプションが設定されていること、および潜在的なユーザーがクエリの実行、モデルの表示、またはモデル データ構造へのドリルスルーに必要なアクセス許可を持っていることを確認する必要もあります。 詳細については、「 セキュリティの概要 (データ マイニング)」を参照してください。

完成したデータ マイニング プロジェクトの使用

このセクションでは、完成したデータ マイニング プロジェクトを使用する方法について説明します。 精度グラフの作成、データの調査と検証、およびデータ マイニング パターンをユーザーが使用できるようにします。

警告

データ マイニング モデルで使用するグラフ、クエリ、視覚化は、データ マイニング プロジェクトの一部として保存されず、配置できません。 これらのオブジェクトを保持する必要がある場合は、表示されるコンテンツを保存するか、各オブジェクトの説明に従ってスクリプト化する必要があります。

モデルの表示と探索

モデルを作成したら、ビジュアル ツールとクエリを使用してモデル内のパターンを調べ、基になるパターンと統計の詳細を確認できます。 データ マイニング デザイナーの [ マイニング モデル ビューアー ] タブの Analysis Services には、マイニング モデルの種類ごとにビューアーが用意されており、マイニング モデルの探索に使用できます。

これらの視覚化は一時的なものであり、Analysis Services とのセッションを終了すると保存されずに閉じられます。 そのため、プレゼンテーションまたは詳細な分析のためにこれらの視覚エフェクトを別のアプリケーションにエクスポートする必要がある場合は、ビューアー インターフェイスの各タブまたはウィンドウに用意されている コピー コマンドを使用します。

Excel 用データ マイニング アドインには、Visio 図面でモデルを表したり、Visio ツールを使用して図面に注釈を付けたり変更したりするために使用できる Visio テンプレートも用意されています。 詳細については、「 Microsoft SQL Server 2008 SP2 Data Mining Add-ins for Microsoft Office 2007」を参照してください。

モデルのテストと検証

モデルを作成したら、結果を調査し、最適なパフォーマンスを示すモデルに関する決定を行うことができます。

Analysis Services には、マイニング モデルを直接比較し、最も正確で有用なマイニング モデルを選択するために使用できるツールを提供するために使用できるいくつかのグラフが用意されています。 これらのツールには、リフト チャート、利益チャート、分類マトリックスが含まれます。 これらのグラフは、データ マイニング デザイナーの [ マイニング精度グラフ ] タブを使用して生成できます。

また、クロス検証レポートを使用して、データの反復的なサブサンプリングを実行して、モデルが特定のデータ セットに偏っているかどうかを判断することもできます。 レポートで提供される統計を使用して、モデルを客観的に比較し、トレーニング データの品質を評価できます。

これらのレポートとグラフはプロジェクトや ssASnoversion データベースには保存されないため、結果を保持または複製する必要がある場合は、結果を保存するか、DMX または AMO を使用してオブジェクトのスクリプトを作成する必要があります。 また、クロス検証にストアド プロシージャを使用することもできます。

詳細については、「 テストと検証 (データ マイニング)」を参照してください。

予測の作成

Analysis Services には、予測を作成するための基礎となるデータ マイニング拡張機能 (DMX) と呼ばれるクエリ言語が用意されており、スクリプト化が容易です。 DMX 予測クエリの構築に役立つよう、SQL Server には、SQL Server Management Studio で使用できるクエリ ビルダーが用意されています。 SQL Server Management Studio にはクエリ エディター用の DMX テンプレートも多数用意されています。予測クエリを初めて使用する場合は、データ マイニング デザイナーと SQL Server Management Studio の両方で提供されるクエリ ビルダーを使用することをお勧めします。 詳細については、「 データ マイニング ツール」を参照してください。

SQL Server Data Tools (SSDT) または SQL Server Management Studio で作成した予測は保持されないため、クエリが複雑な場合や結果を再現する必要がある場合は、予測クエリを DMX クエリ ファイルに保存するか、スクリプトを作成するか、Integration Services パッケージの一部としてクエリを埋め込むことをお勧めします。

データ マイニング オブジェクトへのプログラムによるアクセス

Analysis Services には、データ マイニング プロジェクトとその中のオブジェクトをプログラムで操作するために使用できるツールがいくつか用意されています。 DMX 言語には、データ ソースとデータ ソース ビューの作成、およびデータ マイニング構造とモデルの作成、トレーニング、使用に使用できるステートメントが用意されています。 詳細については、「データ マイニング拡張機能 (DMX) リファレンス」を参照してください。

これらのタスクは、Analysis Services スクリプト言語 (ASSL) を使用するか、Analysis Management オブジェクト (AMO) を使用して実行することもできます。 詳細については、「 Analysis Services での XMLA を使用した開発」を参照してください。

次のトピックでは、データ マイニング ウィザードを使用してデータ マイニング プロジェクトと関連オブジェクトを作成する方法について説明します。

タスク トピック
マイニング構造列を操作する方法について説明します リレーショナル マイニング構造を作成する
新しいマイニング モデルを追加し、構造とモデルを処理する方法の詳細について説明します マイニング モデルを構造に追加する (Analysis Services - データ マイニング)
マイニング モデルを構築するアルゴリズムのカスタマイズに役立つリソースへのリンクを提供します マイニング モデルと構造をカスタマイズする
各マイニング モデル ビューアーに関する情報へのリンクを提供します データ マイニング モデル ビューアー
リフト チャート、利益チャート、または分類マトリックスを作成する方法、またはマイニング構造をテストする方法について説明します テストと検証 (データ マイニング)
処理オプションとアクセス許可について説明します データ マイニング オブジェクトの処理
Analysis Services に関する詳細情報を提供します 多次元モデル データベース (SSAS)

こちらもご覧ください

データ マイニング デザイナー
SQL Server データ ツール (SSDT) を使用した多次元モデルの作成
ワークスペース データベース (SSAS テーブル)