マイニング モデルは、データにアルゴリズムを適用することによって作成されますが、アルゴリズムやメタデータ コンテナーを超えています。これは、予測を生成し、リレーションシップに関する推論を行うために新しいデータに適用できるデータ、統計、およびパターンのセットです。
このセクションでは、データ マイニング モデルの概要と使用できる内容について説明します。モデルと構造の基本的なアーキテクチャ、マイニング モデルのプロパティ、およびマイニング モデルを作成して操作する方法について説明します。
マイニング モデルのアーキテクチャ
データ マイニング モデルは、マイニング構造からデータを取得し、データ マイニング アルゴリズムを使用してそのデータを分析します。 マイニング構造とマイニング モデルは個別のオブジェクトです。 マイニング構造には、データ ソースを定義する情報が格納されます。 マイニング モデルには、分析の結果として見つかったパターンなど、データの統計処理から派生した情報が格納されます。
マイニング 構造によって提供されるデータが処理および分析されるまで、マイニング モデルは空です。 マイニング モデルは、処理された後、メタデータ、結果、およびマイニング構造へのバインドを格納します。
メタデータでは、モデルの名前と、格納されているサーバー、モデルの定義 (モデルの構築に使用されたマイニング構造の列、モデルの処理中に適用されたフィルターの定義、データの分析に使用されたアルゴリズムなど) を指定します。 これらすべての選択肢 (データ列とそのデータ型、フィルター、アルゴリズム) は、分析の結果に大きな影響を与えます。
たとえば、クラスタリング アルゴリズム、デシジョン ツリー アルゴリズム、Naïve Bayes アルゴリズムなどを使用して、同じデータを使用して複数のモデルを作成できます。 モデルの種類ごとに、さまざまなパターン、アイテムセット、ルール、または数式のセットが作成され、予測に使用できます。 通常、各アルゴリズムはデータを異なる方法で分析するため、結果のモデルの 内容 も異なる構造で編成されます。 1 種類のモデルでは、データとパターンが クラスターにグループ化される場合があります。別の種類のモデルでは、データはツリー、分岐、およびそれらを分割して定義するルールに編成される場合があります。
モデルは、トレーニング対象のデータの影響も受けます。同じマイニング構造でトレーニングされたモデルであっても、データを異なる方法でフィルター処理したり、分析中に異なるシードを使用したりすると、異なる結果が得られる可能性があります。 ただし、実際のデータはモデルのみの概要統計には格納されず、実際のデータはマイニング構造に存在します。 モデルのトレーニング時にデータにフィルターを作成した場合、フィルター定義もモデル オブジェクトと共に保存されます。
モデルには、マイニング構造にキャッシュされたデータを指すバインドのセットが含まれています。 データが構造にキャッシュされていて、処理後にクリアされていない場合、これらのバインドを使用すると、結果から結果をサポートするケースまでドリルスルーできます。 ただし、実際のデータはモデルではなく、構造体キャッシュに格納されます。
データ マイニング モデルの定義
データ マイニング モデルは、次の一般的な手順に従って作成します。
基になるマイニング構造を作成し、必要なデータの列を含めます。
分析タスクに最適なアルゴリズムを選択します。
モデルで使用する構造から列を選択し、使用する方法を指定します。どの列に予測する結果が含まれているか、どの列が入力専用かなどを指定します。
必要に応じて、アルゴリズムによる処理を微調整するパラメーターを設定します。
構造とモデルを 処理 して、モデルにデータを設定します。
Analysis Services には、マイニング モデルの管理に役立つ次のツールが用意されています。
データ マイニング ウィザードは、構造と関連するマイニング モデルを作成するのに役立ちます。 これは最も使い方が簡単です。 ウィザードでは、必要なマイニング構造が自動的に作成され、重要な設定の構成に役立ちます。
DMX CREATE MODEL ステートメントを使用してモデルを定義できます。 必要な構造は、プロセスの一部として自動的に作成されます。そのため、このメソッドを使用して既存の構造体を再利用することはできません。 作成するモデルが既にわかっている場合、またはモデルをスクリプト化する場合は、このメソッドを使用します。
DMX ALTER STRUCTURE ADD MODEL ステートメントを使用して、新しいマイニング モデルを既存の構造に追加できます。 同じデータ セットに基づくさまざまなモデルを試す場合は、このメソッドを使用します。
また、AMO または XML/A を使用するか、Excel 用データ マイニング クライアントなどの他のクライアントを使用して、マイニング モデルをプログラムで作成することもできます。 詳細については、次のトピックを参照してください。
マイニング モデルのプロパティ
各マイニング モデルには、モデルとそのメタデータを定義するプロパティがあります。 これには、名前、説明、モデルが最後に処理された日付、モデルに対するアクセス許可、トレーニングに使用されるデータに対するフィルターが含まれます。
各マイニング モデルには、マイニング構造から派生し、モデルで使用されるデータの列を記述するプロパティもあります。 モデルで使用される列が入れ子になったテーブルの場合は、列に個別のフィルターを適用することもできます。
さらに、各マイニング モデルには、 Algorithm と Usageという 2 つの特別なプロパティが含まれています。
Algorithm プロパティ モデルの作成に使用するアルゴリズムを指定します。 使用できるアルゴリズムは、使用しているプロバイダーによって異なります。 SQL Server Analysis Services に含まれるアルゴリズムの一覧については、「 データ マイニング アルゴリズム (Analysis Services - データ マイニング)」を参照してください。
Algorithm
プロパティはマイニング モデルに適用され、モデルごとに 1 回だけ設定できます。 アルゴリズムは後で変更できますが、選択したアルゴリズムでサポートされていない場合、マイニング モデル内の一部の列が無効になる可能性があります。 このプロパティを変更した後は、常にモデルを再処理する必要があります。Usage プロパティ 各列をモデルで使用する方法を定義します。 列の使用法は、
Input
、Predict
、Predict Only
、またはKey
として定義できます。Usage
プロパティは、個々のマイニング モデル列に適用され、モデルに含まれるすべての列に対して個別に設定する必要があります。 モデルで使用しない列が構造体に含まれている場合、使用法はIgnore
に設定されます。 マイニング構造に含め、分析には使用しないデータの例として、顧客名や電子メール アドレスなどがあります。 この方法では、分析フェーズ中に含めなくても、後でクエリを実行できます。
マイニング モデルのプロパティの値は、マイニング モデルの作成後に変更できます。 ただし、マイニング モデルの名前を変更した場合でも、モデルを再処理する必要があります。 モデルを再処理すると、異なる結果が表示される場合があります。
マイニング モデル列
マイニング モデルには、マイニング構造で定義されている列から取得されたデータの列が含まれています。 モデルで使用するマイニング構造の列を選択できます。また、マイニング構造列のコピーを作成し、その名前を変更したり、その使用法を変更したりできます。 モデル構築プロセスの一環として、モデルによる列の使用法も定義する必要があります。 これには、列がキーかどうか、予測に使用されているかどうか、アルゴリズムで無視できるかどうかなどの情報が含まれます。
モデルの構築中は、使用可能なデータのすべての列を自動的に追加するのではなく、構造内のデータを慎重に確認し、分析に適した列のみをモデルに含めておくことをお勧めします。 たとえば、同じデータを繰り返す複数の列を含めないようにする必要があります。また、主に一意の値を持つ列を使用しないようにする必要があります。 列を使用すべきでないと思われる場合は、マイニング構造またはマイニング モデルから列を削除する必要はありません。代わりに、モデルの構築時に無視する必要があることを指定するフラグを列に設定できます。 つまり、列はマイニング構造に残りますが、マイニング モデルでは使用されません。 モデルからマイニング構造へのドリルスルーを有効にしている場合は、後で列から情報を取得できます。
選択したアルゴリズムによっては、マイニング構造内の一部の列が特定のモデルの種類と互換性がない場合や、結果が低下する可能性があります。 たとえば、データに収入列などの連続する数値データが含まれており、モデルに不連続の値が必要な場合は、データを不連続範囲に変換するか、モデルから削除する必要があります。 場合によっては、アルゴリズムは自動的にデータを変換またはビン分割しますが、結果が常に目的または期待どおりであるとは限りません。 列の追加コピーを作成し、さまざまなモデルを試すことを検討してください。 また、個々の列にフラグを設定して、特別な処理が必要な場所を示すこともできます。 たとえば、データに null が含まれている場合は、モデリング フラグを使用して処理を制御できます。 特定の列をモデルのリグレッサーと見なす場合は、モデリング フラグを使用して行うことができます。
モデルを作成したら、列の追加や削除、モデルの名前の変更などの変更を行うことができます。 ただし、モデル メタデータに対してのみ変更を行う場合でも、モデルを再処理する必要があります。
マイニング モデルの処理
データ マイニング モデルは、処理されるまで空のオブジェクトです。 モデルを処理すると、構造によってキャッシュされたデータは、モデルで定義されている場合はフィルターを介して渡され、アルゴリズムによって分析されます。 このアルゴリズムは、データを記述する一連の概要統計を計算し、データ内のルールとパターンを識別した後、これらのルールとパターンを使用してモデルを設定します。
処理が完了すると、マイニング モデルには、統計、ルール、回帰式など、分析によって検出されたデータとパターンに関する豊富な情報が含まれます。 カスタム ビューアーを使用してこの情報を参照することも、データ マイニング クエリを作成してこの情報を取得し、分析とプレゼンテーションに使用することもできます。
マイニング モデルの表示とクエリ
モデルを処理したら、SQL Server Data Tools (SSDT) と SQL Server Management Studio で提供されているカスタム ビューアーを使用してモデルを探索できます。 対して
また、マイニング モデルに対してクエリを作成して予測を行ったり、モデルメタデータやモデルによって作成されたパターンを取得したりすることもできます。 データ マイニング拡張機能 (DMX) を使用してクエリを作成します。
関連コンテンツ
トピック | リンクス |
---|---|
複数のマイニング モデルをサポートできるマイニング構造を構築する方法について説明します。 モデルでの列の使用方法について説明します。 |
マイニング構造列 マイニングモデルの列 コンテンツ タイプ (データ マイニング) |
さまざまなアルゴリズムと、アルゴリズムの選択がモデルのコンテンツにどのように影響するかについて説明します。 |
マイニング モデル コンテンツ (Analysis Services - データ マイニング) データ マイニング アルゴリズム (Analysis Services - データ マイニング) |
モデルの構成と動作に影響するプロパティを設定できるようになりました。 |
マイニング モデルのプロパティ モデリング フラグ (データ マイニング) |
データ マイニング用のプログラミング可能なインターフェイスについて説明します。 |
分析管理オブジェクト (AMO) を使用した開発 データ マイニング拡張機能 (DMX) リファレンス |
Analysis Services でカスタム データ マイニング ビューアーを使用する方法について説明します。 | データ マイニング モデル ビューアー |
データ マイニング モデルに対して使用できるさまざまな種類のクエリの例を表示します。 | データ マイニング クエリ |
関連タスク
次のリンクを使用して、データ マイニング モデルの操作に関するより具体的な情報を取得します
課題 | リンク |
---|---|
マイニング モデルの追加と削除 |
既存のマイニング構造にマイニング モデルを追加する マイニング構造からマイニング モデルを削除する |
マイニング モデル列の操作 |
マイニング モデルから列を除外する モデル列のエイリアスを作成する マイニング モデルの列の分離を変更する モデルでリグレッサーとして使用する列を指定する |
モデルのプロパティを変更する |
マイニング モデルのプロパティを変更する マイニング モデルにフィルターを適用する マイニング モデルからフィルターを削除する マイニング モデルのドリルスルーを有効にする アルゴリズム パラメーターの表示または変更 |
コピー。 モデルを移動、または管理する |
マイニング モデルのコピーを作成する マイニング モデルのビューをコピーする EXPORT (DMX) IMPORT (DMX) |
モデルにデータを設定するか、モデル内のデータを更新する | マイニング モデルの処理 |
OLAP モデルの操作 | データ マイニング ディメンションを作成する |