次の方法で共有


データ サイエンスのエンド ツー エンド シナリオ: 概要とアーキテクチャ

これらのチュートリアルでは、Fabric データ サイエンス エクスペリエンスにおける完全なエンド ツー エンドのシナリオについて説明します。 次の各ステップをカバーしています。

  • データ インジェスト
  • データ クリーニング
  • データの準備

送信先

  • 機械学習モデルのトレーニング
  • 分析情報の生成

次に、視覚エフェクト ツール (Power BI など) を使用して、これらの分析情報の消費量について説明します。

Microsoft Fabric を初めて使用するユーザー は、Microsoft Fabric の概要にアクセスする必要があります。

紹介

データ サイエンス プロジェクトのライフサイクルには、通常、次の手順が含まれます。

  • ビジネス ルールを理解する
  • データを取得する
  • データの探索、クリーンアップ、準備、視覚化
  • モデルをトレーニングし、実験を追跡する
  • モデルのスコア付けと分析情報の生成

多くの場合、手順は繰り返し進みます。 各ステージの目標と成功基準は、コラボレーション、データ共有、ドキュメントによって異なります。 Fabric データ サイエンス エクスペリエンスには、シームレスなコラボレーション、データの取得、共有、および使用を可能にする複数のネイティブ構築機能が含まれます。

これらのチュートリアルでは、10,000 人の銀行顧客のチャーン状態を含むデータセットを探索、クリーンアップ、変換する必要があるデータ サイエンティストの役割を果たします。 次に、機械学習モデルを構築して、顧客が退職する可能性が高い銀行を予測します。

チュートリアルでは、次のアクティビティを実行します。

  1. データ サイエンス シナリオに Fabric ノートブックを使用する
  2. Apache Spark を使用して Fabric Lakehouse にデータを取り込む
  3. Lakehouse デルタ テーブルから既存のデータを読み込む
  4. Apache Spark と Python ベースのツールを使用してデータをクリーンアップおよび変換する
  5. さまざまな機械学習モデルをトレーニングするための実験と実行を作成する
  6. MLflow と Fabric UI を使用してトレーニング済みモデルを登録および追跡する
  7. 大規模なスコアリングを実行し、予測と推論の結果を lakehouse に保存する
  8. DirectLake を使用して Power BI で予測を視覚化する

建築

このチュートリアル シリーズでは、以下を含む簡単なエンドツーエンドのデータ サイエンス シナリオを紹介します。

  1. 外部データ ソースからのデータ インジェスト
  2. データの探索とクリーニング
  3. 機械学習モデルのトレーニングと登録
  4. バッチ スコアリングと予測の保存
  5. Power BI での予測結果の視覚化

データ サイエンスのエンド ツー エンド シナリオ コンポーネントの図。

データ サイエンス シナリオのさまざまなコンポーネント

データ ソース - Fabric を使用してデータを取り込むには、Azure Data Services、他のクラウド プラットフォーム、オンプレミスのデータ リソースに簡単かつ迅速に接続できます。 Fabric Notebook を使用すると、次のリソースからデータを取り込むことができます。

  • 組み込みのレイクハウス
  • Data Warehouses
  • セマンティック モデル
  • さまざまな Apache Spark データ ソース
  • Python をサポートするさまざまなデータ ソース

このチュートリアル シリーズでは、レイクハウスからのデータ インジェストと読み込みに重点を置いています。

調査、クリーニング、準備 - Fabric データ サイエンス エクスペリエンスでは、データのクリーニング、変換、探索、特徴付けがサポートされます。 組み込みの Spark エクスペリエンスと Python ベースのツール (Data Wrangler や SemPy ライブラリなど) を使用します。 このチュートリアルでは、 seaborn Python ライブラリを使用したデータ探索と、Apache Spark を使用したデータのクリーニングと準備について説明します。

モデルと実験 - Fabric を使用すると、組み込みの実験を使用して機械学習モデルをトレーニング、評価、スコア付けできます。 モデルを登録してデプロイし、実験を追跡するために、 MLflow は、項目をモデル化する方法として Fabric とのシームレスな統合を提供します。 ビジネス分析情報を構築して共有するために、Fabric では、大規模なモデル予測 (PREDICT) 用の他の機能を提供し、ビジネス分析情報を構築して共有します。

ストレージ - Fabric は Delta Lake で標準化されています。つまり、すべての Fabric エンジンが、レイクハウスに格納されている同じデータセットと対話できます。 そのストレージ レイヤーを使用すると、ファイル ベースのストレージと表形式の両方をサポートする構造化データと非構造化データの両方を格納できます。 ノートブックやパイプラインなど、すべての Fabric エクスペリエンス項目を通じてデータセットと保存されたファイルに簡単にアクセスできます。

分析と分析情報を公開する - 業界をリードするビジネス インテリジェンス ツールである Power BI は、レポートと視覚化の生成のために Lakehouse データを使用できます。 ノートブック リソース内で、PythonまたはSparkのネイティブ視覚化ライブラリ

  • matplotlib
  • seaborn
  • plotly
  • その他。

レイクハウスに保存されているデータを視覚化できます。 SemPy ライブラリでは、データの視覚化もサポートされています。 このライブラリでは、組み込みの豊富なタスク固有の視覚化がサポートされます。

  • セマンティック データ モデル
  • 依存関係とその違反
  • 分類と回帰のユース ケース

次の手順

データ サイエンスチュートリアルの 用にシステムを準備する