これらのチュートリアルでは、Fabric データ サイエンス エクスペリエンスにおける完全なエンド ツー エンドのシナリオについて説明します。 次の各ステップをカバーしています。
- データ インジェスト
- データ クリーニング
- データの準備
送信先
- 機械学習モデルのトレーニング
- 分析情報の生成
次に、視覚エフェクト ツール (Power BI など) を使用して、これらの分析情報の消費量について説明します。
Microsoft Fabric を初めて使用するユーザー は、Microsoft Fabric の概要にアクセスする必要があります。
紹介
データ サイエンス プロジェクトのライフサイクルには、通常、次の手順が含まれます。
- ビジネス ルールを理解する
- データを取得する
- データの探索、クリーンアップ、準備、視覚化
- モデルをトレーニングし、実験を追跡する
- モデルのスコア付けと分析情報の生成
多くの場合、手順は繰り返し進みます。 各ステージの目標と成功基準は、コラボレーション、データ共有、ドキュメントによって異なります。 Fabric データ サイエンス エクスペリエンスには、シームレスなコラボレーション、データの取得、共有、および使用を可能にする複数のネイティブ構築機能が含まれます。
これらのチュートリアルでは、10,000 人の銀行顧客のチャーン状態を含むデータセットを探索、クリーンアップ、変換する必要があるデータ サイエンティストの役割を果たします。 次に、機械学習モデルを構築して、顧客が退職する可能性が高い銀行を予測します。
チュートリアルでは、次のアクティビティを実行します。
- データ サイエンス シナリオに Fabric ノートブックを使用する
- Apache Spark を使用して Fabric Lakehouse にデータを取り込む
- Lakehouse デルタ テーブルから既存のデータを読み込む
- Apache Spark と Python ベースのツールを使用してデータをクリーンアップおよび変換する
- さまざまな機械学習モデルをトレーニングするための実験と実行を作成する
- MLflow と Fabric UI を使用してトレーニング済みモデルを登録および追跡する
- 大規模なスコアリングを実行し、予測と推論の結果を lakehouse に保存する
- DirectLake を使用して Power BI で予測を視覚化する
建築
このチュートリアル シリーズでは、以下を含む簡単なエンドツーエンドのデータ サイエンス シナリオを紹介します。
データ サイエンス シナリオのさまざまなコンポーネント
データ ソース - Fabric を使用してデータを取り込むには、Azure Data Services、他のクラウド プラットフォーム、オンプレミスのデータ リソースに簡単かつ迅速に接続できます。 Fabric Notebook を使用すると、次のリソースからデータを取り込むことができます。
- 組み込みのレイクハウス
- Data Warehouses
- セマンティック モデル
- さまざまな Apache Spark データ ソース
- Python をサポートするさまざまなデータ ソース
このチュートリアル シリーズでは、レイクハウスからのデータ インジェストと読み込みに重点を置いています。
調査、クリーニング、準備 - Fabric データ サイエンス エクスペリエンスでは、データのクリーニング、変換、探索、特徴付けがサポートされます。 組み込みの Spark エクスペリエンスと Python ベースのツール (Data Wrangler や SemPy ライブラリなど) を使用します。 このチュートリアルでは、 seaborn
Python ライブラリを使用したデータ探索と、Apache Spark を使用したデータのクリーニングと準備について説明します。
モデルと実験 - Fabric を使用すると、組み込みの実験を使用して機械学習モデルをトレーニング、評価、スコア付けできます。 モデルを登録してデプロイし、実験を追跡するために、 MLflow は、項目をモデル化する方法として Fabric とのシームレスな統合を提供します。 ビジネス分析情報を構築して共有するために、Fabric では、大規模なモデル予測 (PREDICT) 用の他の機能を提供し、ビジネス分析情報を構築して共有します。
ストレージ - Fabric は Delta Lake で標準化されています。つまり、すべての Fabric エンジンが、レイクハウスに格納されている同じデータセットと対話できます。 そのストレージ レイヤーを使用すると、ファイル ベースのストレージと表形式の両方をサポートする構造化データと非構造化データの両方を格納できます。 ノートブックやパイプラインなど、すべての Fabric エクスペリエンス項目を通じてデータセットと保存されたファイルに簡単にアクセスできます。
分析と分析情報を公開する - 業界をリードするビジネス インテリジェンス ツールである Power BI は、レポートと視覚化の生成のために Lakehouse データを使用できます。 ノートブック リソース内で、PythonまたはSparkのネイティブ視覚化ライブラリ
matplotlib
seaborn
plotly
- その他。
レイクハウスに保存されているデータを視覚化できます。 SemPy ライブラリでは、データの視覚化もサポートされています。 このライブラリでは、組み込みの豊富なタスク固有の視覚化がサポートされます。
- セマンティック データ モデル
- 依存関係とその違反
- 分類と回帰のユース ケース
次の手順
データ サイエンスチュートリアルの 用にシステムを準備する