データサイエンスのエンドツーエンドシナリオ: 概要とアーキテクチャ

2025-05-01

これらのチュートリアルでは、Fabric データサイエンスエクスペリエンスにおける完全なエンドツーエンドのシナリオについて説明します。次の各ステップをカバーしています。

データインジェスト
データクリーニング
データの準備

送信先

機械学習モデルのトレーニング
分析情報の生成

次に、視覚エフェクトツール (Power BI など) を使用して、これらの分析情報の消費量について説明します。

Microsoft Fabric を初めて使用するユーザーは、Microsoft Fabric の概要にアクセスする必要があります。

紹介

データサイエンスプロジェクトのライフサイクルには、通常、次の手順が含まれます。

ビジネスルールを理解する
データを取得する
データの探索、クリーンアップ、準備、視覚化
モデルをトレーニングし、実験を追跡する
モデルのスコア付けと分析情報の生成

多くの場合、手順は繰り返し進みます。各ステージの目標と成功基準は、コラボレーション、データ共有、ドキュメントによって異なります。 Fabric データサイエンスエクスペリエンスには、シームレスなコラボレーション、データの取得、共有、および使用を可能にする複数のネイティブ構築機能が含まれます。

これらのチュートリアルでは、10,000 人の銀行顧客のチャーン状態を含むデータセットを探索、クリーンアップ、変換する必要があるデータサイエンティストの役割を果たします。次に、機械学習モデルを構築して、顧客が退職する可能性が高い銀行を予測します。

チュートリアルでは、次のアクティビティを実行します。

データサイエンスシナリオに Fabric ノートブックを使用する
Apache Spark を使用して Fabric Lakehouse にデータを取り込む
Lakehouse デルタテーブルから既存のデータを読み込む
Apache Spark と Python ベースのツールを使用してデータをクリーンアップおよび変換する
さまざまな機械学習モデルをトレーニングするための実験と実行を作成する
MLflow と Fabric UI を使用してトレーニング済みモデルを登録および追跡する
大規模なスコアリングを実行し、予測と推論の結果を lakehouse に保存する
DirectLake を使用して Power BI で予測を視覚化する

建築

このチュートリアルシリーズでは、以下を含む簡単なエンドツーエンドのデータサイエンスシナリオを紹介します。

データサイエンスシナリオのさまざまなコンポーネント

データソース - Fabric を使用してデータを取り込むには、Azure Data Services、他のクラウドプラットフォーム、オンプレミスのデータリソースに簡単かつ迅速に接続できます。 Fabric Notebook を使用すると、次のリソースからデータを取り込むことができます。

組み込みのレイクハウス
Data Warehouses
セマンティックモデル
さまざまな Apache Spark データソース
Python をサポートするさまざまなデータソース

このチュートリアルシリーズでは、レイクハウスからのデータインジェストと読み込みに重点を置いています。

調査、クリーニング、準備 - Fabric データサイエンスエクスペリエンスでは、データのクリーニング、変換、探索、特徴付けがサポートされます。組み込みの Spark エクスペリエンスと Python ベースのツール (Data Wrangler や SemPy ライブラリなど) を使用します。このチュートリアルでは、 seaborn Python ライブラリを使用したデータ探索と、Apache Spark を使用したデータのクリーニングと準備について説明します。

モデルと実験 - Fabric を使用すると、組み込みの実験を使用して機械学習モデルをトレーニング、評価、スコア付けできます。モデルを登録してデプロイし、実験を追跡するために、 MLflow は、項目をモデル化する方法として Fabric とのシームレスな統合を提供します。ビジネス分析情報を構築して共有するために、Fabric では、大規模なモデル予測 (PREDICT) 用の他の機能を提供し、ビジネス分析情報を構築して共有します。

ストレージ - Fabric は Delta Lake で標準化されています。つまり、すべての Fabric エンジンが、レイクハウスに格納されている同じデータセットと対話できます。そのストレージレイヤーを使用すると、ファイルベースのストレージと表形式の両方をサポートする構造化データと非構造化データの両方を格納できます。ノートブックやパイプラインなど、すべての Fabric エクスペリエンス項目を通じてデータセットと保存されたファイルに簡単にアクセスできます。

分析と分析情報を公開する - 業界をリードするビジネスインテリジェンスツールである Power BI は、レポートと視覚化の生成のために Lakehouse データを使用できます。ノートブックリソース内で、PythonまたはSparkのネイティブ視覚化ライブラリ

matplotlib
seaborn
plotly
その他。

レイクハウスに保存されているデータを視覚化できます。 SemPy ライブラリでは、データの視覚化もサポートされています。このライブラリでは、組み込みの豊富なタスク固有の視覚化がサポートされます。

セマンティックデータモデル
依存関係とその違反
分類と回帰のユースケース

次の手順

データサイエンスチュートリアルの用にシステムを準備する

次の方法で共有

データ サイエンスのエンド ツー エンド シナリオ: 概要とアーキテクチャ

紹介

建築

データ サイエンス シナリオのさまざまなコンポーネント

次の手順

フィードバック

その他のリソース

データサイエンスのエンドツーエンドシナリオ: 概要とアーキテクチャ

データサイエンスシナリオのさまざまなコンポーネント