Fabric ランタイムは、Azure とのシームレスな統合を提供します。 Apache Spark を使用するデータ エンジニアリング プロジェクトとデータ サイエンス プロジェクトの両方に高度な環境を提供します。 この記事では、ビッグ データ計算用の最新のランタイムである Fabric ランタイム 1.3 の重要な機能とコンポーネントの概要について説明します。
Microsoft Fabric Runtime 1.3 は最新の GA ランタイム バージョンであり、データ処理機能を強化するために設計された次のコンポーネントとアップグレードが組み込まれています。
Apache Spark 3.5
オペレーティング システム: Mariner 2.0
Java: 11
Scala: 2.12.17
Python: 3.11
Delta Lake: 3.2
R: 4.4.1
ヒント
Fabric Runtime 1.3 には ネイティブ実行エンジンのサポートが含まれており、コストを増やすことなくパフォーマンスを大幅に向上させることができます。 環境内のすべてのジョブとノートブックでネイティブ実行エンジンを有効にするには、環境設定に移動して Spark コンピューティングを選び、[アクセラレーション] タブに移動して、[ネイティブ実行エンジンを有効にする] をオンにします。 保存して発行すると、この設定が環境全体に適用されるため、すべての新しいジョブとノートブックが自動的に継承され、強化されたパフォーマンス機能の恩恵を受けます。
ランタイム 1.3 の統合
次の手順に従って、ランタイム 1.3 をワークスペースに統合し、その新機能を使用します。
Fabric ワークスペース内の [ワークスペース設定] タブに移動します。
[データ エンジニアリング/サイエンス] に進み、[Spark の設定] を選択します。
[環境] タブを選択します。
[ランタイム バージョン] の下のドロップダウンを展開します。
[1.3 (Spark 3.5、Delta 3.2)] を選んで、変更を保存します。 このアクションにより、ワークスペースのデフォルトのランタイムとして 1.3 が設定されます。
これで、Fabric Runtime 1.3 (Spark 3.5 と Delta Lake 3.2) で導入された最新の向上と機能を使い始めることができます。
Apache Spark 3.5 の詳細
Apache Spark 3.5.0 は、3.x シリーズの 6 番目のバージョンです。 このバージョンは、オープンソース コミュニティ内の広範なコラボレーションの製品であり、Jira に記録されている 1,300 件を超える問題に対処しています。
このバージョンでは、構造化ストリーミングの互換性がアップグレードされています。 さらに、このリリースでは、PySpark と SQL 内の機能が広がります。 SQL 識別子句、SQL 関数呼び出しの名前付き引数、HyperLogLog の近似集計に SQL 関数を含めるなどの機能が追加されます。
その他の新機能には、Python ユーザー定義テーブル関数、DeepSpeed による分散トレーニングの簡略化、ウォーターマーク伝達や dropDuplicatesWithinWatermark 操作などの新規構造化ストリーミング機能も含まれます。
完全な一覧と詳細な変更については、 Spark リリース 3.5.0 を参照してください。
Delta Spark について
Delta Lake 3.2 では、Delta Lake を複数の形式で相互運用可能にし、操作しやすくして、パフォーマンスを高めるための一連の取り組みが行われています。 Delta Spark 3.2 は、Apache Spark™ 3.5 を基にして構築されています。 Delta Spark Maven アーティファクトの名前が delta-core から delta-spark に変更されました。
完全な一覧と詳細な変更については、https://docs.delta.io/3.2.0/index.html をチェックしてください。
ヒント
最新の情報、変更の詳細な一覧、および Fabric ランタイムの特定のリリース ノートについては、Spark ランタイムのリリースと更新を確認しサブスクライブしてください。