次の方法で共有


Fabric Runtime 1.3 (GA)

Fabric ランタイムは、Azure とのシームレスな統合を提供します。 Apache Spark を使用するデータ エンジニアリング プロジェクトとデータ サイエンス プロジェクトの両方に高度な環境を提供します。 この記事では、ビッグ データ計算用の最新のランタイムである Fabric ランタイム 1.3 の重要な機能とコンポーネントの概要について説明します。

Microsoft Fabric Runtime 1.3 は最新の GA ランタイム バージョンであり、データ処理機能を強化するために設計された次のコンポーネントとアップグレードが組み込まれています。

  • Apache Spark 3.5

  • オペレーティング システム: Mariner 2.0

  • Java: 11

  • Scala: 2.12.17

  • Python: 3.11

  • Delta Lake: 3.2

  • R: 4.4.1

    ヒント

    Fabric Runtime 1.3 には ネイティブ実行エンジンのサポートが含まれており、コストを増やすことなくパフォーマンスを大幅に向上させることができます。 環境内のすべてのジョブとノートブックでネイティブ実行エンジンを有効にするには、環境設定に移動して Spark コンピューティングを選び、[アクセラレーション] タブに移動して、[ネイティブ実行エンジンを有効にする] をオンにします。 保存して発行すると、この設定が環境全体に適用されるため、すべての新しいジョブとノートブックが自動的に継承され、強化されたパフォーマンス機能の恩恵を受けます。

ランタイム 1.3 の統合

次の手順に従って、ランタイム 1.3 をワークスペースに統合し、その新機能を使用します。

  1. Fabric ワークスペース内の [ワークスペース設定] タブに移動します。

  2. [データ エンジニアリング/サイエンス] に進み、[Spark の設定] を選択します。

  3. [環境] タブを選択します。

  4. [ランタイム バージョン] の下のドロップダウンを展開します。

  5. [1.3 (Spark 3.5、Delta 3.2)] を選んで、変更を保存します。 このアクションにより、ワークスペースのデフォルトのランタイムとして 1.3 が設定されます。

    ランタイム バージョンを選択する場所を示すスクリーンショット。

これで、Fabric Runtime 1.3 (Spark 3.5 と Delta Lake 3.2) で導入された最新の向上と機能を使い始めることができます。

Apache Spark 3.5 の詳細

Apache Spark 3.5.0 は、3.x シリーズの 6 番目のバージョンです。 このバージョンは、オープンソース コミュニティ内の広範なコラボレーションの製品であり、Jira に記録されている 1,300 件を超える問題に対処しています。

このバージョンでは、構造化ストリーミングの互換性がアップグレードされています。 さらに、このリリースでは、PySpark と SQL 内の機能が広がります。 SQL 識別子句、SQL 関数呼び出しの名前付き引数、HyperLogLog の近似集計に SQL 関数を含めるなどの機能が追加されます。

その他の新機能には、Python ユーザー定義テーブル関数、DeepSpeed による分散トレーニングの簡略化、ウォーターマーク伝達や dropDuplicatesWithinWatermark 操作などの新規構造化ストリーミング機能も含まれます。

完全な一覧と詳細な変更については、 Spark リリース 3.5.0 を参照してください。

Delta Spark について

Delta Lake 3.2 では、Delta Lake を複数の形式で相互運用可能にし、操作しやすくして、パフォーマンスを高めるための一連の取り組みが行われています。 Delta Spark 3.2 は、Apache Spark™ 3.5 を基にして構築されています。 Delta Spark Maven アーティファクトの名前が delta-core から delta-spark に変更されました。

完全な一覧と詳細な変更については、https://docs.delta.io/3.2.0/index.html をチェックしてください。

ヒント

最新の情報、変更の詳細な一覧、および Fabric ランタイムの特定のリリース ノートについては、Spark ランタイムのリリースと更新を確認しサブスクライブしてください。