Machine Learning 用 Databricks ランタイム

2025-05-01

この記事では、Machine Learning 用 Databricks ランタイムについて説明し、それを使用するクラスターを作成する方法に関するガイダンスを提供します。

Databricks Runtime は機械学習用のものですか

Databricks Runtime for Machine Learning (Databricks Runtime ML) により、事前に構築された機械学習、ディープラーニングインフラストラクチャ (最も一般的な ML および DL ライブラリを含む) を使用してクラスターの作成が自動化されます。

Databricks Runtime ML に含まれているライブラリ

Databricks Runtime ML には、さまざまな一般的な ML ライブラリが含まれています。ライブラリは各リリースで更新され、新しい機能と修正プログラムが追加されました。

Databricks は、サポートされているライブラリのサブセットを最上位層ライブラリに指定しました。これらのライブラリでは、Databricks の更新頻度が高速化し、ランタイムリリースごとに最新のパッケージリリースに更新されます (依存関係の競合がない場合)。 Databricks では、最上位層ライブラリに対して高度なサポート、テスト、埋め込みの最適化も行われます。最上位レベルのライブラリは、メジャーリリースでのみ追加または削除されます。

最上位層と提供されているその他のライブラリの完全な一覧については、Databricks Runtime ML のリリースノートを参照してください。
ライブラリが更新される頻度と、ライブラリが非推奨となるタイミングについては、 Databricks ランタイム ML メンテナンスポリシーを参照してください。

追加のライブラリをインストールして、ノートブックまたはクラスター用のカスタム環境を作成できます。

クラスターで実行されているすべてのノートブックでライブラリを使用するには、クラスターライブラリを作成します。 init スクリプトを使用して、ライブラリの作成時にクラスター上にライブラリをインストールできます。
特定のノートブックセッションでのみ使用できるライブラリをインストールするには、ノートブックスコープの Python ライブラリを使用します。

Databricks Runtime ML のコンピューティングリソースを設定する

Databricks Runtime ML に基づいてコンピューティングを作成するプロセスは、ワークスペースが専用グループクラスターパブリックプレビューに対して有効になっているかどうかによって異なります。プレビューで有効になっているワークスペースには、新しい簡略化されたコンピューティング UI があります。

Databricks Runtime ML を使用してクラスターを作成する

クラスターを作成するときは、[Databricks Runtime バージョン] ドロップダウンメニューから Databricks Runtime ML バージョンを選択します。 CPU および GPU 対応の ML ランタイムの両方を使用できます。

Databricks Runtime ML を選択する

ノートブックのドロップダウンメニューからクラスターを選択すると、クラスター名の右側に Databricks Runtime のバージョンが表示されます。

Databricks Runtime ML バージョンを表示する

GPU 対応の ML ランタイムを選択した場合は、互換性のあるドライバーの種類とワーカータイプを選択するように求められます。互換性のないインスタンスの種類は、ドロップダウンメニューで淡色表示されます。 GPU 対応のインスタンスの種類は、[GPU 加速化] ラベルの下に一覧表示されます。 Azure Databricks GPU クラスターの作成については、「GPU 対応コンピューティング」をご覧ください。 Databricks Runtime ML には、GPU ハードウェアドライバーと CUDA などの NVIDIA ライブラリが含まれています。

新しい簡略化されたコンピューティング UI を使用して新しいクラスターを作成する

専用グループクラスタープレビューでワークスペースが有効になっている場合 にのみ 、このセクションの手順を使用します。

Databricks Runtime の機械学習バージョンを使用するには、[ 機械学習 ] チェックボックスをオンにします。

コンピューティング UI の MLR の選択

GPU ベースのコンピューティングの場合は、GPU 対応インスタンスの種類を選択します。サポートされている GPU の種類の完全な一覧については、「サポートされているインスタンスの種類」を参照してください。

Photon と Databricks Runtime ML

Databricks Runtime 15.2 ML 以上を実行する CPU クラスターを作成するとき、Photon を有効にすることを選択できます。 Photon では、Spark SQL、Spark DataFrames、特徴エンジニアリング、GraphFrames、xgboost4j を使用してアプリケーションのパフォーマンスを向上させます。 Spark RDD、Pandas UDF、JVM 以外の言語 (Python など) を使用するアプリケーションのパフォーマンス向上は想定されていません。したがって、XGBoost、PyTorch、TensorFlow などの Python パッケージでは、Photon の改善は確認されないでしょう。

Spark RDD API と Spark MLlib には、Photon との限定的な互換性があります。 Spark RDD または Spark MLlib を使用して大規模なデータセットを処理すると、Spark メモリの問題が発生する場合があります。「Spark のメモリの問題」を参照してください。

Databricks ランタイム ML クラスターのアクセスモード

Databricks Runtime ML を実行しているクラスター上の Unity カタログ内のデータにアクセスするには、アクセスモードを Dedicated (以前のシングルユーザーアクセスモード) に設定する必要があります。

コンピューティングリソースに専用アクセス権がある場合は、リソースを 1 人のユーザーまたはグループに割り当てることができます。グループ (グループクラスター) に割り当てられると、ユーザーのアクセス許可はグループのアクセス許可のスコープを自動的に下げ、ユーザーはグループの他のメンバーとリソースを安全に共有できます。

専用アクセスモードを使用する場合、次の機能は Databricks Runtime 15.4 LTS ML 以降でのみ使用できます。

きめ細かいアクセス制御。
ストリーミングテーブルや具体化されたビューなど、Lakeflow 宣言パイプラインを使用して作成されたテーブルのクエリ。

次の方法で共有

Machine Learning 用 Databricks ランタイム

Databricks Runtime は機械学習用のものですか

Databricks Runtime ML に含まれているライブラリ

Databricks Runtime ML のコンピューティング リソースを設定する

Databricks Runtime ML を使用してクラスターを作成する

新しい簡略化されたコンピューティング UI を使用して新しいクラスターを作成する

Photon と Databricks Runtime ML

Databricks ランタイム ML クラスターのアクセス モード

フィードバック

その他のリソース

Databricks Runtime ML のコンピューティングリソースを設定する

Databricks ランタイム ML クラスターのアクセスモード