Spark クラスターを作成する

3 分

Azure Databricks ポータルを使用して、Azure Databricks ワークスペースに 1 つ以上のクラスターを作成できます。

Azure Databricks ポータルの [クラスターの作成] インターフェイスのスクリーンショット。

クラスターを作成するときに、次のような構成設定を指定できます。

クラスターの名前。
クラスターモード。次の場合があります。
- Standard: 複数のワーカーノードを必要とするシングルユーザーワークロードに適しています。
- 高コンカレンシー: 複数のユーザーがクラスターを同時に使用するワークロードに適しています。
- 単一ノード: 1 つのワーカーノードのみが必要な小規模なワークロードまたはテストに適しています。
クラスターで使用される Databricks ランタイム のバージョン。これは、Spark のバージョンと、インストールされる Python、Scala などの個々のコンポーネントを示します。
クラスター内のワーカーノードに使用される仮想マシン (VM) の種類。
クラスター内のワーカーノードの最小数と最大数。
クラスター内のドライバーノードに使用される VM の種類。
クラスターがクラスターの動的なサイズ変更自動スケールをサポートしているかどうか。
クラスターが自動的にシャットダウンされるまでのアイドル状態を維持できる期間。

Azure でクラスターリソースを管理する方法

Azure Databricks ワークスペースを作成すると、 Databricks アプライアンス がサブスクリプション内の Azure リソースとしてデプロイされます。ワークスペースにクラスターを作成するときは、ドライバーノードとワーカーノードの両方に使用する仮想マシン (VM) の種類とサイズ、およびその他の構成オプションを指定しますが、Azure Databricks はクラスターの他のすべての側面を管理します。

Databricks アプライアンスは、サブスクリプション内のマネージドリソースグループとして Azure にデプロイされます。このリソースグループには、クラスターのドライバー VM とワーカー VM と、仮想ネットワーク、セキュリティグループ、ストレージアカウントなどの他の必要なリソースが含まれます。スケジュールされたジョブなど、クラスターのすべてのメタデータは、フォールトトレランスのために geo レプリケーションを使用して Azure Database に格納されます。

内部的には、Azure Kubernetes Service (AKS) は、最新世代の Azure ハードウェア (Dv3 VM) で実行されているコンテナーを介して Azure Databricks コントロールプレーンとデータプレーンを実行するために使用されます。NvMe SSD では、高速ネットワークを備えた高パフォーマンスの Azure 仮想マシンで 100us の待機時間を実現できます。 Azure Databricks では、Azure のこれらの機能を利用して、Spark のパフォーマンスをさらに向上させます。マネージドリソースグループ内のサービスの準備ができたら、Azure Databricks UI と自動スケーリングや自動終了などの機能を使用して、Databricks クラスターを管理できます。

Azure Databricks アーキテクチャの図。

注

また、クラスターの起動時間を短縮するために、アイドル状態のノードプールにクラスターをアタッチすることもできます。詳細については、Azure Databricks ドキュメントのプールを参照してください。

Spark クラスターを作成する

Azure でクラスター リソースを管理する方法

フィードバック

Azure でクラスターリソースを管理する方法