Spark クラスターを作成する
Azure Databricks ポータルを使用して、Azure Databricks ワークスペースに 1 つ以上のクラスターを作成できます。
クラスターを作成するときに、次のような構成設定を指定できます。
- クラスターの名前。
-
クラスター モード。次の場合があります。
- Standard: 複数のワーカー ノードを必要とするシングル ユーザー ワークロードに適しています。
- 高コンカレンシー: 複数のユーザーがクラスターを同時に使用するワークロードに適しています。
- 単一ノード: 1 つのワーカー ノードのみが必要な小規模なワークロードまたはテストに適しています。
- クラスターで使用される Databricks ランタイム のバージョン。これは、Spark のバージョンと、インストールされる Python、Scala などの個々のコンポーネントを示します。
- クラスター内のワーカー ノードに使用される仮想マシン (VM) の種類。
- クラスター内のワーカー ノードの最小数と最大数。
- クラスター内のドライバー ノードに使用される VM の種類。
- クラスターがクラスターの動的なサイズ変更 自動スケールをサポートしているかどうか。
- クラスターが自動的にシャットダウンされるまでのアイドル状態を維持できる期間。
Azure でクラスター リソースを管理する方法
Azure Databricks ワークスペースを作成すると、 Databricks アプライアンス がサブスクリプション内の Azure リソースとしてデプロイされます。 ワークスペースにクラスターを作成するときは、ドライバー ノードとワーカー ノードの両方に使用する仮想マシン (VM) の種類とサイズ、およびその他の構成オプションを指定しますが、Azure Databricks はクラスターの他のすべての側面を管理します。
Databricks アプライアンスは、サブスクリプション内のマネージド リソース グループとして Azure にデプロイされます。 このリソース グループには、クラスターのドライバー VM とワーカー VM と、仮想ネットワーク、セキュリティ グループ、ストレージ アカウントなどの他の必要なリソースが含まれます。 スケジュールされたジョブなど、クラスターのすべてのメタデータは、フォールト トレランスのために geo レプリケーションを使用して Azure Database に格納されます。
内部的には、Azure Kubernetes Service (AKS) は、最新世代の Azure ハードウェア (Dv3 VM) で実行されているコンテナーを介して Azure Databricks コントロール プレーンとデータ プレーンを実行するために使用されます。NvMe SSD では、高速ネットワークを備えた高パフォーマンスの Azure 仮想マシンで 100us の待機時間を実現できます。 Azure Databricks では、Azure のこれらの機能を利用して、Spark のパフォーマンスをさらに向上させます。 マネージド リソース グループ内のサービスの準備ができたら、Azure Databricks UI と自動スケーリングや自動終了などの機能を使用して、Databricks クラスターを管理できます。
注
また、クラスターの起動時間を短縮するために、アイドル 状態のノード プールにクラスターをアタッチすることもできます。 詳細については、Azure Databricks ドキュメントの プール を参照してください。