序論
Azure Databricks は、Apache Spark を使ったデータ分析と処理のための高度にスケーラブルなプラットフォームを提供します。
Spark は、多くの異なるプログラミング言語と API をサポートする柔軟なプラットフォームです。 Databricks ワークスペースを設定し、Spark クラスターをデプロイすることで、ユーザーは Azure Data Lake や Cosmos DB などのさまざまなソースから Spark DataFrame にデータを簡単に取り込むことができます。 対話型 Databricks ノートブック内では、ユーザーはフィルター処理、グループ化、集計などの操作が含まれている Spark の DataFrame API を使用して複雑なデータ変換を実行できます。 ほとんどのデータ処理および分析タスクは、このモジュールで注目する Dataframe API を使用して実行できます。
このモジュールでは、次の方法を学習します。
- Apache Spark アーキテクチャの重要な要素について説明します。
- Spark クラスターを作成して構成します。
- Spark のユース ケースについて説明します。
- Spark を使用して、ファイルに格納されているデータを処理および分析します。
- Spark を使用してデータを視覚化します。