コマンドラインツールを使用して Spark ジョブを送信する

2021-04-01

適用対象: SQL Server 2019 (15.x)

この記事では、コマンドラインツールを使用して SQL Server ビッグデータクラスターで Spark ジョブを実行する方法に関するガイダンスを提供します。

Von Bedeutung

Microsoft SQL Server 2019 ビッグデータクラスターのアドオンは廃止されます。 SQL Server 2019 ビッグデータクラスターのサポートは、2025 年 2 月 28 日に終了します。ソフトウェアアシュアランス付きの SQL Server 2019 を使用する既存の全ユーザーはプラットフォームで完全にサポートされ、ソフトウェアはその時点まで SQL Server の累積更新プログラムによって引き続きメンテナンスされます。詳細については、お知らせのブログ記事と「Microsoft SQL Server プラットフォームのビッグデータオプション」を参照してください。

[前提条件]

SQL Server 2019 ビッグデータツールが構成され、クラスターにログインしました。
- azdata
- Livy への REST API 呼び出しを実行する curl アプリケーション

azdata または Livy を使用する Spark ジョブ

この記事では、コマンドラインパターンを使用して Spark アプリケーションを SQL Server ビッグデータクラスターに送信する方法の例を示します。

Azure Data CLI azdata bdc spark コマンドは、SQL Server ビッグデータクラスター Spark のすべての機能をコマンドラインで表示します。この記事では、ジョブの送信について説明します。ただし、 azdata bdc spark では、 azdata bdc spark session コマンドを使用した Python、Scala、SQL、R の対話型モードもサポートされています。

REST API と直接統合する必要がある場合は、標準の Livy 呼び出しを使用してジョブを送信します。この記事では、Livy の例の curl コマンドラインツールを使用して、REST API 呼び出しを実行します。 Python コードを使用して Spark Livy エンドポイントを操作する方法を示す詳細な例については、GitHub の Livy エンドポイントからの Spark の使用に関するページを参照してください。

ビッグデータクラスター Spark を使用する単純な ETL

この抽出、変換、読み込み (ETL) アプリケーションは、一般的なデータエンジニアリングパターンに従います。 Apache Hadoop 分散ファイルシステム (HDFS) ランディングゾーンパスから表形式データを読み込みます。次に、テーブル形式を使用して HDFS で処理されたゾーンパスに書き込みます。

サンプルアプリケーションのデータセットをダウンロードします。次に、PySpark、Spark Scala、または Spark SQL を使用して PySpark アプリケーションを作成します。

次のセクションでは、各ソリューションのサンプル演習を紹介します。プラットフォームのタブを選択します。アプリケーションは、 azdata または curlを使用して実行します。

この例では、次の PySpark アプリケーションを使用します。ローカルコンピューターに parquet_etl_sample.py という名前の Python ファイルとして保存されます。

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

# Read clickstream_data from storage pool HDFS into a Spark data frame. Applies column renames.
df = spark.read.option("inferSchema", "true").csv('/securelake/landing/criteo/test.txt', sep='\t', 
    header=False).toDF("feat1","feat2","feat3","feat4","feat5","feat6","feat7","feat8",
    "feat9","feat10","feat11","feat12","feat13","catfeat1","catfeat2","catfeat3","catfeat4",
    "catfeat5","catfeat6","catfeat7","catfeat8","catfeat9","catfeat10","catfeat11","catfeat12",
    "catfeat13","catfeat14","catfeat15","catfeat16","catfeat17","catfeat18","catfeat19",
    "catfeat20","catfeat21","catfeat22","catfeat23","catfeat24","catfeat25","catfeat26")

# Print the data frame inferred schema
df.printSchema()

tot_rows = df.count()
print("Number of rows:", tot_rows)

# Drop the managed table
spark.sql("DROP TABLE dl_clickstream")

# Write data frame to HDFS managed table by using optimized Delta Lake table format
df.write.format("parquet").mode("overwrite").saveAsTable("dl_clickstream")

print("Sample ETL pipeline completed")

PySpark アプリケーションを HDFS にコピーする

クラスターが実行のためにアプリケーションにアクセスできるように、アプリケーションを HDFS に格納します。ベストプラクティスとして、クラスター内のアプリケーションの場所を標準化して管理し、管理を合理化します。

このユースケースの例では、すべての ETL パイプラインアプリケーションが hdfs:/apps/ETL-Pipelines パスに格納されます。サンプルアプリケーションは hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py に格納されます。

次のコマンドを実行して、ローカル開発またはステージングコンピューターから HDFS クラスターにparquet_etl_sample.pyをアップロードします。

azdata bdc hdfs cp --from-path parquet_etl_sample.py  --to-path "hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py"

この例では、Scala Spark で記述された Spark アプリケーションを使用します。

import org.apache.spark.sql.SparkSession

object ParquetETLSample {
    def main(args: Array[String]) {
        val spark = SparkSession.builder.getOrCreate()
        
        val df = spark.read.
            option("inferSchema", "true").
            option("header", "false").
            option("delimiter", "\t").
            csv("/securelake/landing/criteo/test.txt").
            toDF("feat1","feat2","feat3","feat4","feat5","feat6","feat7","feat8","feat9","feat10","feat11","feat12","feat13","catfeat1","catfeat2","catfeat3","catfeat4","catfeat5","catfeat6","catfeat7","catfeat8","catfeat9","catfeat10","catfeat11","catfeat12","catfeat13","catfeat14","catfeat15","catfeat16","catfeat17","catfeat18","catfeat19","catfeat20","catfeat21","catfeat22","catfeat23","catfeat24","catfeat25","catfeat26")
        
        val tot_rows = df.count()
        println(s"Number of rows: $tot_rows")

        spark.sql("DROP TABLE dl_clickstream")

        df.write.format("parquet").mode("overwrite").saveAsTable("dl_clickstream")

        println("Sample ETL pipeline completed")
        
        spark.stop()
    }
}

Spark アプリケーションをバンドルして HDFS にコピーする

Spark ドキュメントでは、アプリケーションとすべての依存関係を含む アセンブリ JAR (またはバンドル) を作成することをお勧めします。この手順は、アプリケーションバンドルをクラスターに送信して実行するために必要です。

完全な Scala Spark 開発環境の設定は、この記事の範囲外です。詳細については、自己完結型アプリケーションを作成するための Spark ドキュメントを参照してください。

この例では、parquet-etl-sample.jarという名前のアプリケーション JAR バンドルがコンパイルされ、使用可能であることを前提としています。次のコマンドを実行して、ローカル開発またはステージングマシンから HDFS クラスターにバンドルをアップロードします。

azdata bdc hdfs cp --from-path parquet-etl-sample.jar  --to-path "hdfs:/apps/ETL-Pipelines/parquet-etl-sample.jar"

この例では、取り込みロジックに Spark SQL を使用します。テーブルとビューを使用して、ETL に対する SQL 中心のアプローチを提供します。

DROP VIEW IF EXISTS etl_clickstream;

CREATE TEMPORARY VIEW etl_clickstream
USING CSV
OPTIONS (path "/securelake/landing/criteo/test.txt", header "false", delimiter "\t", mode "FAILFAST");

DROP TABLE IF EXISTS dl_clickstream;

CREATE TABLE dl_clickstream (
    feat1 integer,
    feat2 integer,
    feat3 integer,
    feat4 integer,
    feat5 integer,
    feat6 integer,
    feat7 integer,
    feat8 integer,
    feat9 integer,
    feat10 integer,
    feat11 integer,
    feat12 integer,
    feat13 integer,
    catfeat1 string,
    catfeat2 string,
    catfeat3 string,
    catfeat4 string,
    catfeat5 string,
    catfeat6 string,
    catfeat7 string,
    catfeat8 string,
    catfeat9 string,
    catfeat10 string,
    catfeat11 string,
    catfeat12 string,
    catfeat13 string,
    catfeat14 string,
    catfeat15 string,
    catfeat16 string,
    catfeat17 string,
    catfeat18 string,
    catfeat19 string,
    catfeat20 string,
    catfeat21 string,
    catfeat22 string,
    catfeat23 string,
    catfeat24 string,
    catfeat25 string,
    catfeat26 string
) 
USING PARQUET
AS SELECT * FROM etl_clickstream;

Spark SQL アプリケーションを HDFS にコピーする

次のコマンドを実行して、 parquet-etl-sample.sql ファイルをローカル開発またはステージングコンピューターから HDFS クラスターにアップロードします。

azdata bdc hdfs cp --from-path parquet-etl-sample.sql --to-path "hdfs:/apps/ETL-Pipelines/parquet-etl-sample.sql"

Spark アプリケーションを実行する

次のコマンドを使用して、アプリケーションを SQL Server ビッグデータクラスター Spark に送信して実行します。

azdata コマンドは、一般的に指定されたパラメーターを使用してアプリケーションを実行します。 azdata bdc spark batch createの完全なパラメーターオプションについては、azdata bdc sparkを参照してください。

このアプリケーションには、 spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation 構成パラメーターが必要です。そのため、コマンドは --config オプションを使用します。このセットアップでは、Spark セッションに構成を渡す方法を示します。

--config オプションを使用して、複数の構成パラメーターを指定できます。 SparkSession オブジェクトで構成を設定して、アプリケーションセッション内で指定することもできます。

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipelinePySpark --executor-count 2 --executor-cores 2 --executor-memory 1664m

Warnung

バッチ名の "name" または "n" パラメーターは、新しいバッチが作成されるたびに一意である必要があります。

curl コマンドは、Livy を使用してアプリケーションを実行します。環境を反映するために、 USER、 PASSWORD、および LIVY_ENDPOINT を置き換えます。

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet_etl_sample.py",
    "name": "MyETLPipelinePySpark",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Warnung

"name" パラメーターは、新しいバッチが作成されるたびに一意である必要があります。

アプリケーションには、 spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation 構成パラメーターが必要です。そのため、コマンドは --config オプションを使用します。このセットアップでは、Spark セッションに構成を渡す方法を示します。

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet-etl-sample.jar \
--class "ParquetETLSample" \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipeline --executor-count 2 --executor-cores 2 --executor-memory 1664m

Warnung

バッチ名の "name" または "n" パラメーターは、新しいバッチが作成されるたびに一意である必要があります。

curl コマンドは、Livy を使用してアプリケーションを実行します。環境を反映するために、 USER、 PASSWORD、および LIVY_ENDPOINT を置き換えます。

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet-etl-sample.jar",
    "class": "ParquetETLSample",
    "name": "MyETLPipeline",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Warnung

バッチ名の "name" パラメーターは、新しいバッチが作成されるたびに一意である必要があります。

PySpark の例と同様に、このアプリケーションにも spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation 構成パラメーターが必要です。そのため、コマンドは --config オプションを使用します。このセットアップでは、Spark セッションに構成を渡す方法を示します。

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet_etl_sample.sql \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipelineSQL --executor-count 2 --executor-cores 2 --executor-memory 1664m

Warnung

バッチ名の "name" または "n" パラメーターは、新しいバッチが作成されるたびに一意である必要があります。

curl コマンドは、Livy を使用してアプリケーションを実行します。環境を反映するために、 USER、 PASSWORD、および LIVY_ENDPOINT を置き換えます。

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet_etl_sample.sql",
    "name": "MyETLPipelineSQL",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Warnung

"name" パラメーターは、新しいバッチが作成されるたびに一意である必要があります。

Spark ジョブの監視

azdata bdc spark batch コマンドは、Spark バッチジョブの管理アクションを提供します。

実行中のすべてのジョブを一覧表示するには、次のコマンドを実行します。

azdata コマンドは、次のことを行います。
```
azdata bdc spark batch list -o table
```

Livy を使用した curl コマンド:

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches

指定された ID を持つ Spark バッチの 情報を取得 するには、次のコマンドを実行します。 batch idはspark batch createから返されます。

azdata コマンドは、次のことを行います。
```
azdata bdc spark batch info --batch-id 0
```

Livy を使用した curl コマンド:

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>

指定された ID を持つ Spark バッチの 状態情報を取得 するには、次のコマンドを実行します。

azdata コマンドは、次のことを行います。
```
azdata bdc spark batch state --batch-id 0
```

Livy を使用した curl コマンド:

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>/state

指定 された ID を 持つ Spark バッチのログを取得するには、次のコマンドを実行します。

azdata コマンドは、次のことを行います。
```
azdata bdc spark batch log --batch-id 0
```

Livy を使用した curl コマンド:

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>/log

次のステップ

Spark コードのトラブルシューティングの詳細については、「 PySpark ノートブックのトラブルシューティング」を参照してください。

包括的な Spark サンプルコードは、GitHub の SQL Server ビッグデータクラスターの Spark サンプルで入手できます。

SQL Server ビッグデータクラスターおよびこれに関連するシナリオの詳細については、「SQL Server ビッグデータクラスター」を参照してください。

次の方法で共有

コマンド ライン ツールを使用して Spark ジョブを送信する

[前提条件]

azdata または Livy を使用する Spark ジョブ

ビッグ データ クラスター Spark を使用する単純な ETL

PySpark アプリケーションを HDFS にコピーする

Spark アプリケーションを実行する

Spark ジョブの監視

次のステップ

その他のリソース

コマンドラインツールを使用して Spark ジョブを送信する

ビッグデータクラスター Spark を使用する単純な ETL