次の方法で共有


Zip 圧縮ファイルを展開して読み取る

unzip Bash コマンドを使用して、Zip 圧縮ファイルまたはファイルのディレクトリを展開できます。 .zipで終わるファイルまたはディレクトリをダウンロードまたは検出した場合は、続行する前にデータを展開します。

Apache Spark には、圧縮された Parquet ファイルを操作するためのネイティブ コードが用意されています。 Azure Databricks によって書き込まれたほとんどの Parquet ファイルは末尾が .snappy.parquet で、これは Snappy 圧縮が使用されていることを意味します。

データを解凍する方法

Azure Databricks %shマジック コマンドを使用すると、unzip コマンドを含む任意の Bash コードを実行できます。

以下の例では、インターネットからダウンロードした zip 形式の CSV ファイルを使用しています。 「インターネットからデータをダウンロードする」を参照してください。

Databricks Utilities を使用して、ファイルを展開する前にドライバーに接続されている一時ストレージに移動します。

このコードでは、 curl を使用してダウンロードし、 unzip してデータを展開します。

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

次のように、dbutils を使用して展開されたファイルを Unity カタログ ボリュームに移動します。

dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")

この例では、ダウンロードしたデータの 1 行目にコメントがあり、2 行目にヘッダーがあります。 データの移動と展開が済んだので、次の例のように、CSV ファイルを読み取るための標準オプションを使用します。

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)