はじめに

1 分

Apache Spark は、大量のデータに対してデータクレンジングと変換タスクを実行するための強力なプラットフォームを提供します。 Spark データフレーム オブジェクトを使用すると、データレイク内のファイルからデータを簡単に読み込み、複雑な変更を実行できます。その後、変換されたデータをデータレイクに保存して、ダウンストリーム処理またはデータウェアハウスへの取り込みを行うことができます。

Azure Synapse Analytics には、Spark ワークロードを実行してデータインジェストと準備ワークロードの一部としてデータを変換するために使用できる Apache Spark プールが用意されています。ネイティブでサポートされているノートブックを使用して、Spark プールでコードを記述して実行し、分析用のデータを準備できます。その後、SQL プールなどの他の Azure Synapse Analytics 機能を使用して、変換されたデータを操作できます。

はじめに

フィードバック