Azure Data Lake Storage クエリ高速化

2025-05-07

クエリアクセラレーションを使用すると、アプリケーションと分析フレームワークは、特定の操作を実行するために必要なデータのみを取得することで、データ処理を大幅に最適化できます。これにより、保存されたデータに対する重要な分析情報を得るために必要な時間と処理能力が削減されます。

概要

クエリアクセラレーションは、フィルター述語と 列プロジェクションを受け入れます。これを使用すると、データがディスクから読み取られる時点で、アプリケーションで行と列をフィルター処理できます。述語の条件を満たすデータのみが、ネットワーク経由でアプリケーションに転送されます。これにより、ネットワークの待機時間とコンピューティングコストが削減されます。

SQL を使用して、クエリ高速化要求で行フィルター述語と列プロジェクションを指定できます。要求で処理されるファイルは 1 つだけです。そのため、結合や集計によるグループ化など、SQL の高度なリレーショナル機能はサポートされていません。クエリアクセラレーションでは、CSV と JSON 形式のデータが各要求への入力としてサポートされます。

クエリアクセラレーション機能は、Data Lake Storage (階層型名前空間が有効になっているストレージアカウント) に限定されません。クエリアクセラレーションは、階層型名前空間が有効になっていないストレージアカウント内の BLOB と互換性があります。つまり、ストレージアカウントに BLOB として既に格納されているデータを処理するときに、ネットワーク待機時間とコンピューティングコストを同じ削減できます。

クライアントアプリケーションでクエリアクセラレーションを使用する方法の例については、「 Azure Data Lake Storage クエリアクセラレーションを使用してデータをフィルター処理する」を参照してください。

データフロー

次の図は、一般的なアプリケーションでクエリアクセラレーションを使用してデータを処理する方法を示しています。

クエリアクセラレーションの概要

クライアントアプリケーションは、述語と列プロジェクションを指定してファイルデータを要求します。
クエリアクセラレーションは、指定された SQL クエリを解析し、データを解析およびフィルター処理するための作業を分散します。
プロセッサは、ディスクからデータを読み取り、適切な形式を使用してデータを解析した後、指定された述語と列プロジェクションを適用してデータをフィルター処理します。
クエリアクセラレーションは、応答シャードを組み合わせてクライアントアプリケーションにストリームバックします。
クライアントアプリケーションは、ストリーミングされた応答を受信して解析します。アプリケーションは他のデータをフィルター処理する必要はありません。また、必要な計算や変換を直接適用できます。

低コストでパフォーマンスを向上

クエリアクセラレーションは、アプリケーションによって転送および処理されるデータの量を減らすことで、パフォーマンスを最適化します。

集計された値を計算するために、アプリケーションは通常、ファイルから すべての データを取得し、データをローカルで処理してフィルター処理します。分析ワークロードの入力/出力パターンを分析すると、アプリケーションでは通常、特定の計算を実行するために読み取ったデータの% が 20 個しか必要とされないことが明らかになります。この統計は、パーティションの排除などの手法を適用した後でも当てはまります。つまり、そのデータの 80% がネットワーク経由で不必要に転送され、解析され、アプリケーションによってフィルター処理されます。不要なデータを削除するように設計されたこのパターンでは、かなりのコンピューティングコストが発生します。

Azure は業界をリードするネットワークを備えていますが、スループットと待機時間の両方の点で、そのネットワーク間で不必要にデータを転送することは、アプリケーションのパフォーマンスに対して依然としてコストがかかります。ストレージ要求中に不要なデータを除外することで、クエリ高速化によってこのコストが削減されます。

さらに、不要なデータを解析してフィルター処理するために必要な CPU 負荷では、アプリケーションが処理を行うために、より多くの VM とより大きな VM をプロビジョニングする必要があります。このコンピューティング負荷をクエリアクセラレーションに転送することで、アプリケーションは大幅なコスト削減を実現できます。

クエリ高速化のメリットを得られるアプリケーション

クエリアクセラレーションは、分散分析フレームワークとデータ処理アプリケーション向けに設計されています。

Apache Spark や Apache Hive などの分散分析フレームワークには、フレームワーク内のストレージ抽象化レイヤーが含まれます。これらのエンジンには、ユーザークエリの最適なクエリプランを決定するときに、基になる I/O サービスの機能に関する知識を組み込むことができるクエリオプティマイザーも含まれます。これらのフレームワークは、クエリアクセラレーションの統合を開始しています。その結果、これらのフレームワークのユーザーは、クエリに変更を加えることなく、クエリの待機時間が短縮され、総保有コストが削減されます。

クエリアクセラレーションは、データ処理アプリケーション向けに設計されています。これらの種類のアプリケーションは、通常、分析分析情報に直接結び付かない大規模なデータ変換を実行するため、確立された分散分析フレームワークが常に使用されるとは限りません。多くの場合、これらのアプリケーションは基になるストレージサービスとより直接的な関係を持ち、クエリアクセラレーションなどの機能から直接メリットを得ることができます。

アプリケーションでクエリアクセラレーションを統合する方法の例については、「 Azure Data Lake Storage クエリアクセラレーションを使用してデータをフィルター処理する」を参照してください。

価格設定

Azure Data Lake Storage サービス内でのコンピューティング負荷の増加により、クエリアクセラレーションを使用するための価格モデルは、通常の Azure Data Lake Storage トランザクションモデルとは異なります。クエリ高速化では、スキャンされたデータの量に対するコストと、呼び出し元に返されるデータの量のコストが課金されます。詳細については、 Azure Data Lake Storage の価格に関するページを参照してください。

課金モデルが変更されたにもかかわらず、クエリアクセラレーションの価格モデルは、はるかに高価な VM コストの削減を考えると、ワークロードの総保有コストを削減するように設計されています。

次の方法で共有

Azure Data Lake Storage クエリ高速化

概要

データ フロー

低コストでパフォーマンスを向上

クエリ 高速化のメリットを得られるアプリケーション

価格設定

次のステップ

フィードバック

その他のリソース

データフロー

クエリ高速化のメリットを得られるアプリケーション