Azure Databricks で構造化ストリーミングのバッチサイズを構成する

2025-04-01

この記事では、アドミッション制御を使用して、ストリーミングクエリの一貫したバッチサイズを維持する方法について説明します。

アドミッション制御では、構造化ストリーミングクエリの入力速度が制限されます。これにより、一貫性のあるバッチサイズを維持し、大規模なバッチによってスピルやマイクロバッチ処理の遅延が連鎖するのを防ぐことができます。

Azure Databricks には、Delta Lake と自動ローダーの両方の構造化ストリーミングバッチサイズを制御するための同じオプションが用意されています。

注

ストリーミングクエリのチェックポイントをリセットせずに、アドミッション制御の設定を変更できます。「構造化ストリーミングクエリの変更後に復旧する」を参照してください。

バッチサイズを増減するようにアドミッション制御設定を変更すると、パフォーマンスに影響があります。ワークロードを最適化するには、コンピューティング構成の調整が必要になる場合があります。

maxFilesPerTrigger で入力速度を制限する

設定 maxFilesPerTrigger (自動ローダーの場合は cloudFiles.maxFilesPerTrigger) によって、マイクロバッチごとに処理されるファイル数の上限が指定されます。 Delta Lake と自動ローダーの場合、いずれも既定値は 1000 です。 (このオプションは、既定では最大値がない他のファイルソースの Apache Spark にも存在します)

maxBytesPerTrigger で入力速度を制限する

設定 maxBytesPerTrigger (または cloudFiles.maxBytesPerTrigger 自動ローダーの場合) によって、マイクロバッチごとに処理されるデータ量の "ソフト最大値" が設定されます。これは、最小の入力単位がこの制限を超える場合にストリーミングクエリを進めるために、バッチでほぼこの量のデータが処理され、制限を超える処理が行われる可能性があることを意味します。この設定の既定値はありません。

たとえば、各マイクロバッチを 10 GB のデータに制限するバイト文字列 (10g など) を指定するとき、ファイルにそれぞれ 3 GB が与えられている場合、Azure Databricks では、1 回のマイクロバッチで 12 GB が処理されます。

複数の入力速度をまとめて設定する

maxBytesPerTrigger との連動で maxFilesPerTrigger を使用する場合、maxFilesPerTrigger または maxBytesPerTrigger の下限に到達するまでマイクロバッチによってデータが処理されます。

他の構造化ストリーミングソースの入力速度の制限

Apache Kafka などのストリーミングソースには、maxOffsetsPerTrigger のようなカスタム入力制限があります。詳細については、 Lakeflow Connect の標準コネクタに関するページを参照してください。

次の方法で共有

Azure Databricks で構造化ストリーミングのバッチ サイズを構成する

maxFilesPerTrigger で入力速度を制限する

maxBytesPerTrigger で入力速度を制限する

複数の入力速度をまとめて設定する

他の構造化ストリーミング ソースの入力速度の制限

フィードバック

その他のリソース

Azure Databricks で構造化ストリーミングのバッチサイズを構成する

他の構造化ストリーミングソースの入力速度の制限