自動ローダーには、新しいファイルの検出モードとして、ディレクトリ一覧とファイル通知の 2 つのモードがサポートされています。 ストリームの再起動ごとにファイル検出モードを切り替えて、データが厳密に 1 回だけ処理されるという保証を引き続き得ることができます。
ディレクトリ一覧モード
ディレクトリ一覧モードでは、自動ローダーは、入力ディレクトリの一覧を生成することによって、新しいファイルを識別します。 ディレクトリ一覧モードを使用すると、クラウド ストレージ上のデータへのアクセス以外のアクセス許可を構成することなく、自動ローダー ストリームをすばやく開始できます。
Databricks Runtime 9.1 以降では、ファイルが字句順にクラウド ストレージに到着するかどうかを、自動ローダーで自動的に検出でき、新しいファイルを検出するために必要な API 呼び出しの量を大幅に削減できます。 詳細については、 ディレクトリ一覧モードを使用した自動ローダー ストリーム を参照してください。
ファイル通知モード (推奨)
ファイル通知モードでは、クラウド インフラストラクチャ アカウントでファイル通知とキュー サービスを利用します。 自動ローダーは、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。 対象のファイルを含む外部の場所で ファイル イベント を有効にした場合、自動ローダー ストリームを設定するときに追加のアクセス許可を指定する必要はありません。
ファイル イベントを含むファイル通知モードは、ディレクトリの一覧よりもパフォーマンスが高くスケーラブルです。 Databricks では、ほとんどのワークロードでディレクトリ一覧モードではなく、ファイル イベントを使用したファイル通知モードが推奨されます。 現在、ディレクトリ一覧モードで自動ローダーを使用している場合、Databricks では、mfile イベントを使用してファイル通知モードに移行して、パフォーマンスの大幅な向上を確認することをお勧めします。 ファイル通知モードでの自動ローダー ストリームの構成を参照してください。
モードでサポートされるクラウド ストレージ
次の表に、クラウド ストレージ プロバイダー別の各ファイル検出モードでサポートされているコンピューティングの一覧を示します。
外部の場所または DBFS マウントから Unity Catalog ボリュームに移行する場合、自動ローダーは引き続き一度だけ保証を提供します。
クラウド ストレージ | ディレクトリ一覧 | ファイル通知(ファイルイベントなし) | ファイル イベントを含むファイル通知 |
---|---|---|---|
AWS S3 | すべてのバージョン | すべてのバージョン | Databricks Runtime 14.3 LTS 以降 |
ADLS | すべてのバージョン | すべてのバージョン | Databricks Runtime 14.3 LTS 以降 |
GCS(グラスゴー・コーマ・スケール) | すべてのバージョン | すべてのバージョン | Databricks Runtime 14.3 LTS 以降 |
Azure Blob Storage (アジュール・ブロブ・ストレージ) | すべてのバージョン | すべてのバージョン | サポートされていない |
DBFS(データベースファイルシステム) | すべてのバージョン | マウント ポイントの場合のみ | Databricks Runtime 14.3 LTS 以降 (DBFS マウント ポイントに Unity カタログで定義されている外部の場所がある場合) |
Unity Catalog ボリューム | Databricks Runtime 13.3 LTS 以降 | サポートされていない | Databricks Runtime 14.3 LTS 以降 |