適用対象: Azure Data Factory
Azure Synapse Analytics
ヒント
企業向けのオールインワン分析ソリューションである Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric では、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものが対象です。 新しい試用版を無料で開始する方法について説明します。
このチュートリアルでは、Azure portal を使用してデータ ファクトリを作成します。 次に、データのコピー ツールを使用して、新しいファイルおよび変更されたファイルのみを Azure Blob Storage から Azure Blob Storage に増分的にコピーするパイプラインを作成します。
LastModifiedDate
を使用して、どのファイルをコピーするかを決定します。
ここで説明した手順を完了すると Azure Data Factory によってソース ストア内のすべてのファイルがスキャンされ、LastModifiedDate
によってファイル フィルターが適用されます。また、新しいファイルまたは前回以降に更新されたファイルのみがコピー先ストアにコピーされます。 Data Factory によって多数のファイルがスキャンされる場合は、継続時間が長くなると予想されることに注意してください。 コピーされるデータ量を減らしても、ファイルのスキャンには時間がかかります。
注
Data Factory を初めて使用する場合は、「 Azure Data Factory の概要」を参照してください。
このチュートリアルでは、以下のタスクを完了します。
- データ ファクトリを作成します。
- データのコピー ツールを使用してパイプラインを作成します。
- パイプラインとアクティビティの実行を監視します。
前提条件
- Azure サブスクリプション: Azure サブスクリプションをお持ちでない場合は、開始する前に 無料アカウント を作成してください。
- Azure Storage アカウント: ソース データ ストアとシンク データ ストアに BLOB ストレージを使用します。 Azure Storage アカウントをお持ちでない場合は、「ストレージ アカウントの作成」の手順 に従ってください。
Blob ストレージに 2 つのコンテナーを作成する
次の手順を実行して、チュートリアル用の Blob ストレージを準備します。
ソースという名前のコンテナーを作成 します。 Azure Storage Explorer など、さまざまなツールを使用してこのタスクを実行できます。
宛先という名前のコンテナーを作成 します。
Data Factory の作成
上部のメニューで、 リソースの作成>Analytics>Data Factory を選択します。
[ 新しいデータ ファクトリ ] ページの [名前] に「 ADFTutorialDataFactory」と入力します。
データ ファクトリの名前はグローバルに一意にする必要があります。 このエラー メッセージが表示されることもあります。
データ ファクトリの名前の値に関するエラー メッセージが表示された場合は、別の名前を入力してください。 たとえば、次のように、yournameADFTutorialDataFactory という名前を使用します。 Data Factory アーティファクトの名前付け規則については、 Data Factory の名前付け規則に関するセクションを参照してください。
[ サブスクリプション] で、新しいデータ ファクトリを作成する Azure サブスクリプションを選択します。
[ リソース グループ] で、次のいずれかの手順を実行します。
[ 既存のものを使用] を選択し、一覧から既存のリソース グループを選択します。
[ 新規作成] を選択し、リソース グループの名前を入力します。
リソース グループの詳細については、「 リソース グループを使用して Azure リソースを管理する」を参照してください。
[ バージョン] で [ V2] を選択します。
[ 場所] で、データ ファクトリの場所を選択します。 サポートされている場所のみがこの一覧に表示されます。 データ ファクトリで使用されるデータ ストア (Azure Storage、Azure SQL Database など) やコンピューティング (Azure HDInsight など) は、他の場所やリージョンに存在していてもかまいません。
[作成]を選択します。
データ ファクトリが作成されるとデータ ファクトリのホーム ページが表示されます。
別のタブで Azure Data Factory ユーザー インターフェイス (UI) を開くには、[Azure Data Factory Studio を開く] タイルで [開く] を選択します。
データのコピー ツールを使用してパイプラインを作成する
Azure Data Factory のホーム ページで、[ 取り込み ] タイルを選択して、データのコピー ツールを開きます。
[ プロパティ ] ページで、次の手順を実行します。
[ タスクの種類] で、[ 組み込みのコピー タスク] を選択します。
[ タスクの周期] または [タスク スケジュール] で、[ タンブリング] ウィンドウを選択します。
[ 繰り返し] に「 15 分」と入力します。
[ 次へ] を選択します。
[ ソース データ ストア ] ページで、次の手順を実行します。
[+ 新しい接続] を選択して接続を追加します。
ギャラリーから Azure Blob Storage を選択し、[ 続行] を選択します。
[ 新しい接続 (Azure Blob Storage)] ページで、Azure サブスクリプションの一覧から Azure サブスクリプション を選択し、ストレージ アカウント名 の一覧からストレージ アカウントを選択します。 接続をテストし、[ 作成] を選択します。
[接続] ブロックで、新しく作成された 接続 を選択します。
[ ファイルまたはフォルダー ] セクションで、[ 参照 ] を選択して ソース フォルダーを選択し、[ OK] を選択します。
[ ファイルの読み込み動作] で、[ 増分読み込み: LastModifiedDate] を選択し、[ バイナリ コピー] を選択します。
[ 次へ] を選択します。
[ 宛先データ ストア ] ページで、次の手順を実行します。
作成した AzureBlobStorage 接続を選択します。 これは、コピー元データ ストアと同じストレージ アカウントです。
[ フォルダー パス] セクションで、 移動先 フォルダーを参照して選択し、[ OK] を選択します。
[ 次へ] を選択します。
[ 設定] ページの [ タスク名] に 「DeltaCopyFromBlobPipeline」と入力し、[ 次へ] を選択します。 指定したタスク名のパイプラインが Data Factory によって作成されます。
[ 概要 ] ページで設定を確認し、[ 次へ] を選択します。
[ デプロイ ] ページで、[ 監視 ] を選択してパイプライン (タスク) を監視します。
左側の [ 監視 ] タブが自動的に選択されていることに注意してください。 アプリケーションが [モニター ] タブに切り替わる。パイプラインの状態が表示されます。 [ 最新の情報に更新] を選択して一覧を更新します。 [ パイプライン名 ] の下にあるリンクを選択して、アクティビティの実行の詳細を表示するか、パイプラインをもう一度実行します。
パイプラインにはアクティビティ (コピー アクティビティ) が 1 つしかないため、エントリが 1 つだけ表示されます。 コピー操作の詳細については、[アクティビティの実行] ページで、[アクティビティ名] 列の [詳細] リンク (眼鏡アイコン) を選択します。 プロパティの詳細については、「 コピー アクティビティの概要」を参照してください。
BLOB ストレージ アカウントの source コンテナーにはファイルがないので、そのアカウントの destination コンテナーにコピーされたファイルは表示されません。
空のテキスト ファイルを作成し、 file1.txt名前を付けます。 このテキスト ファイルを、ストレージ アカウントの source コンテナーにアップロードします。 Azure Storage Explorer など、さまざまなツールを使用してこれらのタスクを実行できます。
[パイプラインの実行] ビューに戻るには、[アクティビティの実行] ページの階層リンク メニューで [すべてのパイプラインの実行] リンクを選択し、同じパイプラインが再び自動的にトリガーされるまで待ちます。
2 番目のパイプラインの実行が完了したら、前述と同じ手順に従って、アクティビティの実行の詳細を確認します。
BLOB ストレージ アカウントの source コンテナーから destination コンテナーに 1 つのファイル (file1.txt) がコピーされたことが表示されます。
別の空のテキスト ファイルを作成し、 file2.txt名前を付けます。 このテキスト ファイルを BLOB ストレージ アカウントの source コンテナーにアップロードします。
2 つ目のテキスト ファイルに対してステップ 11 と 12 を繰り返します。 このパイプライン実行中に、ストレージ アカウントの source コンテナーから destination コンテナーに新しいファイル (file2.txt) だけがコピーされたことがわかります。
Azure Storage Explorer を使用してファイルをスキャンすることで、1 つのファイルのみがコピーされたことを確認することもできます。
関連するコンテンツ
次のチュートリアルに進み、Azure 上の Apache Spark クラスターを使ってデータを変換する方法を学習します。