次の方法で共有


Lakeflow 宣言パイプラインのマルチファイル エディターを使用して ETL パイプラインを開発およびデバッグする

重要

この機能は ベータ版です

この記事では、Lakeflow 宣言パイプラインのマルチファイル エディターを使用して、ETL (抽出、変換、読み込み) パイプラインを開発およびデバッグする方法について説明します。 マルチファイル エディターでは、パイプライン資産ブラウザーに一連のファイルとしてパイプラインが表示されます。 ファイルを編集し、パイプラインの構成と、1 つの場所に含めるファイルを制御できます。

Lakeflow 宣言パイプラインで 1 つのノートブックを使用する既定の開発エクスペリエンスについては、「Lakeflow 宣言型パイプライン」の ノートブックを使用した ETL パイプラインの開発とデバッグに関するページを参照してください。

マルチファイル エディターの概要

ETL パイプラインのマルチファイル エディターには、次の機能があります。

  1. パイプライン資産ブラウザー: パイプライン資産を作成、削除、名前変更、および整理します。
  2. タブを含む複数ファイル コード エディター: パイプラインに関連付けられている複数のコード ファイル間で動作します。
  3. パイプライン固有のツール バー: パイプライン構成 を有効にし、 パイプライン レベルの実行アクションを持ちます。
  4. 対話型有向非循環グラフ (DAG): テーブルの概要を取得し、データ プレビューの下部バーを開き、テーブル関連のその他のアクションを実行します。
  5. データ プレビュー: ストリーミング テーブルと具体化されたビューのデータを検査します。
  6. テーブル レベルの実行分析情報: パイプライン内のすべてのテーブルまたは 1 つのテーブルの実行分析情報を取得します。 分析情報は、最新のパイプライン実行を参照します。
  7. 問題パネル: この機能は、パイプライン内のすべてのファイルのエラーを要約し、特定のファイル内でエラーが発生した場所に移動できます。 コード付きエラーインジケーターを補完します。
  8. 選択的実行: コード エディターには、ファイルの 実行 アクションまたは 1 つのテーブルを使用して現在のファイル内のテーブルのみを更新する機能など、段階的な開発のための機能があります。
  9. 既定のパイプライン フォルダー構造: 新しいパイプラインには、定義済みのフォルダー構造と、パイプラインの開始点として使用できるサンプル コードが含まれています。
  10. パイプラインの作成の簡略化: 既定でテーブルを作成する必要がある名前、カタログ、スキーマを指定し、既定の設定を使用してパイプラインを作成します。 後でパイプライン エディターのツール バーから設定を調整できます。

Lakeflow 宣言型パイプラインのマルチファイル エディター

マルチファイル エディターを有効にする

最初に、ワークスペース に対して Pipelines マルチファイル開発者エクスペリエンス を有効にする必要があります。 詳細については、「 Azure Databricks プレビューの管理 」を参照してください。

レベルがコンプライアンス セキュリティ プロファイルにある場合は、Azure Databricks の連絡先に連絡して機能を試してください。

ETL パイプラインのマルチファイル エディターは、次の複数の方法で有効にすることができます。

  • 新しい ETL パイプラインを作成するときに、ETL パイプライン エディターのトグルを使用して、Lakeflow 宣言パイプラインでマルチファイル エディターを有効にします。

    Lakeflow 宣言型パイプライン マルチファイル エディターの切り替えをオンにする

    パイプラインの詳細設定ページは、マルチファイル エディターを初めて有効にするときに使用されます。 簡略化されたパイプライン作成ウィンドウは、次回新しいパイプラインを作成するときに使用されます。

  • 既存のパイプラインの場合は、パイプラインで使用されているノートブックを開き、ヘッダーで ETL パイプライン エディター のトグルを有効にします。 パイプラインの監視ページに移動し、[ 設定] をクリックしてマルチファイル エディターを有効にすることもできます。

ETL パイプライン エディターの切り替えを有効にすると、すべての ETL パイプラインで既定でマルチファイル エディターが使用されます。 ETL パイプラインのマルチファイル エディターは、エディターのオンとオフを切り替えることができます。

または、ユーザー設定からマルチファイル エディターを有効にすることもできます。

  1. ワークスペースの右上の領域でユーザー バッジをクリックし、[設定と開発者] をクリックします。
  2. ノートブックとファイルのタブを有効にします。
  3. ETL パイプラインのマルチファイル エディターを有効にします。

新しい ETL パイプラインを作成する

マルチファイル エディターを使用して新しい ETL パイプラインを作成するには、次の手順に従います。

  1. サイドバーの上部にある [プラス] アイコンをクリック します。[新規 ] を選択し、[ パイプライン] アイコンを選択します。ETL パイプライン

  2. 上部には、パイプラインに一意の名前を付けることができます。

  3. 名前のすぐ下に、選択された既定のカタログとスキーマが表示されます。 これらを変更して、パイプラインに異なる既定値を設定します。

    既定の カタログ と既定の スキーマ は、コード内のカタログまたはスキーマでデータセットを修飾しない場合に、データセットの読み取りまたは書き込みを行う場所です。 詳細については、「 Azure Databricks のデータベース オブジェクト 」を参照してください。

  4. 次のいずれかのオプションを選んで、パイプラインを作成します。

    • SQL のサンプル コードから始めて、SQL のサンプル コード を含む新しいパイプラインとフォルダー構造を作成します。
    • Python のサンプル コードから始めて、Python のサンプル コード を含む新しいパイプラインとフォルダー構造を作成します。
    • 1 つの変換から始めて 、新しい空白のコード ファイルを使用して、新しいパイプラインとフォルダー構造を作成します。
    • 既存の資産を追加 して、ワークスペース内の exisitng コード ファイルに関連付けることができるパイプラインを作成します。

    ETL パイプラインには、SQL と Python の両方のソース コード ファイルを含めることができます。 新しいパイプラインを作成し、サンプル コードの言語を選択する場合、言語は既定でパイプラインに含まれるサンプル コードに対してのみ使用されます。

  5. 選択すると、新しく作成されたパイプラインにリダイレクトされます。

ETL パイプラインは、次の既定の設定で作成されます。

これらの設定は、パイプライン ツール バーから調整するか、[ 高度なパイプラインの作成 ] を選択して好みの設定を指定できます。 詳細については、「 Lakeflow 宣言パイプラインの構成 」を参照してください。

または、ワークスペース ブラウザーから ETL パイプラインを作成することもできます。

  1. 左側のパネルで [ ワークスペース ] をクリックします。
  2. Git フォルダーを含む任意のフォルダーを選択します。
  3. 右上隅にある [ 作成 ] をクリックし、[ ETL パイプライン] をクリックします。

ETL パイプラインは、ジョブとパイプライン ページから作成することもできます。

  1. ワークスペースで、[ワークフロー] アイコンをクリックします。サイドバーのジョブとパイプライン
  2. [ 新規] の [ ETL パイプライン] をクリックします。

既存の ETL パイプラインを開く

マルチファイル エディターで既存の ETL パイプラインを開くには、次の手順に従います。

  1. サイド パネルで [ ワークスペース ] をクリックします。
  2. パイプラインのソース コード ファイルがあるフォルダーに移動します。
  3. ソース コード ファイルをクリックして、エディターでパイプラインを開きます。

既存の ETL パイプラインを開く

次の方法で既存の ETL パイプラインを開くこともできます。

  • 左側のサイドバーの [ 最近使った 情報] ページで、パイプラインまたはパイプラインのソース コードとして構成されたファイルを開きます。
  • パイプラインの監視ページで、[ パイプラインの編集] をクリックします。
  • 左側のサイドバーの [ ジョブの実行 ] ページで、[ ジョブとパイプライン ] タブをクリックし、[ Kebab] メニュー アイコン をクリックし、[ パイプラインの編集] をクリックします。
  • 新しいジョブを作成してパイプライン タスクを追加すると、新しいタブの [新しい ウィンドウ] アイコン で [開く] をクリックできます。 パイプラインの下でパイプラインを選択すると、
  • パイプラインを編集するときに、資産ブラウザーの上部にあるパイプラインの名前をクリックして、最近表示されたパイプラインの一覧から選択できます。
  • 資産ブラウザーとは異なるパイプラインのソース コードとして構成されたソース コード ファイルを開くと、そのファイルのエディターの上部にバナーが表示され、関連付けられているパイプラインを開くように求められます。 パイプラインに含まれていないソース コード ファイルを開くには、資産ブラウザーの上部にある [すべてのファイル ] を選択します。

パイプライン資産ビューワー

マルチファイル パイプライン エディターには、 パイプライン アセット ブラウザーと呼ばれるワークスペース ブラウザー サイドバー用の特別なモードがあり、既定では、パイプラインにパネルをフォーカスします。

ブラウザーの上部にあるパイプライン名をクリックして、最近表示されたパイプラインを切り替えます。

資産のブロウズワーには、次の 2 つのタブがあります。

  • パイプライン: パイプラインに関連付けられているすべてのファイルを見つけることができます。 作成、削除、名前の変更、フォルダーへの整理を行うことができます。
  • すべてのファイル: 他のすべてのワークスペースアセットは、ここで入手できます。

パイプラインアセットブラウザー

パイプラインには、次の種類のファイルを含めることができます。

  • ソース コード ファイル: これらのファイルは、パイプラインのソース コード定義の一部であり、「 設定」で確認できます。 Databricks では、常にソース コード ファイルを パイプライン ルート フォルダー内に格納することをお勧めします。それ以外の場合は、ブラウザーの下部にある 外部ファイル セクションに表示され、機能セットが少なくなります。
  • ソース コード以外のファイル: これらのファイルはパイプライン ルート フォルダー内に格納されますが、パイプラインのソース コード定義の一部ではありません。

重要

パイプラインのファイルとフォルダーを管理するには、[ パイプライン ] タブの下にあるパイプライン資産ブラウザーを使用する必要があります。 これにより、パイプライン設定が正しく更新されます。 ワークスペース ブラウザーまたは [すべてのファイル ] タブからファイルとフォルダーを移動または名前変更すると、パイプラインの構成が中断され、[ 設定] で手動で解決する必要があります。

ルート フォルダー

パイプライン資産ブラウザーは、パイプライン ルート フォルダーに固定されます。 新しいパイプラインを作成すると、パイプライン ルート フォルダーがユーザーのホーム フォルダーに作成され、パイプライン名と同じ名前になります。

パイプライン資産ブラウザーでルート フォルダーを変更できます。 これは、フォルダーにパイプラインを作成し、後ですべてを別のフォルダーに移動する場合に便利です。 たとえば、通常のフォルダーにパイプラインを作成し、バージョン管理用の Git フォルダーにソース コードを移動するとします。

  1. Kebab メニュー アイコン をクリックします。ルート フォルダーのオーバーフロー メニュー。
  2. 新しいルートフォルダーを構成をクリックします。
  3. [ パイプライン ルート フォルダー ] で [ フォルダー アイコン ] をクリックし、パイプライン ルート フォルダーとして別のフォルダーを選択します。
  4. [保存] をクリックします。

パイプラインのルート フォルダーを変更する

Kebab メニュー アイコン で、ルート フォルダーの [ルート フォルダーの名前を変更] をクリックして、フォルダー名を変更することもできます。 ここで、[ ルート フォルダーの移動 ] をクリックして、ルート フォルダーを Git フォルダーに移動することもできます。

設定でパイプライン ルート フォルダーを変更することもできます。

  1. [設定] をクリックします。
  2. コード資産パスの設定 をクリックします。
  3. [ フォルダー] アイコン をクリックして、[ パイプライン ルート フォルダー] の下のフォルダーを変更します。
  4. [保存] をクリックします。

パイプライン ルート フォルダーを変更すると、パイプライン資産ブラウザーによって表示されるファイル一覧が影響を受けます。これは、前のルート フォルダー内のファイルが外部ファイルとして表示されるようになったのでです。

ルート フォルダーのない既存のパイプライン

Lakeflow 宣言パイプラインの 1 つのノートブックを使用して既定の開発エクスペリエンスで作成された既存のパイプラインには、ルート フォルダーが構成されません。 既存のパイプラインのルート フォルダーを構成するには、次の手順に従います。

  1. パイプライン資産ブラウザーで、[ 構成] をクリックします。
  2. [ フォルダー アイコン] をクリックして、[パイプライン ルート フォルダー] の下にある ルート フォルダーを選択します
  3. [保存] をクリックします。

パイプライン ルート フォルダーなし

既定のフォルダー構造

新しいパイプラインを作成すると、既定のフォルダー構造が作成されます。 これは、次に示すように、パイプライン ソース ファイルとソース 以外のコード ファイルを整理するための推奨される構造です。

このフォルダー構造には、少数のサンプル コード ファイルが作成されます。

フォルダー名 これらの種類のファイルに推奨される場所
<pipeline_root_folder> パイプラインのすべてのフォルダーとファイルを含むルート フォルダー。
explorations 探索的なデータ分析に使用されるノートブック、クエリ、コード ファイルなど、ソース コード以外のファイル。
transformations Python やテーブル定義を含む SQL コード ファイルなどのソース コード ファイル。
utilities 他のコード ファイルからインポートできる Python モジュールを含むソース コード以外のファイル。 サンプル コードの言語として SQL を選択した場合、このフォルダーは作成されません。

フォルダー名の名前を変更したり、ワークフローに合わせて構造を変更したりできます。 新しいソース コード フォルダーを追加するには、次の手順に従います。

  1. パイプライン資産ブラウザーで [ 追加] をクリックします。
  2. [ パイプライン ソース コード フォルダーの作成] をクリックします。
  3. フォルダー名を入力し、[ 作成] をクリックします。

ソース コード ファイル

ソース コード ファイルは、パイプラインのソース コード定義の一部です。 パイプラインを実行すると、これらのファイルが評価されます。 ソース コード定義のファイルとフォルダーの一部には、ミニ パイプライン アイコンが重ね合わされた特別なアイコンがあります。

新しいソース コード ファイルを追加するには、次の手順に従います。

  1. パイプライン資産ブラウザーで [ 追加] をクリックします。
  2. [ 変換] をクリックします。
  3. ファイルの名前を入力し、言語として Python または SQL を選択します。
  4. Create をクリックしてください。

[ Kebab] メニュー アイコン をクリックすることもできます。パイプライン 資産ブラウザー内の任意のフォルダーに対して、ソース コード ファイルを追加します。

ソース コードの transformations フォルダーは、新しいパイプラインを作成するときに既定で作成されます。 このフォルダーは、パイプライン テーブル定義を含む Python または SQL コード ファイルなどのパイプライン ソース コードに推奨される場所です。

ソース コード以外のファイル

ソース コード以外のファイルは、パイプライン ルート フォルダー内に格納されますが、パイプラインのソース コード定義の一部ではありません。 これらのファイルは、パイプラインの実行時には評価されません。 ソース コード以外のファイルを 外部ファイルにすることはできません。

これは、ソース コードと共に格納するパイプラインでの作業に関連するファイルに使用できます。 例えば次が挙げられます。

  • 非 Lakeflow 宣言型パイプラインで実行されるアドホック探索に使用するノートブックは、パイプラインのライフサイクル外で計算されます。
  • ソース コード ファイル内にこれらのモジュールを明示的にインポートしない限り、ソース コードで評価されない Python モジュール。

ソース コード以外の新しいファイルを追加するには、次の手順に従います。

  1. パイプライン資産ブラウザーで [ 追加] をクリックします。
  2. [ 探索 ] または [ ユーティリティ] をクリックします。
  3. ファイルの 名前 を入力します。
  4. Create をクリックしてください。

[ Kebab] メニュー アイコン をクリックすることもできます。パイプライン ルート フォルダーまたはソース コード以外のファイルの場合は、ソース コード以外のファイルをフォルダーに追加します。

新しいパイプラインを作成すると、ソース コード以外のファイル用の次のフォルダーが既定で作成されます。

フォルダー名 説明
explorations このフォルダーは、ノートブック、クエリ、ダッシュボード、その他のファイルに推奨される保存場所であり、それらを通常パイプラインの実行ライフサイクル外で行うように、Lakeflow 非宣言型パイプラインの計算で実行します。
重要: これらは、パイプラインのソース コードとして追加しないでください。 これらのファイルは、任意の非 Lakeflow 宣言型パイプライン コードをカバーする可能性があるため、パイプラインでエラーが発生する可能性があります。
utilities このフォルダーは、親フォルダーがルート フォルダーの下に階層的に存在する限り、 from <filename> importとして表される直接インポートを介して他のファイルからインポートできる Python モジュールに推奨される場所です。

ルート フォルダーの外側にある Python モジュールをインポートすることもできますが、その場合は、Python コード内の sys.path にフォルダー パスを追加する必要があります。

import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

外部ファイル

パイプライン ブラウザーの [外部ファイル ] セクションには、ルート フォルダーの外部にあるソース コード ファイルが表示されます。

transformations フォルダーなどのルート フォルダーに外部ファイルを移動するには、次の手順に従います。

  1. Kebabメニューアイコン をクリックします。アセットブラウザ内のファイルで移動をクリックします。
  2. ファイルを移動するフォルダーを選択し、[ 移動] をクリックします。

複数のパイプラインに関連付けられているファイル

ファイルが複数のパイプラインに関連付けられている場合、ファイルのヘッダーにバッジが表示されます。 関連付けられたパイプラインの数があり、他のパイプラインに切り替えできます。

[すべてのファイル] セクション

[パイプライン] セクションに加えて、[すべてのファイル] セクションがあり、ワークスペース内の任意のファイルを開くことができます。 ここでは次を実行できます。

  • マルチファイル エディターを終了せずに、ルート フォルダーの外部にあるファイルをタブで開きます。
  • 別のパイプラインのソース コード ファイルに移動して開きます。 エディターでファイルが開き、エディターのフォーカスをこの 2 番目のパイプラインに切り替えるオプションを含むバナーが表示されます。
  • パイプラインのルート フォルダーにファイルを移動します。
  • パイプラインのソース コード定義にルート フォルダーの外部にあるファイルを含めます。

パイプライン コードを実行する

パイプライン コードを実行するには、次の 3 つのオプションがあります。

  1. パイプライン内のすべてのソース コード ファイルを実行する: [ パイプラインの実行 ] または [ 完全なテーブル更新でパイプラインを実行 する] をクリックして、パイプライン ソース コードとして定義されているすべてのファイル内のすべてのテーブル定義を実行します。

    パイプラインの実行

    [ ドライラン ] をクリックして、データを更新せずにパイプラインを検証することもできます。

  2. コードを 1 つのファイルで実行します。[ ファイルの実行 ] または [ 完全なテーブル更新でファイルを実行 ] をクリックして、現在のファイル内のすべてのテーブル定義を実行します。

    ファイルの実行

  3. 1 つのテーブルのコードを実行する: ソース コード ファイル内のテーブル定義の [ テーブルの実行]DLT 実行テーブル アイコン をクリックし、[ テーブルの更新 ] または [ テーブルの完全更新] をクリックします。

    テーブルの実行

有向非循環グラフ (DAG)

パイプライン内のすべてのソース コード ファイルを実行または検証すると、有向非循環グラフ (DAG) が表示されます。 グラフには、テーブルの依存関係グラフが表示されます。 各ノードには、検証済み、実行中、エラーなど、パイプラインのライフサイクルに沿って異なる状態があります。

有向非循環グラフ (DAG)

右側のパネルでグラフ アイコンをクリックすると、グラフのオンとオフを切り替えることができます。 グラフを最大化することもできます。 右下には、ズーム オプションやスライダー アイコンなど、追加のオプションがあります。グラフを縦または横のレイアウトで表示するためのその他のオプション

ノードの上にマウス ポインターを置くと、クエリの更新などのオプションを含むツール バーが表示されます。 ノードを右クリックすると、コンテキスト メニューで同じオプションが表示されます。

ノードをクリックすると、 データのプレビュー とテーブル定義が表示されます。 ファイルを編集すると、そのファイルで定義されているテーブルがグラフで強調表示されます。

データプレビュー

データ プレビュー セクションには、選択したテーブルのサンプル データが表示されます。

有向非循環グラフ (DAG) 内のノードをクリックすると、テーブルのデータのプレビューが表示されます。

テーブルが選択されていない場合は、[ テーブル ] セクションに移動し、[ データ プレビューの表示] DLT ビュー データ プレビュー アイコンをクリックします。 テーブルを選択した場合は、[ すべてのテーブル ] をクリックしてすべてのテーブルに戻ります。

実行の分析情報

エディターの下部にあるパネルで、最新のパイプライン更新に関するテーブル実行の分析情報を確認できます。

パネル 説明
状態とメトリックを含むすべてのテーブルを一覧表示します。 1 つのテーブルを選択すると、そのテーブルのメトリックとパフォーマンスと、データ プレビューのタブが表示されます。
[パフォーマンス] このパイプライン内のすべてのフローのクエリ履歴とプロファイル。 実行中と実行後に、実行メトリックと詳細なクエリ プランにアクセスできます。 詳細については、 Lakeflow 宣言パイプラインのアクセス クエリ履歴 を参照してください。
問題パネル パネルをクリックすると、パイプラインの簡略化されたエラーと警告ビューが表示されます。 エントリをクリックして詳細を表示し、エラーが発生したコード内の場所に移動します。 エラーが現在表示されているファイル以外のファイルにある場合は、エラーがあるファイルにリダイレクトされます。
[ 詳細の表示 ] をクリックすると、対応するイベント ログ エントリが表示され、詳細が表示されます。 [ ログの表示 ] をクリックして、完全なイベント ログを表示します。
コードの特定の部分に関連するエラーについては、コード接辞付きエラー インジケーターが表示されます。 詳細を表示するには、 エラー アイコンをクリックするか、赤い線の上にマウス ポインターを置きます。 詳細情報が表示されたポップアップが表示されます。 その後、[ クイック修正 ] をクリックして、エラーのトラブルシューティングを行う一連のアクションを表示できます。
イベント ログ 最後のパイプライン実行中にトリガーされたすべてのイベント。 [ ログの表示 ] または問題トレイのエントリをクリックします。

パイプラインの設定

パイプライン設定パネルにアクセスするには、ツール バーの [設定] をクリックするか、パイプライン資産ブラウザーのミニ カードで [ 歯車] アイコン をクリックします。

パイプラインの設定

イベント ログ

パイプラインのイベント ログは 、[設定] で設定するまで使用できません。

  1. [設定] を開きます。
  2. シェブロンの右アイコン をクリックします。[詳細設定] の横にある矢印をクリックします。
  3. [ 詳細設定の編集] をクリックします。
  4. [ イベント ログをメタストアに発行する] を選択します
  5. イベント ログの名前、カタログ、およびスキーマを指定します。
  6. [保存] をクリックします。

これで、パイプライン イベントが指定したテーブルに発行されます。

環境

[設定] で依存関係を追加することで、ソース コードの環境を作成できます。

  1. [設定] を開きます。
  2. [ 環境] で 、[ 環境の編集] をクリックします。
  3. プラス アイコンを選択します。 依存関係を追加して、依存関係をrequirements.txt ファイルに追加する場合と同様に追加します。 依存関係の詳細については、「 ノートブックへの依存関係の追加」を参照してください。

Databricks では、 ==でバージョンをピン留めすることをお勧めします。 「PyPi パッケージ」をご覧ください。

この環境は、パイプライン内のすべてのソース コード ファイルに適用されます。

通知

レガシ パイプライン設定を使用して通知を追加できます。

  1. [設定] を開きます。
  2. [ パイプライン設定 ] パネルの下部にある [ 従来のパイプライン設定] をクリックします。
  3. [通知] の [通知の追加] をクリックします。
  4. 1 つ以上のメール アドレスと、送信するイベントを追加します。
  5. [通知の追加] をクリックします。

制限事項と既知の問題

Lakeflow 宣言型パイプラインの ETL パイプライン用マルチラインエディターに関する次の制限事項と既知の問題を参照してください。

  1. これらのファイルまたはノートブックはパイプラインのソース コード定義の一部ではないため、 explorations フォルダーまたはノートブックでファイルを開くと、ワークスペース ブラウザーのサイドバーはパイプラインに集中しません。

    1. ワークスペース ブラウザーでパイプライン フォーカス モードに入るために、パイプラインに関連付けられているファイルを開きます。
  2. データ プレビューは、通常のビューではサポートされていません。

  3. 複数テーブルの更新は、パイプライン監視ページからのみ実行できます。 パイプライン ブラウザーでミニカードを使用して、そのページに移動します。

  4. コード内の行折り返しにより、DLT 実行テーブルアイコン が誤った位置に表示されることがあります。

  5. %pip install は、ファイル (新しいエディターを使用した既定の資産の種類) ではサポートされていません。 設定に依存関係を追加できます。 「環境」を参照してください。

    別の方法として、パイプラインに関連付けられたノートブックの%pip installをソースコード定義で引き続き使用することもできます。

よくあるご質問

  1. ソース コードにノートブックではなくファイルを使用する理由

    ノートブックのセルベースの実行は、Lakeflow ディクラレーティブ パイプラインと互換性がありませんでした。 そのため、機能をオフにするか、動作を変更する必要があり、混乱を招きました。

    ETL パイプラインのマルチファイル エディターでは、ファイル エディターが Lakeflow 宣言パイプラインのファースト クラス エディターの基盤として使用されます。 機能は、使い慣れた機能をさまざまな動作で複雑化するのではなく、実行テーブルDLT 実行テーブルアイコンのような Lakeflow 宣言型パイプラインを明示的に対象とします。

  2. ノートブックをソース コードとして引き続き使用できますか?

    できます。 ただし、 実行テーブルDLT 実行テーブル アイコン実行ファイルなどの一部の機能は存在しません。

    ノートブックを使用する既存のパイプラインがある場合でも、新しいエディターで動作します。 ただし、Databricks では、新しいパイプラインのファイルに切り替えることをお勧めします。

  3. 新しく作成したパイプラインに既存のコードを追加するにはどうすればよいですか?

    既存のソース コード ファイルを新しいパイプラインに追加できます。 既存のファイルを含むフォルダーを追加するには、次の手順に従います。

    1. [設定] をクリックします。
    2. [ ソース コード ] の [ パスの構成] をクリックします。
    3. [ パスの追加] をクリックし、既存のファイルのフォルダーを選択します。
    4. [保存] をクリックします。

    個々のファイルを追加することもできます。

    1. パイプライン資産ブラウザーで [ すべてのファイル ] をクリックします。
    2. ファイルに移動し、[ Kebab] メニュー アイコンをクリックし、[ パイプラインに含める] をクリックします。

    これらのファイルをパイプライン ルート フォルダーに移動することを検討してください。 パイプライン ルート フォルダーの外側に残っている場合は、[ 外部ファイル ] セクションに表示されます。

  4. Git でパイプライン ソース コードを管理できますか?

    最初にパイプラインを作成するときに Git フォルダーを選択することで、Git でパイプライン ソースを管理できます。バージョン管理なしでパイプラインを作成したら、ソースを Git フォルダーに移動できます。 Databricks では、エディター アクションを使用してルート フォルダー全体を Git フォルダーに移動することをお勧めします。 これにより、それに応じてすべての設定が更新されます。 ルート フォルダーを参照してください

    ルート フォルダーをパイプライン資産ブラウザーの Git フォルダーに移動するには:

    1. ルート フォルダーの [Kebab] メニュー アイコン をクリックします。
    2. [ ルート フォルダーの移動] をクリックします。
    3. ルート フォルダーの新しい場所を選択し、[ 移動] をクリックします。

    詳細については、「 ルート フォルダー 」セクションを参照してください。

    移動後、ルート フォルダーの名前の横に使い慣れた Git アイコンが表示されます。

    重要

    パイプライン ルート フォルダーを移動するには、パイプライン資産ブラウザーと上記の手順を使用します。 他の方法で移動すると、パイプラインの構成が中断され、[ 設定] で正しいフォルダー パスを手動で構成する必要があります。

  5. 同じルート フォルダーに複数のパイプラインを含めることができますか?

    可能ですが、Databricks ではルート フォルダーごとに 1 つのパイプラインのみを使用することをお勧めします。

  6. ドライランはいつ実行すればよいですか?

    [ Dry run ]\(ドライラン\) をクリックして、テーブルを更新せずにコードを確認します。

  7. 一時的なビューを使用する必要がある場合と、コードで具体化されたビューを使用する必要があるタイミング

    データを具体化しない場合は、一時ビューを使用します。 たとえば、これは、カタログに登録されているストリーミング テーブルまたは具体化されたビューを使用して具体化する準備が整う前にデータを準備する一連の手順のステップです。