次の方法で共有


Lakeflow 宣言パイプラインでノートブックを使用して ETL パイプラインを開発およびデバッグする

この記事では、Lakeflow 宣言パイプラインのノートブックを使用して ETL パイプラインを開発およびデバッグする方法について説明します。 これは、Lakeflow 宣言パイプラインの既定の開発エクスペリエンスです。

Lakeflow 宣言パイプライン用にマルチファイル エディターを構成した場合は、「Lakeflow 宣言パイプライン」の マルチファイル エディターを使用した ETL パイプラインの開発とデバッグに関するページを参照してください。

Lakeflow デクラレーティブパイプラインにおけるノートブックの概要

既存のパイプラインのソース コードとして構成されている Python または SQL ノートブックで作業する場合は、ノートブックをパイプラインに直接接続できます。 ノートブックがパイプラインに接続されている場合は、次の機能を使用できます。

  • ノートブックからパイプラインを開始して検証します。
  • ノートブックの最新の更新プログラムのパイプラインのデータフロー グラフとイベント ログを表示します。
  • ノートブック エディターでパイプライン診断を表示します。
  • ノートブックでパイプラインのクラスターの状態を表示します。
  • ノートブックから Lakeflow 宣言パイプライン UI にアクセスします。

前提条件

  • Python または SQL ノートブックをソース コードとして構成した既存のパイプラインが必要です。
  • パイプラインの所有者であるか、 CAN_MANAGE 特権を持っている必要があります。

制限事項

  • この記事で説明する機能は、Azure Databricks ノートブックでのみ使用できます。 ワークスペース ファイルはサポートされていません。
  • パイプラインにアタッチされている場合、Web ターミナルは使用できません。 その結果、下部のパネルにタブとして表示されません。

ノートブックをパイプラインに接続する

ノートブック内で、コンピューティングの選択に使用するドロップダウン メニューをクリックします。 ドロップダウン メニューには、ソース コードとしてこのノートブックを含むすべての Lakeflow 宣言パイプラインが表示されます。 ノートブックをパイプラインに接続するには、一覧からノートブックを選択します。

パイプラインのクラスターの状態を表示する

パイプラインのクラスターの状態を簡単に理解するために、クラスターが実行されていることを示す緑色の状態がコンピューティング ドロップダウン メニューに表示されます。

パイプライン コードを検証する

パイプラインを検証して、データを処理せずにソース コード内の構文エラーを確認できます。

パイプラインを検証するには、次のいずれかの操作を行います。

  • ノートブックの右上隅にある [ 検証] をクリックします。
  • 任意のノートブック セルで Shift+Enter キーを押します。
  • セルのドロップダウン メニューで、[ パイプラインの検証] をクリックします。

既存の更新プログラムが既に実行されている間にパイプラインを検証しようとすると、既存の更新プログラムを終了するかどうかを確認するダイアログ ボックスが表示されます。 [ はい] をクリックすると、既存の更新プログラムが停止し、 更新の検証 が自動的に開始されます。

パイプラインの更新を開始する

パイプラインの更新を開始するには、ノートブックの右上隅にある [開始 ] ボタンをクリックします。 「Lakeflow 宣言パイプラインで更新を実行する」を参照してください。

更新プログラムの状態を表示する

ノートブックの上部パネルに、パイプラインの更新が次の内容であるかどうかを表示します。

  • 開始中
  • 検証中
  • 停車

エラーと診断を表示する

パイプラインの更新または検証を開始すると、エラーが赤い下線でインラインで表示されます。 エラーにカーソルを合わせると、詳細情報が表示されます。

パイプライン イベントを表示する

パイプラインにアタッチすると、ノートブックの下部に Lakeflow 宣言パイプラインのイベント ログ タブがあります。

イベント ログ

パイプライン データフロー グラフを表示する

パイプラインのデータフロー グラフを表示するには、ノートブックの下部にある [Lakeflow 宣言型パイプライン] グラフ タブを使用します。 グラフ内のノードを選択すると、右側のパネルにそのスキーマが表示されます。

データフロー グラフ

ノートブックから Lakeflow 宣言パイプライン UI にアクセスする方法

Lakeflow 宣言パイプライン UI に簡単に移動するには、ノートブックの右上隅にあるメニューを使用します。

ノートブックからLDP UIで開く

ノートブックからドライバー ログと Spark UI にアクセスする

開発中のパイプラインに関連付けられているドライバー ログと Spark UI には、ノートブックの [表示 ] メニューから簡単にアクセスできます。

ドライバー ログと Spark UI にアクセスする