次の方法で共有


Microsoft Purview で Azure Databricks Unity Catalog に接続して管理する

この記事では、Azure Databricks を登録する方法と、Microsoft Purview で Azure Databricks Unity Catalog を認証して操作する方法について説明します。 Microsoft Purview の詳細については、 入門記事を参照してください。

サポートされている機能

スキャン機能

メタデータ抽出 フル スキャン 増分スキャン スコープスキャン
はい

Azure Databricks Unity Catalog をスキャンする場合、Microsoft Purview では次の処理がサポートされます。

  • 以下を含む技術的なメタデータの抽出:
    • メタストア
    • カタログ
    • Schemas
    • 列を含むテーブル
    • 列を含むビュー
  • ノートブックの実行中に、テーブル、ビュー、列間の資産リレーションシップに関する系列をフェッチします。

スキャンを設定するときに、カタログ全体をスキャンするか、カタログのサブセットUnityスキャンのスコープを設定するかを選択できます。

その他の機能

分類秘密度ラベルポリシーデータ系列ライブ ビューについては、サポートされている機能の一覧を参照してください。

注:

このコネクタは、Azure Databricks Unity Catalog からメタデータを取得します。 Azure Databricks ワークスペーススコープのメタデータをスキャンするには、 Azure Databricks Hive メタストア コネクタに関するページを参照してください。

既知の制限

  • Databricks ノートブック名は、Microsoft Purview で読み取り可能な名前ではなく数値 ID として表示されます。 これは、ノートブック名がカタログ システム テーブルUnity公開されていないため、Databricks の制限事項です。

  • Azure Databricks のスキャン結果が 1 MB を超え、Azure Databricks で管理される BLOB ストレージがパブリック ネットワーク アクセスを拒否すると、エラーが発生する可能性があります。 これを防ぐには、スキャンされる Azure Databricks ワークスペースの内部 DBFS ストレージの場所に Purview がアクセスできることを確認します。 詳細については、 こちらを参照してください

  • 増分スキャンは、Azure Databricks Unity Catalog データ ソースでのみ使用できます。

  • スコープスキャンは、Azure Databricks データ ソースの [Unity カタログ] オプションでのみ使用できます。

  • マネージド プライベート エンドポイントは、Azure Databricks データ ソースの [Unity カタログ] オプションにのみ追加できます。

  • オブジェクトがデータ ソースから削除された場合、現在、後続のスキャンでは、Microsoft Purview の対応する資産は自動的に削除されません。

  • 系列情報は、中国リージョンの Azure Databricks ワークスペースでは使用できません。 これは、このリージョンでは Azure Databricks システム テーブルがサポートされていないためです。 Microsoft Purview では、これらのテーブルを使用して系列を抽出するため、このリージョンでは系列を取得できません。

  • ネイティブ Azure Databricks 系列に関連するその他の制限事項の詳細については、 Azure Databricks のドキュメントを参照してください

前提条件

  • アクティブなサブスクリプションを持つ Azure アカウントが必要です。 無料でアカウントを作成します

  • アクティブな Microsoft Purview アカウントが必要です。

  • シークレットにアクセスするためのアクセス許可を Microsoft Purview に付与するには、Azure Key Vaultが必要です。

  • ソースを登録し、従来の Microsoft Purview ガバナンス ポータルで管理するには、データ ソース管理者とデータ 閲覧者のアクセス許可が必要です。 アクセス許可の詳細については、「 Microsoft Purview でのアクセス制御」を参照してください。

  • Azure Databricks Unity Catalog をスキャンするために、Microsoft Purview はワークスペース内の SQL Warehouse に接続し、認証に個人用アクセス トークンを使用します。 カタログUnity有効にされ、スキャンするメタストアにアタッチされている Azure Databricks ワークスペースが必要です。 Azure Databricks ワークスペースで、次の手順を実行します。

    • SQL Warehouse を作成します。 必要に応じて、自動作成されたスターター ウェアハウスも使用できます。

      • HTTP パスをメモします。 Azure Databricks ワークスペース -> SQL Warehouses -> ウェアハウス -> 接続の詳細 -> HTTP パスで確認できます。

      • Azure Databricks SQL ウェアハウスに接続するために、ユーザーに Can Use アクセス許可があることを確認します。 詳細については、 SQL ウェアハウスのアクセス制御に関するページを参照してください。

  • Microsoft Purview を使用して Azure Databricks から系列をフェッチするには、次の前提条件が満たされている必要があります。

    • システム スキーマを有効にする: システム スキーマ system.access は、Unity カタログで有効にする必要があります。 これは、系列情報がシステム テーブルに格納され、このスキーマを有効にするとそれらのテーブルへのアクセスが許可されるため、必須です。 システム テーブルを使用した使用状況の監視について詳しくは、こちらをご覧ください

    • ユーザー特権: スキャンに使用するユーザー アカウントには、次のシステム テーブルに対する SELECT 権限が必要です。

      • system.access.table_lineage

      • system.access.column_lineage

      これらのアクセス許可は、系列データがシステム テーブルから直接読み取られ、必要なアクセス権がないと、Microsoft Purview は系列情報を取得できないため、必要です。

  • Azure Databricks ワークスペースでパブリック ネットワークからのアクセスが許可されていない場合、または Microsoft Purview アカウントですべてのネットワークからのアクセスが有効になっていない場合は、マネージド Virtual Network Integration Runtimeまたは kubernetes でサポートされているセルフホステッド統合ランタイムを使用してスキャンできます。 プライベート接続を確立するために必要に応じて、Azure Databricks のマネージド プライベート エンドポイントを設定できます。

データ ソースのセットアップ (Azure Databricks と Azure Databricks Unity Catalog)

Azure Databricks Unity Microsoft Purview へのカタログ接続は、次の 2 つのソースを使用して設定できます。

  • Azure Databricks (古いソース)
  • Azure Databricks Unity Catalog

データ ソース間の機能の違い

Azure Databricks Unity Catalog コネクタの機能は、接続に使用されるソースによって異なります。 機能の比較を次に示します。

機能 古いソース 新しいソース
ソース名 Azure Databricks Azure Databricks Unity Catalog
ソースのサポート Hive & Unity カタログ Unity カタログ
認証: 個人用アクセス トークン サポート サポート
認証: サービス プリンシパル 不要 サポート
認証: マネージド ID 不要 サポート対象 (システム マネージド ID)
Integration Runtime: Azure IR サポート サポート
Integration Runtime: マネージド vNet IR サポート 不要
Integration Runtime: Kubernetes Self-Hosted IR サポート サポート
スコープスキャン はい - カタログ レベル 不要
増分スキャン 不要 はい
系統 サポート サポート

どのソースを使用する必要がありますか?

organizationのニーズに基づいてソースを選択するか、両方を並列で使用できます。 ソースを切り替えたり、両方を同時に使用したりしても、Microsoft Purview で 資産が重複することはありません 。 この柔軟性により、現在のセットアップに最適なオプションから開始し、必要に応じて時間の経過と共に調整できます。

スキャンの認証

Azure Databricks Unity Catalog をスキャンするために、個人用アクセス トークン、マネージド ID、またはサービス プリンシパル認証方法を使用できます。

システム割り当てマネージド ID を使用する場合

Azure Databricks で
  1. [設定>Workspace admin>Identity and access に移動します。

  2. [ サービス プリンシパルの追加] を選択します

  3. [ 新規追加] を選択します

  4. [マネージド Microsoft Entra ID] を選択します。 Microsoft Purview の アプリケーション ID を 指定します。 アプリケーション ID は、Azure portalの Microsoft Purview アカウント リソースの詳細にあります。

ユーザーのイメージ

Microsoft Purview で
  1. [資格情報] でシステム割り当てマネージド ID を選択 します
  • Microsoft Purview に取り込むすべてのオブジェクトについて、ユーザーまたはサービス プリンシパルには、テーブル/ビューに対する 少なくとも SELECT 権限、オブジェクトのカタログでの USE CATALOG 、およびオブジェクトのスキーマに対する USE SCHEMA が必要です。

登録

このセクションでは、 従来の Microsoft Purview ガバナンス ポータルを使用して、Microsoft Purview に Azure Databricks ワークスペースを登録する方法について説明します。

  1. Microsoft Purview アカウントに移動します。

  2. 左側のウィンドウで [ データ マップ ] を選択します。

  3. [登録] を選択します。

  4. [ソースの登録] で、[Azure Databricks Unity Catalog>Continue] を選択します。

  5. [ソースの登録 (Azure Databricks Unity カタログ)] 画面で、次の操作を行います。

  6. [ 名前] に、Microsoft Purview がデータ ソースとして一覧表示する名前を入力します。

    1. [メタストア ID] には、スキャンする Azure Databricks Unity Catalog メタストアのメタストア ID を指定します。

    2. 一覧からコレクションを選択します。

Azure Databricks Unity Catalog ソースを登録しているスクリーンショット。

  1. [完了] を選択します。

スキャン

ヒント

スキャンに関する問題のトラブルシューティングを行うには:

  1. すべての前提条件に従っていることを確認 します
  2. スキャンのトラブルシューティングに関するドキュメントを確認してください

Azure Databricks をスキャンして資産を自動的に識別するには、次の手順を使用します。 一般的なスキャンの詳細については、「 Microsoft Purview でのスキャンとインジェスト」を参照してください。

  1. [ソース] に移動します。

  2. 登録済みの Azure Databricks を選択します。

  3. [ + 新しいスキャン] を選択します。

  4. 次のユーザー詳細を入力します。

    1. [名前]: スキャンの名前を入力します。

    2. 統合ランタイム経由で接続する: 既定の Azure 統合ランタイム、マネージド Virtual Network IR、または作成した Kubernetes でサポートされているセルフホステッド統合ランタイムを選択します。

    3. 資格情報: データ ソースに接続する資格情報を選択します。 次のことを確認してください。

      • [ アクセス トークン]、[ マネージド ID]、または [サービス プリンシパル] を選択します。
      • スキャンの登録中に、新しいアクセス トークンまたはサービス プリンシパルの資格情報を作成できます。 詳細については、「 Microsoft Purview でのソース認証の資格情報」を参照してください。
    4. ワークスペース URL: スキャンするワークスペースの URL を指定します。

    5. HTTP パス: Microsoft Purview が接続してスキャンを実行する Databricks SQL Warehouse の HTTP パスを指定します。たとえば、 /sql/1.0/endpoints/xxxxxxxxxxxxxxxx。 Azure Databricks ワークスペース -> SQL Warehouses -> ウェアハウス -> 接続の詳細 -> HTTP パスで確認できます。

    6. 系列抽出: 系列の抽出を [オン] に 切り替えて、スキャンされた資産の系列を取得します。

  5. [ 接続のテスト] を選択して、設定を検証します。

    Azure Databricks Unity カタログ スキャンのセットアップのスクリーンショット。

  6. [続行] を選択します。

  7. [ スキャン トリガー] で、スケジュールを設定するか、スキャンを 1 回実行するかを選択します。

  8. スキャンを確認し、[ 保存して実行] を選択します。

スキャンが正常に完了したら、 資産を参照して検索する方法を参照してください。

スキャンとスキャンの実行を表示する

既存のスキャンを表示するには:

  1. Microsoft Purview ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。
  2. データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
  3. 表示する結果を含むスキャンを選択します。 このウィンドウには、以前のすべてのスキャン実行と、各スキャン実行の状態とメトリックが表示されます。
  4. 実行 ID を選択して、スキャン実行の詳細をチェックします

スキャンを管理する

スキャンを編集、取り消し、または削除するには:

  1. Microsoft Purview ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。

  2. データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。

  3. 管理するスキャンを選択します。 次のことを実行できます。

    • [スキャンの編集] を選択して スキャンを編集します
    • [スキャンの実行の取り消し] を選択して、進行中 のスキャンを取り消します
    • [スキャンの削除] を選択して スキャンを削除します

注:

  • スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。

資産の参照と検索

Azure Databricks をスキャンした後、統合カタログ参照するか、統合カタログを検索して資産の詳細と系列を表示できます。

ソースの種類別に参照すると、Azure Databricks Unity CatalogAzure Databricks の 2 つのエントリがそれぞれ表示されます。 前者には、メタストアとそのカタログ/スキーマ/テーブル/ビューを含むUnity カタログ成果物が含まれますが、後者にはワークスペース成果物が含まれています。

ソースの種類別の資産の参照のスクリーンショット。

Azure Databricks ワークスペース資産から、[プロパティ] タブの [カタログ] に関連付けられているUnityを見つけることができます。逆の場合も適用されます。

Azure Databricks ソースに関連付けられているUnity Catalog を見つけるスクリーンショット。

系統

特定の Azure Databricks 資産を参照すると、系列をキャプチャしたノートブックが表示されます。

資産 -> 系列タブに移動すると、該当する場合は Azure Databricks Notebook 資産またはテーブル/ビュー資産に系列が表示されます。

関連付けられている Azure Databricks Unity Catalog ワークスペース資産に存在するノートブックの参照のスクリーンショット。

関連付けられている Azure Databricks Unity Catalog ワークスペース資産に存在するノートブック系列のスクリーンショット。

サポートされている系列シナリオ

  • 系列は、テーブルとビューがUnity カタログ内の Databricks ノートブックを介して接続されている場合にサポートされます。

  • 系列は、Microsoft Purview を介してスキャンされたオブジェクトに対してのみ表示されます。 関連するすべての資産をスキャンして、完全な系列グラフを形成する必要があります。 関連するノートブックを含むすべての Databricks ワークスペースが Microsoft Purview スキャンに含まれていることを確認します。

系列の制限事項

  • Databricks ジョブを介してノートブックを実行すると、列レベルの系列がキャプチャされない可能性があります。
  • Microsoft Purview では、データ フローに関連するすべてのオブジェクトがスキャンされない場合、部分的な系列のみが表示されます。 たとえば、ワークスペース A のノートブックがワークスペース B のテーブルにデータを書き込み、ワークスペース A のみが Microsoft Purview によってスキャンされた場合、系列にはノートブックが表示されますが、コピー先テーブルは表示されず、系列が不完全になります。
  • ノートブックが外部サービス (Databricks ジョブを呼び出Azure Data Factory [ADF] パイプラインなど) によってトリガーされた場合、系列には Microsoft Purview での依存関係が反映されません。
    • この場合、ADF データセットと Databricks アセット間の系列は表示されません。
    • Databricks ノートブック内に構築された系列のみがキャプチャされます。

系列が見つからないシナリオ

系列抽出は受動的です。カタログ システム テーブルUnity使用してログに記録され、アクセス可能なもののみが Microsoft Purview によって取り込まれます。

  • 系列シナリオがサポートされていることを確認するには、上記のセクションを参照してください。
  • カタログ系列システム テーブル (system.access.table_lineagesystem.access.column_lineage) Unityが正しく設定されていることを検証します。
  • それでも問題が発生した場合は、サポート チケットを発行します。

サポートされている Databricks Unityカタログ系列シナリオのサポートされている機能に関するセクションを参照してください。 系列全般の詳細については、「データ系列と系列ユーザー ガイド」を参照してください。

よく寄せられる質問 (FAQ)

Unity Catalog からの列レベルの系列は Microsoft Purview によってキャプチャされますか?

Microsoft Purview では、Unity カタログのテーブル/ビュー レベルと列レベルの両方で系列をキャプチャできます。

列レベルの系列が表示されません。何が起こっていますか?

列レベルの系列は、ノートブックがクラスターから実行され、SQL ウェアハウスを介して生成されない場合に生成されます。

タイムアウト エラーが発生します。どうすればよいですか?

ワークスペースに大量の資産がある場合、スキャンが完了しない可能性があります。 この場合、スキャンの範囲を一度に数個のカタログに設定できます。これにより、スキャンあたりの資産量が減少し、スキャンの完了が可能になります。

ノートブックを実行したばかりですが、Microsoft Purview は系列をフェッチしませんでした。 どうしたんですか。

Databricks がノートブックの実行後にシステム テーブルの系列情報を更新するまでに数分の遅延が発生する可能性があります。 Microsoft Purview は、システム テーブルが更新されると系列をフェッチできます。

次の手順

ソースが登録されたら、次のガイドを使用して、Microsoft Purview とデータの詳細を確認します。