次の方法で共有


Databricks Connect for Python をインストールする

この記事では、Databricks Runtime 13.3 LTS 以上用の Databricks Connect について説明します。

この記事では、Databricks Connect for Python をインストールする方法について説明します。 「Databricks Connect とは」を参照してください。 この記事の Scala バージョンについては、「Databricks Connect for Scala をインストールする」を参照してください。

要件

Databricks Connect for Python をインストールするには、次の要件を満たす必要があります。

  • サーバーレス コンピューティングに接続する場合は、ワークスペースがサーバーレス コンピューティングの要件を満たしている必要があります。

    サーバーレス コンピューティングは、Databricks Connect バージョン 15.1 以降でサポートされています。 さらに、サーバーレス上の Databricks Runtime リリース以下の Databricks Connect バージョンには完全互換性があります。 「リリース ノート」を参照してください。 Databricks Connect バージョンがサーバーレス コンピューティングと互換性があるかどうかを確認するには、「Databricks への接続を検証する」を参照してください。

  • クラスターに接続する場合は、ターゲット クラスターが、Databricks Runtime のバージョン要件を含むクラスター構成要件を満たしている必要があります。

  • 開発用コンピューターに Python 3 がインストールされていて、開発用コンピューターにインストールされている Python のマイナー バージョンが、次の表のバージョン要件を満たしている必要があります。

  • ユーザー定義関数 (UDF) を使用している場合、Python のローカル マイナー バージョンは、クラスターまたはサーバーレス コンピューティングの Databricks Runtime バージョンの Python のマイナー バージョンと一致する必要があります。 クラスターの Databricks Runtime バージョンのマイナー Python バージョンを確認するには、そのバージョンの Databricks Runtime リリース ノートの「システム環境の」セクションを参照してください。 「Databricks Runtime リリース ノートのバージョンと互換性」および「サーバーレス コンピューティングのリリース ノート」を参照してください。

バージョンサポート一覧表

次の表に、互換性のある Databricks Connect と Python のバージョンを示します。 Databricks Connect のバージョン番号は、Databricks Runtime のバージョン番号に対応しています。

UDF のサポートについては、 Python 基本環境を参照してください。

コンピューティングの種類 Databricks Connect バージョン 互換性のある Python バージョン
サーバーレス 16.1 から 16.4 3.12
サーバーレス 15.4.10 から 16.0 未満 3.11
クラスター 16.1 以降 3.12
クラスター 15.4 LTS 3.11
クラスター 13.3 LTS から 14.3 LTS 3.10

Python 仮想環境をアクティブ化する

Databricks では、Databricks Connect で使用する Python バージョンごとに Python 仮想環境をアクティブ化することを強くお勧めしています。 Python 仮想環境は、正しいバージョンの Python と Databricks Connect を一緒に使用していることを確認するために役立ちます。 これらのツールとそのアクティブ化方法の詳細については、venv または Poetry に関するページを参照してください。

Databricks Connect クライアントをインストールする

このセクションでは、venv または Poetry を使用して Databricks Connect クライアントをインストールする方法について説明します。

Visual Studio Code 用の Databricks 拡張機能が既にインストールされている場合は、拡張機能を使用して Databricks Runtime 13.3 LTS 以降の Databricks Connect をインストールできます。 Visual Studio Code 用 Databricks 拡張機能の Databricks Connect を使用したコードのデバッグに関するページを参照してください。

venv を使用して Databricks Connect クライアントをインストールする

  1. 仮想環境がアクティブな状態で、uninstall コマンドを実行して PySpark をアンインストールします (既にインストールされている場合)。 これは、databricks-connect パッケージが PySpark と競合するために必要です。 詳細については、「PySpark インストールの競合」を参照してください。 PySpark が既にインストールされているかどうかを調べるには、show コマンドを実行します。

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. 仮想環境がアクティブな状態のままで、install コマンドを実行して Databricks Connect クライアントをインストールします。 既存のクライアント インストールを指定バージョンにアップグレードするには、--upgrade オプションを使用します。

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Databricks では、最新のパッケージがインストールされるように、databricks-connect=X.Y ではなく databricks-connect==X.Y.* を指定する "ドットとアスタリスク" の表記を追加することをお勧めしています。 これは要件ではありませんが、そのクラスターでサポートされている最新の機能を使用できるようにするために役立ちます。

Poetry を使用して Databricks Connect クライアントをインストールする

  1. 仮想環境がアクティブな状態で、remove コマンドを実行して PySpark をアンインストールします (既にインストールされている場合)。 これは、databricks-connect パッケージが PySpark と競合するために必要です。 詳細については、「PySpark インストールの競合」を参照してください。 PySpark が既にインストールされているかどうかを調べるには、show コマンドを実行します。

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. 仮想環境がアクティブな状態のままで、add コマンドを実行して Databricks Connect クライアントをインストールします。

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Databricks では、最新のパッケージがインストールされるように、databricks-connect==15.4Databricks ではなく databricks-connect@~15.4 を指定する "アットとチルダ" の表記を使うことをお勧めしています。 これは要件ではありませんが、そのクラスターでサポートされている最新の機能を使用できるようにするために役立ちます。

次のステップ

Databricks Connect をインストールしたら、Databricks への接続を構成する必要があります。 「Databricks Connect のコンピューティング構成」を参照してください。