用于机器学习的 Databricks Runtime 14.2 (EoS)

注意

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅终止支持历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

用于机器学习的 Databricks Runtime 14.2 基于 Databricks Runtime 14.2 (EoS) 为机器学习和数据科学提供随时可用的环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

提示

若要查看已终止支持 (EoS) 的 Databricks Runtime 版本的发行说明,请参阅终止支持 Databricks Runtime 发行说明。 EoS Databricks Runtime 版本已停用,可能不会更新。

新增功能和改进

Databricks Runtime 14.2 ML 基于 Databricks Runtime 14.2 构建。 有关 Databricks Runtime 14.2 中的新增功能(包括 Apache Spark MLlib 和 SparkR)的信息,请参阅 Databricks Runtime 14.2 (EoS) 发行说明。

系统环境

Databricks Runtime 14.2 ML 中的系统环境在以下方面不同于 Databricks Runtime 14.2:

  • DBUtils:Databricks Runtime ML 不包含库实用工具 (dbutils.library)(旧版)。 请改用 %pip 命令。 请参阅作用域为笔记本的 Python 库
  • 对于 GPU 群集,Databricks Runtime ML 包含以下 NVIDIA GPU 库:
    • CUDA 11.8
    • cuDNN 8.9.0.131-1
    • NCCL 2.15.5
    • TensorRT 8.5.3-1

Databricks Runtime 14.2 ML 包含 XGBoost 1.7.6,它不支持计算功能 5.2 及更低版本的 GPU 群集。

以下部分列出了 Databricks Runtime 14.2 ML 中包含的库,这些库不同于 Databricks Runtime 14.2 中包含的库。

本节内容:

顶层库

Databricks Runtime 14.2 ML 包含以下顶层

Python 库

Databricks Runtime 14.2 ML 使用 virtualenv 进行 Python 包管理,并且包含许多常用的 ML 包。

除了以下部分中指定的包外,Databricks Runtime 14.2 ML 还包含以下包:

  • hyperopt 0.2.7+db4
  • sparkdl 3.0.0_db1
  • automl 1.23.0

要在本地 Python 虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-14.2.txt 文件并运行 pip install -r requirements-14.2.txt。 此命令安装 Databricks Runtime ML 使用的所有开源库,但不安装 Databricks 开发的库,例如 databricks-automldatabricks-feature-store,或 hyperopt 的 Databricks 分支。

CPU 群集上的 Python 库

版本 版本 版本
ABSL-PY 系列 1.0.0 加速 0.23.0 aiohttp 3.8.6
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 阿斯托尔 0.8.1
asttokens 2.0.5 astunparse 1.6.3 异步-超时 4.0.3
属性 22.1.0 audioread 3.0.1 azure-core 1.29.1
azure-cosmos 4.3.1 azure-storage-blob 12.18.3 Azure存储文件数据湖 12.13.2
回调 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
黑色 22.6.0 漂白剂 4.1.0 闪烁器 1.4
布利斯 0.7.11 boto3 1.24.28 botocore 1.27.96
cachetools (缓存工具) 5.3.2 目录 2.0.10 类别编码器 2.6.2
certifi 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer (字符集正常化工具) 2.0.4 单击 8.0.4 cloudpathlib 0.16.0
cloudpickle 2.0.0 cmdstanpy 1.2.0 通讯 0.1.2
糖果 0.1.3 config解析器 5.2.0 contourpy 1.0.5
密码系统 39.0.1 骑行者 0.11.0 cymem 2.0.8
Cython 0.29.32 英安岩 1.8.1 databricks-automl-runtime 0.2.20
databricks-cli 0.18.0 Databricks-特征工程 0.1.2 Databricks特征商店 0.16.1
Databricks软件开发工具包 (databricks-sdk) 0.1.6 dataclasses-json 0.6.1 数据集 2.14.5
dbl-tempo 0.1.26 dbu-python 1.2.18 debugpy 1.6.7
装饰师 5.1.1 deepspeed 0.11.1 defusedxml 0.7.1
莳萝 0.3.6 磁盘缓存 5.6.3 distlib 0.3.7
从文档字符串到Markdown 0.11 入口点 0.4 评估 0.4.1
正在执行 0.8.3 各个方面概述 1.1.1 fastjsonschema 2.18.1
fasttext 0.9.2 文件锁 (filelock) 3.9.0 烧瓶 2.2.5
FlatBuffers 23年5月26日 fonttools(字体工具) 4.25.0 frozenlist 1.4.0
fsspec 2023.6.0 未来 0.18.3 加斯特 0.4.0
gitdb (Git数据库) 4.0.11 GitPython 3.1.27 google-api-core 2.12.0
google-auth (谷歌身份验证) 2.21.0 google-auth-oauthlib 1.0.0 google-cloud-core (Google云核心) 2.3.3
谷歌云存储 (Google Cloud Storage) 2.11.0 google-crc32c 1.5.0 google-pasta 0.2.0
google-resumable-media(谷歌可恢复媒体) 2.6.0 googleapis-common-protos 1.61.0 绿地 2.0.1
grpcio 1.48.2 grpcio-status 1.48.1 gunicorn 20.1.0
gviz-api 1.10.0 h5py 3.7.0 hjson 3.1.0
假期 0.35 霍罗沃德 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 huggingface-hub(哈根脸社区平台) 0.16.4 IDNA 3.4
ImageHash 4.3.1 imbalanced-learn 0.11.0 importlib-metadata 4.11.3
importlib-resources 6.1.0 ipykernel 6.25.0 ipython 8.14.0
ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.7.2 isodate 0.6.1
它很危险 2.0.1 jedi 0.18.1 吉普尼 0.7.1
Jinja2 3.1.2 jmespath 0.10.0 joblib 1.2.0
joblibspark 0.5.1 JSON补丁 1.33 jsonpointer 2.4
jsonschema 4.17.3 Jupyter客户端 7.3.4 Jupyter 服务器 1.23.4
jupyter_core(Jupyter核心) 5.2.0 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.14.0 钥匙圈 23.5.0 kiwisolver 1.4.4
langchain 0.0.314 语言代码 3.3.0 langsmith 0.0.56
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
lazy_loader 0.3 libclang 15.0.6.1 librosa 0.10.1
lightgbm 4.1.0 LLVMlite 0.39.1 lxml 4.9.1
Mako 1.2.0 Markdown 3.4.1 MarkupSafe 2.1.1
棉花糖 3.20.1 matplotlib 3.7.0 matplotlib-inline 0.1.6
麦卡贝 0.7.0 mistune 0.8.4 ml-dtypes 0.2.0
mlflow-skinny 2.8.0 more-itertools 8.10.0 mpmath 1.2.1
msgpack 1.0.7 多重字典 6.0.4 多方法 1.10
多进程 0.70.14 murmurhash 1.0.10 mypy-extensions 0.4.3
nbclassic 0.5.2 nbclient 0.5.13 nbconvert 6.5.4
nbformat 5.7.0 nest-asyncio 1.5.6 NetworkX 2.8.4
忍者 1.11.1.1 nltk 3.7 nodeenv 1.8.0
笔记本 6.5.2 notebook_shim 0.2.2 麻木 0.56.4
numpy 1.23.5 oauthlib 3.2.0 openai 0.28.1
opt-einsum 3.3.0 打包 22.0 熊猫 1.5.3
pandocfilters 1.5.0 paramiko 2.9.2 帕尔索 0.8.3
pathspec 0.10.3 pathy 0.10.3 替罪羊 0.5.3
petastorm 0.12.1 pexpect 4.8.0 Φ系数 0.12.3
pickleshare 0.7.5 枕头 9.4.0 果仁 22.3.1
platformdirs 2.5.2 plotly 5.9.0 Pluggy (Python库) 1.0.0
pmdarima 2.0.3 狗狗 1.4.0 preshed 3.0.9
prometheus-client 0.14.1 prompt-toolkit 3.0.36 先知 1.1.5
protobuf 4.24.0 psutil 5.9.0 psycopg2 2.9.3
ptyprocess 0.7.0 pure-eval 0.2.2 py-cpuinfo 9.0.0
pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.11.1 Python代码解析器 2.21 pydantic 1.10.6
pyflakes 3.1.0 Pygments 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyNaCl 1.5.0 pyodbc 4.0.32
pyparsing 3.0.9 pyright 1.1.294 pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0
pytesseract 0.3.10 python-dateutil 2.8.2 Python代码编辑器 1.0.4
python-lsp-jsonrpc 1.1.1 python-lsp-server 1.8.0 pytoolconfig 1.2.5
pytz 2022年7月 PyWavelets 1.4.1 PyYAML 6.0
pyzmq 23.2.0 正则表达式 2022.7.9 请求 2.28.1
requests-oauthlib 1.3.1 回应 0.18.0 绳子 1.7.0
rsa 4.9 s3transfer 0.6.2 safetensors 0.4.0
scikit-learn 1.1.1 scipy 1.10.0 seaborn 0.12.2
SecretStorage 3.3.1 Send2Trash 1.8.0 sentence-transformers (句子转换器) 2.2.2
sentencepiece 0.1.99 setuptools 65.6.3 沙普 0.43.0
simplejson 3.17.6 6 1.16.0 切片机 0.0.7
smart-open 5.2.1 smmap 5.0.0 思尼菲欧 1.2.0
音频文件 0.12.1 汤滤器 2.3.2.post1 soxr 0.3.7
spacy 3.7.1 spacy-legacy 3.0.12 spacy-loggers 1.0.5
spark-tensorflow-distributor 1.0.0 SQLAlchemy 1.4.39 sqlparse 0.4.2
srsly 2.4.8 ssh-import-id 5.11 堆栈数据 0.2.0
斯塔尼奥 0.3.0 statsmodels 0.13.5 sympy 1.11.1
制表 0.8.10 tangled -up-in-unicode 0.2.0 毅力 8.1.0
TensorBoard 2.14.0 TensorBoard数据服务器 0.7.2 tensorboard-profile插件 2.14.0
tensorflow-cpu 2.14.0 tensorflow-estimator 2.14.0 tensorflow-io-gcs-filesystem 0.34.0
termcolor 2.3.0 完成 0.17.1 thinc 8.2.1
threadpoolctl 2.2.0 tiktoken 0.5.1 tinycss2 1.2.1
tokenize-rt 4.2.1 分词器 0.14.0 tomli 2.0.1
火炬 2.0.1+cpu 炬视讯 0.15.2+cpu 龙卷风 6.1
tqdm 4.64.1 Traitlets 5.7.1 变压器 4.34.0
typeguard 2.13.3 打字员 0.9.0 输入检查 0.9.0
输入扩展 (typing_extensions) 4.4.0 ujson 5.4.0 无人参与升级 0.1
urllib3 1.26.14 virtualenv 20.16.7 愿景 0.7.5
wadllib 1.3.6 山葵 1.1.2 wcwidth 0.2.5
黄鼠狼 0.3.3 Web编码 0.5.1 WebSocket客户端 0.58.0
Werkzeug 2.2.2 whatthepatch 1.0.2 轮子 0.38.4
widgetsnbextension 3.6.1 wordcloud 1.9.2 裹住 1.14.1
XGBoost 1.7.6 xxhash 3.4.1 yapf 0.33.0
雅尔 1.9.2 ydata-profiling 4.2.0 齐普 3.11.0

GPU 群集上的 Python 库

版本 版本 版本
ABSL-PY 系列 1.0.0 加速 0.23.0 aiohttp 3.8.6
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 阿斯托尔 0.8.1
asttokens 2.0.5 astunparse 1.6.3 异步-超时 4.0.3
属性 22.1.0 audioread 3.0.1 azure-core 1.29.1
azure-cosmos 4.3.1 azure-storage-blob 12.18.3 Azure存储文件数据湖 12.13.2
回调 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
黑色 22.6.0 漂白剂 4.1.0 闪烁器 1.4
布利斯 0.7.11 boto3 1.24.28 botocore 1.27.96
cachetools (缓存工具) 5.3.2 目录 2.0.10 类别编码器 2.6.2
certifi 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer (字符集正常化工具) 2.0.4 单击 8.0.4 cloudpathlib 0.16.0
cloudpickle 2.0.0 cmake 3.27.7 cmdstanpy 1.2.0
通讯 0.1.2 糖果 0.1.3 config解析器 5.2.0
contourpy 1.0.5 密码系统 39.0.1 骑行者 0.11.0
cymem 2.0.8 Cython 0.29.32 英安岩 1.8.1
databricks-automl-runtime 0.2.20 databricks-cli 0.18.0 Databricks-特征工程 0.1.2
Databricks特征商店 0.16.1 Databricks软件开发工具包 (databricks-sdk) 0.1.6 dataclasses-json 0.6.1
数据集 2.14.5 dbl-tempo 0.1.26 dbu-python 1.2.18
debugpy 1.6.7 装饰师 5.1.1 deepspeed 0.11.1
defusedxml 0.7.1 莳萝 0.3.6 磁盘缓存 5.6.3
distlib 0.3.7 从文档字符串到Markdown 0.11 einops 0.7.0
入口点 0.4 评估 0.4.1 正在执行 0.8.3
各个方面概述 1.1.1 fastjsonschema 2.18.1 fasttext 0.9.2
文件锁 (filelock) 3.9.0 flash-attn 2.3.2 烧瓶 2.2.5
FlatBuffers 23年5月26日 fonttools(字体工具) 4.25.0 frozenlist 1.4.0
fsspec 2023.6.0 未来 0.18.3 加斯特 0.4.0
gitdb (Git数据库) 4.0.11 GitPython 3.1.27 google-api-core 2.12.0
google-auth (谷歌身份验证) 2.21.0 google-auth-oauthlib 1.0.0 google-cloud-core (Google云核心) 2.3.3
谷歌云存储 (Google Cloud Storage) 2.11.0 google-crc32c 1.5.0 google-pasta 0.2.0
google-resumable-media(谷歌可恢复媒体) 2.6.0 googleapis-common-protos 1.61.0 绿地 2.0.1
grpcio 1.48.2 grpcio-status 1.48.1 gunicorn 20.1.0
gviz-api 1.10.0 h5py 3.7.0 hjson 3.1.0
假期 0.35 霍罗沃德 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 huggingface-hub(哈根脸社区平台) 0.16.4 IDNA 3.4
ImageHash 4.3.1 imbalanced-learn 0.11.0 importlib-metadata 4.11.3
importlib-resources 6.1.0 ipykernel 6.25.0 ipython 8.14.0
ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.7.2 isodate 0.6.1
它很危险 2.0.1 jedi 0.18.1 吉普尼 0.7.1
Jinja2 3.1.2 jmespath 0.10.0 joblib 1.2.0
joblibspark 0.5.1 JSON补丁 1.33 jsonpointer 2.4
jsonschema 4.17.3 Jupyter客户端 7.3.4 Jupyter 服务器 1.23.4
jupyter_core(Jupyter核心) 5.2.0 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.14.0 钥匙圈 23.5.0 kiwisolver 1.4.4
langchain 0.0.314 语言代码 3.3.0 langsmith 0.0.56
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
lazy_loader 0.3 libclang 15.0.6.1 librosa 0.10.1
lightgbm 4.1.0 点燃 17.0.4 LLVMlite 0.39.1
lxml 4.9.1 Mako 1.2.0 Markdown 3.4.1
MarkupSafe 2.1.1 棉花糖 3.20.1 matplotlib 3.7.0
matplotlib-inline 0.1.6 麦卡贝 0.7.0 mistune 0.8.4
ml-dtypes 0.2.0 mlflow-skinny 2.8.0 more-itertools 8.10.0
mpmath 1.2.1 msgpack 1.0.7 多重字典 6.0.4
多方法 1.10 多进程 0.70.14 murmurhash 1.0.10
mypy-extensions 0.4.3 nbclassic 0.5.2 nbclient 0.5.13
nbconvert 6.5.4 nbformat 5.7.0 nest-asyncio 1.5.6
NetworkX 2.8.4 忍者 1.11.1.1 nltk 3.7
nodeenv 1.8.0 笔记本 6.5.2 notebook_shim 0.2.2
麻木 0.56.4 numpy 1.23.5 oauthlib 3.2.0
openai 0.28.1 opt-einsum 3.3.0 打包 22.0
熊猫 1.5.3 pandocfilters 1.5.0 paramiko 2.9.2
帕尔索 0.8.3 pathspec 0.10.3 pathy 0.10.3
替罪羊 0.5.3 petastorm 0.12.1 pexpect 4.8.0
Φ系数 0.12.3 pickleshare 0.7.5 枕头 9.4.0
果仁 22.3.1 platformdirs 2.5.2 plotly 5.9.0
Pluggy (Python库) 1.0.0 pmdarima 2.0.3 狗狗 1.4.0
preshed 3.0.9 prompt-toolkit 3.0.36 先知 1.1.5
protobuf 4.24.0 psutil 5.9.0 psycopg2 2.9.3
ptyprocess 0.7.0 pure-eval 0.2.2 py-cpuinfo 9.0.0
pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.11.1 Python代码解析器 2.21 pydantic 1.10.6
pyflakes 3.1.0 Pygments 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyNaCl 1.5.0 pyodbc 4.0.32
pyparsing 3.0.9 pyright 1.1.294 pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0
pytesseract 0.3.10 python-dateutil 2.8.2 Python代码编辑器 1.0.4
python-lsp-jsonrpc 1.1.1 python-lsp-server 1.8.0 pytoolconfig 1.2.5
pytz 2022年7月 PyWavelets 1.4.1 PyYAML 6.0
pyzmq 23.2.0 正则表达式 2022.7.9 请求 2.28.1
requests-oauthlib 1.3.1 回应 0.18.0 绳子 1.7.0
rsa 4.9 s3transfer 0.6.2 safetensors 0.4.0
scikit-learn 1.1.1 scipy 1.10.0 seaborn 0.12.2
SecretStorage 3.3.1 Send2Trash 1.8.0 sentence-transformers (句子转换器) 2.2.2
sentencepiece 0.1.99 setuptools 65.6.3 沙普 0.43.0
simplejson 3.17.6 6 1.16.0 切片机 0.0.7
smart-open 5.2.1 smmap 5.0.0 思尼菲欧 1.2.0
音频文件 0.12.1 汤滤器 2.3.2.post1 soxr 0.3.7
spacy 3.7.1 spacy-legacy 3.0.12 spacy-loggers 1.0.5
spark-tensorflow-distributor 1.0.0 SQLAlchemy 1.4.39 sqlparse 0.4.2
srsly 2.4.8 ssh-import-id 5.11 堆栈数据 0.2.0
斯塔尼奥 0.3.0 statsmodels 0.13.5 sympy 1.11.1
制表 0.8.10 tangled -up-in-unicode 0.2.0 毅力 8.1.0
TensorBoard 2.14.0 TensorBoard数据服务器 0.7.2 tensorboard-profile插件 2.14.0
TensorFlow 2.14.0 tensorflow-estimator 2.14.0 tensorflow-io-gcs-filesystem 0.34.0
termcolor 2.3.0 完成 0.17.1 thinc 8.2.1
threadpoolctl 2.2.0 tiktoken 0.5.1 tinycss2 1.2.1
tokenize-rt 4.2.1 分词器 0.14.0 tomli 2.0.1
火炬 2.0.1+cu118 炬视讯 0.15.2+cu118 龙卷风 6.1
tqdm 4.64.1 Traitlets 5.7.1 变压器 4.34.0
氚核 2.0.0 typeguard 2.13.3 打字员 0.9.0
输入检查 0.9.0 输入扩展 (typing_extensions) 4.4.0 ujson 5.4.0
无人参与升级 0.1 urllib3 1.26.14 virtualenv 20.16.7
愿景 0.7.5 wadllib 1.3.6 山葵 1.1.2
wcwidth 0.2.5 黄鼠狼 0.3.3 Web编码 0.5.1
WebSocket客户端 0.58.0 Werkzeug 2.2.2 whatthepatch 1.0.2
轮子 0.38.4 widgetsnbextension 3.6.1 wordcloud 1.9.2
裹住 1.14.1 XGBoost 1.7.6 xxhash 3.4.1
yapf 0.33.0 雅尔 1.9.2 ydata-profiling 4.2.0
齐普 3.11.0

R 库

R 库与 Databricks Runtime 14.2 中的 R 库完全相同。

Java 库和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 14.2 中的 Java 库和 Scala 库之外,Databricks Runtime 14.2 ML 还包含以下 JAR:

CPU 群集

组 ID 项目 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.8.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0

GPU 群集

组 ID 项目 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.8.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0