用于 ML 的 Databricks Runtime 10.0 (EoS)

注意

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅终止支持历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

用于机器学习的 Databricks Runtime 10.0 基于 Databricks Runtime 10.0 (EoS) 为机器学习和数据科学提供了随时可用的环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 它还支持使用 Horovod 进行分布式深度学习训练。

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新增功能和改进

Databricks Runtime 10.0 ML 基于 Databricks Runtime 10.0 构建。 有关 Databricks Runtime 10.0 中的新增功能(包括 Apache Spark MLlib 和 SparkR)的信息,请参阅 Databricks Runtime 10.0 (EoS) 发行说明。

通过 AutoML 进行时序预测

AutoML 现在支持时序预测。 有关详细信息,请参阅 AutoML 文档

Databricks Runtime ML Python 环境的主要更改

添加的 Python 包

  • databricks-automl-runtime 0.1.0
  • imbalanced-learn 0.8.0
  • transformers 4.9.2

系统环境

我们已将随附的 RStudio Server 开源版本更新到了 v1.4。

Databricks Runtime 10.0 ML 中的系统环境在以下方面不同于 Databricks Runtime 10.0:

以下部分列出了 Databricks Runtime 10.0 ML 中包含的库,这些库不同于 Databricks Runtime 10.0 中包含的库。

本节内容:

顶层库

Databricks Runtime 10.0 ML 包含以下顶层

Python 库

Databricks Runtime 10.0 ML 使用 Virtualenv 进行 Python 包管理,并且包含许多常用的 ML 包。

除了在以下部分中指定的包,Databricks Runtime 10.0 ML 还包含以下包:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db3
  • feature_store 0.3.4
  • automl 1.3.1

CPU 群集上的 Python 库

版本 版本 版本
ABSL-PY 系列 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 阿斯托尔 0.8.1 astunparse 1.6.3
异步生成器 1.10 属性 20.3.0 回调 0.2.0
bcrypt 3.2.0 漂白剂 3.3.0 布利斯 0.7.4
boto3 1.16.7 botocore 1.19.7 瓶颈 1.3.2
cachetools (缓存工具) 4.2.2 目录 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 5.0
单击 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
config解析器 5.0.1 convertdate 2.3.2 密码系统 3.4.7
骑行者 0.10.0 cymem 2.0.5 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbu-python 1.2.16
装饰师 5.0.6 defusedxml 0.7.1 莳萝 0.3.2
磁盘缓存 5.2.1 distlib 0.3.2 发行版信息 0.23ubuntu1
入口点 0.3 伊菲姆 4.0.0.2 各个方面概述 1.0.0
文件锁 (filelock) 3.0.12 烧瓶 1.1.2 FlatBuffers 1.12
fsspec 0.9.0 未来 0.18.2 加斯特 0.4.0
gitdb (Git数据库) 4.0.7 GitPython 3.1.12 google-auth (谷歌身份验证) 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
假期 0.11.2 霍罗沃德 0.22.1 htmlmin 0.1.12
huggingface-hub(哈根脸社区平台) 0.0.12 IDNA 2.10 ImageHash 4.2.1
imbalanced-learn 0.8.0 importlib-metadata 3.10.0 ipykernel 5.3.4
ipython 7.22.0 ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.6.3
isodate 0.6.0 它很危险 1.1.0 jedi 0.17.2
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.0.1
joblibspark 0.3.0 jsonschema 3.2.0 Jupyter客户端 6.1.12
jupyter-core 4.7.1 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.6.0 Keras-Preprocessing 1.1.2 kiwisolver 1.3.1
考拉 1.8.1 韩国农历 0.2.1 lightgbm 3.1.1
LLVMlite 0.37.0 农历 0.0.9 Mako 1.1.3
Markdown 3.3.3 MarkupSafe 1.1.1 matplotlib 3.4.2
缺失号 0.5.0 mistune 0.8.4 mleap 0.17.0
mlflow-skinny 1.20.2 多方法 1.4 murmurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 NetworkX 2.5 nltk 3.6.1
笔记本 6.3.0 麻木 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 打包 20.9
熊猫 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 帕尔索 0.7.0 pathy 0.6.0
替罪羊 0.5.1 petastorm 0.11.2 pexpect 4.8.0
Φ系数 0.12.0 pickleshare 0.7.5 枕头 8.2.0
果仁 21.0.1 plotly 5.1.0 preshed 3.0.5
prometheus-client 0.10.1 prompt-toolkit 3.0.17 先知 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 Python代码解析器 2.20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent(持久性,类似于 persistent 的 Python 包) 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 Python代码编辑器 1.0.4 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
正则表达式 2021.4.4 请求 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 rsa 4.7.2 s3transfer 0.3.7
sacremoses 0.0.45 scikit-learn 0.24.1 scipy 1.6.2
seaborn 0.11.1 Send2Trash 1.5.0 setuptools 52.0.0
setuptools-git 1.2 沙普 0.39.0 simplejson 3.17.2
6 1.15.0 切片机 0.0.7 smart-open 5.2.0
smmap 3.0.5 spacy 3.1.2 spacy-legacy 3.0.8
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 制表 0.8.7
tangled -up-in-unicode 0.1.0 毅力 6.2.0 TensorBoard 2.6.0
TensorBoard数据服务器 0.6.1 tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0
tensorflow-estimator 2.6.0 termcolor 1.1.0 完成 0.9.4
测试路径 0.4.4 thinc 8.0.8 threadpoolctl 2.1.0
分词器 0.10.3 火炬 1.9.0+cpu 炬视讯 0.10.0+cpu
龙卷风 6.1 tqdm 4.59.0 Traitlets 5.0.5
变压器 4.9.2 打字员 0.3.2 打字扩展 3.7.4.3
ujson 4.0.2 无人参与升级 0.1 urllib3 1.25.11
virtualenv 20.4.1 愿景 0.7.1 山葵 0.8.2
wcwidth 0.2.5 Web编码 0.5.1 WebSocket客户端 0.57.0
Werkzeug 1.0.1 轮子 0.36.2 widgetsnbextension 3.5.1
裹住 1.12.1 XGBoost 1.4.2 齐普 3.4.1

GPU 群集上的 Python 库

版本 版本 版本
ABSL-PY 系列 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 阿斯托尔 0.8.1 astunparse 1.6.3
异步生成器 1.10 属性 20.3.0 回调 0.2.0
bcrypt 3.2.0 漂白剂 3.3.0 布利斯 0.7.4
boto3 1.16.7 botocore 1.19.7 瓶颈 1.3.2
cachetools (缓存工具) 4.2.2 目录 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 5.0
单击 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
config解析器 5.0.1 convertdate 2.3.2 密码系统 3.4.7
骑行者 0.10.0 cymem 2.0.5 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbu-python 1.2.16
装饰师 5.0.6 defusedxml 0.7.1 莳萝 0.3.2
磁盘缓存 5.2.1 distlib 0.3.2 发行版信息 0.23ubuntu1
入口点 0.3 伊菲姆 4.0.0.2 各个方面概述 1.0.0
文件锁 (filelock) 3.0.12 烧瓶 1.1.2 FlatBuffers 1.12
fsspec 0.9.0 未来 0.18.2 加斯特 0.4.0
gitdb (Git数据库) 4.0.7 GitPython 3.1.12 google-auth (谷歌身份验证) 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
假期 0.11.2 霍罗沃德 0.22.1 htmlmin 0.1.12
huggingface-hub(哈根脸社区平台) 0.0.12 IDNA 2.10 ImageHash 4.2.1
imbalanced-learn 0.8.0 importlib-metadata 3.10.0 ipykernel 5.3.4
ipython 7.22.0 ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.6.3
isodate 0.6.0 它很危险 1.1.0 jedi 0.17.2
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.0.1
joblibspark 0.3.0 jsonschema 3.2.0 Jupyter客户端 6.1.12
jupyter-core 4.7.1 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.6.0 Keras-Preprocessing 1.1.2 kiwisolver 1.3.1
考拉 1.8.1 韩国农历 0.2.1 lightgbm 3.1.1
LLVMlite 0.37.0 农历 0.0.9 Mako 1.1.3
Markdown 3.3.3 MarkupSafe 1.1.1 matplotlib 3.4.2
缺失号 0.5.0 mistune 0.8.4 mleap 0.17.0
mlflow-skinny 1.20.2 多方法 1.4 murmurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 NetworkX 2.5 nltk 3.6.1
笔记本 6.3.0 麻木 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 打包 20.9
熊猫 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 帕尔索 0.7.0 pathy 0.6.0
替罪羊 0.5.1 petastorm 0.11.2 pexpect 4.8.0
Φ系数 0.12.0 pickleshare 0.7.5 枕头 8.2.0
果仁 21.0.1 plotly 5.1.0 preshed 3.0.5
prompt-toolkit 3.0.17 先知 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
Python代码解析器 2.20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.3.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent(持久性,类似于 persistent 的 Python 包) 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
Python代码编辑器 1.0.4 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 正则表达式 2021.4.4
请求 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.45
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
沙普 0.39.0 simplejson 3.17.2 6 1.15.0
切片机 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.1.2 spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 制表 0.8.7 tangled -up-in-unicode 0.1.0
毅力 6.2.0 TensorBoard 2.6.0 TensorBoard数据服务器 0.6.1
tensorboard-plugin-wit 1.8.0 TensorFlow 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 完成 0.9.4 测试路径 0.4.4
thinc 8.0.8 threadpoolctl 2.1.0 分词器 0.10.3
火炬 1.9.0+cu111 炬视讯 0.10.0+cu111 龙卷风 6.1
tqdm 4.59.0 Traitlets 5.0.5 变压器 4.9.2
打字员 0.3.2 打字扩展 3.7.4.3 ujson 4.0.2
无人参与升级 0.1 urllib3 1.25.11 virtualenv 20.4.1
愿景 0.7.1 山葵 0.8.2 wcwidth 0.2.5
Web编码 0.5.1 WebSocket客户端 0.57.0 Werkzeug 1.0.1
轮子 0.36.2 widgetsnbextension 3.5.1 裹住 1.12.1
XGBoost 1.4.2 齐普 3.4.1

包含 Python 模块的 Spark 包

Spark 包 Python 模块 版本
graphframes graphframes 0.8.1-db6-spark3.2

R 库

R 库与 Databricks Runtime 10.0 中的 R 库完全相同。

Java 库和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 10.0 中的 Java 库和 Scala 库,Databricks Runtime 10.0 ML 还包含以下 JAR:

CPU 群集

组 ID 项目 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0

GPU 群集

组 ID 项目 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0