Databricks Runtime 17.0 (Beta)

重要

Databricks Runtime 17.0 处于 Beta 阶段。 在 Beta 版期间,支持的环境的内容可能会更改。 更改可能包括包列表或已安装包的版本列表。

以下发行说明提供有关由 Apache Spark 4.0.0 提供支持的 Databricks Runtime 17.0 (Beta 版)的信息。

Databricks 于 2025 年 5 月发布了此 beta 版本。

小窍门

若要查看已终止支持 (EoS) 的 Databricks Runtime 版本的发行说明,请参阅终止支持 Databricks Runtime 发行说明。 EoS Databricks Runtime 版本已停用,可能不会更新。

DBR 17.0 (Beta) 新增特性和更新特性

SQL 过程支持

SQL 脚本现在可以被封装在 Unity Catalog 中的存储过程,作为可重用的资产。 可以使用 CREATE PROCEDURE 命令创建过程,然后使用 CALL 命令调用过程。

为 SQL Functions 设置默认排序规则

在命令中使用DEFAULT COLLATIONCREATE FUNCTION子句定义用于STRING参数、返回类型和STRING函数正文中的文本的默认排序规则。

递归通用表表达式 (rCTE) 支持

Azure Databricks 现在支持使用 递归通用表表达式(rCTE)导航分层数据。 使用自引用 CTE UNION ALL 来遵循递归关系。

默认情况下已启用 ANSI SQL

默认 SQL 方言现在是 ANSI SQL。 ANSI SQL 是一个完善的标准,可帮助保护用户免受意外或不正确结果的影响。 有关详细信息,请阅读 Databricks ANSI 启用指南

PySpark 和 Spark Connect 现在支持 DataFrames df.mergeInto API

PySpark 和 Spark Connect 现在支持 df.mergeInto API,该 API 以前仅适用于 Scala。

ALL CATALOGS SCHEMAS 中支持SHOW

SHOW SCHEMAS 语法已更新,现在接受以下语法:

SHOW SCHEMAS [ { FROM | IN } { catalog_name | ALL CATALOGS } ] [ [ LIKE ] pattern ]

在查询中指定ALL CATALOGS时,执行将循环访问所有支持命名空间且使用目录管理器(DsV2)的活动目录SHOW。 对于每个目录,其中包含顶级命名空间。

已对命令的输出属性和架构进行了修改,添加了一列,用于指示 catalog 对应命名空间的目录。 新列将添加到输出属性的末尾,如下所示:

上一个输出

| Namespace        |
|------------------|
| test-namespace-1 |
| test-namespace-2 |

新输出

| Namespace        | Catalog        |
|------------------|----------------|
| test-namespace-1 | test-catalog-1 |
| test-namespace-2 | test-catalog-2 |

液体聚类分析现在更高效地压缩删除矢量

OPTIMIZE 运行时,使用 Liquid 聚类的 Delta 表现在能够更有效地应用删除向量的物理更改。 有关详细信息,请参阅 对 Parquet 数据文件应用更改

允许在UPDATE操作的/INSERTMERGE列值中使用非确定性表达式

Azure Databricks 现在允许在MERGE操作的更新和插入列值中使用非确定性表达式。 但是,不支持语句条件 MERGE 中的非确定性表达式。

例如,现在可以为列生成动态值或随机值:

MERGE INTO target USING source
ON target.key = source.key
WHEN MATCHED THEN UPDATE SET target.value = source.value + rand()

这可以帮助数据隐私模糊化实际数据,同时保留数据属性(如平均值值或其他计算列)。

忽略并拯救自动加载程序引入的空结构(尤其是 Avro)

自动加载程序现在能够处理具有空架构的 Avro 数据类型,因为 Delta 表不支持加载空struct类型的数据。

更改 Delta MERGE Python 和 Scala API 以返回 DataFrame 而不是 Unit

Scala 和 Python MERGE API(例如 DeltaMergeBuilder)现在也返回与 SQL API 一样的数据帧,结果相同。

行为变更

不再支持 DBFS 自定义 CA 证书

作为在 DBFS 根和 DBFS 装载中弃用数据存储的持续努力的一部分,Databricks Runtime 17.0 及更高版本不支持 DBFS 自定义 CA 证书。 有关使用文件的建议,请参阅 使用 Azure Databricks 上的文件

自动加载程序增量目录列表选项的行为变化

弃用的自动加载程序 cloudFiles.useIncrementalListing 选项的值现在设置为默认值 false 。 因此,此更改会导致自动加载器在每次运行时执行完整的目录列表。 以前,选项的 cloudFiles.useIncrementalListing 默认值是 auto,指示自动加载程序尽最大努力检测是否可以将增量列表与目录一起使用。

Databricks 不建议使用此选项。 而是将 文件通知模式与文件事件一起使用。 如果想要继续使用增量列表功能,请在代码中设置为cloudFiles.useIncrementalListingauto。 将此值 auto设置为时,自动加载程序会尽力尝试每七个增量列表执行一次完整列表,这与此选项在更改之前的行为匹配。

若要了解有关自动加载程序目录列表的详细信息,请参阅 具有目录列表模式的自动加载程序流

删除了 Spark UI 中的“真实缓存未命中”部分

此更改取消了对“缓存真正未命中大小”指标(适用于压缩缓存和未压缩缓存)的支持。 “缓存写入未命中”指标度量相同的信息。

使用numLocalScanTasks作为此指标的可行代理,以观察在将文件分配给正确的执行程序时缓存的性能。

删除了 Spark UI 中的“缓存元数据管理器峰值磁盘使用情况”指标

此更改从 Databricks Runtime 和 Spark UI 中删除对 cacheLocalityMgrDiskUsageInBytescacheLocalityMgrTimeMs 指标的支持。

删除了 Spark UI 中的“重新调度缓存未命中字节数”部分

从 DBR 中删除了缓存重新计划的未命中大小和缓存重新计划的未命中大小(未压缩)指标。 这样做是因为这会度量将文件分配给非首选执行程序时缓存的执行方式。 numNonLocalScanTasks 是此指标的良好代理。

CREATE VIEW 当子句仅适用于具体化视图时,列级子句现在将引发错误

CREATE VIEW 中指定了仅对特定 MATERIALIZED VIEWs 有效的列级子句的命令,现在会引发错误。 受影响的子句对于命令 CREATE VIEW 为:

  • NOT NULL
  • 指定的数据类型,例如 FLOATSTRING
  • DEFAULT
  • COLUMN MASK

图书馆升级

  • 升级后的 Python 库

    • azure-core 从 1.31.0 更新到 1.34.0
    • 黑色从 24.4.2 到 24.10.0
    • boto3 从 1.34.69 到 1.36.2
    • botocore 从 1.34.69 到 1.36.3
    • cachetools 从 5.3.3 到 5.5.1
    • certifi 从2024年6月2日到2025年1月31日
    • cffi 从 1.16.0 到 1.17.1
    • charset-normalizer 从 2.0.4 到 3.3.2
    • cloudpickle 从 2.2.1 到 3.0.0
    • 将 contourpy 从 1.2.0 升级到 1.3.1
    • 加密从 42.0.5 到 43.0.3
    • Cython 从 3.0.11 到 3.0.12
    • databricks-sdk 从 0.30.0 到 0.49.0
    • debugpy 从 1.6.7 到 1.8.11
    • 已在 1.2.13 到 1.2.14 版本中弃用
    • distlib 从 0.3.8 升级到 0.3.9
    • filelock 从 3.15.4 到 3.18.0
    • fonttools 从 4.51.0 到 4.55.3
    • GitPython 从 3.1.37 到 3.1.43
    • google-auth 从 2.35.0 到 2.40.0
    • google-cloud-core 从 2.4.1 到 2.4.3
    • google-cloud-storage 从 2.18.2 到 3.1.0
    • google-crc32c 从 1.6.0 到 1.7.1
    • grpcio 从 1.60.0 到 1.67.0
    • grpcio-status 从 1.60.0 到 1.67.0
    • importlib-metadata 从 6.0.0 到 6.6.0
    • 将 ipyflow-core 从 0.0.201 更新到 0.0.209
    • ipykernel 从 6.28.0 到 6.29.5
    • ipython 从 8.25.0 到 8.30.0
    • ipywidgets 从 7.7.2 到 7.8.1
    • jedi 从 0.19.1 到 0.19.2
    • jupyter_client 从 8.6.0 到 8.6.3
    • kiwisolver 从 1.4.4 到 1.4.8
    • matplotlib 从 3.8.4 到 3.10.0
    • matplotlib-inline 从 0.1.6 到 0.1.7
    • mlflow-skinny 版本从 2.19.0 更新到 2.22.0
    • numpy 从 1.26.4 到 2.1.3
    • opentelemetry-api 从 1.27.0 到 1.32.1
    • opentelemetry-sdk 从 1.27.0 到 1.32.1
    • opentelemetry-semantic-conventions,从 0.48b0 到 0.53b1
    • pandas 从 1.5.3 到 2.2.3
    • parso 从 0.8.3 升级到 0.8.4
    • patsy 从 0.5.6 到 1.0.1
    • 枕头从 10.3.0 到 11.1.0
    • 将 Plotly 从 5.22.0 升级到 5.24.1
    • pluggy 从 1.0.0 更新到 1.5.0
    • proto-plus 从 1.24.0 到 1.26.1
    • protobuf 从 4.24.1 到 5.29.4
    • pyarrow版本从15.0.2更新到19.0.1
    • pyccolo 从 0.0.65 到 0.0.71
    • pydantic 从版本 2.8.2 到版本 2.10.6
    • pydantic_core 2.20.1 到 2.27.2
    • PyJWT 从 2.7.0 到 2.10.1
    • pyodbc 从 5.0.1 到 5.2.0
    • pyparsing 从 3.0.9 到 3.2.0
    • pyright 从 1.1.294 到 1.1.394
    • python-lsp-server 从 1.10.0 到 1.12.0
    • PyYAML 从 6.0.1 到 6.0.2
    • pyzmq 从 25.1.2 到 26.2.0
    • 从 2.32.2 请求到 2.32.3
    • rsa 从 4.9 到 4.9.1
    • s3transfer 版本从 0.10.2 升级到 0.11.3
    • scikit-learn 从 1.4.2 到 1.6.1
    • scipy 从 1.13.1 到 1.15.1
    • sqlparse 从 0.5.1 到 0.5.3
    • statsmodels 从 0.14.2 到 0.14.4
    • 从 8.2.2 到 9.0.0 的顽强性
    • threadpoolctl 从 2.2.0 到 3.5.0
    • 龙卷风从 6.4.1 到 6.4.2
    • typing_extensions从版本 4.11.0 升级到 4.12.2
    • urllib3 从 1.26.16 到 2.3.0
    • virtualenv 从 20.26.2 到 20.29.3
    • wheel 从 0.43.0 到 0.45.1
    • wrapt 从 1.14.1 更新到 1.17.0
    • yapf 从 0.33.0 到 0.40.2
    • zipp 从 3.17.0 到 3.21.0
  • 升级后的 R 库

    • 箭头从 16.1.0 到 19.0.1
    • askpass 从 1.2.0 到 1.2.1
    • base 从“4.4.0”到“4.4.2”
    • bigD 从 0.2.0 到 0.3.0
    • bit 从 4.0.5 到 4.6.0
    • bit64 从 4.0.5 到 4.6.0-1
    • bitops 从 1.0-8 到 1.0-9
    • 将 broom 从 1.0.6 升级到 1.0.7
    • bslib 从 0.8.0 升级到 0.9.0
    • 插入版本从 6.0-94 更新到 7.0-1
    • chron 从 2.3-61 到 2.3-62
    • CLI 从 3.6.3 到 3.6.4
    • 从 0.7.1 到 0.7.2 的时钟
    • commonmark 从 1.9.1 到 1.9.5
    • 编译器从 4.4.0 到 4.4.2
    • cpp11 从 0.4.7 到 0.5.2
    • 凭据从 2.0.1 到 2.0.2
    • curl 从 5.2.1 到 6.2.1
    • data.table版本从1.15.4更新至1.17.0
    • 从 4.4.0 到 4.4.2 的数据集
    • 摘要,从 0.6.36 到 0.6.37
    • e1071 从 1.7-14 到 1.7-16
    • 从 0.24.0 评估到 1.0.3
    • fontawesome 从 0.5.2 到 0.5.3
    • fs 从 1.6.4 到 1.6.5
    • future.apply 从 1.11.2 到 1.11.3
    • gert 从 2.1.0 到 2.1.4
    • git2r 从 0.33.0 到 0.35.0
    • 粘附从 1.7.0 到 1.8.0
    • gower 从 1.0.1 到 1.0.2
    • 从 4.4.0 到 4.4.2 的图形
    • grDevices 从 4.4.0 到 4.4.2
    • 从 4.4.0 到 4.4.2 的网格
    • 从 0.11.0 到 0.11.1
    • 将 gtable 从 0.3.5 升级到 0.3.6
    • hardhat 从 1.4.0 到 1.4.1
    • httr2 从 1.0.2 到 1.1.1
    • 从 1.8.8 到 1.9.1 的 jsonlite
    • knitr 从 1.48 升级到 1.50
    • 稍后从版本 1.3.2 升级到版本 1.4.1
    • 熔岩从 1.8.0 到 1.8.1
    • lubridate 从 1.9.3 升级到 1.9.4
    • 方法从 4.4.0 到 4.4.2
    • mime 从 0.12 到 0.13
    • mlflow 从 2.14.1 到 2.20.4
    • nlme 从 3.1-165 到 3.1-164
    • openssl 从 2.2.0 到 2.3.2
    • 并行由 4.4.0 升级到 4.4.2
    • 并行从 1.38.0 到 1.42.0
    • 从 1.9.0 到 1.10.1 的支柱
    • pkgbuild 版本从 1.4.4 更新到 1.4.6
    • pkgdown 版本从 2.1.0 升级到 2.1.1
    • processx 从 3.8.4 到 3.8.6
    • profvis 从 0.3.8 到 0.4.0
    • progressr 从 0.14.0 升级到 0.15.1
    • 承诺从 1.3.0 到 1.3.2
    • ps 从 1.7.7 到 1.9.0
    • 将 purrr 从 1.0.2 升级到 1.0.4
    • R6 从 2.5.1 到 2.6.1
    • ragg版本从 1.3.2 到 1.3.3
    • randomForest 从 4.7-1.1 到 4.7-1.2
    • Rcpp 从 1.0.13 到 1.0.14
    • RcppEigen 从 0.3.4.0.0 到 0.3.4.0.2
    • reactR 从 0.6.0 到 0.6.1
    • readxl 从 1.4.3 到 1.4.5
    • 从 1.1.0 到 1.2.0 的食谱
    • rlang 从 1.1.4 到 1.1.5
    • rmarkdown 从 2.27 到 2.29
    • RODBC 从 1.3-23 到 1.3-26
    • Rserve 从 1.8-13 到 1.8-15
    • RSQLite 从 2.3.7 到 2.3.9
    • rstudioapi 从 0.16.0 到 0.17.1
    • sessioninfo版本从1.2.2更新到1.2.3
    • 将 shiny 从版本 1.9.1 更新到 1.10.0
    • sparklyr 从 1.8.6 到 1.9.0
    • 从 3.5.2 到 4.0.0 的 SparkR
    • 从 4.4.0 到 4.4.2 的样条曲线
    • 从 4.4.0 到 4.4.2 的统计信息
    • stats4 从 4.4.0 到 4.4.2
    • 从 3.6-4 到 3.5-8 的生存率变化
    • sys 从 3.4.2 到 3.4.3
    • 从 1.1.0 到 1.2.1 的 systemfonts
    • tcltk 从 4.4.0 到 4.4.2
    • testthat 从 3.2.1.1 到 3.2.3
    • 文本形状从 0.4.0 到 1.0.0
    • timeDate 从 4032.109 到 4041.110
    • tinytex 从 0.52 到 0.56
    • 工具从 4.4.0 到 4.4.2
    • tzdb 从 0.4.0 到 0.5.0
    • usethis 从 3.0.0 更新到 3.1.0
    • utils 从 4.4.0 升级到 4.4.2
    • V8 从 4.4.2 到 6.0.2
    • waldo 从 0.5.2 到 0.6.1
    • withr 从 3.0.1 到 3.0.2
    • xfun 从 0.46 到 0.51
    • xml2 从 1.3.6 到 1.3.8
    • zip 从 2.3.1 到 2.3.2
  • 升级后的 Java 库

    • com.clearspring.analytics.stream 从 2.9.6 到 2.9.8
    • com.esotericsoftware.kryo-shaded 从 4.0.2 到 4.0.3
    • com.fasterxml.classmate 从 1.3.4 到 1.5.1
    • com.fasterxml.jackson.core.jackson-annotations 从 2.15.2 到 2.18.2
    • com.fasterxml.jackson.core.jackson-core 从 2.15.2 到 2.18.2
    • com.fasterxml.jackson.core.jackson-databind 从 2.15.2 到 2.18.2
    • com.fasterxml.jackson.dataformat.jackson-dataformat-cbor 从 2.15.2 到 2.18.2
    • com.fasterxml.jackson.datatype.jackson-datatype-joda 从 2.15.2 到 2.18.2
    • com.fasterxml.jackson.datatype.jackson-datatype-jsr310 从 2.16.0 到 2.18.2
    • com.fasterxml.jackson.module.jackson-module-paranamer 从 2.15.2 到 2.18.2
    • com.github.luben.zstd-jni 从 1.5.5-4 到 1.5.6-10
    • com.google.code.gson.gson 从 2.10.1 到 2.11.0
    • com.google.crypto.tink.tink 从 1.9.0 到 1.16.0
    • com.google.errorprone.error_prone_annotations 从 2.10.0 到 2.36.0
    • com.google.flatbuffers.flatbuffers-java 从 23.5.26 到 24.3.25
    • com.google.guava.guava 从 15.0 到 33.4.0-jre
    • com.google.protobuf.protobuf-java 从 3.25.1 到 3.25.5
    • com.microsoft.azure.azure-data-lake-store-sdk 从 2.3.9 到 2.3.10
    • com.microsoft.sqlserver.mssql-jdbc 从 11.2.3.jre8 升级到 12.8.0.jre8
    • commons-cli.commons-cli 从 1.5.0 到 1.9.0
    • commons-codec.commons-codec 从 1.16.0 到 1.17.2
    • commons-io.commons-io 从 2.13.0 到 2.18.0
    • io.airlift.aircompressor 从 0.27 到 2.0.2
    • “io.dropwizard.metrics.metrics-annotation” 从 4.2.19 到 4.2.30
    • io.dropwizard.metrics.metrics-core 从 4.2.19 升级到 4.2.30
    • io.dropwizard.metrics.metrics-graphite 从 4.2.19 到 4.2.30
    • io.dropwizard.metrics.metrics-healthchecks 从版本 4.2.19 升级到 4.2.30
    • io.dropwizard.metrics.metrics-jetty9 从版本 4.2.19 升级到版本 4.2.30
    • 升级 io.dropwizard.metrics.metrics-jmx 从 4.2.19 到 4.2.30
    • io.dropwizard.metrics.metrics-json 从 4.2.19 到 4.2.30
    • io.dropwizard.metrics.metrics-jvm 版本从 4.2.19 更新至 4.2.30
    • io.dropwizard.metrics.metrics-servlets 从 4.2.19 到 4.2.30
    • io.netty.netty-all 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-buffer 从版本 4.1.108.Final 更新到 4.1.118.Final
    • io.netty.netty-codec 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-codec-http 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-codec-http2,从4.1.108.Final更新到4.1.118.Final
    • io.netty.netty-codec-socks 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-common,从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-handler 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-handler-proxy 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-resolver 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-tcnative-boringssl-static 从 2.0.61.Final-db-r16-windows-x86_64 到 2.0.70.Final-db-r0-windows-x86_64
    • io.netty.netty-tcnative-classes 从 2.0.61.Final 到 2.0.70.Final
    • io.netty.netty-transport 版本更新:从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-transport-classes-epoll 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-transport-classes-kqueue 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-transport-native-epoll 从 4.1.108.Final-linux-x86_64 到 4.1.118.Final-linux-x86_64
    • io.netty.netty-transport-native-kqueue 从 4.1.108.Final-osx-x86_64 到 4.1.118.Final-osx-x86_64
    • io.netty.netty-transport-native-unix-common 从 4.1.108.Final 到 4.1.118.Final
    • io.prometheus.jmx.collector 从 0.12.0 到 0.18.0
    • io.prometheus.simpleclient 从 0.7.0 到 0.16.1-databricks
    • io.prometheus.simpleclient_common 0.7.0 到 0.16.1-databricks
    • io.prometheus.simpleclient_dropwizard从 0.7.0 到 0.16.1-databricks
    • io.prometheus.simpleclient_pushgateway 0.7.0 到 0.16.1-databricks
    • io.prometheus.simpleclient_servlet从 0.7.0 到 0.16.1-databricks
    • joda-time.joda-time 从 2.12.1 到 2.13.0
    • net.razorvine.pickle 从 1.3 到 1.5
    • org.antlr.antlr4-runtime 从 4.9.3 到 4.13.1
    • org.apache.arrow.arrow-format 从 15.0.0 到 18.2.0
    • org.apache.arrow.arrow-memory-core 从 15.0.0 到 18.2.0
    • org.apache.arrow.arrow-memory-netty 从 15.0.0 到 18.2.0
    • org.apache.arrow.arrow-vector 从 15.0.0 到 18.2.0
    • org.apache.avro.avro 从 1.11.3 到 1.12.0
    • org.apache.avro.avro-ipc 从 1.11.3 到 1.12.0
    • org.apache.avro.avro-mapred 从 1.11.3 到 1.12.0
    • org.apache.commons.commons-compress 从 1.23.0 升级到 1.27.1
    • org.apache.commons.commons-lang3 从 3.12.0 到 3.17.0
    • org.apache.commons.commons-text 从 1.10.0 到 1.13.0
    • org.apache.curator.curator-client 从 2.13.0 到 5.7.1
    • org.apache.curator.curator-framework 从 2.13.0 到 5.7.1
    • org.apache.curator.curator-recipes 从 2.13.0 到 5.7.1
    • org.apache.datasketches.datasketches-java 从 3.1.0 到 6.1.1
    • org.apache.datasketches.datasketches-memory 从 2.0.0 升级到 3.0.2
    • org.apache.hadoop.hadoop-client-runtime 从 3.3.6 到 3.4.1
    • org.apache.hive.hive-beeline 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-cli 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-jdbc 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-llap-client 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-llap-common 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-serde 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-shims 从 2.3.9 到 2.3.10
    • org.apache.hive.shims.hive-shims-0.23 从 2.3.9 到 2.3.10
    • org.apache.hive.shims.hive-shims-common 从 2.3.9 到 2.3.10
    • org.apache.hive.shims.hive-shims-scheduler 从 2.3.9 到 2.3.10
    • org.apache.ivy.ivy,从 2.5.2 到 2.5.3
    • org.apache.logging.log4j.log4j-1.2-api 从 2.22.1 到 2.24.3
    • org.apache.logging.log4j.log4j-api 从 2.22.1 到 2.24.3
    • org.apache.logging.log4j.log4j-core 从 2.22.1 到 2.24.3
    • org.apache.logging.log4j.log4j-layout-template-json 从 2.22.1 到 2.24.3
    • org.apache.logging.log4j.log4j-slf4j2-impl 从 2.22.1 到 2.24.3
    • org.apache.orc.orc-core 从 1.9.2-shaded-protobuf 到 2.1.1-shaded-protobuf
    • org.apache.orc.orc-mapreduce 从 1.9.2-shaded-protobuf 到 2.1.1-shaded-protobuf
    • org.apache.orc.orc-shims 从 1.9.2 到 2.1.1
    • org.apache.thrift.libthrift 从 0.12.0 到 0.16.0
    • org.apache.ws.xmlschema.xmlschema-core 从 2.3.0 到 2.3.1
    • org.apache.xbean.xbean-asm9-shaded 从 4.23 到 4.26
    • org.apache.zookeeper.zookeeper,从 3.9.2 到 3.9.3
    • org.apache.zookeeper.zookeeper-jute 从 3.9.2 到 3.9.3
    • org.checkerframework.checker-qual 从 3.31.0 到 3.43.0
    • org.eclipse.jetty.jetty-client 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-continuation 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-http,从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-io 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-jndi 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-plus 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-proxy 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-security 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-server 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-servlet 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-servlets 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-util 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-util-ajax 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-webapp 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-xml 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.websocket.websocket-api 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.websocket.websocket-client 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.websocket.websocket-common,从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.websocket.websocket-server 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.websocket.websocket-servlet 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.glassfish.jersey.containers.jersey-container-servlet 从 2.40 到 2.41
    • org.glassfish.jersey.containers.jersey-container-servlet-core 从 2.40 到 2.41
    • org.glassfish.jersey.core.jersey-client 从 2.40 到 2.41
    • org.glassfish.jersey.core.jersey-common 从 2.40 到 2.41
    • org.glassfish.jersey.core.jersey-server 从 2.40 到 2.41
    • org.glassfish.jersey.inject.jersey-hk2 从2.40到2.41
    • org.hibernate.validator.hibernate-validator 从 6.1.7.Final 到 6.2.5.Final
    • org.jboss.logging.jboss-logging 从 3.3.2.Final 到 3.4.1.Final
    • org.objenesis.objenesis 从 2.5.1 到 3.3
    • org.roaringbitmap.RoaringBitmap 从 0.9.45-databricks 升级到 1.2.1
    • org.rocksdb.rocksdbjni 从 9.2.1 到 9.8.4
    • org.scalatest.scalatest-compatible 从 3.2.16 到 3.2.19
    • org.slf4j.jcl-over-slf4j 从 2.0.7 到 2.0.16
    • org.slf4j.jul-to-slf4j 从 2.0.7 到 2.0.16
    • org.slf4j.slf4j-api 从 2.0.7 到 2.0.16
    • org.threeten.threeten-extra 从 1.7.1 到 1.8.0
    • org.tukaani.xz 从 1.9 到 1.10

Apache Spark

Databricks Runtime 14.x、15.x 和 16.x 中已经提供了许多功能,现在它们默认集成在 Runtime 17.0 中。

核心和 Spark SQL 亮点

Spark Core

Spark SQL

特点

功能

  • [SPARK-52016] 新的内置函数
  • [SPARK-44001] 添加选项以允许解包 protobuf 知名包装器类型
  • [SPARK-43427] spark protobuf:允许向上广播无符号整数类型
  • [SPARK-44983]binary通过string转换为to_char,支持以下格式:十六进制、base64、utf-8
  • [SPARK-44868]datetime转换为stringto_char/to_varchar
  • [SPARK-45796] 支持 MODE() WITHIN GROUP (ORDER BY col)
  • [SPARK-48658] 编码/解码函数报告编码错误,而不是 mojibake
  • [SPARK-45034] 支持确定性模式函数
  • [SPARK-44778]TIMEDIFF 添加别名 TIMESTAMPDIFF
  • [SPARK-47497]to_csv 以数组/映射类型/二进制形式显示为漂亮的字符串
  • [SPARK-44840] 为负索引创建 array_insert() 基于 1 的索引

查询优化

  • [SPARK-46946] 支持在 DynamicPruning 中广播多个筛选键
  • [SPARK-48445] 不要内联带有复杂子节点的 UDF
  • [SPARK-41413] 当分区键不匹配时,避免在 Storage-Partitioned Join 中混排,但表达式兼容
  • [SPARK-46941] 阻止插入窗口组限制节点与 SizeBasedWindowFunction
  • [SPARK-46707] 为表达式添加可抛出字段以增强谓词下推
  • [SPARK-47511] 通过重新分配 ID 来规范 WITH 表达式
  • [SPARK-46502] 支持时间戳类型 UnwrapCastInBinaryComparison
  • [SPARK-46069] 支持将时间戳类型解包到日期类型
  • [SPARK-46219] 解包转换联接谓词
  • [SPARK-45606] 对多层运行时筛选器的发布限制
  • [SPARK-45909] 如果可安全地向上强制转换,请删除 NumericType 强制转换 IsNotNull

执行查询

  • [SPARK-45592][SPARK-45282] 在 AQE 与 InMemoryTableScanExec 中的正确性问题
  • [SPARK-50258] 修复 AQE 后的输出列顺序更改问题
  • [SPARK-46693] 在匹配 LocalLimitExecOffsetAndLimit 时注入 LimitAndOffset
  • [SPARK-48873] 我们在 JSON 解析器中使用 UnsafeRow
  • [SPARK-41471] 仅当联接的一端具有特定信息时减少 Spark Shuffle KeyGroupedPartitioning
  • [SPARK-45452] 改进 InMemoryFileIndex 以使用 FileSystem.listFiles API
  • [SPARK-48649] 添加 ignoreInvalidPartitionPaths 用于跳过无效分区路径的配置
  • [SPARK-45882]BroadcastHashJoinExec 传递分区应遵循 CoalescedHashPartitioning

Spark 连接器

DS v2 框架的支持发生变化

Hive 目录支持更改

XML 支持的更改

CSV 支持更改

ORC 支持更改

Avro 支持的变更

JDBC 更改

其他值得注意的更改

  • [SPARK-45905] 小数类型之间的最不常见类型应首先保留整型数字
  • [SPARK-45786] 修复不准确的十进制乘法和除法结果
  • [SPARK-50705] 使 QueryPlan 无锁
  • [SPARK-46743] 修复涉及常量折叠子查询的边界情况
  • [SPARK-47509] 禁止 lambda/高阶函数中的子查询表达式,以确保正确性
  • [SPARK-48498] 始终在谓词中执行字符填充
  • [SPARK-45915] 将 decimal(x, 0) 与 PromoteStrings 中的 IntegralType 相同
  • [SPARK-46220] 在解码中限制字符集()
  • [SPARK-45816] 在从时间戳转换为整数期间溢出时返回NULL
  • [SPARK-45586] 减少具有大型表达式树的计划的编译器延迟
  • [SPARK-45507] 对嵌套相关标量子查询中含有COUNT 聚合的正确性进行修复
  • [SPARK-44550] 为 ANSI 下的 null IN (空列表)启用正确性修复
  • [SPARK-47911] 引入通用 BinaryFormatter ,使二进制输出保持一致

PySpark

下面是 Databricks Runtime 17.0(Beta 版)中发布的 PySpark 库的更新和优化。

亮点

DataFrame API 功能

  • [SPARK-51079] 支持 pandas UDF 和 Arrow 中的大型变量类型
  • [SPARK-50718]对 PySpark 的支持addArtifact(s)
  • [SPARK-50778]metadataColumn 添加到 PySpark 数据帧
  • [SPARK-50719]对 PySpark 的支持interruptOperation
  • [SPARK-50790]在 PySpark 中实现parse_json
  • [SPARK-49306]zeroifnullnullifzero 创建 SQL 函数别名
  • [SPARK-50132] 添加用于横向联接的数据帧 API
  • [SPARK-43295] 支持DataFrameGroupBy.sum的字符串类型列
  • [SPARK-45575] API df.read 支持时间旅行选项
  • [SPARK-45755]通过设置全局限制为1来提高Dataset.isEmpty()
    • 通过下推全局限制 1 来提高 isEmpty() 的性能。
  • [SPARK-48761] 为 Scala 引入 clusterBy DataFrameWriter API
  • [SPARK-45929] 在数据帧 API 中支持 groupingSets 操作
    • groupingSets(...) 扩展到 DataFrame/DS 级别的 API。
  • [SPARK-40178] 轻松支持 PySpark 和 R 的合并提示

Spark 上的 Pandas API 功能

其他值得注意的 PySpark 更改

Spark 流式处理

下面是 Databricks Runtime 17.0 中 Spark 流式处理所做的更改和改进(Beta 版)。

亮点

其他值得注意的流媒体更改

  • [SPARK-44865] 使 StreamingRelationV2 支持元数据列
  • [SPARK-45080] 显式标注对 DSv2 流式处理数据源中的列式处理的支持
  • [SPARK-45178] 对 Trigger.AvailableNow 中不支持的来源执行单批处理的回退操作
  • [SPARK-45415] 允许选择性禁用 RocksDB 状态存储中的“fallocate”
  • [SPARK-45503] 添加 Conf 以设置 RocksDB 压缩
  • [SPARK-45511] 状态数据源 - 读取器
  • [SPARK-45558] 引入用于流式处理有状态运算符的元数据文件
  • [SPARK-45794] 引入状态元数据源以查询流式处理状态元数据信息
  • [SPARK-45815] 为其他流处理源提供接口以添加_metadata字段
  • [SPARK-45845] 将被驱逐的状态行数添加到流式处理 UI
  • [SPARK-46641] 添加 maxBytesPerTrigger 阈值
  • [SPARK-46816] 为新的任意状态管理运算符添加基本支持(多个状态变量/列系列)
  • [SPARK-46865] 添加 Batch 对 TransformWithState 运算符的支持
  • [SPARK-46906] 为流式处理添加有状态运算符更改的检查
  • [SPARK-46961] 使用ProcessorContext存储和检索句柄
  • [SPARK-46962] 为 Python 流式处理数据源和辅助角色添加接口
  • [SPARK-47107] Python 流数据源的分区读取器
  • [SPARK-47273] Python 数据流编写器接口
  • [SPARK-47553] 为运算符 API 添加 Java 支持
  • [SPARK-47653] 添加对负数值类型和范围扫描密钥编码器的支持
  • [SPARK-47733] 为查询进度的 transformWithState 运算符部分添加自定义指标
  • [SPARK-47960] 允许在 transformWithState 之后链接其他有状态运算符
  • [SPARK-48447] 在构造函数之前检查 StateStoreProvider
  • [SPARK-48569] 处理流式查询中的 query.name 边缘情况
  • [SPARK-48589]snapshotStartBatchId / snapshotPartitionId添加状态数据源(请参阅 SQL)
  • [SPARK-48589] 将 snapshotStartBatchId /snapshotPartitionId 选项添加到状态数据源
  • [SPARK-48726] 创建 StateSchemaV3 文件 TransformWithStateExec
  • [SPARK-48742] RocksDB 的虚拟列族(任意状态 API v2)
  • [SPARK-48755]transformWithStatepyspark 基本实现和支持ValueState
  • [SPARK-48772] 状态数据源更改源读取器模式
  • [SPARK-48836] 将 SQL 架构与 TWS 运算符的状态架构/元数据集成
  • [SPARK-48849]TransformWithStateExec 运算符创建 OperatorStateMetadataV2
  • [SPARK-48901][SPARK-48916] 在 Scala/PySpark 中引入 clusterBy DataStreamWriter API
  • [SPARK-48931] 降低状态存储维护的云存储列表 API 成本
  • [SPARK-49021] 添加对使用状态数据源读取器读取 transformWithState 值状态变量的支持
  • [SPARK-49048] 添加对在给定批 ID 处读取运算符元数据的支持
  • [SPARK-49191] 使用状态数据源读取 transformWithState 映射状态
  • [SPARK-49259] Kafka 读取期间基于大小的分区创建
  • [SPARK-49411] 传递状态存储检查点 ID
  • [SPARK-49463]TransformWithStateInPandas中的 ListState 支持
  • [SPARK-49467] 为列表状态添加状态数据源读取器
  • [SPARK-49513]transformWithStateInPandas中添加计时器支持
  • [SPARK-49630] 为状态数据源读取器中的集合类型添加平展选项
  • [SPARK-49656] 支持具有值状态集合类型的状态变量
  • [SPARK-49676] 中的运算符链接 transformWithStateInPandas
  • [SPARK-49699]对流式处理工作负荷禁用PruneFilters
  • [SPARK-49744] 对 ListState 的 TTL 支持 TransformWithStateInPandas
  • [SPARK-49745] 读取已注册的定时器 transformWithState
  • [SPARK-49802] 添加对映射/列表类型读取变更馈送的支持
  • [SPARK-49846] 添加 numUpdatedStateRows/numRemovedStateRows 指标
  • [SPARK-49883] 状态存储检查点结构 V2 与 RocksDB 和 RocksDBFileManager 的集成
  • [SPARK-50017] 支持运算符的 TransformWithState Avro 编码
  • [SPARK-50035] 有状态处理器中的显式函数
  • [SPARK-50128] 使用隐式编码器添加句柄 API
  • [SPARK-50152] 使用状态数据源读取器支持 handleInitialState
  • [SPARK-50194] 新计时器 API 和初始状态 API 的集成
  • [SPARK-50378] 为填充初始状态所花费的时间添加自定义指标
  • [SPARK-50428] 支持 TransformWithStateInPandas 在批量查询中
  • [SPARK-50573] 将状态架构 ID 添加到状态行以演变架构
  • [SPARK-50714] 启用 TransformWithState 的模式演变,采用 Avro 编码

Spark ML

Spark UX

其他值得注意的 Spark UX 更改

Spark Connect

下面是 Databricks Runtime 17.0(Beta 版)中 Spark Connect 所做的更改和改进。

亮点

其他 Spark Connect 更改和改进

  • [SPARK-41065] 实现 DataFrame.freqItemsDataFrame.stat.freqItems
  • [SPARK-41066] 实现 DataFrame.sampleByDataFrame.stat.sampleBy
  • [SPARK-41067] 实现 DataFrame.stat.cov
  • [SPARK-41068] 实现 DataFrame.stat.corr
  • [SPARK-41069] 实现 DataFrame.approxQuantileDataFrame.stat.approxQuantile
  • [SPARK-41292][SPARK-41640][SPARK-41641] 实现 Window 函数
  • [SPARK-41333][SPARK-41737] 实现 GroupedData.{min, max, avg, sum}
  • [SPARK-41364] 实现广播函数
  • [SPARK-41383][SPARK-41692][SPARK-41693] 实现 rollupcubepivot
  • [SPARK-41434] 初始 LambdaFunction 实现
  • [SPARK-41440] 实现 DataFrame.randomSplit
  • [SPARK-41464] 实现 DataFrame.to
  • [SPARK-41473] 实现 format_number 函数
  • [SPARK-41503] 实现分区转换函数
  • [SPARK-41529] 实现 SparkSession.stop
  • [SPARK-41534] 为 Spark Connect 设置初始客户端模块
  • [SPARK-41629] 支持关系和表达式中的协议扩展
  • [SPARK-41663] 实现 Lambda 函数的其余部分
  • [SPARK-41673] 实现 Column.astype
  • [SPARK-41690] 不可知编码器
  • [SPARK-41707] 在 Spark Connect 中实现目录 API
  • [SPARK-41710] 实现 Column.between
  • [SPARK-41722] 实现 3 个缺少的时间窗口函数
  • [SPARK-41723] 实现序列函数
  • [SPARK-41724] 实现 call_udf 函数
  • [SPARK-41728] 实现 unwrap_udt 函数
  • [SPARK-41731] 实现列访问器(getItemgetFieldgetitem等)
  • [SPARK-41738]在缓存中混合ClientIdSparkSession
  • [SPARK-41740] 实现 Column.name
  • [SPARK-41767] 实现 Column.{withField, dropFields}
  • [SPARK-41785] 实现 GroupedData.mean
  • [SPARK-41803] 添加缺少的函数 log(arg1, arg2)
  • [SPARK-41810] 从字典列表中推断名称 SparkSession.createDataFrame
  • [SPARK-41811] 实现 SQLStringFormatterWithRelations
  • [SPARK-42664] 支持 bloomFilter 函数 DataFrameStatFunctions
  • [SPARK-43662]在 Spark Connect 中支持merge_asof
  • [SPARK-43704]在 Spark Connect 中支持MultiIndexto_series()
  • [SPARK-44625]SparkConnectExecutionManager 跟踪所有执行
  • [SPARK-44731] 使 TimestampNTZ 在 Python Spark Connect 中与字面量一起工作
  • [SPARK-44736]Dataset.explode 添加到 Spark Connect Scala 客户端
  • [SPARK-44740]session_id 连接字符串中支持指定 SPARK_REMOTE
  • [SPARK-44747] 添加缺少 SparkSession.Builder 的方法
  • [SPARK-44750]在创建过程中将配置应用于SparkSession
  • [SPARK-44761] 支持 DataStreamWriter.foreachBatch(VoidFunction2)
  • [SPARK-44788]from_xmlschema_of_xml 添加到 pyspark、Spark Connect 和 SQL 函数中
  • [SPARK-44807]Dataset.metadataColumn 添加到 Scala 客户端
  • [SPARK-44877] 支持适用于 Spark Connect 的 python protobuf 函数
  • [SPARK-45000] 实现 DataFrame.foreach
  • [SPARK-45001] 实现 DataFrame.foreachPartition
  • [SPARK-45088] 使getitem 与重复的列兼容
  • [SPARK-45090]DataFrame.{cube, rollup} 支持列序号
  • [SPARK-45091]函数floor/round/bround现在接受列类型缩放
  • [SPARK-45121]对 Spark Connect 的支持Series.empty
  • [SPARK-45136] 增强对 Ammonite 的支持ClosureCleaner
  • [SPARK-45137] 支持参数化 sql() 中的 map/array 参数
  • [SPARK-45143] 使 PySpark 与 PyArrow 13.0.0 兼容
  • [SPARK-45190][SPARK-48897] 使 from_xml 支持 StructType 模式
  • [SPARK-45235] sql() 支持 map and array 参数
  • [SPARK-45485] 用户代理改进:使用 SPARK_CONNECT_USER_AGENT env 变量并包括特定于环境的属性
  • [SPARK-45506] 向 SparkcConnect 添加 ivy URI 支持 addArtifact
  • [SPARK-45509] 修复 Spark Connect 的 df 列引用行为
  • [SPARK-45619] 将观察到的指标应用于观察对象
  • [SPARK-45680] 发布会话
  • [SPARK-45733] 支持多个重试策略
  • [SPARK-45770]介绍计划DataFrameDropColumnsDataframe.drop
  • [SPARK-45851] 支持 scala 客户端中的多个策略
  • [SPARK-46039] 升级到 grpcio\* 1.59.3 for Python 3.12
  • [SPARK-46048]Python Spark Connect 中的支持DataFrame.groupingSets
  • [SPARK-46085]Dataset.groupingSets 在 Scala Spark Connect 客户端中
  • [SPARK-46202] 公开新 ArtifactManager API 以支持自定义目标目录
  • [SPARK-46229] 在 Spark Connect 中将 applyInArrow 添加到 groupBycogroup
  • [SPARK-46255] 支持复杂类型 -> 字符串转换
  • [SPARK-46620] 为帧方法引入基本回退机制
  • [SPARK-46812]使mapInPandas/mapInArrow支持ResourceProfile
  • [SPARK-46919] 将 grpcio* 和 grpc-java 升级到 1.62.x
  • [SPARK-47014] 实现 SparkSession 的 dumpPerfProfiledumpMemoryProfiles 方法
  • [SPARK-47069]引入spark.profile.show/.dump用于基于 SparkSession 的剖析
  • [SPARK-47081] 支持查询执行进度
  • [SPARK-47137]getAll添加到spark.conf以实现与 Scala 的功能对等。
  • [SPARK-47233] 用于客户端流处理查询侦听器的客户端和服务器逻辑
  • [SPARK-47276]基于 SparkSession 的分析简介spark.profile.clear
  • [SPARK-47367] 使用 Spark Connect 支持 Python 数据源
  • [SPARK-47543]从 Pandas 数据帧推断dictMapType(通过新配置)
  • [SPARK-47545]Dataset.observe for Scala Connect
  • [SPARK-47694] 使最大消息大小在客户端可配置
  • [SPARK-47712] 允许连接插件创建和处理数据集
  • [SPARK-47812]支持为SparkSession工作者进行ForEachBatch序列化
  • [SPARK-47818] 在 SparkConnectPlanner 中引入计划缓存以提高分析请求的性能
  • [SPARK-47828] 修复 DataFrameWriterV2.overwrite 因计划无效而失败的问题
  • [SPARK-47845] 支持 Scala 和 Python 拆分函数中的列类型
  • [SPARK-47909] Spark Connect 和 Spark 经典版的父数据帧类
  • [SPARK-48008] 在 Spark Connect 中支持 UDAF
  • [SPARK-48048] 添加了对 Scala 的客户端侦听器支持
  • [SPARK-48058][SPARK-43727] UserDefinedFunction.returnType 分析 DDL 字符串
  • [SPARK-48112]向插件公开会话SparkConnectPlanner
  • [SPARK-48113] 允许插件与 Spark Connect 集成
  • [SPARK-48258]CheckpointlocalCheckpoint 在 Spark Connect 中
  • [SPARK-48278] 优化 Cast 的字符串表示形式
  • [SPARK-48310] 缓存属性必须返回副本
  • [SPARK-48336]在 Spark Connect 中实现ps.sql
  • [SPARK-48370]CheckpointlocalCheckpoint Scala Spark Connect 客户端中
  • [SPARK-48510] 在 Spark Connect 中支持 UDAF toColumn API
  • [SPARK-48555]支持将列用作多个函数的参数(array_removearray_position等)
  • [SPARK-48569] 处理流式查询中的 query.name 边缘情况
  • [SPARK-48638] 添加 ExecutionInfo 对 DataFrame 的支持
  • [SPARK-48639] 添加 OriginRelationCommo
  • [SPARK-48648] 正确使 SparkConnectClient.tags 成为线程本地
  • [SPARK-48794]DataFrame.mergeInto 对 Spark Connect 的支持(Scala 和 Python)
  • [SPARK-48831] 使强制转换的默认列名称与 Spark 经典版本兼容
  • [SPARK-48960] 使 spark-shell 可与 Spark Connect 配合使用(–remote 支持)
  • [SPARK-49025] 使列的实现保持中立
  • [SPARK-49027] 在经典和Connect之间共享列API
  • [SPARK-49028] 创建共享 SparkSession
  • [SPARK-49029] 创建共享数据集接口
  • [SPARK-49087] 区分 UnresolvedFunction 调用内部函数
  • [SPARK-49185] 使用 Spark SQL 重新实现 kde 绘图
  • [SPARK-49201] 使用 Spark SQL 重新实现 hist 绘图
  • [SPARK-49249][SPARK-49122] 将 t API 添加到 addArtifacSpark SQL Core
  • [SPARK-49273] Spark Connect Scala 客户端的源支持
  • [SPARK-49282] 创建共享 SparkSessionBuilder 接口
  • [SPARK-49284] 创建共享目录界面
  • [SPARK-49413] 创建共享 RuntimeConfig 接口
  • [SPARK-49416] 添加共享 DataStreamReader 接口
  • [SPARK-49417] 添加共享 StreamingQueryManager 接口
  • [SPARK-49419] 创建共享 DataFrameStatFunctions
  • [SPARK-49429] 添加共享 DataStreamWriter 接口
  • [SPARK-49526] 支持 ArtifactManager 中的 Windows 样式路径
  • [SPARK-49530] 支持 kde/密度绘图
  • [SPARK-49531] 支持使用 Plotly 后端的折线图
  • [SPARK-49595] 修复 DataFrame.unpivotDataFrame.melt 在 Spark Connect Scala 客户端中
  • [SPARK-49626] 支持水平/垂直条形图
  • [SPARK-49907] 支持在 Connect 上运行 spark.ml
  • [SPARK-49948] 在 Spark 框绘图上将“precision”参数添加到 pandas
  • [SPARK-50050] 使 lit 接受 str/bool 类型的 numpy ndarray
  • [SPARK-50054] 支持直方图绘图
  • [SPARK-50063] 在 Spark Connect Scala 客户端中添加对 Variant 的支持
  • [SPARK-50075] 表值函数的数据帧 API
  • [SPARK-50134][SPARK-50130] 支持 Spark Connect 中的数据帧 API SCALAREXISTS 子查询
  • [SPARK-50134][SPARK-50132] 支持用于 Spark Connect 中的横向联接的数据帧 API
  • [SPARK-50227] 将 buf 插件升级到 v28.3
  • [SPARK-50298] 实现 verifySchemacreateDataFrame 参数
  • [SPARK-50306] 在 Spark Connect 中支持 Python 3.13
  • [SPARK-50373] 禁止在集合操作中使用 Variant
  • [SPARK-50544] 实现 StructType.toDDL
  • [SPARK-50710] 在发布后添加对可选客户端重新连接到会话的支持
  • [SPARK-50828] 弃用 pyspark.ml.connect
  • [SPARK-46465]在 PySpark 中添加Column.isNaN
    • Column.isNaN 函数添加到 PySpark Connect,匹配 Scala API 奇偶校验。
  • [SPARK-41440] 实现 DataFrame.randomSplit
    • 在 Python 中实现 Spark Connect 的DataFrame.randomSplit
  • [SPARK-41434] 初始 LambdaFunction 实现
    • 在 Spark Connect 中添加对 LambdaFunction 的基本支持和初始存在函数。
  • [SPARK-41464] 实现 DataFrame.to
    • 在 Python 中实现 Spark Connect 的DataFrame.to
  • [SPARK-41364] 实现广播函数
    • 在 Spark Connect Python 客户端中实现广播函数。
  • [SPARK-41663] 实现 Lambda 函数的其余部分
    • 在 Spark Connect Python 客户端(例如 filter, map 等)中完成对 Lambda 函数的支持。
  • [SPARK-41673] 实现 Column.astype
    • Column.astype 添加到 Spark Connect Python,以便进行类型转换。
  • [SPARK-41292][SPARK-41640][SPARK-41641] 实现 Window 函数
    • "支持在 Spark Connect 中使用窗口函数(Window.partitionByWindow.orderBy等)。"
  • [SPARK-41534] 为 Spark Connect 设置初始客户端模块
    • 为 Spark Connect 设置初始 Scala/JVM 客户端模块。
  • [SPARK-41503] 实现分区转换函数
    • 在 Python 中实现 Spark Connect 的分区转换函数。
  • [SPARK-41710] 实现 Column.between
    • 在 Python 的 Spark Connect 中添加 Column.between 方法。
  • [SPARK-41707] 在 Spark Connect 中实现目录 API
    • 实现 Spark Connect 的目录 API(例如 listTableslistFunctions等等)。
  • [SPARK-41690] 不可知编码器
    • 介绍用于将外部类型映射到 Spark 数据类型的“不可知编码器”。
  • [SPARK-41722] 实现 3 个缺少的时间窗口函数
    • 在 Spark Connect Python 中实现窗口函数、window_time 函数和 session_window 函数。
  • [SPARK-41723] 实现序列函数
    • 在 Python 中添加 Spark Connect 的序列函数。
  • [SPARK-41473] 实现 format_number 函数
    • 在 Spark Connect 的 Python 中实现 format_number 函数。
  • [SPARK-41724] 实现 call_udf 函数
    • 允许用户按名称调用 UDF: call_udf("my_udf", col1, col2, ...)
  • [SPARK-41529] 实现 SparkSession.stop
    • SparkSession.stop实现以关闭 Spark Connect 会话服务器端。
  • [SPARK-41728] 实现 unwrap_udt 函数
    • unwrap_udt 函数添加到 Python 中的 Spark Connect。
  • [SPARK-41731] 实现列访问器(getItemgetFieldgetitem等)
    • 允许对 Spark Connect 列中的数组和结构体进行索引。
  • [SPARK-41740] 实现 Column.name
    • 为 Spark Connect Python 的列添加 .name 方法。
  • [SPARK-41738]混合ClientId在缓存中SparkSession
    • 通过将客户端ID混合到服务器的缓存中来修复并发。
  • [SPARK-41067] 实现 DataFrame.stat.cov
    • 在 Python 中实现 Spark Connect 的协变计算(df.stat.cov)。
  • [SPARK-41767] 实现 Column.{withField, dropFields}
    • 添加了对在 Spark Connect 列中添加/删除结构字段的支持。
  • [SPARK-41292] 命名空间中的 pyspark.sql.window 支持窗口
    • 将 Spark Connect 的窗口功能集成到 pyspark.sql.window.
  • [SPARK-41068] 实现 DataFrame.stat.corr
    • 在 Python 中实现 Spark Connect 的相关计算(df.stat.corr)。
  • [SPARK-41629] 支持关系和表达式中的协议扩展
    • 为 Spark Connect 中的自定义关系/表达式添加基于插件的扩展机制。
  • [SPARK-41785] 实现 GroupedData.mean
    • mean 函数添加到 Spark Connect 中的分组数据。
  • [SPARK-41069] 实现 DataFrame.approxQuantileDataFrame.stat.approxQuantile
    • 在 Python 中添加用于 Spark Connect 的数据帧/统计信息 approxQuantile
  • [SPARK-41065] 实现 DataFrame.freqItemsDataFrame.stat.freqItems
    • 在 Python 中向 Spark Connect 数据帧添加freqItems
  • [SPARK-41066] 实现 DataFrame.sampleByDataFrame.stat.sampleBy
    • 在 Python 中向 Spark Connect 数据帧添加sampleBy
  • [SPARK-41810] 从字典列表中推断名称 SparkSession.createDataFrame
    • 通过 Spark Connect 中的字典列表创建 DataFrame 时,改进列名推理。
  • [SPARK-41803] 添加缺少的函数 log(arg1, arg2)
    • 在 Spark Connect Python 中实现双参数 log(base, expr)
  • [SPARK-41383][SPARK-41692][SPARK-41693] 实现 rollupcubepivot
    • DataFrame.rollupDataFrame.cubepivot添加到 Spark Connect。
  • [SPARK-41333][SPARK-41737] 实现 GroupedData.{min, max, avg, sum}
    • 对 Spark Connect 的分组数据实现标准聚合函数。
  • [SPARK-45680] 发布会话
    • ReleaseSession引入了用于取消所有正在运行作业并删除会话服务器端的 RPC。
  • [SPARK-45851] 支持 scala 客户端中的多个策略
    • 将多个重试策略添加到 Scala Spark Connect 客户端。
  • [SPARK-45990][SPARK-45987] 将 protobuf 升级到 4.25.1 以支持 Python 3.11
    • 更新 protobuf 库以修复 Python 3.11 下的问题。
  • [SPARK-46202] 公开新 ArtifactManager API 以支持自定义目标目录
    • 允许将具有自定义目录结构的项目添加到远程 Spark Connect 会话。
  • [SPARK-46284] 将函数添加到 session_user Python
    • session_user在 PySpark 中公开用于 Connect 的函数,匹配 Scala 奇偶校验。
  • [SPARK-46039] 升级到 grpcio\* 1.59.3 for Python 3.12
    • 更新 gRPC 库以支持 Python 3.12 和新的 grpc-inprocess。
  • [SPARK-46048]Python Spark Connect 中的支持DataFrame.groupingSets
    • 允许在 Python Spark Connect 中调用 df.groupingSets(...) 进行多维分组。
  • [SPARK-46085]Dataset.groupingSets 在 Scala Spark Connect 客户端中
    • groupingSets(...)添加到 Scala 中的 Spark Connect。
  • [SPARK-46229] 在 Spark Connect 中将 applyInArrow 添加到 groupBycogroup
    • 在 Spark Connect 中实现 applyInArrow 以进行分组/共同分组数据帧的操作。
  • [SPARK-46255] 支持复杂类型 -> 字符串转换
    • 允许在 Spark Connect Python 中将复杂(列表/结构)类型转换为字符串。
  • [SPARK-45770]介绍计划DataFrameDropColumnsDataframe.drop
  • [SPARK-45733] 支持多个重试策略
  • [SPARK-45485] 用户代理改进:使用 SPARK_CONNECT_USER_AGENT env 变量并包括特定于环境的属性
  • [SPARK-44753] XML:pyspark SQL XML 读取器/编写器
  • [SPARK-45619] 将观察到的指标应用于观察对象
  • [SPARK-45088] 使getitem 与重复的列兼容
  • [SPARK-45091]函数floor/round/bround现在接受列类型缩放
  • [SPARK-45143] 使 PySpark 与 PyArrow 13.0.0 兼容
  • [SPARK-44788]from_xmlschema_of_xml 添加到 pyspark、Spark Connect 和 SQL 函数中
  • [SPARK-45137] 支持参数化 sql() 中的 map/array 参数
  • [SPARK-45235] sql() 支持 map and array 参数
  • [SPARK-43662]在 Spark Connect 中支持merge_asof
  • [SPARK-45121]对 Spark Connect 的支持Series.empty
  • [SPARK-45090]DataFrame.{cube, rollup} 支持列序号
  • [SPARK-45136] 增强对 Ammonite 的支持ClosureCleaner
  • [SPARK-45506] 向 SparkcConnect 添加 ivy URI 支持 addArtifact
  • [SPARK-43704]在 Spark Connect 中支持MultiIndexto_series()
  • [SPARK-44807]Dataset.metadataColumn 添加到 Scala 客户端
  • [SPARK-44877] 支持适用于 Spark Connect 的 python protobuf 函数
  • [SPARK-44750]在创建过程中将配置应用于SparkSession
  • [SPARK-45000] 实现 DataFrame.foreach
  • [SPARK-45001] 实现 DataFrame.foreachPartition
  • [SPARK-44740]session_id 连接字符串中支持指定 SPARK_REMOTE
  • [SPARK-44747] 添加缺少 SparkSession.Builder 的方法
  • [SPARK-44731] 使 TimestampNTZ 在 Python Spark Connect 中与字面量一起工作
  • [SPARK-44761] 支持 DataStreamWriter.foreachBatch(VoidFunction2)
  • [SPARK-44625]SparkConnectExecutionManager 跟踪所有执行
  • [SPARK-44736]Dataset.explode 添加到 Spark Connect Scala 客户端
  • [SPARK-42664] 支持 bloomFilter 函数 DataFrameStatFunctions
  • [SPARK-48831] 将默认强制转换列名称与 Spark Classic (Connect) 对齐
  • [SPARK-48272]timestamp_diff 添加了函数(连接上面的重复项)
  • [SPARK-48369]timestamp_add 添加了函数(连接到上面的重复项)
  • [SPARK-48336]ps.sql 在 Spark Connect 中 (重复)
  • [SPARK-48370] Scala Connect 客户端中的检查点(上面重复)
  • [SPARK-47545]Dataset.observe for Scala Connect (重复)
  • [SPARK-45509] 修复 Spark Connect 中的数据框(df)列引用行为,使其与经典 Spark 的列解析对齐,并提供更好的错误消息。

系统环境

  • 操作系统:Ubuntu 24.04.2 LTS
  • Java:Zulu17.54+21-CA
  • Scala:2.13.16
  • Python:3.12.3
  • R:4.4.2
  • Delta Lake:3.3.1

已安装的 Python 库

图书馆 版本 图书馆 版本 图书馆 版本
批注类型 0.7.0 anyio 4.6.2 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 箭头 1.3.0 asttokens 2.0.5
astunparse 1.6.3 async-lru 2.0.4 属性 24.3.0
自动命令 2.2.2 azure-common 1.1.28 azure-core 1.34.0
Azure 身份识别 1.20.0 azure-mgmt-core 1.5.0 azure-mgmt-web 8.0.0
Azure存储Blob 12.23.0 azure-storage-file-datalake 12.17.0 巴别塔 2.16.0
backports.tarfile 1.2.0 beautifulsoup4 4.12.3 黑色 24.10.0
漂白剂 6.2.0 闪烁器 1.7.0 boto3 1.36.2
botocore 1.36.3 cachetools (缓存工具) 5.5.1 certifi 2025年1月31日
cffi 1.17.1 chardet 4.0.0 charset-normalizer (字符集正常化工具) 3.3.2
点击 8.1.7 cloudpickle 3.0.0 通讯 0.2.1
contourpy 1.3.1 密码学 43.0.3 骑行者 0.11.0
Cython 3.0.12 Databricks软件开发工具包 (databricks-sdk) 0.49.0 dbus-python 1.3.2
debugpy 1.8.11 装饰师 5.1.1 defusedxml 0.7.1
已弃用 1.2.13 distlib 0.3.9 将文档字符串转换为Markdown 0.11
正在执行 0.8.3 各个方面概述 1.1.1 fastapi 0.115.12
fastjsonschema 2.21.1 文件锁 (filelock) 3.18.0 fonttools(字体工具) 4.55.3
FQDN 1.5.1 fsspec 2023.5.0 gitdb (Git数据库) 4.0.11
GitPython 3.1.43 google-api-core 2.20.0 google-auth (谷歌身份验证) 2.40.0
google-cloud-core (Google云核心) 2.4.3 谷歌云存储 (Google Cloud Storage) 3.1.0 google-crc32c 1.7.1
google-resumable-media (谷歌可恢复媒体) 2.7.2 googleapis-common-protos 1.65.0 grpcio 1.67.0
grpcio-status 1.67.0 h11 0.14.0 httpcore 1.0.2
httplib2 0.20.4 httpx 0.27.0 idna 3.7
importlib-metadata 6.6.0 importlib_resources 6.4.0 屈折 7.3.1
iniconfig 1.1.1 ipyflow-core 0.0.209 ipykernel 6.29.5
ipython 8.30.0 ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.8.1
isodate 0.6.1 isoduration 20.11.0 jaraco.context 5.3.0
jaraco.functools 4.0.1 jaraco.text 3.12.1 jedi 0.19.2
Jinja2 3.1.5 jmespath 1.0.1 joblib 1.4.2
json5 0.9.25 jsonpointer 3.0.0 jsonschema 4.23.0
JSON模式规范 2023年7月1日 jupyter-events 0.10.0 jupyter-lsp 2.2.0
jupyter_client(Jupyter 客户端) 8.6.3 jupyter_core(Jupyter核心) 5.7.2 Jupyter服务器 2.14.1
Jupyter服务器终端 0.4.4 jupyterlab 4.3.4 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 jupyterlab_server (JupyterLab 服务器) 2.27.3 kiwisolver 1.4.8
launchpadlib 1.11.0 lazr.restfulclient 0.14.6 lazr.uri 1.0.6
markdown-it-py 2.2.0 MarkupSafe 3.0.2 matplotlib 3.10.0
matplotlib-inline 0.1.7 麦卡贝 0.7.0 mdurl 0.1.0
mistune 2.0.4 mlflow-skinny 2.22.0 mmh3 5.1.0
more-itertools 10.3.0 MSAL 1.32.3 msal-extensions 1.3.1
mypy-extensions 1.0.0 nbclient 0.8.0 nbconvert 7.16.4
nbformat 5.10.4 nest-asyncio 1.6.0 nodeenv 1.9.1
笔记本 7.3.2 笔记本垫片 0.2.3 numpy 2.1.3
oauthlib 3.2.2 OpenTelemetry API 1.32.1 opentelemetry-sdk(开源遥测软件开发工具包) 1.32.1
Since this appears to be a case where preserving the original English term is necessary, no improvements are necessary unless additional context or explanation is required in the broader context of its usage. 0.53b1 重写 7.4.0 包装 24.1
熊猫 2.2.3 pandocfilters 1.5.0 帕尔索 0.8.4
pathspec 0.10.3 替罪羊 1.0.1 pexpect 4.8.0
枕头 11.1.0 果仁 24.2 platformdirs 3.10.0
plotly 5.24.1 Pluggy (Python库) 1.5.0 prometheus_client 0.21.0
prompt-toolkit 3.0.43 proto-plus 1.26.1 protobuf 5.29.4
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 19.0.1 pyasn1 0.4.8
pyasn1-modules 0.2.8 pyccolo 0.0.71 Python代码解析器 2.21
pydantic 2.10.6 pydantic_core 2.27.2 pyflakes 3.2.0
Pygments 2.15.1 PyGObject 3.48.2 pyiceberg 0.9.0
PyJWT 2.10.1 pyodbc 5.2.0 pyparsing 3.2.0
pyright 1.1.394 pytest(Python 测试框架) 8.3.5 python-dateutil 2.9.0.post0
python-json-logger 3.2.1 python-lsp-jsonrpc 1.1.2 python-lsp-server 1.12.0
pytoolconfig 1.2.6 pytz 2024.1 PyYAML 6.0.2
pyzmq 26.2.0 引用 0.30.2 请求 2.32.3
rfc3339-validator 0.1.4 rfc3986验证器 0.1.1 13.9.4
绳子 1.12.0 rpds-py 0.22.3 rsa 4.9.1
s3transfer 0.11.3 scikit-learn 1.6.1 scipy 1.15.1
seaborn 0.13.2 Send2Trash 1.8.2 setuptools 74.0.0
6 1.16.0 smmap 5.0.0 sniffio 1.3.0
排序容器 2.4.0 汤过滤器 2.5 sqlparse 0.5.3
ssh-import-id 5.11 堆栈数据 0.2.0 starlette 0.46.2
statsmodels 0.14.4 strictyaml 1.7.3 毅力 9.0.0
完成 0.17.1 threadpoolctl 3.5.0 tinycss2 1.4.0
tokenize_rt 6.1.0 tomli 2.0.1 龙卷风 6.4.2
Traitlets 5.14.3 typeguard(类型保护库) 4.3.0 types-python-dateutil 2.9.0.20241206
输入扩展 (typing_extensions) 4.12.2 tzdata 2024.1 ujson 5.10.0
自动升级 0.1 URI 模板 1.3.0 urllib3 2.3.0
uvicorn 0.34.2 virtualenv 20.29.3 wadllib 1.3.6
wcwidth 0.2.5 webcolors 24.11.1 Web编码 0.5.1
WebSocket客户端 1.8.0 whatthepatch 1.0.2 轮子 0.45.1
widgetsnbextension 3.6.6 裹住 1.17.0 yapf 0.40.2
齐普 3.21.0

已安装的 R 库

R 库从 2025-03-20 的 Posit 包管理器 CRAN 快照中安装

图书馆 版本 图书馆 版本 图书馆 版本
箭头 19.0.1 askpass 1.2.1 assertthat 0.2.1
反向移植 1.5.0 基础 4.4.2 base64enc 0.1-3
bigD 0.3.0 一点 4.6.0 bit64 4.6.0-1
bitops 1.0-9 团状物 1.2.4 靴子 1.3-30
泡制 1.0-10 活力 1.1.5 扫帚 1.0.7
bslib 0.9.0 卡齐姆 1.1.0 调用方 3.7.6
光标 7.0-1 cellranger (细胞测序工具) 1.1.0 chron 2.3-62
7.3-22 命令行接口 (CLI) 3.6.4 剪辑器 0.8.0
时钟 0.7.2 集群 2.1.6 codetools 0.2-20
色彩空间 2.1-1 commonmark 1.9.5 编译器 4.4.2
配置 0.3.2 感到矛盾 1.2.0 cpp11 0.5.2
蜡笔 1.5.3 资格证书 2.0.2 卷曲 6.2.1
data.table(数据表) 1.17.0 数据集 4.4.2 DBI 1.2.3
dbplyr 2.5.0 desc 1.4.3 devtools 2.4.5
示意图 1.6.5 diffobj 0.3.5 摘要 0.6.37
下照 0.4.4 dplyr 1.1.4 dtplyr 1.3.1
e1071 1.7-16 省略号 0.3.2 评价 1.0.3
fansi 1.0.6 颜色 2.1.2 快速映射 1.2.0
fontawesome 0.5.3 猫咪 1.0.0 foreach 1.5.2
外国 0.8-86 锻造 0.2.0 司 司长 1.6.5
未来 1.34.0 future.apply 1.11.3 漱口 1.5.2
泛 型 0.1.3 格尔特 2.1.4 ggplot2 3.5.1
gh 1.4.1 git2r 0.35.0 gitcreds 0.1.2
glmnet 4.1-8 全局变量 0.16.3 胶水 1.8.0
googledrive 2.1.1 googlesheets4 1.1.1 高尔 1.0.2
图形 4.4.2 grDevices 4.4.2 “业务流程参数” 网格 4.4.2
gridExtra 2.3 gsubfn 0.7 燃气轮机 0.11.1
gtable 0.3.6 安全帽 1.4.1 避风港 2.5.4
高级 (assuming it means "higher" or "advanced") 0.11 赫姆斯 1.1.3 HTML工具 0.5.8.1
HTML小插件 1.6.4 httpuv 1.6.15 httr 1.4.7
httr2 1.1.1 ids 1.0.1 ini 0.3.1
ipred 0.9-15 isoband 0.2.7 迭代器 1.0.14
jquerylib 0.1.4 jsonlite 1.9.1 JuicyJuice 0.1.0
KernSmooth 2.23-22 针织器 1.50 标记 0.4.3
以后 1.4.1 格子 0.22-5 熔岩 1.8.1
生命周期 1.0.4 listenv 0.9.1 lubridate 1.9.4
magrittr 2.0.3 markdown 1.13 质量 7.3-60.0.1
矩阵 1.6-5 记忆化 2.0.1 方法 4.4.2
mgcv 1.9-1 默剧 0.13 迷你用户界面 0.1.1.1
mlflow 2.20.4 ModelMetrics 1.2.2.2 modelr 0.1.11
蒙塞尔 0.5.1 nlme 3.1-164 nnet(神经网络) 7.3-19
numDeriv 2016年8月至1月1日 openssl(开放SSL) 2.3.2 平行 4.4.2
并行 1.42.0 柱子 1.10.1 pkgbuild (软件包构建工具) 1.4.6
pkgconfig 2.0.3 pkgdown 2.1.1 pkgload 1.4.0
普洛格 0.2.0 普莱尔 1.8.9 赞美 1.0.0
prettyunits 1.2.0 pROC 1.18.5 processx 3.8.6
prodlim 2024.06.25 profvis 0.4.0 进展 1.2.3
progressr 0.15.1 承诺 1.3.2 原型 (proto) 1.0.0
代理服务器 0.4-27 附注 (ps) 1.9.0 purrr 1.0.4
R6 2.6.1 ragg 1.3.3 随机森林 (randomForest) 4.7-1.2
rappdirs 0.3.3 rcmdcheck 1.4.0 RColorBrewer 1.1-3
Rcpp 1.0.14 RcppEigen 0.3.4.0.2 可反应的 0.4.4
reactR 0.6.1 readr(阅读器) 2.1.5 readxl 1.4.5
食谱 1.2.0 重赛 2.0.0 rematch2 2.1.2
遥控器 2.5.0 可复现示例 (reprex) 2.1.1 reshape2 1.4.4
rlang 1.1.5 rmarkdown(R语言动态文档生成工具) 2.29 RODBC 1.3-26
roxygen2 7.3.2 rpart 4.1.23 rprojroot 2.0.4
Rserve 1.8-15 RSQLite 2.3.9 rstudioapi 0.17.1
R版本 2.1.2 rvest 1.0.4 sass 0.4.9
磅秤 1.3.0 selectr 0.4-2 会话信息 1.2.3
形状 1.4.6.1 光亮 1.10.0 sourcetools 0.1.7-1
sparklyr 1.9.0 SparkR 4.0.0 sparsevctrs 0.3.1
空间 7.3-17 样条曲线 4.4.2 sqldf(R环境中的数据库操作软件包) 0.4-11
SQUAREM 2021年1月 统计数据 4.4.2 统计数据4 4.4.2
stringi 1.8.4 stringr 1.5.1 生存 3.5-8
自信 5.17.14.1 sys 3.4.3 systemfonts 1.2.1
tcltk 4.4.2 testthat 3.2.3 文本整形 1.0.0
tibble 3.2.1 tidyr 1.3.1 tidyselect 1.2.1
tidyverse(数据分析工具包) 2.0.0 时间变更 0.3.0 时间日期 4041.110
tinytex 0.56 工具 4.4.2 tzdb 0.5.0
URL检查器 1.0.1 usethis 3.1.0 utf8 1.2.4
utils 4.4.2 UUID(通用唯一识别码) 1.2-1 V8 6.0.2
vctrs 0.6.5 viridisLite 0.4.2 vroom 1.6.5
瓦尔多 0.6.1 晶 须 0.4.1 withr 3.0.2
xfun 0.51 xml2 1.3.8 xopen 1.0.1
xtable 1.8-4 yaml 2.3.10 zeallot 0.1.0
压缩包 2.3.2

已安装的 Java 和 Scala 库(Scala 2.13 群集版本)

群组标识符 工件编号 版本
antlr antlr 2.7.7
com.amazonaws Amazon Kinesis 客户端 1.12.0
com.amazonaws AWS Java SDK 自动扩展 1.12.638
com.amazonaws aws-java-sdk-cloudformation 1.12.638
com.amazonaws AWS Java SDK CloudFront 1.12.638
com.amazonaws AWS-Java-SDK-云HSM 1.12.638
com.amazonaws AWS Java SDK 云搜索 1.12.638
com.amazonaws aws-java-sdk-cloudtrail 1.12.638
com.amazonaws aws-java-sdk-cloudwatch 1.12.638
com.amazonaws aws-java-sdk-cloudwatchmetrics 1.12.638
com.amazonaws AWS Java SDK CodeDeploy(AWS Java 软件开发工具包 CodeDeploy) 1.12.638
com.amazonaws aws-java-sdk-cognitoidentity 1.12.638
com.amazonaws aws-java-sdk-cognitosync 1.12.638
com.amazonaws aws-java-sdk-config(AWS Java SDK 配置) 1.12.638
com.amazonaws aws-java-sdk-core (AWS Java软件开发工具包核心) 1.12.638
com.amazonaws aws-java-sdk-datapipeline 1.12.638
com.amazonaws AWS Java SDK Direct Connect(直连) 1.12.638
com.amazonaws aws-java-sdk-directory 1.12.638
com.amazonaws aws-java-sdk-dynamodb 1.12.638
com.amazonaws aws-java-sdk-ec2 1.12.638
com.amazonaws aws-java-sdk-ecs 1.12.638
com.amazonaws aws-java-sdk-efs 1.12.638
com.amazonaws aws-java-sdk-elasticache 1.12.638
com.amazonaws aws-java-sdk-elasticbeanstalk(AWS Java 开发工具包 - Elastic Beanstalk) 1.12.638
com.amazonaws aws-java-sdk-弹性负载均衡 1.12.638
com.amazonaws aws-java-sdk-elastictranscoder(AWS Java SDK弹性转码器) 1.12.638
com.amazonaws aws-java-sdk-emr 1.12.638
com.amazonaws AWS Java SDK Glacier 1.12.638
com.amazonaws AWS Java SDK Glue 1.12.638
com.amazonaws aws-java-sdk-iam 1.12.638
com.amazonaws AWS Java SDK 导入导出 (aws-java-sdk-importexport) 1.12.638
com.amazonaws aws-java-sdk-kinesis 1.12.638
com.amazonaws AWS Java 软件开发工具包 - KMS 1.12.638
com.amazonaws aws-java-sdk-lambda 1.12.638
com.amazonaws aws-java-sdk-logs(AWS Java开发包日志) 1.12.638
com.amazonaws AWS-Java-SDK-机器学习 1.12.638
com.amazonaws aws-java-sdk-opsworks 1.12.638
com.amazonaws aws-java-sdk-rds 1.12.638
com.amazonaws aws-java-sdk-redshift 1.12.638
com.amazonaws aws-java-sdk-route53 1.12.638
com.amazonaws aws-java-sdk-s3 1.12.638
com.amazonaws aws-java-sdk-ses 1.12.638
com.amazonaws aws-java-sdk-simpledb 1.12.638
com.amazonaws aws-java-sdk-simpleworkflow 1.12.638
com.amazonaws aws-java-sdk-sns 1.12.638
com.amazonaws aws-java-sdk-sqs 1.12.638
com.amazonaws aws-java-sdk-ssm 1.12.638
com.amazonaws AWS Java SDK 存储网关 1.12.638
com.amazonaws aws-java-sdk-sts 1.12.638
com.amazonaws AWS Java SDK支持 1.12.638
com.amazonaws AWS-Java-SDK-SWF-库 1.11.22
com.amazonaws aws-java-sdk-workspaces 1.12.638
com.amazonaws jmespath-java 1.12.638
com.clearspring.analytics 溪流 2.9.8
com.databricks Rserve 1.8-3
com.databricks databricks-sdk-java 0.27.0
com.databricks jets3t 0.7.1-0
com.databricks.scalapb scalapb-runtime_2.13 0.4.15-11
com.esotericsoftware 请参阅当前使用说明以确定"kryo-shaded"的中文翻译如果有区别。 4.0.3
com.esotericsoftware minlog 1.3.0
com.fasterxml 同学 1.5.1
com.fasterxml.jackson.core Jackson注解 2.18.2
com.fasterxml.jackson.core jackson-core 2.18.2
com.fasterxml.jackson.core jackson-databind 2.18.2
com.fasterxml.jackson.dataformat jackson-dataformat-cbor(Jackson 数据格式-CBOR) 2.18.2
com.fasterxml.jackson.dataformat Jackson 数据格式 YAML 2.15.2
com.fasterxml.jackson.datatype jackson-datatype-joda(杰克逊数据类型-Joda) 2.18.2
com.fasterxml.jackson.datatype jackson-datatype-jsr310 2.18.2
com.fasterxml.jackson.module jackson-module-paranamer 2.18.2
com.fasterxml.jackson.module jackson-module-scala_2.13 2.18.2
com.github.ben-manes.咖啡因 咖啡因 2.9.3
com.github.blemale scaffeine_2.13 4.1.0
com.github.fommil jniloader 1.1
com.github.fommil.netlib native_ref-java 1.1
com.github.fommil.netlib native_ref-java 1.1-原住民
com.github.fommil.netlib 原生系统-Java 1.1
com.github.fommil.netlib 原生系统-Java 1.1-原住民
com.github.fommil.netlib netlib-native_ref-linux-x86_64 1.1-原住民
com.github.fommil.netlib netlib-本地系统-linux-x86_64 1.1-原住民
com.github.luben zstd-jni 1.5.6-10
com.github.virtuald curvesapi 1.08
com.github.wendykierp JTransforms 3.1
com.google.api.grpc proto-google-common-protos 2.5.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.11.0
com.google.crypto.tink 丁克 1.16.0
com.google.errorprone 易出错的注释 2.36.0
com.google.flatbuffers flatbuffers-java 24.3.25
com.google.guava 访问失败 1.0.2
com.google.guava 番石榴 33.4.0-jre
com.google.guava 可以聆听的未来 9999.0-为了避免与 Guava 冲突而为空
com.google.j2objc j2objc-annotations 3.0.0
com.google.protobuf protobuf-java 3.25.5
com.google.protobuf protobuf-java-util 3.25.5
com.helger 分析器 1.1.1
com.ibm.icu icu4j 75.1
com.jcraft jsch 0.1.55
com.lihaoyi sourcecode_2.13 0.1.9
com.microsoft.azure azure-data-lake-store-sdk 2.3.10
com.microsoft.sqlserver mssql-jdbc 12.8.0.jre11
com.microsoft.sqlserver mssql-jdbc 12.8.0.jre8
com.ning 压缩-lzf 1.1.2
com.sun.mail javax.mail 1.5.2
com.sun.xml.bind jaxb-core 2.2.11
com.sun.xml.bind jaxb-impl 2.2.11
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.trueaccord.lenses 镜头_2.13 0.4.13
com.twitter chill-java 0.10.0
com.twitter 冷静_2.13 0.10.0
com.twitter util-app_2.13 19.8.1
com.twitter util-core_2.13 19.8.1
com.twitter util-function_2.13 19.8.1
com.twitter util-jvm_2.13 19.8.1
com.twitter util-lint_2.13 19.8.1
com.twitter util-registry_2.13 19.8.1
com.twitter util-stats_2.13 19.8.1
com.typesafe 配置 1.4.3
com.typesafe.scala-logging scala-logging_2.13 3.9.2
com.uber h3 3.7.3
com.univocity univocity-parsers 2.9.1
com.zaxxer HikariCP 4.0.3
com.zaxxer SparseBitSet 1.3
commons-cli commons-cli 1.9.0
commons-codec(公共编解码器) commons-codec(公共编解码器) 1.17.2
commons-collections (通用集合库) commons-collections (通用集合库) 3.2.2
commons-dbcp commons-dbcp 1.4
commons-fileupload(公共文件上传) commons-fileupload(公共文件上传) 1.5
commons-httpclient commons-httpclient 3.1
commons-io commons-io 2.18.0
commons-lang commons-lang 2.6
commons-logging(日志库) commons-logging(日志库) 1.1.3
commons-pool commons-pool 1.5.4
dev.ludovic.netlib arpack 3.0.3
dev.ludovic.netlib 基础线性代数程序库 (BLAS) 3.0.3
dev.ludovic.netlib LAPACK 3.0.3
info.ganglia.gmetric4j gmetric4j 1.0.10
io.airlift 空气压缩机 2.0.2
io.delta delta-sharing-client_2.13 1.3.0
io.dropwizard.metrics 指标标注 4.2.30
io.dropwizard.metrics 度量核心 4.2.30
io.dropwizard.metrics metrics-graphite 4.2.30
io.dropwizard.metrics 指标-健康检查 4.2.30
io.dropwizard.metrics metrics-jetty9 4.2.30
io.dropwizard.metrics metrics-jmx 4.2.30
io.dropwizard.metrics 指标-json 4.2.30
io.dropwizard.metrics 指标-JVM 4.2.30
io.dropwizard.metrics 指标-Servlets 4.2.30
io.github.java-diff-utils java-diff-utils 4.15
io.netty netty-all 4.1.118.Final
io.netty netty-buffer(Netty缓存) 4.1.118.Final
io.netty Netty编解码器 4.1.118.Final
io.netty Netty HTTP 编解码器 4.1.118.Final
io.netty netty-codec-http2 4.1.118.Final
io.netty netty-codec-socks 4.1.118.Final
io.netty Netty-Common(网络通用组件) 4.1.118.Final
io.netty netty-handler 4.1.118.Final
io.netty netty-handler-proxy(Netty 处理器代理) 4.1.118.Final
io.netty netty-resolver (Netty 解析器) 4.1.118.Final
io.netty netty-tcnative-boringssl-static(Netty高性能计算库) 2.0.70.Final-db-r0-linux-aarch_64
io.netty netty-tcnative-boringssl-static(Netty高性能计算库) 2.0.70.Final-db-r0-linux-x86_64
io.netty netty-tcnative-boringssl-static(Netty高性能计算库) 2.0.70.Final-db-r0-osx-aarch_64
io.netty netty-tcnative-boringssl-static(Netty高性能计算库) 2.0.70.Final-db-r0-osx-x86_64
io.netty netty-tcnative-boringssl-static(Netty高性能计算库) 2.0.70.Final-db-r0-windows-x86_64
io.netty Netty TcNative 类 2.0.70.Final
io.netty netty-transport 4.1.118.Final
io.netty netty-transport-classes-epoll 4.1.118.Final
io.netty netty-transport-classes-kqueue 4.1.118.Final
io.netty netty-transport-native-epoll 4.1.118.Final
io.netty netty-transport-native-epoll 4.1.118.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.118.Final-linux-riscv64
io.netty netty-transport-native-epoll 4.1.118.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.118.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.118.Final-osx-x86_64
io.netty Netty传输-本地-UNIX-通用 4.1.118.Final
io.prometheus simpleclient 0.16.1-databricks
io.prometheus 简单客户端通用 0.16.1-databricks
io.prometheus simpleclient_dropwizard 0.16.1-databricks
io.prometheus simpleclient_pushgateway 0.16.1-databricks
io.prometheus simpleclient_servlet 0.16.1-databricks
io.prometheus simpleclient_服务_通用 0.16.1-databricks
io.prometheus simpleclient_tracer_common 0.16.1-databricks
io.prometheus simpleclient_tracer_otel 0.16.1-databricks
io.prometheus simpleclient跟踪器_otel代理 0.16.1-databricks
io.prometheus.jmx 收藏者 0.18.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
javax.activation 激活 1.1.1
javax.annotation javax.annotation-api (Java中的注解API) 1.3.2
javax.el javax.el-api 2.2.4
javax.jdo jdo-api 3.0.1
javax.transaction jta 1.1
javax.transaction 交易接口 (transaction-api) 1.1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.13.0
net.java.dev.jna jna 5.8.0
net.razorvine 泡菜 1.5
net.sf.jpam 杰潘 1.1
net.sf.opencsv opencsv 2.3
net.sf.supercsv super-csv 2.2.0
net.snowflake Snowflake 数据导入 SDK 0.9.6
net.sourceforge.f2j arpack_combined_all 0.1
org.acplt.remotetea remotetea-oncrpc(远程调用协议库) 1.1.2
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.13.1
org.antlr stringtemplate (字符串模板) 3.2.1
org.apache.ant 蚂蚁 1.10.11
org.apache.ant ant-jsch(Java的SSH库) 1.10.11
org.apache.ant ant-launcher 1.10.11
org.apache.arrow 箭头格式 18.2.0
org.apache.arrow 箭头-内存-核心 18.2.0
org.apache.arrow 箭头内存网状系统 18.2.0
org.apache.arrow 箭头内存-Netty-缓冲区-补丁 18.2.0
org.apache.arrow 箭头向量 18.2.0
org.apache.avro Avro 1.12.0
org.apache.avro avro-ipc 1.12.0
org.apache.avro avro-mapred 1.12.0
org.apache.commons commons-collections4(通用集合库) 4.4
org.apache.commons commons-compress 1.27.1
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.17.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-text 1.13.0
org.apache.curator 策展人客户端 5.7.1
org.apache.curator Curator框架 5.7.1
org.apache.curator 策展人食谱 5.7.1
org.apache.datasketches datasketches-java 6.1.1
org.apache.datasketches 数据素描-内存 3.0.2
org.apache.derby 德比 10.14.2.0
org.apache.hadoop Hadoop 客户端运行时 3.4.1
org.apache.hive hive-beeline 2.3.10
org.apache.hive hive-cli 2.3.10
org.apache.hive hive-jdbc 2.3.10
org.apache.hive hive-llap-client 2.3.10
org.apache.hive hive-llap-common 2.3.10
org.apache.hive hive-serde 2.3.10
org.apache.hive 海蜂垫片 2.3.10
org.apache.hive 蜂巢存储API 2.8.1
org.apache.hive.shims hive-shims-0.23 2.3.10
org.apache.hive.shims hive-shims-common 2.3.10
org.apache.hive.shims hive-shims-scheduler 2.3.10
org.apache.httpcomponents httpclient 4.5.14
org.apache.httpcomponents httpcore 4.4.16
org.apache.ivy 常春藤 2.5.3
org.apache.logging.log4j log4j-1.2-api 2.24.3
org.apache.logging.log4j log4j-api 2.24.3
org.apache.logging.log4j log4j-core 2.24.3
org.apache.logging.log4j log4j-layout-template-json 2.24.3
org.apache.logging.log4j log4j-slf4j2-impl 2.24.3
\ org.apache.orc orc-core 2.1.1-shaded-protobuf
\ org.apache.orc orc格式 1.1.0-shaded-protobuf
\ org.apache.orc orc-mapreduce 2.1.1-shaded-protobuf
\ org.apache.orc 兽人垫片 2.1.1
org.apache.poi poi 5.4.1
org.apache.poi poi-ooxml 5.4.1
org.apache.poi poi-ooxml-full 5.4.1
org.apache.poi poi-ooxml-lite 5.4.1
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.16.0
org.apache.ws.xmlschema xmlschema-core 2.3.1
org.apache.xbean xbean-asm9-shaded 4.26
org.apache.xmlbeans xmlbeans 5.3.0
org.apache.yetus 观众注释 0.13.0
org.apache.zookeeper 动物园管理员 3.9.3
org.apache.zookeeper zookeeper-jute 3.9.3
org.checkerframework checker-qual 3.43.0
org.codehaus.janino commons-compiler(通用编译器) 3.0.16
org.codehaus.janino 雅尼诺 3.0.16
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleus javax.jdo 3.2.0-m3
org.eclipse.jetty jetty-client 9.4.53.v20231009
org.eclipse.jetty jetty-continuation 9.4.53.v20231009
org.eclipse.jetty Jetty-HTTP 9.4.53.v20231009
org.eclipse.jetty jetty-io 9.4.53.v20231009
org.eclipse.jetty jetty-jndi 9.4.53.v20231009
org.eclipse.jetty jetty-plus 9.4.53.v20231009
org.eclipse.jetty jetty-proxy 9.4.53.v20231009
org.eclipse.jetty 码头安全 9.4.53.v20231009
org.eclipse.jetty jetty-server(Jetty服务器) 9.4.53.v20231009
org.eclipse.jetty jetty-servlet 9.4.53.v20231009
org.eclipse.jetty jetty-servlets 9.4.53.v20231009
org.eclipse.jetty jetty-util 9.4.53.v20231009
org.eclipse.jetty jetty-util-ajax 9.4.53.v20231009
org.eclipse.jetty Jetty 网页应用 9.4.53.v20231009
org.eclipse.jetty jetty-xml 9.4.53.v20231009
org.eclipse.jetty.websocket WebSocket API 9.4.53.v20231009
org.eclipse.jetty.websocket WebSocket客户端 9.4.53.v20231009
org.eclipse.jetty.websocket WebSocket-通用 9.4.53.v20231009
org.eclipse.jetty.websocket WebSocket服务器 9.4.53.v20231009
org.eclipse.jetty.websocket websocket-servlet 9.4.53.v20231009
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-定位器 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator (OSGi 资源定位器) 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.hk2.external jakarta.inject 2.6.1
org.glassfish.jersey.containers Jersey容器Servlet 2.41
org.glassfish.jersey.containers jersey-container-servlet-core 2.41
org.glassfish.jersey.core jersey-client 2.41
org.glassfish.jersey.core jersey-common 2.41
org.glassfish.jersey.core Jersey框架服务器 2.41
org.glassfish.jersey.inject jersey-hk2 2.41
org.hibernate.validator 休眠验证器 6.2.5.Final
org.ini4j ini4j 0.5.4
org.javassist javassist 3.29.2-GA
org.jboss.logging jboss 日志 3.4.1.Final
org.jdbi jdbi 2.63.1
org.jetbrains 注释 17.0.0
org.jline jline 3.27.1-jdk8
org.joda joda-convert 1.7
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.13 4.0.7
org.json4s json4s-core_2.13 4.0.7
org.json4s json4s-jackson-core_2.13 4.0.7
org.json4s json4s-jackson_2.13 4.0.7
org.json4s json4s-scalap_2.13 4.0.7
org.lz4 lz4-java 1.8.0-databricks-1
org.mlflow mlflow-spark_2.13 2.9.1
org.objenesis objenesis 3.3
org.postgresql postgresql 42.6.1
org.roaringbitmap RoaringBitmap 1.2.1
.rocksdb rocksdbjni 9.8.4
org.rosuda.REngine REngine 2.1.0
org.scala-lang scala-compiler_2.13 2.13.16
org.scala-lang scala-library_2.13 2.13.16
org.scala-lang scala-reflect_2.13 2.13.16
org.scala-lang.modules scala-collection-compat_2.13 2.11.0
org.scala-lang.modules scala-java8-compat_2.13 0.9.1
org.scala-lang.modules scala-parallel-collections_2.13 1.2.0
org.scala-lang.modules scala-parser-combinators_2.13 2.4.0
org.scala-lang.modules scala-xml_2.13 2.3.0
org.scala-sbt 测试界面 1.0
org.scalacheck scalacheck_2.13 1.18.0
org.scalactic scalactic_2.13 3.2.19
org.scalanlp breeze-macros_2.13 2.1.0
org.scalanlp breeze_2.13 2.1.0
org.scalatest 与Scalatest兼容 3.2.19
org.scalatest scalatest-core_2.13 3.2.19
org.scalatest scalatest-diagrams_2.13 3.2.19
org.scalatest scalatest-featurespec_2.13 3.2.19
org.scalatest scalatest-flatspec_2.13 3.2.19
org.scalatest scalatest-freespec_2.13 3.2.19
org.scalatest scalatest-funspec_2.13 3.2.19
org.scalatest scalatest-funsuite_2.13 3.2.19
org.scalatest scalatest-matchers-core_2.13 3.2.19
org.scalatest scalatest-mustmatchers_2.13 3.2.19
org.scalatest scalatest-propspec_2.13 3.2.19
org.scalatest scalatest-refspec_2.13 3.2.19
org.scalatest scalatest-shouldmatchers_2.13 3.2.19
org.scalatest scalatest-wordspec_2.13 3.2.19
org.scalatest scalatest_2.13 3.2.19
org.slf4j jcl-over-slf4j 2.0.16
org.slf4j jul-to-slf4j 2.0.16
org.slf4j slf4j-api 2.0.16
org.slf4j slf4j-simple 1.7.25
org.threeten threeten-extra 1.8.0
org.tukaani xz 1.10
org.typelevel algebra_2.13 2.8.0
org.typelevel cats-kernel_2.13 2.8.0
org.typelevel spire-macros_2.13 0.18.0
org.typelevel spire-平台_2.13 0.18.0
org.typelevel spire-util_2.13 0.18.0
org.typelevel 尖塔_2.13 0.18.0
org.wildfly.openssl WildFly-OpenSSL 1.1.3.Final
org.xerial sqlite-jdbc 3.42.0.0
org.xerial.snappy snappy-java 1.1.10.3
org.yaml snakeyaml 2.0
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5
software.amazon.cryptools AmazonCorrettoCryptoProvider 2.4.1-linux-x86_64
斯塔克斯 stax-api 1.0.1

小窍门

若要查看已终止支持 (EoS) 的 Databricks Runtime 版本的发行说明,请参阅终止支持 Databricks Runtime 发行说明。 EoS Databricks Runtime 版本已停用,可能不会更新。