容器服务ACK 2025年功能发布记录

本文介绍容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)的最新功能发布记录。

背景信息

  • 关于容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)支持的Kubernetes(K8s)版本,请参见ACK版本发布说明

  • 容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)支持的操作系统包括ContainerOS、Alibaba Cloud Linux 3 容器优化版、Alibaba Cloud Linux 3、Alibaba Cloud Linux 3 Arm版、Alibaba Cloud Linux UEFI 3、Red Hat、Ubuntu、Windows等,请参见操作系统

202503

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

ACK托管集群Pro支持智能托管模式

创建ACK托管集群时,可开启智能托管模式,快速创建一个符合最佳实践的Kubernetes集群。

集群创建后,将默认创建一个智能托管节点池,该节点池将根据工作负载按需动态扩缩容。同时,ACK 将负责操作系统版本升级、软件版本升级、安全漏洞修复等运维职责。

全部

支持为集群控制面和数据面组件启用链路追踪

为集群API Serverkubelet启用链路追踪后,其链路信息将自动上报至可观测链路 OpenTelemetry 版,提供可视化的链路明细、实时拓扑等监控数据。

全部

发布高风险KubeConfig短信和邮件通知功能

支持通过短信和邮件提醒用户当前账号下存在已删除但仍在存在风险的KubeConfig。

全部

支持基于ACK Gateway with Inference Extension实现智能路由与流量管理

您可以使用ACK Gateway with Inference Extension组件配置推理服务扩展,以实现智能路由和高效流量管理。

全部

使用ACK Gateway with Inference Extension实现智能路由与流量管理

支持基于Knative部署vLLM推理应用

传统的基于GPU利用率的弹性伸缩策略无法准确反映大模型推理服务的实际负载情况。Knative提供的自动扩缩容机制KPA(Knative Pod Autoscaler)能够根据QPSRPS来调整资源分配,更直接地反映推理服务的性能表现。

全部

基于Knative部署vLLM推理应用

分布式云容器平台 ACK One

支持多集群舰队组件统一管理

ACK One舰队为集群运维人员提供了统一且自动化的组件管理能力,可以定义包含多个组件及其版本的基线,并将其部署到多个集群,同时支持组件配置、部署批次和回滚等功能,从而提升系统的稳定性。

全部

多集群组件管理

支持动态分发和重调度

ACK One舰队可以通过PropagationPolicy根据子集群的可用资源对工作负载进行副本的切分。同时,ACK One舰队默认开启重调度能力,每两分钟进行一次自动检测,当Pod处于不可调度状态超过30秒时,将触发该副本的重调度。

全部

动态分发和重调度

云原生AI套件

支持设置Slurm队列优先级

新增最佳实践,介绍在Slurm系统环境下,当出现作业提交或作业状态变化时,如何通过恰当的队列配置策略来实现尽可能多的任务调度处理,以达到最佳性能。

全部

基于ACK集群设置Slurm队列优先级

202502

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

支持修改控制面安全组、时区

当创建集群选择的安全组和时区不再符合要求时,可在集群基本信息中修改控制面的安全组和集群时区。

全部

查看集群信息

节点池支持自定义 containerd 配置

您可以在节点池中自定义节点的 containerd 参数配置,例如给指定镜像仓库同时配置多个 Mirror 仓库,或者指定跳过某个镜像仓库的安全证书的验证。

全部

自定义节点池containerd参数配置

节点池新增弹性强度提示

节点池扩容时,可能由于实例库存不足、ECS实例规格在指定可用区不支持等原因导致扩容失败,可通过弹性强度来评估节点池配置的可用性以及实例供应的健康度,并获取相应的配置建议。

全部

查看节点池弹性强度

支持启用批量任务编排能力

Argo Workflows是一个Kubernetes原生的工作流引擎,支持通过YAMLPython编排并行任务,简化容器化应用的自动化和管理工作,适用于CI/CD流水线、数据处理、机器学习等场景。可通过安装Argo Workflows组件启用批量任务编排能力,使用阿里云Argo CLI或控制台界面创建和管理工作流任务。

全部

启用批量任务编排能力

GPU故障检测

ACK提供的ack-node-problem-detector组件基于社区开源项目node-problem-detector进一步改造和增强了集群节点异常事件监控能力。该组件提供丰富的GPU相关的故障检测项以增强GPU场景的故障发现能力,当发现对应的故障时会根据故障类型产生相应的Kubernetes EventKubernetes Node Condition。

全部

GPU故障检测

Knative服务中基于Fluid加速Pod启动

Fluid是一个开源的、Kubernetes原生的分布式数据集编排和加速引擎,主要应用于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。本实践介绍如何在Knative中基于Fluid加速模型推理服务Pod的启动,以提升应用响应效率。

全部

基于Fluid加速Pod启动

分布式云容器平台 ACK One

基于实际剩余资源的多集群Spark作业调度与分发

本实践将介绍如何通过ACK One舰队和ACK Koordinator组件,根据各集群实际剩余资源(而非请求资源)来调度和分发多集群Spark作业,以最大化利用多集群中的闲置资源,并通过优先级控制和离线混合部署确保在线服务的正常运行。

全部

基于实际剩余资源的多集群Spark作业调度与分发

ACK One注册集群使用ACS GPU算力构建DeepSeek蒸馏模型推理服务

通过将本地数据中心的Kubernetes集群接入ACK One注册集群,企业可以无缝扩展算力资源,充分利用阿里云强大的ACS GPU算力,实现DeepSeek推理模型的高效部署。

全部

ACK One注册集群使用ACS GPU算力构建DeepSeek蒸馏模型推理服务

容器服务 Edge 版

支持新增Pod虚拟交换机

ENS边缘场景中,如果ACK Edge集群使用Terway Edge插件,当虚拟交换机的IP不足或者需要扩展Pod网段时,您可以通过新增Pod虚拟交换机来增加IP地址资源供集群使用。

全部

新增Pod虚拟交换机

部署Deepseek-R1模型

为解决DeepSeek推理服务对GPU规格需求越来越高的问题,可通过ACK Edge集群管理本地IDCGPU机器,并借助集群的虚拟节点快速接入云上ACS Serverless GPU算力。该方案可以使推理任务优先在IDC GPU上运行,当本地IDC GPU资源不足时,任务将自动调度至云上的ACS Serverless GPU,满足业务扩展需求的同时降低成本。

全部

部署DeepSeek蒸馏模型推理服务

GPU资源监控

ACK Edge集群可纳管数据中心和边缘侧的GPU节点,统一管理多地域、多环境的异构算力。可在ACK Edge集群中接入阿里云Prometheus监控,使数据中心和边缘计算的GPU节点拥有与云上一致的可观测能力。

全部

ACK Edge集群GPU资源监控最佳实践

云原生AI套件

基于ACK部署DeepSeek蒸馏模型推理服务

DeepSeek-R1-Distill-Qwen-7B模型为例,介绍如何在阿里云容器服务ACK中使用KServe部署生产可用的DeepSeek蒸馏模型推理服务。

全部

基于ACK部署DeepSeek蒸馏模型推理服务

基于ACK多机分布式部署DeepSeek满血版推理部署实战

本实践介绍基于ACKDeepSeek-R1-671B大模型分布式推理实战方案。该方案使用混合并行策略,结合阿里云Arena工具,实现在2台节点上的高效分布式部署,并介绍如何将部署的DeepSeek-R1无缝集成至Dify平台,快速构建支持长文本理解的企业级智能问答系统。

全部

基于ACK多机分布式部署DeepSeek满血版推理部署实战

202501

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

节点池支持镜像按需加速能力

ACK基于DADI(Data Accelerator for Disaggregated Infrastructure)镜像加速技术支持容器镜像的按需加载,实现镜像数据免全量下载以及在线解压,以显著缩短应用启动时间。

全部

使用按需加载容器镜像加速容器启动

新增支持Alibaba Cloud Linux 3 容器优化版操作系统

Alibaba Cloud Linux 3 容器优化版(即Alibaba Cloud Linux 3.2104 LTS 64位容器优化版)是基于 Alibaba Cloud Linux 默认标准镜像针对容器场景进行优化的镜像版本。针对容器场景更高业务部署密度、更快启动速度、更高安全隔离诉求等特点,阿里云结合容器服务 Kubernetes 版中海量客户实战经验,推出自研云原生操作系统 Alibaba Cloud Linux 3 容器优化版镜像。

全部

支持 Kubernetes 1.32

ACK 现已新增支持 Kubernetes 1.32 版本,您可在创建集群时直接创建 1. 32 版本的集群,也可将低版本集群升级至 1.32 版本。

全部

Kubernetes 1.32

支持通过ElasticQuotaTree与任务队列提升资源利用率

为了让不同团队和任务共享集群中的计算资源,同时确保资源的合理分配和隔离,您可以基于ack-kube-queue、ElasticQuotaTreeack-scheduler实现资源的合理、灵活分配。

全部

通过ElasticQuotaTree与任务队列提升资源利用率

新增使用资源组对集群资源进行精细化控制的最佳实践

为了更加高效地管理容器服务 Kubernetes 版的资源,您可以使用资源组对资源进行分组管理。资源组使您能够按照部门、项目、环境等维度对资源进行分组,并结合访问控制(RAM),在单个阿里云账号内实现资源的隔离和精细化权限管理。

全部

使用资源组进行精细化资源控制

分布式云容器平台 ACK One

ACK One注册集群接入ACS算力

支持在ACK One注册集群中使用ACS提供的容器算力。

全部

通过虚拟节点将Pod调度到ACS上运行

支持使用原生Service域名跨集群服务访问

ACK One多集群Service支持通过MultiClusterService实现用原生Service域名跨集群服务访问。您无需修改业务代码、业务PodDNSConfig配置或CoreDNS配置,直接使用原生Service便可实现跨集群流量路由。

全部

使用原生Service域名跨集群服务访问

支持通过Go SDK访问多集群资源

若您希望在平台中集成ACK One舰队以访问各子集群资源,可以利用Go SDK进行操作。

全部

通过Go SDK访问多集群资源

容器服务 Edge 版

支持云端节点伸缩

当线下节点资源不足时,节点自动伸缩能力可以为ACK Edge集群自动扩容云上节点,进行调度容量的补充。

全部

云端ECS节点弹性

支持混合云LLM弹性推理服务部署

通过安装ack-kserve组件,结合ACK Edge集群的云上弹性功能,实现混合云LLM弹性推理服务部署,帮您灵活调度云上云下资源,降低LLM推理服务运营成本。

全部

支持共享GPU调度能力

通过共享GPU调度能力,您可以将多个Pod调度到同一张GPU卡上,以共享GPU的计算资源,从而提高GPU的利用率并节省成本。

  • ACK Edge集群的云端节点支持完整的共享GPU调度和显存隔离以及算力隔离能力。

  • ACK Edge集群的边缘节点池仅支持共享GPU调度,不支持显存隔离、算力隔离的能力。

全部

使用共享GPU调度能力

支持统一管理多地域的ECS资源

新增最佳实践介绍如何通过ACK Edge集群将分布在不同地域的计算资源纳入统一管理,实现云原生应用的全生命周期管理和高效资源调度。

全部

统一管理多地域的ECS资源

更多信息

有关ACK的历史功能发布记录,请参见历史功能发布记录(2025年之前)