具有中高速网络带宽的大型数据集的数据传输

本文概述了在环境中具有中等到高网络带宽且计划传输大型数据集时的数据传输解决方案。 本文还介绍了针对此情况的推荐数据传输选项和相应的关键功能矩阵。

若要查看所有可用数据传输选项的概述,请转到选择一个 Azure 数据传输解决方案

方案说明

大型数据集指的是 TB 到 PB 级的数据大小。 中到高网络带宽是指 100 Mbps 到 10 Gbps。

此方案中推荐的选项取决于是否具有中速网络带宽或高速网络带宽。

中速网络带宽 (100 Mbps - 1 Gbps)

使用中速网络带宽,需要预测通过该网络传输数据的时间。

使用下表估算时间,并基于该时间,在脱机传输或网络传输之间进行选择。 下表显示各种可用网络带宽(假设利用率为 90%)的网络数据传输的预测时间。

网络传输或脱机传输

  • 如果预计网络传输速度太慢,则应使用物理设备。 在这种情况下,推荐的选项是 Azure Data Box 系列的离线传输设备或使用自己的磁盘执行 Azure 导入/导出。

    • 用于脱机传输的 Azure Data Box 系列 - 在受时间、网络可用性或成本限制时,使用来自Microsoft提供的 Data Box 设备的设备将大量数据移动到 Azure。 使用工具(例如 Robocopy)复制本地数据。 可从 Data Box Disk、Data Box 或 Data Box Heavy 中进行选择,具体取决于要传输的数据的大小。
    • Azure 导入/导出 – 通过寄送自己的磁盘驱动器来安全地将大量数据导入 Azure Blob 存储和 Azure 文件,从而使用 Azure 导入/导出服务。 此外,还可以使用此服务将数据从 Azure Blob 存储传输到磁盘驱动器,然后再寄送到本地站点。
  • 如果预计网络传输合理,则可以使用 高网络带宽中详述的以下任何工具。

高速网络带宽 (1 Gbps - 100 Gbps)

如果可用网络带宽较高,请使用以下工具之一。

  • AzCopy - 使用此命令行工具在保证最佳性能的同时轻松向/从 Azure Blob、文件和表存储复制数据。 AzCopy 支持并发度和并行度,并且可以在复制操作中断后进行恢复。
  • Azure 存储 REST API/SDK – 生成应用程序时,可以针对 Azure 存储 REST API 开发应用程序,并使用多种语言提供的 Azure SDK。
  • 用于联机传输的 Azure Data Box 系列 – Azure Stack Edge 和 Data Box Gateway 是可将数据移入和移出 Azure 的在线网络设备。 在上传之前需要连续引入和预处理数据时,请使用 Azure Stack Edge 物理设备。 Data Box Gateway 是该设备的虚拟版本,具有相同的数据传输功能。 每种情况下,数据传输都是由设备进行管理。
  • Azure 数据工厂 - 如果需要业务流程和企业级监视功能,应使用数据工厂横向扩展传输操作。 使用数据工厂在多个 Azure 服务、本地或两者的组合之间定期传输文件。 使用数据工厂,可以创建和计划数据驱动型工作流(称为管道),以便从不同的数据存储引入数据并自动执行数据移动和数据传输。

比较关键功能

下表总结了建议选项的关键功能之间的差异。

中等网络带宽

如果使用脱机数据传输,请使用下表了解关键功能的差异。

Data Box Disk 数据盒 Data Box Heavy 导入/导出
数据大小 最多 35 TB 每个设备最多 80 TB 每个设备最多 800 TB 变量
数据类型 Azure Blob
Azure 文件存储*
Azure Blob
Azure 文件存储
Azure Blob
Azure 文件存储
Azure Blob
Azure 文件存储
外形规格 每个订单 5 个 SSD 1 X 50 磅。 桌面大小的设备每笔订单 1 X ~500 磅。 大型设备每笔订单 每个订单最多 10 个 HDD/SSD
初始设置时间
(15 分钟)
低到中等
(<30 分钟)
中等
(1-2 小时)
中等到困难
(变量)
将数据发送到 Azure 是的 是的 是的 是的
从 Azure 导出数据 是的
加密 AES 128 位 AES 256 位 AES 256 位 AES 128 位
硬件 Microsoft提供的 Microsoft 提供 Microsoft提供的 客户提供
网络接口 USB 3.1/SATA RJ 45、SFP+ RJ45、QSFP+ SATA II/SATA III
合作伙伴集成 部分 部分
航运 Microsoft 托管 Microsoft 托管 Microsoft 托管 由客户管理
数据移动时使用 在商务区域内 在商务区域内 在商务区域内 跨越地理边界,例如美国到欧盟
定价 定价 定价 定价 定价

* Data Box 磁盘不支持大型文件共享,并且不保留文件元数据

如果使用联机数据传输,请使用以下部分中的表来获取高网络带宽。

高网络带宽

工具 AzCopy,
Azure PowerShell,
Azure 命令行接口 (CLI)
Azure 存储 REST API、SDK Data Box Gateway 或 Azure Stack Edge Azure 数据工厂
数据类型 Azure Blob、Azure 文件存储、Azure 表 Azure Blob、Azure 文件存储、Azure 表 Azure Blob、Azure 文件存储 支持 70 多个数据存储和格式的数据连接器
外形规格 命令行工具 编程接口 Microsoft 提供虚拟
或物理设备
Azure 门户中的服务
初始一次性设置 简单 中等 轻松 (<30 分钟) 至温和 (1-2 小时) 广泛
数据预处理 是(使用 Edge 计算) 是的
从其他云传输 是的
用户类型 IT 专业人员或开发人员 开发 IT 专家 IT 专家
定价 免费,收取数据出口费用 免费,收取数据出口费用 Azure Stack Edge 定价
Data Box Gateway 定价
定价

后续步骤