如何在大数据群集中装载 S3 进行 HDFS 分层

2023-12-04

以下部分提供了有关如何使用 S3 存储数据源配置 HDFS 分层的示例。

重要

Microsoft SQL Server 2019 大数据群集附加产品将停用。对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持，在此之前，该软件将继续通过 SQL Server 累积更新进行维护。有关详细信息，请参阅公告博客文章和 Microsoft SQL Server 平台上的大数据选项。

先决条件

部署大数据群集
大数据工具
- azdata
- kubectl
创建数据并将其上传到 S3 存储桶
- 将 CSV 或 Parquet 文件上传到 S3 存储桶。这是要挂载到大数据集群中的外部 HDFS 数据。

访问密钥

设置用于访问密钥凭据的环境变量

在可以访问大数据群集的客户端计算机上打开命令提示符。使用以下格式设置环境变量。凭据需要位于逗号分隔列表中。 Windows 上使用“set”命令。如果使用 Linux，请改用“导出”。

 set MOUNT_CREDENTIALS=fs.s3a.access.key=<Access Key ID of the key>,
 fs.s3a.secret.key=<Secret Access Key of the key>

小窍门

有关如何创建 S3 访问密钥的详细信息，请参阅 S3 访问密钥。

装载远程 HDFS 存储

准备好具有访问密钥的凭据文件后，即可开始装载。以下步骤将 S3 中的远程 HDFS 存储装载到大数据群集的本地 HDFS 存储。

使用 kubectl 查找大数据群集中终结点 控制器-svc-external 服务的 IP 地址。请查找 外部 IP 地址。
```
kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
```
使用控制器终结点的外部 IP 地址通过群集用户名和密码登录 azdata ：
```
azdata login -e https://<IP-of-controller-svc-external>:30080/
```
按照上述说明设置环境变量MOUNT_CREDENTIALS
使用 azdata bdc hdfs mount create 在 Azure 中装载远程 HDFS 存储。在运行以下命令之前替换占位符值：
```
azdata bdc hdfs mount create --remote-uri s3a://<S3 bucket name> --mount-path /mounts/<mount-name>
```
注释

装载创建命令是异步的。此时，没有消息指示装载是否成功。请参阅“状态”部分，以检查您的装载状态。

如果成功装载，则应能够查询 HDFS 数据，并对其运行 Spark 作业。它将出现在您的大数据集群的 HDFS 中，位于指定的 --mount-path 位置。

获取装载的状态

若要列出大数据群集中所有装载的状态，请使用以下命令：

azdata bdc hdfs mount status

若要列出 HDFS 中特定路径的装载状态，请使用以下命令：

azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>

刷新挂载

以下示例刷新挂载。

azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>

删除挂载

若要删除装载，请使用 azdata bdc hdfs mount delete 命令，并在 HDFS 中指定装载路径：

azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>

在 SQL Server 大数据群集上配置 HDFS 分层

通过