Cómo montar S3 para la jerarquización de HDFS en un clúster de grandes datos

2023-12-04

En las secciones siguientes se proporciona un ejemplo de cómo configurar los niveles de HDFS con un origen de datos de almacenamiento S3.

Importante

El complemento Clústeres de macrodatos de Microsoft SQL Server 2019 se va a retirar. La compatibilidad con Clústeres de macrodatos de SQL Server 2019 finalizará el 28 de febrero de 2025. Todos los usuarios existentes de SQL Server 2019 con Software Assurance serán totalmente compatibles con la plataforma, y el software se seguirá conservando a través de actualizaciones acumulativas de SQL Server hasta ese momento. Para más información, consulte la entrada de blog sobre el anuncio y Opciones de macrodatos en la plataforma Microsoft SQL Server.

Prerrequisitos

Clúster de macrodatos implementado
Herramientas de macrodatos
- azdata
- kubectl
Crear y cargar datos en un cubo de S3
- Suba archivos CSV o Parquet a su bucket de S3. Estos son los datos de HDFS externos que se montarán en HDFS en el clúster de macrodatos.

Claves de acceso

Establecimiento de la variable de entorno para las credenciales de clave de acceso

Abra una línea de comandos en una máquina cliente que pueda acceder al clúster de macrodatos. Establezca una variable de entorno con el siguiente formato. Las credenciales deben estar en una lista separada por comas. El comando "set" se usa en Windows. Si usa Linux, use "export" en su lugar.

 set MOUNT_CREDENTIALS=fs.s3a.access.key=<Access Key ID of the key>,
 fs.s3a.secret.key=<Secret Access Key of the key>

Sugerencia

Para obtener más información sobre cómo crear claves de acceso S3, consulte Claves de acceso S3.

Montaje del almacenamiento remoto de HDFS

Ahora que ha preparado un archivo de credenciales con claves de acceso, puede iniciar el montaje. En los pasos siguientes se monta el almacenamiento remoto de HDFS en S3 en el almacenamiento HDFS local del clúster de macrodatos.

Use kubectl para buscar la dirección IP del servicio endpoint controller-svc-external en el clúster de macrodatos. Busque la dirección IP externa.
```
kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
```
Inicie sesión con azdata mediante la dirección IP externa del punto de conexión del controlador con el nombre de usuario y la contraseña del clúster:
```
azdata login -e https://<IP-of-controller-svc-external>:30080/
```
Establezca la variable de entorno MOUNT_CREDENTIALS siguiendo las instrucciones anteriores.
Monte el almacenamiento remoto de HDFS en Azure mediante azdata bdc hdfs mount create. Reemplace los valores de marcador de posición antes de ejecutar el siguiente comando:
```
azdata bdc hdfs mount create --remote-uri s3a://<S3 bucket name> --mount-path /mounts/<mount-name>
```
Nota:

El comando mount create es asincrónico. En este momento, no hay ningún mensaje que indique si el montaje se realizó correctamente. Consulte la sección estado para comprobar el estado de sus monturas.

Si se monta correctamente, debería poder consultar los datos de HDFS y ejecutar trabajos de Spark en él. Aparecerá en HDFS para el clúster de macrodatos en la ubicación especificada por --mount-path.

Obtener el estado de las monturas

Para enumerar el estado de todos los montajes del clúster de macrodatos, use el siguiente comando:

azdata bdc hdfs mount status

Para enumerar el estado de un montaje en una ruta de acceso específica en HDFS, use el siguiente comando:

azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>

Actualizar un montaje

En el ejemplo siguiente se actualiza el montaje.

azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>

Eliminar el montaje

Para eliminar el montaje, use el comando azdata bdc hdfs mount delete y especifique la ruta de montaje en HDFS:

azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>

Configuración de niveles de HDFS en clústeres de macrodatos de SQL Server

Compartir a través de