En este artículo se responden las preguntas más frecuentes sobre los conceptos, funcionalidades, implementación, compatibilidad y herramientas de clústeres de macrodatos de SQL Server .
procedimientos recomendados
¿Cuáles son los procedimientos recomendados para las ubicaciones de archivos?
A este respecto, hay menos flexibilidad en comparación con la configuración de SQL Server en máquinas sin sistema operativo en Windows o Linux. En el entorno de Kubernetes, estos artefactos se abstraen y deben ser portátiles. Actualmente, hay 2 volúmenes persistentes (PVS), para datos y registros, proporcionados por pod que se pueden configurar. Para más información, consulte Persistencia de datos con el clúster de macrodatos de SQL Server en Kubernetes.
¿Es necesario realizar copias de seguridad del registro de transacciones en clústeres de macrodatos de SQL Server?
Solo debe realizar copias de seguridad de registros para las bases de datos de usuario en la instancia maestra de SQL Server (según el modelo de recuperación o la configuración de alta disponibilidad). Las bases de datos del grupo de datos solo usan el modelo de recuperación SIMPLE. Lo mismo se aplica a las bases de datos DW* creadas para PolyBase.
¿Cómo puedo supervisar si las consultas distribuidas realmente usan el grupo de procesos?
Puede usar las DMV de PolyBase existentes que se han mejorado para escenarios de clúster de macrodatos. Para más información, consulte Supervisión y solución de problemas de PolyBase.
¿Es posible configurar y administrar recursos de clúster de macrodatos directamente a través de kubectl en el servidor de API de Kubernetes?
Aunque puede modificar algunas de las opciones de configuración mediante la API de Kubernetes o kubectl, no se admite ni se recomienda. Debe ejecutar todas las operaciones de administración de clústeres de macrodatos a través de azdata.
¿Cómo puedo hacer una copia de seguridad de los datos almacenados en HDFS?
Puede usar cualquier solución que habilite la instantánea de almacenamiento de nivel de hardware o copie o sincronice a través de webHDFS. También puede usar azdata bdc hdfs cp
, para obtener más información, consulte azdata bdc hdfs.
Conceptos y funcionalidades
¿Hay alguna manera de "escalar horizontalmente" un procedimiento almacenado? Por ejemplo, ¿si se ejecuta en el grupo de proceso, por ejemplo?
No en este momento. Una opción es implementar SQL Server en un grupo de disponibilidad AlwaysOn. A continuación, puede usar réplicas secundarias legibles para ejecutar algunos procesos (por ejemplo: aprendizaje automático/puntuación, actividades de mantenimiento, etc.).
¿Cómo escalar dinámicamente los pods de un grupo?
Este escenario no es compatible en este momento.
¿Es posible realizar copias de seguridad de tablas externas almacenadas en grupos de datos?
La base de datos de la instancia del grupo de datos no tiene metadatos sobre las tablas externas; es como cualquier base de datos de usuario. Puede realizar copias de seguridad o restauración, pero para evitar resultados incoherentes, debe asegurarse de que los metadatos de la tabla externa de la base de datos de metadatos de la instancia maestra de SQL estén sincronizados.
¿Proporciona el grupo de datos particionamiento?
El grupo de datos es un concepto de tabla distribuida. Normalmente, el particionamiento se hace referencia como un concepto OLTP: no se admite actualmente.
¿Cuándo debo usar el grupo de datos o el grupo de almacenamiento para el almacenamiento de datos sin procesar?
El grupo de términos está reservado para describir una colección de servicios o aplicaciones homogéneos. Por ejemplo, el grupo de datos es un conjunto de almacenamiento y proceso de SQL Server con estado y un grupo de almacenamiento es un conjunto de servicios HDFS y Spark. El maestro de SQL Server es una instancia única o varias instancias que se pueden configurar en un grupo de disponibilidad. La instancia maestra de SQL Server es una instancia normal de SQL Server en Linux y puede usar cualquier característica disponible en Linux allí. Primero debe empezar con el modelo de datos, las entidades y servicios o aplicaciones que funcionarán principalmente en la entidad. Todos los datos no tienen que almacenarse en un solo lugar, como SQL Server, HDFS o grupo de datos. En función del análisis de datos, es posible almacenar la mayoría de los datos en HDFS, procesar los datos para un formato más eficaz y exponerlos a otros servicios. Los datos restantes se almacenarían en la instancia maestra de SQL.
¿Admite el clúster de macrodatos de SQL Server bibliotecas y cálculos de aprendizaje profundo basados en GPU (PyTorch, Keras, bibliotecas de imágenes específicas, etc.)?
Este escenario no es compatible en este momento.
¿Hay alguna manera de configurar varias notificaciones de volumen para un grupo?
Cada pod solo puede tener dos volúmenes persistentes (PVs). Puede abstraer el volumen en el nivel de sistema operativo y usarlo para el almacenamiento persistente. Por ejemplo, puede crear una partición del sistema operativo RAID 0 mediante varios discos y usarla para el volumen persistente mediante un aprovisionamiento de almacenamiento local. Actualmente no hay ninguna manera de usar más PVs por pod. Los PVs se asignan a directorios dentro del contenedor y se corrige. Para obtener más información sobre los volúmenes persistentes, consulte La documentación sobre volúmenes persistentes en Kubernetes.
Si configuramos varios proveedores y varios discos, ¿se actualizará la configuración de HDFS con todas las notificaciones del volumen de datos?
Puede configurar el bloque de almacenamiento para usar una clase de almacenamiento específica en el momento de la implementación. Consulte Persistencia de datos con el clúster de macrodatos de SQL Server en Kubernetes.
¿Cuáles son las opciones para acceder al almacenamiento basado en Ceph?
La ordenación por niveles de HDFS nos permite integrar de forma transparente con protocolos basados en S3. Para obtener más información, consulte Cómo montar S3 para la creación de niveles de HDFS en un clúster de macrodatos.
¿Se conservan los datos en HDFS después de una actualización?
Sí, los datos se conservarán, ya que están respaldados por volúmenes persistentes y la actualización solo implementa pods existentes con nuevas imágenes.
¿Cómo controla la caché por niveles de HDFS?
Mediante el uso de niveles de HDFS, los datos se almacenan en caché con la instancia local de HDFS que se ejecuta en el clúster de macrodatos para permitir que los usuarios se conecten a lagos de datos de gran tamaño sin tener que incorporar todos los datos. Hay una cantidad configurable de espacio asignado a la memoria caché que tiene como valor predeterminado 2% hoy. Los datos se mantienen en la memoria caché, pero se quitarán si se supera ese umbral. La seguridad también se mantiene desde el lago y se aplican todas las ACL. Para más información, consulte Configuración de niveles de HDFS en clústeres de macrodatos.
¿Se puede usar SQL Server 2019 para visualizar Azure Data Lake Store Gen2? ¿Esta integración se encargará del permiso de nivel de carpeta?
Sí, puede virtualizar los datos almacenados en ADLS Gen2 mediante niveles de HDFS. Una vez montado el almacenamiento en niveles de HDFS en ADLS Gen2, los usuarios pueden consultar los datos de HDFS y ejecutar trabajos de Spark en él. El almacenamiento montado aparecerá en HDFS para el clúster de macrodatos en la ubicación especificada por --mount-path y los usuarios pueden trabajar con esa ruta de acceso de montaje como si trabajara con un almacenamiento local. Consulte más detalles aquí: Configuración de niveles de HDFS en el clúster de macrodatos. Para obtener más información sobre los permisos de nivel de HDFS, consulte Administración de permisos de HDFS para clústeres de macrodatos de SQL Server.
¿Cuál es la configuración predeterminada de alta disponibilidad o redundancia para el nodo maestro en Azure Kubernetes Service (AKS)?
El plano de control de AKS admite el Acuerdo de Nivel de Servicio de tiempo de actividad garantiza la disponibilidad de 99.95%. Los nodos de clúster de AKS (nodos de trabajo) usan Availability Zones para obtener más información, consulte Zonas de disponibilidad de AKS. Una zona de disponibilidad (AZ) es una oferta de alta disponibilidad de Azure que protege las aplicaciones y los datos de los errores del centro de datos. AKS admite la disponibilidad 99.9% para los clústeres que no usan Availability Zones. Para más información, consulte Acuerdo de Nivel de Servicio para Azure Kubernetes Service (AKS).
¿Hay alguna manera de conservar los registros del historial de trabajos de YARN y Spark?
Reiniciar sparkhead no hará que se pierdan los registros, estos registros se encuentran en HDFS. Debería ver los registros del historial de Spark desde la interfaz de usuario /gateway/default/sparkhistory. En el caso de los registros de contenedor de Yarn, no verá esas aplicaciones en la interfaz de usuario de Yarn porque Yarn RM se reinicia, pero esos registros de hilo siguen en HDFS y puede vincularlos desde el servidor de historial de Spark. Siempre debe usar el servidor de historial de Spark como punto de entrada para diagnosticar sus aplicaciones de Spark.
¿Hay alguna manera de desactivar la característica de almacenamiento en caché para los grupos?
De forma predeterminada, 1% del almacenamiento total de HDFS se reservará para el almacenamiento en caché de datos montados. El almacenamiento en caché es una configuración global entre los montajes. Actualmente, no hay una manera expuesta de desactivarlo; sin embargo, el porcentaje se puede configurar a través del valor hdfs-site.dfs.provided.cache.capacity.fraction . Esta configuración controla la fracción de la capacidad total del clúster que se puede usar para almacenar en caché los datos de los almacenes proporcionados. Para modificarlo, consulte Configuración del clúster de macrodatos después de la implementación. Para más información, consulte Configuración de niveles de HDFS en clústeres de macrodatos de SQL Server.
¿Cómo programar procedimientos almacenados de SQL en el clúster de macrodatos de SQL Server 2019?
Puede usar el servicio Agente SQL Server en la instancia maestra de SQL Server del clúster de macrodatos.
¿Admite el clúster de macrodatos escenarios de datos de series temporales nativas, como generados por casos de uso de IoT?
En este momento, InfluxDB en un clúster de macrodatos solo se usa para almacenar los datos de supervisión recopilados en el clúster de macrodatos y no se expone como un punto de conexión externo.
¿Se puede usar la propiedad InfluxDB proporcionada como base de datos de series temporales para los datos de los clientes?
En este momento, InfluxDB en un clúster de macrodatos solo se usa para almacenar los datos de supervisión recopilados en el clúster de macrodatos y no se expone como un punto de conexión externo.
¿Cómo se agrega una base de datos al grupo de disponibilidad?
En el clúster de macrodatos, la configuración de alta disponibilidad crea un grupo de disponibilidad denominado containedag, que también incluye bases de datos del sistema que se replican entre réplicas. Las bases de datos creadas como resultado de un flujo de trabajo CREATE DATABASE o RESTORE se agregan automáticamente al grupo de disponibilidad independiente y se propagan. Antes de SQL Server 2019 (15.0) CU2, tiene que conectarse a la instancia física en el clúster de macrodatos, restaurar la base de datos y agregarla al contenedor. Para obtener más información, consulte Implementación de clústeres de macrodatos de SQL Server con alta disponibilidad.
¿Puedo configurar los recursos de núcleo o memoria para los componentes que se ejecutan en el clúster de macrodatos?
En este momento, puede establecer la memoria para las instancias de SQL mediante sp_configure, al igual que en SQL Server. En el caso de los núcleos, puede usar ALTER SERVER CONFIGURATION SET PROCESS AFFINITY
. De forma predeterminada, los contenedores ven todas las CPU en el host y no tenemos una manera de especificar límites de recursos mediante Kubernetes en este momento. Para el grupo de proceso, el grupo de datos o el grupo de almacenamiento, la configuración se puede realizar mediante la instrucción EXECUTE AT DATA_SOURCE de la instancia maestra de SQL Server.
¿Qué ocurre cuando uno de los nodos de trabajo de Kubernetes se apaga o tiene una interrupción?
Los pods que no están afinidades con el nodo de trabajo correspondiente se moverán a otro nodo del clúster de Kubernetes siempre que haya suficientes recursos. De lo contrario, los pods no estarán disponibles causando interrupciones.
¿El clúster de macrodatos vuelve a equilibrarse automáticamente si agrego un nodo al clúster de Kubernetes?
Esta acción depende solo de Kubernetes. Además de la colocación de pods mediante etiquetas de nodo, no hay ningún otro mecanismo para controlar el reequilibrio de recursos de Kubernetes desde el clúster de macrodatos.
¿Cuál es la consecuencia de los recursos del clúster de macrodatos al quitar un nodo del clúster de Kubernetes?
Esta acción es equivalente al nodo host que se está apagando. Hay mecanismos para organizar esto en Kubernetes mediante un proceso de entendimiento y esto suele seguirse para el mantenimiento de actualizaciones o nodos. Para más información, consulte la documentación de Kubernetes para Taints y Tolerations.
¿Administra Hadoop el clúster de macrodatos la replicación de los datos?
Sí, el factor de replicación es una de las configuraciones disponibles para HDFS. Para obtener más información, vea Configurar volúmenes persistentes.
¿Se superpone el clúster de macrodatos con Synapse en términos de funcionalidad e integración?
Depende de los casos de uso y los requisitos. El clúster de macrodatos proporciona un área expuesta completa de SQL Server además de Spark y HDFS compatibles con Microsoft, en el entorno local. El clúster de macrodatos permite que el cliente de SQL Server pueda integrarse en análisis y macrodatos. Azure Synapse es puramente una plataforma analítica que ofrece una experiencia de primera clase para los clientes como servicio administrado en la nube, con un enfoque en el análisis de escalabilidad horizontal. Azure Synapse no tiene como destino una carga de trabajo operativa como parte de eso. El clúster de macrodatos tiene como objetivo proporcionar en escenarios analíticos de base de datos, mucho más cerca del almacén operativo.
¿SQL Server usa HDFS como almacenamiento en clústeres de macrodatos de SQL Server?
Los archivos de base de datos de la instancia de SQL Server no se almacenan en HDFS; sin embargo, SQL Server puede consultar HDFS mediante la interfaz de tabla externa.
¿Cuáles son las opciones de distribución disponibles para almacenar datos en las tablas distribuidas de cada grupo de datos?
ROUND_ROBIN y REPLICADO. ROUND_ROBIN es el valor predeterminado. HASH no está disponible.
¿El clúster de macrodatos tiene incluido el servidor Thrift de Spark? Si es así, ¿se expone el punto de conexión ODBC para conectarse a las tablas de Metastore de Hive?
Actualmente exponemos metastore de Hive (HMS) a través del protocolo Thrift. Documentamos el protocolo, pero no hemos abierto un punto de conexión ODBC en este momento. Puede acceder a él a través del protocolo HTTP de Metastore de Hive para obtener más información, consulte Protocolo HTTP de Metastore de Hive.
Carga de datos
¿Es posible ingerir datos de SnowFlake en un clúster de macrodatos?
SQL Server en Linux (se aplica también a la instancia maestra de SQL Server en el clúster de macrodatos) no admite el origen de datos ODBC genérico que permite instalar un controlador ODBC de terceros (SnowFlake, DB2, PostgreSQL, etc.) y consultarlos. Esta característica solo está disponible actualmente en SQL Server 2019 (15.0) en Windows. En el clúster de macrodatos, puede leer los datos a través de Spark mediante JDBC e ingerirlos en SQL Server mediante el conector spark de MSSQL.
¿Es posible ingerir datos mediante un origen de datos ODBC personalizado en un clúster de macrodatos?
SQL Server en Linux (se aplica también a la instancia maestra de SQL Server en el clúster de macrodatos) no admite el origen de datos ODBC genérico que permite instalar un controlador ODBC de terceros (SnowFlake, DB2, PostgreSQL, etc.) y consultarlos.
¿Cómo se pueden importar datos a la misma tabla mediante PolyBase CTAS en lugar de crear nueva tabla cada vez que ejecute el CTAS?
Puede usar el INSERT..SELECT
enfoque para evitar la necesidad de una nueva tabla cada vez.
¿Cuál sería la ventaja o consideraciones para cargar datos en el grupo de datos en lugar de directamente en la instancia maestra como tablas locales?
Si la instancia maestra de SQL Server tiene suficientes recursos para satisfacer la carga de trabajo analítica, siempre es la opción más rápida. El grupo de datos ayuda si desea descargar la ejecución en otras instancias de SQL para las consultas distribuidas. También puede usar el grupo de datos para ingerir datos de los ejecutores de Spark en paralelo a diferentes instancias de SQL, por lo que el rendimiento de carga de los grandes conjuntos de datos que se generan desde el sistema de archivos distribuido de Hadoop (HDFS) suele ser mejor que ir a una sola instancia de SQL Server. Sin embargo, esto también es difícil de decir, ya que todavía podría tener varias tablas en sql Server e insertar en paralelo si lo desea. El rendimiento depende de muchos factores y no hay ninguna guía o recomendación única en ese sentido.
¿Cómo puedo supervisar la distribución de datos dentro de las tablas del grupo de datos?
Puede usar EXECUTE AT para consultar DMV como sys.dm_db_partition_stats para obtener los datos en cada tabla local.
¿Curl es la única opción para cargar archivos en HDFS?
No, puede usar azdata bdc hdfs cp. Si proporciona el directorio raíz, el comando copiará de forma recursiva todo el árbol. Puede copiar o salir con este comando simplemente cambiando lo que es las rutas de acceso de origen o destino.
¿Cómo puedo cargar datos en el grupo de datos?
Puede usar la biblioteca de conectores de SPARK de MSSQL para ayudar con la ingesta de SQL y del grupo de datos. Para ver un tutorial guiado, consulte Tutorial: Ingesta de datos en un grupo de datos de SQL Server con trabajos de Spark.
Si tengo muchos datos en una ruta de acceso de red (Windows), que contiene una gran cantidad de carpetas o subcarpetas y archivos de texto, ¿cómo puedo cargarlos en HDFS en el clúster de macrodatos?
Pruebe a azdata bdc hdfs cp . Si proporciona el directorio raíz, el comando copiará de forma recursiva todo el árbol. Puede copiar o salir con este comando simplemente cambiando lo que es las rutas de acceso de origen o destino.
¿Es posible aumentar el tamaño del bloque de almacenamiento en un clúster implementado?
No hay ninguna azdata
interfaz para realizar esta operación en este momento. Tiene la opción de cambiar el tamaño de los PVC deseados manualmente. El cambio de tamaño es una operación compleja, consulte Volúmenes persistentes en la documentación de Kubernetes.
Virtualización de datos
¿Cuándo debo usar servidores vinculados frente a PolyBase?
Consulte las principales diferencias y casos de uso aquí: Preguntas más frecuentes sobre PolyBase.
¿Cuáles son los orígenes de virtualización de datos admitidos?
El clúster de macrodatos admite la virtualización de datos de orígenes ODBC: SQL Server, Oracle, MongoDB, Teradata, etc. También admite la organización por niveles de almacenes remotos, como Azure Data Lake Store Gen2 y almacenamiento compatible con S3, así como AWS S3A y el sistema de archivos de blobs de Azure (ABFS).
¿Puedo usar PolyBase para virtualizar los datos almacenados en una base de datos de Azure SQL?
Sí, puede usar PolyBase en el clúster de macrodatos para acceder a los datos de Azure SQL Database.
¿Por qué las instrucciones CREATE TABLE incluyen la palabra clave EXTERNAL? ¿Qué hace EXTERNAL de forma diferente a la estándar CREATE TABLE?
En general, la palabra clave external implica que los datos no están en la instancia de SQL Server. Por ejemplo, puede definir una tabla de grupo de almacenamiento sobre un directorio HDFS. Los datos se almacenan en archivos HDFS, no en los archivos de base de datos, pero la tabla externa le proporcionó la interfaz para consultar archivos HDFS como una tabla relacional como si estuviera en la base de datos.
Este concepto de acceso a datos externos se denomina virtualización de datos. Para obtener más información, consulte Introducción a la virtualización de datos con PolyBase. Para ver un tutorial sobre la virtualización de datos de archivos CSV en HDFS, consulte [Virtualizar datos CSV de clústeres de macrodatos del grupo de almacenamiento.
¿Cuáles son las diferencias entre la virtualización de datos mediante SQL Server que se ejecuta en clústeres de macrodatos de SQL Server frente a SQL Server?
Para obtener una comparación, consulte PolyBase en clústeres de macrodatos frente a PolyBase en instancias independientes.
¿Cómo puedo saber fácilmente que una tabla externa apunta al grupo de datos frente al grupo de almacenamiento?
Puede determinar el tipo de tabla externa examinando el prefijo de ubicación del origen de datos, por ejemplo, sqlserver://, oracle://, sqlhdfs://, sqldatapool://.
Despliegue
Error en la implementación del clúster de macrodatos. ¿Cómo veo lo que salió mal?
Consulte Administración de clústeres de macrodatos de SQL Server con cuadernos de Azure Data Studio. Consulte también los temas de solución de problemas en Solución de problemas de Kubernetes.
¿Hay una lista definitiva de todo lo que se puede establecer en la configuración del clúster de macrodatos?
Todas las personalizaciones que se pueden realizar en el momento de la implementación se documentan aquí en Configuración de las opciones de implementación para los servicios y los recursos del clúster. Para Spark, consulte Configuración de Apache Spark y Apache Hadoop en clústeres de macrodatos.
¿Podemos implementar SQL Server Analysis Services junto con clústeres de macrodatos de SQL Server?
No. En concreto, SQL Server Analysis Services (SSAS) no se admite en SQL Server en Linux, por lo que tendrá que instalar una instancia de SQL Server en Windows Server para ejecutar SSAS.
¿Se admite el clúster de macrodatos para la implementación en EKS o GKS?
El clúster de macrodatos se puede ejecutar en cualquier pila de Kubernetes basada en la versión 1.13 y posteriores. Sin embargo, no hemos realizado validaciones específicas del clúster de macrodatos en EKS o GKS.
¿Qué es la versión de HDFS y Spark que se ejecuta en el clúster de macrodatos?
Spark es 2.4 y HDFS es 3.2.1. Para obtener detalles completos sobre el software de código abierto incluido en el clúster de macrodatos, consulte Referencia de software de código abierto.
¿Cómo se instalan bibliotecas y paquetes en Spark?
Puede agregar paquetes en el envío de trabajos mediante los pasos descritos en el cuaderno de ejemplo para instalar paquetes en Spark.
¿Es necesario usar SQL Server 2019 para usar R y Python para clústeres de macrodatos de SQL Server?
Machine Learning (ML) Services (R y Python) está disponible a partir de SQL Server 2017. ML Services también está disponible en clústeres de macrodatos de SQL Server. Para obtener más información, consulte ¿Qué es SQL Server Machine Learning Services con Python y R?.
Licencias
¿Cómo funcionan las licencias de SQL Server para clústeres de macrodatos de SQL Server?
Consulte la guía de licencias que se detalla mucho más, descargue el PDF.
Para obtener un resumen, vea el vídeo Licencias de SQL Server: Clústeres de macrodatos | Datos expuestos.
Seguridad
¿Admite el clúster de macrodatos el identificador de Entra de Microsoft ([anteriormente Azure Active Directory](/entra/fundamentals/new-name))?
No en este momento.
¿Se puede conectar al maestro del clúster de macrodatos mediante la autenticación integrada?
Sí, puede conectarse a varios servicios de clúster de macrodatos mediante la autenticación integrada (con Active Directory). Para obtener más información, consulte Implementación de clústeres de macrodatos de SQL Server en modo de Active Directory. Consulte también Conceptos de seguridad para clústeres de macrodatos.
¿Cómo puedo agregar nuevos usuarios para varios servicios dentro del clúster de macrodatos?
En el modo de autenticación básica (nombre de usuario y contraseña), no hay compatibilidad para agregar varios usuarios para los puntos de conexión de la puerta de enlace o HDFS de Knox. El único usuario admitido para estos puntos de conexión es root. Para SQL Server, puede agregar usuarios mediante Transact-SQL como lo haría con cualquier otra instancia de SQL Server. Si implementa el clúster de macrodatos con la autenticación de AD para sus puntos de conexión, se admiten varios usuarios. Consulte aquí para obtener más información sobre cómo configurar los grupos de AD en el momento de la implementación. Para obtener más información, consulte Implementación de clústeres de macrodatos de SQL Server en modo de Active Directory.
Para que el clúster de macrodatos extraiga las imágenes de contenedor más recientes, ¿existe un intervalo IP de salida que puedo restringir?
Puede revisar las direcciones IP que usan los distintos servicios en intervalos IP de Azure y etiquetas de servicio: nube pública. Tenga en cuenta que estas direcciones IP giran periódicamente.
Para que el servicio de controlador extraiga las imágenes de contenedor de Microsoft Container Registry (MCR), deberá conceder acceso a las direcciones IP especificadas en la sección MicrosoftContainerRegistry . Otra opción consiste en configurar una instancia privada de Azure Container Registry y configurar el clúster de macrodatos para extraer de allí. En ese caso, deberá exponer las direcciones IP especificadas en la sección AzureContainerRegistry . Las instrucciones sobre cómo hacerlo y un script se proporcionan en Realización de una implementación sin conexión de un clúster de macrodatos de SQL Server.
¿Puedo implementar el clúster de macrodatos en un entorno con disponibilidad inalámbrica?
Sí, para obtener más detalles, consulte Realización de una implementación sin conexión de un clúster de macrodatos de SQL Server.
¿La característica "Cifrado de Azure Storage" también se aplica de forma predeterminada a los clústeres de macrodatos basados en AKS?
Esto depende de las configuraciones del aprovisionamiento de almacenamiento dinámico en Azure Kubernetes Service (AKS). Consulte aquí para más información: Procedimientos recomendados para el almacenamiento y las copias de seguridad en Azure Kubernetes Service (AKS).
¿Puedo rotar las claves para el cifrado de SQL Server y HDFS en el clúster de macrodatos?
Sí. Para obtener más información, vea Versiones de clave en Clústeres de macrodatos.
¿Puedo rotar las contraseñas de objetos de Active Directory generados automáticamente?
Sí, puede rotar fácilmente las contraseñas de objetos de Active Directory generados automáticamente con una nueva característica introducida en clústeres de macrodatos de SQL Server CU13. Para obtener más información, consulte Rotación de contraseñas de AD.
Apoyo
¿Spark y HDFS se implementan en clústeres de macrodatos de SQL Server compatibles con Microsoft?
Sí, Microsoft admite todos los componentes enviados en clústeres de macrodatos.
¿Cuál es el modelo de compatibilidad para SparkML y SQL Server ML Service?
La directiva de soporte técnico de SQL Server ML Services es la misma que la de SQL Server, excepto que todas las versiones principales incluyen una nueva versión en tiempo de ejecución. La propia biblioteca SparkML es software de código abierto (SOS). Empaquetamos muchos componentes del sistema operativo en el clúster de macrodatos y esto es compatible con Microsoft.
¿Se admite red Hat Enterprise Linux 8 (RHEL8) para clústeres de macrodatos de SQL Server?
No en este momento. Consulte aquí las configuraciones probadas.
herramientas
¿Los cuadernos están disponibles en Azure Data Studio básicamente cuadernos de Jupyter Notebook?
Sí, es el mismo kernel de Jupyter que acaba de mostrarse en Azure Data Studio.
¿La herramienta "azdata" es de código abierto?
No, azdata
no tiene código abierto en este momento.
Recursos de entrenamiento
¿Qué opciones de entrenamiento del clúster de macrodatos están disponibles?
Estos son algunos recursos que puede usar:
Taller: Kubernetes: De sin sistema operativo a clústeres de macrodatos de SQL Server
Taller: Clústeres de macrodatos de SQL Server: arquitectura
Tutorial: Preparación de una aplicación para Azure Kubernetes Service (AKS)
(PDF)Caso práctico: Cargas de trabajo de SQL que se ejecutan en Apache Spark en el clúster de macrodatos de MS SQL Server 2019