排除`pyspark`笔记本电脑故障

2020-06-01

重要

Microsoft SQL Server 2019 大数据群集附加产品将停用。对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持，在此之前，该软件将继续通过 SQL Server 累积更新进行维护。有关详细信息，请参阅公告博客文章和 Microsoft SQL Server 平台上的大数据选项。

本文演示如何对失败的笔记本进行故障排除 pyspark 。

Azure Data Studio 下的 PySpark 作业的体系结构

Azure Data Studio 与 SQL Server 大数据群集上的 livy 终结点通信。

终结点 livy 在大数据群集中发出 spark-submit 命令。每个 spark-submit 命令都有一个参数，该参数将 YARN 指定为群集资源管理器。

若要有效地排查 PySpark 会话问题，你将收集并查看每个层中的日志：Livy、YARN 和 Spark。

此故障排除步骤要求你具备：

Azure 数据 CLI (azdata) 已安装，并已正确配置到群集。
熟悉运行 Linux 命令和一些日志故障排除技能。

故障排除步骤

查看pyspark中的堆栈和错误消息。

从笔记本中的第一个单元格获取应用程序 ID。使用此应用程序 ID 调查 livy、YARN 和 Spark 日志。 SparkContext 使用此 YARN 应用程序 ID。

获取日志。

使用 azdata bdc debug copy-logs 来进行调查

以下示例连接大数据群集终结点以复制日志。在运行之前更新示例中的以下值。

<ip_address>：大数据群集终结点
<username>：大数据群集用户名
<namespace>：群集的 Kubernetes 命名空间
<folder_to_copy_logs>：要将日志复制到的本地文件夹路径

azdata login --auth basic --username <username> --endpoint https://<ip_address>:30080
azdata bdc debug copy-logs -n <namespace> -d <folder_to_copy_logs>

示例输出

<user>@<server>:~$ azdata bdc debug copy-logs -n <namespace> -d copy_logs
Collecting the logs for cluster '<namespace>'.
Collecting logs for containers...
Creating an archive from logs-tmp/<namespace>.
Log files are archived in /home/<user>/copy_logs/debuglogs-<namespace>-YYYYMMDD-HHMMSS.tar.gz.
Creating an archive from logs-tmp/dumps.
Log files are archived in /home/<user>/copy_logs/debuglogs-<namespace>-YYYYMMDD-HHMMSS-dumps.tar.gz.
Collecting the logs for cluster 'kube-system'.
Collecting logs for containers...
Creating an archive from logs-tmp/kube-system.
Log files are archived in /home/<user>/copy_logs/debuglogs-kube-system-YYYYMMDD-HHMMSS.tar.gz.
Creating an archive from logs-tmp/dumps.
Log files are archived in /home/<user>/copy_logs/debuglogs-kube-system-YYYYMMDD-HHMMSS-dumps.tar.gz.

查看 Livy 日志。 Livy 日志位于 <namespace>\sparkhead-0\hadoop-livy-sparkhistory\supervisor\log.

首先从 pyspark 笔记本的首个单元格中搜索 YARN 应用程序 ID。
搜索ERR状态。

具有 YARN ACCEPTED 状态的 Livy 日志示例。 Livy 已提交 YARN 应用程序。

HH:MM:SS INFO utils.LineBufferedStream: YYY-MM-DD HH:MM:SS INFO impl.YarnClientImpl: Submitted application application_<application_id>
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream: YYY-MM-DD HH:MM:SS INFO yarn.Client: Application report for application_<application_id> (state: ACCEPTED)
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream: YYY-MM-DD HH:MM:SS INFO yarn.Client: 
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream:      client token: N/A
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream:      diagnostics: N/A
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream:      ApplicationMaster host: N/A
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream:      ApplicationMaster RPC port: -1
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream:      queue: default
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream:      start time: ############
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream:      final status: UNDEFINED
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream:      tracking URL: https://sparkhead-1.fnbm.corp:8090/proxy/application_<application_id>/
YY/MM/DD HH:MM:SS INFO utils.LineBufferedStream:      user: <account>

查看 YARN UI

在 Azure Data Studio 大数据群集管理控制台中获取 YARN 终结点 URL，或运行 azdata bdc endpoint list –o table。

例如：

azdata bdc endpoint list -o table

退货

Description                                             Endpoint                                                          Name                        Protocol
------------------------------------------------------  ----------------------------------------------------------------  --------------------------  ----------
Gateway to access HDFS files, Spark                     https://knox.<namespace-value>.local:30443                               gateway                     https
Spark Jobs Management and Monitoring Dashboard          https://knox.<namespace-value>.local:30443/gateway/default/sparkhistory  spark-history               https
Spark Diagnostics and Monitoring Dashboard              https://knox.<namespace-value>.local:30443/gateway/default/yarn          yarn-ui                     https
Application Proxy                                       https://proxy.<namespace-value>.local:30778                              app-proxy                   https
Management Proxy                                        https://bdcmon.<namespace-value>.local:30777                             mgmtproxy                   https
Log Search Dashboard                                    https://bdcmon.<namespace-value>.local:30777/kibana                      logsui                      https
Metrics Dashboard                                       https://bdcmon.<namespace-value>.local:30777/grafana                     metricsui                   https
Cluster Management Service                              https://bdcctl.<namespace-value>.local:30080                             controller                  https
SQL Server Master Instance Front-End                    sqlmaster.<namespace-value>.local,31433                                  sql-server-master           tds
SQL Server Master Readable Secondary Replicas           sqlsecondary.<namespace-value>.local,31436                               sql-server-master-readonly  tds
HDFS File System Proxy                                  https://knox.<namespace-value>.local:30443/gateway/default/webhdfs/v1    webhdfs                     https
Proxy for running Spark statements, jobs, applications  https://knox.<namespace-value>.local:30443/gateway/default/livy/v1       livy                        https

检查应用程序 ID 以及各个应用程序主节点和容器日志。
查看 YARN 应用程序日志。

获取应用的应用程序日志。使用 kubectl 连接到 sparkhead-0 Pod，例如：
```
kubectl exec -it sparkhead-0 -- /bin/bash
```
然后使用右侧 application_id在 shell 中运行以下命令：
```
yarn logs -applicationId application_<application_id>
```

搜索错误信息或堆栈信息。

针对 hdfs 的权限错误示例。在 java 堆栈中查找 Caused by:

YYYY-MM-DD HH:MM:SS,MMM ERROR spark.SparkContext: Error initializing SparkContext.
org.apache.hadoop.security.AccessControlException: Permission denied: user=<account>, access=WRITE, inode="/system/spark-events":sph:<bdc-admin>:drwxr-xr-x
     at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:399)
     at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:255)
     at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:193)
     at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1852)
     at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1836)
     at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkAncestorAccess(FSDirectory.java:1795)
     at org.apache.hadoop.hdfs.server.namenode.FSDirWriteFileOp.resolvePathForStartFile(FSDirWriteFileOp.java:324)
     at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInt(FSNamesystem.java:2504)
     at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileChecked(FSNamesystem.java:2448)

Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=<account>, access=WRITE, inode="/system/spark-events":sph:<bdc-admin>:drwxr-xr-x

查看 SPARK UI。

钻研阶段任务以查找错误。

后续步骤

对 SQL Server 大数据群集 Active Directory 集成进行故障排除

通过

排除pyspark笔记本电脑故障

Azure Data Studio 下的 PySpark 作业的体系结构

故障排除步骤

后续步骤

其他资源

排除`pyspark`笔记本电脑故障