Azure SQL DW 上传任务

Azure SQL DW 上传任务使 SSIS 包能够将本地数据上传到 Azure SQL 数据仓库(DW)中的表。 当前支持的源数据文件格式是采用 UTF8 编码的带分隔符的文本。 上传过程遵循高效的 PolyBase 方法。 具体而言,数据将首先上传到 Azure Blob 存储,然后上传到 Azure SQL DW。 因此,需要使用 Azure Blob 存储帐户来使用此任务。

若要添加 Azure SQL DW 上传任务,请将其从 SSIS 工具箱拖放到设计器画布,然后双击或右键单击并单击“ 编辑 ”以查看任务编辑器对话框。

在“常规” 页上配置以下属性。

领域 DESCRIPTION
LocalDirectory 指定包含待上传数据文件的本地目录。
递 归 指定是否以递归方式搜索子目录。
文件名 指定用于选择具有特定名称模式的文件的名称筛选器。 例如,MySheet*.xsl* 将包含如 MySheet001.xsl 和 MySheetABC.xslx 等文件。
RowDelimiter 指定标记每一行末尾的字符。
列分隔符 指定标记每一列末尾的一个或多个字符。 例如,| (管道)、\t(制表符)、'(单引号),"(双引号)以及 0x5c(反斜杠)。
IsFirstRowHeader 指定每个数据文件的第一行是否包含列名称,而非实际数据。
AzureStorageConnection 指定 Azure 存储连接管理器。
BlobContainer 指定用于上传本地数据并通过 PolyBase 中继到 Azure DW 的 Blob 容器的名称。 如果此容器不存在,则将创建新容器。
BlobDirectory 指定要上传本地数据到并通过 PolyBase 继到 Azure DW 的 Blob 目录(具有虚拟分层结构)。
RetainFiles 指定是否保留已上传到 Azure 存储的文件。
压缩类型 指定将文件上传到 Azure 存储时使用的压缩格式。 本地源不受影响。
压缩级别 指定用于压缩格式的压缩级别。
AzureDwConnection 指定 Azure SQL DW 的 ADO.NET 连接管理器。
数据表名称 指定目标表的名称。 可选择现有的表名称,或通过选择“<新建表...>”创建一个新表。
TableDistribution 指定新表的分发方法。 已为 TableName指定新的表名称时适用。
HashColumnName (哈希列名) 指定用于哈希表分发的列。 已为 TableDistribution 指定 HASH时适用。

你将看到不同的 “映射 ”页,具体取决于是上传到新表还是上传到现有表。 如果是前者,请在待创建目标表中配置要映射到的源列及其对应名称。 如果是后者,请配置源和目标列之间的映射关系。

在“列” 页上,配置每个源列的数据类型属性。

T-SQL 页显示用于将数据从 Azure Blob 存储加载到 Azure SQL DW 的 T-SQL。 T-SQL 从其他页面的配置中自动生成,并在任务执行的过程中执行。 若要满足特定需求,可通过单击“编辑” 按钮选择手动编辑已生成的 T-SQL。 之后可单击“重置” 按钮还原为自动生成的 T-SQL。