你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:使用一键引入数据(预览版)

重要

Azure Synapse Analytics 数据资源管理器(预览版)将于 2025 年 10 月 7 日停用。 在此日期之后,Synapse 数据资源管理器上运行的工作负荷将被删除,关联的应用程序数据将丢失。 强烈建议迁移到 Microsoft Fabric 中的 Eventhouse

Microsoft云迁移工厂(CMF)计划旨在帮助客户迁移到 Fabric。 该计划向客户免费提供动手键盘资源。 这些资源在 6-8 周内分配,并具有预定义和同意的范围。 客户提名可以通过 Microsoft 帐户团队接受,或者直接提交《帮助请求》给 CMF 团队。

一键式引入使数据引入过程变得简单、快速和直观。 一键式引入有助于快速启动以开始引入数据、创建数据库表、映射结构。 以不同数据格式从不同类型的源中选择数据,作为一次性或连续引入过程。

以下功能使一键式引入非常有用:

  • 引入向导引导的直观体验
  • 在几分钟内引入数据
  • 从不同类型的源引入数据:本地文件、Blob 和容器(最多 10,000 个 Blob)
  • 引入各种格式的数据
  • 将数据引入新表或现有表
  • 建议使用表映射和架构,它们易于更改

当首次引入数据或您对数据的架构不熟悉时,一键式导入特别有用。

先决条件

  • 一份 Azure 订阅。 创建免费 Azure 帐户

  • 使用 Synapse StudioAzure 门户创建数据资源管理器池

  • 创建“Data Explorer”数据库。

    1. 在 Synapse Studio 的左窗格中,选择“数据”。

    2. 选择+(添加新资源)>数据探索池,并使用以下信息:

      设置 建议值 DESCRIPTION
      池名称 contosodataexplorer 要使用的数据资源管理器池的名称
      名称 TestDatabase 该数据库名称在群集中必须是唯一的。
      默认保留期 365 保证数据可供查询的时间跨度(以天为单位)。 时间跨度从引入数据时算起。
      默认缓存期 31 将频繁查询的数据保存在 SSD 存储或 RAM 中(而不是长期存储)的时间跨度(以天为单位)。
    3. 选择“创建”以创建数据库。 创建过程通常需要不到一分钟的时间。

  • 创建表

    1. 在 Synapse Studio 的左侧窗格中,选择“开发”。
    2. KQL 脚本下,选择+(添加新资源)>KQL 脚本。 可在右侧窗格中命名脚本。
    3. 在“连接到”菜单中,选择“contosodataexplorer”。
    4. 在“使用数据库”菜单中,选择“TestDatabase”。
    5. 粘贴以下命令,然后选择“运行”以创建表。
    .create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
    

    小窍门

    确认是否已成功创建数据表。 在左侧窗格中,选择数据,选择contosodataexplorer的更多菜单,然后选择刷新。 在“contosodataexplorer”下,展开“表”,并确保“StormEvents”表已显示在列表中。

访问一键式向导

一键式引入向导将引导你完成一键式引入过程。

  • 若要从 Azure Synapse 访问向导,请使用以下命令:

    1. 在 Synapse Studio 的左窗格中,选择“数据”。

    2. 在“数据资源管理器数据库”下,右键单击相关数据库,然后选择“在 Azure 数据资源管理器中打开”。

      Azure Synapse Studio 的屏幕截图,显示在特定池的上下文中打开 Azure 数据资源管理器。

    3. 右键单击相关池,然后选择 引入新数据

  • 若要从 Azure 门户访问向导,请执行以下作:

    1. 在 Azure 门户中,搜索并选择相关的 Synapse 工作区。

    2. 数据资源管理器池下,选择相关池。

    3. 数据探索器池的欢迎页面主页上,选择导入新数据

      Azure 门户的屏幕截图,其中显示了在特定池的上下文中打开 Azure 数据资源管理器。

  • 若要从 Azure 数据资源管理器 Web 用户界面访问向导,请执行以下操作:

    1. 在开始之前,请使用以下步骤获取查询和数据引入终结点。
      1. 在 Synapse Studio 的左侧窗格中,选择管理>数据资源管理器池

      2. 选择要用于查看其详细信息的数据资源管理器池。

        数据资源管理器池屏幕的屏幕截图,其中显示了现有池的列表。

      3. 记下查询和数据引入终结点。 在配置到数据资源管理器池的连接时,请使用查询终结点作为群集。 为数据引入配置 SDK 时,请使用数据引入终结点。

        “数据资源管理器池属性”窗格的屏幕截图,其中显示了“查询和数据引入 URI 地址”。

    2. 在 Azure 数据资源管理器 Web ui 中,添加与 查询终结点的连接。
    3. 从左侧菜单中选择 “查询 ”,右键单击 数据库,然后选择 “引入新数据”。

一键式引入向导

注释

本部分介绍使用事件中心作为数据源的向导。 你还可以使用这些步骤从 Blob、文件、Blob 容器和 ADLS Gen2 容器引入数据。

将示例值替换为 Synapse 工作区的实际值。

  1. 在“ 目标 ”选项卡上,为引入的数据选择数据库和表。

    Azure 数据资源管理器一键式引入向导的屏幕截图,其中显示了选择数据库和表。

  2. “源 ”选项卡上:

    1. 选择 事件中心 作为引入的 源类型

      Azure 数据资源管理器一键式引入向导的屏幕截图,其中显示了源类型的选择。

    2. 使用以下信息填写事件中心数据连接详细信息:

      设置 示例值 DESCRIPTION
      数据连接名称 ContosoDataConnection 事件中心数据连接的名称
      订阅 Contoso_Synapse 事件中心所在的订阅。
      事件中心命名空间 contosoeventhubnamespace 事件中心的命名空间。
      使用者组 contosoconsumergroup Even Hub 使用者组的名称。

      Azure 数据资源管理器一键式引入向导的屏幕截图,其中显示了事件中心连接详细信息。

    3. 选择“下一步”。

架构映射

该服务自动生成架构和引入属性,你可以更改这些属性。 可以使用现有的映射结构或创建新的映射结构,具体取决于是否要引入新的或现有的表。

“架构 ”选项卡中执行以下作:

  1. 确认自动生成的压缩类型。
  2. 选择 数据的格式。 不同的格式将允许你进行进一步的更改。
  3. “编辑器”窗口中更改映射。

文件格式

一键式引入支持从数据资源管理器支持引入的所有数据格式的源数据中进行引入。

编辑器窗口

“架构”选项卡的“编辑器”窗口中,可以根据需要调整数据表列。

以下参数决定了你可在表中进行的更改:

  • 表类型为“新”或“现有”
  • 映射类型为“新”或“现有”
表类型 映射类型 可用的调整
新建表 新映射 更改数据类型、重命名列、新建列、删除列、更新列、升序排序、降序排序
现有表 新映射 新列(然后可以更改数据类型、重命名和更新),
更新列,升序排序,降序排序
现有映射 升序排序,降序排序

注释

添加新列或更新列时,可以更改映射转换。 有关详细信息,请参阅 映射转换

映射转换

某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在 编辑器窗口中创建或更新列。

可对具有 string 或 datetime 类型且“源”的数据类型为 int 或 long 的列执行映射转换。 支持的映射转换为:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds (从Unix微秒获取日期时间)
  • DateTimeFromUnixNanoseconds

数据引入

完成架构映射和列操作后,数据输入向导将启动数据摄取过程。

  • 非容器 源引入数据时,引入将立即生效。

  • 如果数据源是 容器

    • 数据资源管理器的 批处理策略 将聚合数据。
    • 引入后,可以下载引入报告并查看已解决的每个 Blob 的性能。

初始数据探索

引入后,向导提供了使用 快速命令 对数据进行初始浏览的选项。

后续步骤