从 OneLake 获取数据

本文介绍如何将数据从 OneLake 获取到新的表或现有表。

先决条件

步骤 1:源

选择 OneLake 作为数据源,如下所示:

  1. 在 KQL 数据库的下部功能区上,选择“获取数据”以打开“获取数据”窗口的“源”选项卡。

  2. 选择数据源。 在此示例中,你将从 OneLake 或嵌入的 OneLake 目录中的列表引入数据。

    “选择数据源”窗口的屏幕截图,其中突出显示了 Onelake 磁贴和嵌入的 Onelake 目录选项。

    注意

    从嵌入的 OneLake 目录中的列表中选择源时,可以使用类别按钮或按关键字进行筛选来搜索特定源。

步骤 2:配置

选取目标表并配置源,如下所示:

  1. 选择目标表。 如果要将数据引入新表,请选择 +新建表 并输入表名称。

    注意

    表名称最多可包含 1024 个字符,包括空格、字母数字、连字符和下划线。 不支持特殊字符。

  2. 选择要引入的 OneLake 文件:

    • 选择 OneLake 作为源时,必须从下拉列表中指定 WorkspaceLakehouseFile

    • 选择嵌入的 OneLake 目录 作为源时,WorkspaceLakehouse 会自动填充。 必须指定要导入的文件

    包含“工作区”、“湖屋”和“文件”下拉列表的“配置”选项卡屏幕截图。

  3. 选择 下一步

步骤 3:检查

此时会打开“检查”选项卡,其中包含数据的预览

要完成引入过程,请选择“完成”

“检查”选项卡的屏幕截图。

你可以查看、检查和配置引入的数据。 图像中的数字对应于以下选项:

(1) 选择“命令查看器”以查看和复制基于输入生成的自动命令

(2) 使用“架构定义文件”下拉列表更改从中推断架构的文件

(3) 通过从下拉列表中选择所需格式来更改自动推断的数据格式。 有关详细信息,请参阅实时智能支持的数据格式

(4) 编辑列

(5) 浏览基于数据类型的高级选项

编辑列

注意

  • 对于表格格式(CSV、TSV、PSV),不能映射列两次。 若要映射到现有列,请先删除新列。
  • 无法更改现有列类型。 如果尝试将数据映射到格式不同的列,则最终可能会出现空列。

可以在表中所做的更改取决于以下参数:

  • 表类型为“新”或“现有”
  • 映射类型为“新”或“现有”
表类型 映射类型 可用调整
新建表 新映射 重命名列、更改数据类型、更改数据源、映射转换、添加列、删除列
现有表 新映射 添加列(然后可以更改数据类型、重命名和更新)
现有表 现有映射 没有

列打开以供编辑的屏幕截图。

映射转换

某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在 编辑列 窗口中创建或更新列。

可以对字符串或日期时间类型的列执行映射转换,源的数据类型为 int 或 long。 有关详细信息,请参阅支持映射转换的完整列表。

基于数据类型的高级选项

表格(CSV、TSV、PSV)

  • 如果要在现有表中引入表格格式,可以选择“高级”“保留表架构”>。 表格数据不一定包括用于将源数据映射到现有列的列名。 选中此选项后,按顺序完成映射,表架构保持不变。 如果未选中此选项,则会为传入数据创建新列,而不考虑数据结构。

    高级选项的屏幕截图。

  • 表格数据不一定包括用于将源数据映射到现有列的列名。 要将第一行用作列名,请选择“首行是列标题”

    “第一行为列标题”开关的屏幕截图。

步骤 4:摘要

数据准备 窗口中,当数据导入成功完成时,所有三个步骤都打有绿色勾。 可以选择要查询的卡,下拉引入的数据,也可以查看引入摘要的仪表板。

成功完成引入的摘要页的屏幕截图。