在本教程中,在 Fabric 中配置打开的镜像数据库。 此示例指导你创建新的开放镜像数据库,并了解如何将数据放入登陆区域。 你将熟悉 Microsoft Fabric 中开放镜像的概念。
先决条件
- 需要 Fabric 的现有容量。 如果没有,请启动 Fabric 试用版。
- Fabric 容量需要处于活动状态并正在运行。 暂停或删除的容量会影响镜像,不会复制任何数据。
创建镜像数据库
在本部分中,我们简要概述了如何在 Fabric 门户中创建新的开放镜像数据库。 或者,也可以使用“创建镜像数据库 REST API ”与开放镜像的 JSON 定义示例一起用于创建。
- 使用现有工作区或创建新工作区。 在工作区中,导航到“创建”中心。 选择创建。
- 找到并选择“镜像数据库”卡片。
- 输入新镜像数据库的名称。
- 选择创建。
- 通过用户界面创建开放镜像数据库后,镜像流程便准备就绪了。 查看新镜像数据库项“主页”。 在镜像数据库主页的详细信息部分找到登陆区域 URL。
开始复制数据
创建镜像数据库后,开始上传文件。 可以使用 Fabric 门户或通过 OneLake 以编程方式上传初始数据和未来更改的数据集。
通过 Fabric 门户上传
要上传用于开放式镜像的初始数据和/或增量更改数据,请执行以下操作:
在镜像数据库的主页上选择“上传文件”。
在 “上传文件 ”页上,使用 Fabric 门户中的上传对话框上传文件。
重要
Parquet 或带分隔符的文本文件的文件名需要匹配文档中的格式和文件名。 有关详细信息,请参阅 “打开镜像登陆区域要求和格式”。
在“预览数据”页上,可以看到要上传的数据的预览。 为“表单名称”提供一个名称,并指定主键列。 选择“创建表”。
上传后,数据将立即开始复制到 OneLake。 几分钟后,在“资源管理器”中,可以通过从“已上传文件”中选择文件或在“OneLake 中的表”中选择表,来查看已在 OneLake 中复制的文件。
在“资源管理器”中的“复制状态”下,可以查看已复制的行数以及与镜像到 OneLake 的数据相关的任何错误。
如果您在镜像数据库的现有表中更改了数据格式,可以上传或拖放这些格式更改的文件。 更改将自动反映在 OneLake 中。
使用其他机制将更改数据写入登陆区域
现在,应用程序可以将初始加载和增量更改数据写入登陆区域 URL,这是 OneLake 的特定开放式镜像路径。
- 按照连接到 Microsoft OneLake,使用 ADLS Gen2 API 授权并写入 OneLake 中的镜像数据库登陆区域。
- 查看开放镜像登陆区域要求和格式规范。
- 使用 Open Mirroring Python SDK 入门!
启动镜像过程
-
“配置镜像”屏幕允许你镜像数据库中的所有数据,这是默认选项。
- 镜像所有数据意味着,镜像启动后创建的任何新表都会被镜像。
- 也可选择只镜像某些对象。 禁用“镜像所有数据”选项,然后从数据库中选择单独的表。 在本教程中,我们将选择“镜像所有数据”选项。
- 选择“镜像数据库”。 镜像开始。
- 等待 2-5 分钟。 然后,选择“监视复制”以查看状态。
- 几分钟后,状态应变为“正在运行”,这表明正在同步表。 如果未看到表和相应的复制状态,请等待几秒钟,然后刷新面板。
- 完成表的初始复制后,“上次刷新”列中会显示一个日期。
- 现在,你的数据已启动并运行,整个 Fabric 中具有各种可用的分析场景。
监视 Fabric 镜像
配置镜像后,将定向到“镜像状态”页。 可以在此处监视复制的当前状态。
有关复制状态的详细信息和详细信息,请参阅 Monitor Fabric 镜像数据库复制。