现代化大型机和中型数据
Apache®、 Spark 和火焰徽标是美国和/或其他国家/地区 Apache Software Foundation 的注册商标或商标。 使用这些标记并不暗示获得 Apache Software Foundation 的认可。
本文介绍大型机和中型数据源的端到端现代化计划。 现代化有助于提高任务关键型工作负荷的可伸缩性和性能。
建筑
下载此体系结构的 Visio 文件。
数据流
以下数据流对应于上图:
大型机和中型系统将数据存储在以下数据源中。
文件系统:
- 虚拟存储访问方法 (VSAM)
- 平面文件
- 线性磁带文件系统
关系数据库:
- Db2 for z/OS
- Db2 for IBM i
- Db2 for Linux UNIX 和 Windows
非关系数据库:
- 信息管理系统(IMS)
- Adabas
- 集成数据库管理系统 (IDMS)
对象转换过程从源对象中提取对象定义。 然后,定义将转换为目标数据存储中的相应对象。
适用于 Db2 的 SQL Server 迁移助手将架构和数据从 IBM Db2 数据库迁移到 Azure 数据库。
主机文件的托管数据提供程序 通过以下方式转换对象:
- 分析常见的面向业务的语言(COBOL)和报表程序生成器记录布局,或 复制手册。
- 将 copybook 映射到 .NET 应用程序使用的 C# 对象。
Db2toAzurePostgreSQL 工具将数据库对象从 Db2 迁移到 Azure Database for PostgreSQL。
合作伙伴工具对非关系数据库、文件系统和其他数据存储执行自动对象转换。
数据已引入和转换。 大型机和中型系统以 EBCDIC 编码格式以文件格式存储其文件系统数据,例如:
COBOL、编程语言 One 和汇编语言复制手册定义这些文件的数据结构。
a。 文件传输协议(FTP)将大型机和中型文件系统数据集及其相应的复制手册传输到 Azure。 这些数据集具有单一布局和二进制格式的解压缩字段。
b. 数据转换是通过使用 Host Integration Server 的主机文件组件或使用 Azure 逻辑应用中 IBM 主机文件的内置连接器来开发自定义程序来实现的。
Spark Notebook 转换器是使用开源 Spark 框架开发的。 它与 Spark 环境(如 Microsoft Fabric、Azure Synapse Analytics 和 Azure Databricks)兼容。
选项c. 关系数据库数据已迁移。
IBM 大型机和中型系统将数据存储在关系数据库中,例如:
以下服务迁移数据库数据:
- Azure 数据工厂使用 Db2 连接器从数据库提取和集成数据。
- SQL Server Integration Services 处理各种数据 提取、转换和加载 任务。
- 结构数据工厂使用 IBM Db2 连接器迁移 Db2 数据。
d。 迁移非关系数据库数据。
IBM 大型机和中型系统将数据存储在非关系数据库中,例如:
合作伙伴产品集成来自这些数据库的数据。
Azure 数据工厂和 AzCopy 等 Azure 工具将数据加载到 Azure 数据库和 Azure 数据存储中。 还可以使用合作伙伴解决方案和自定义加载解决方案来加载数据。
Azure 提供各种数据库服务,包括 Azure SQL 数据库等完全托管的关系数据库服务,以及 Azure Cosmos DB 等 NoSQL 选项。 这些服务旨在实现可伸缩性、灵活性和全球分发。
Azure 还提供一系列存储解决方案,包括用于非结构化数据的 Azure Blob 存储,以及用于完全托管文件共享的 Azure 文件存储。
Azure 服务使用现代化数据层进行计算、分析、存储和网络。
客户端应用程序还使用现代化数据层。
组件
此体系结构使用以下组件。
数据存储
此体系结构介绍如何将数据迁移到可缩放、更安全的云存储和托管数据库,以便在 Azure 中实现灵活的智能数据管理。
SQL 数据库 是 Azure SQL 系列的一部分。 它专为云设计,提供完全托管且常绿的平台即服务(PaaS)的所有优势。 SQL 数据库还包含由 AI 提供支持的自动化功能,这些功能可优化性能和持续性。 无服务器计算和 超大规模存储选项 可按需自动缩放资源。
Azure Database for PostgreSQL 是基于开源 PostgreSQL 数据库引擎社区版的完全托管的关系数据库服务。
Azure Cosmos DB 是一个全球分布式 多模型NoSQL 数据库。
Azure Database for MySQL 是基于开源 MySQL 数据库引擎社区版的完全托管的关系数据库服务。
SQL 托管实例 是一种智能、可缩放的云数据库服务,可提供完全托管且常青的 PaaS 的所有优势。 SQL 托管实例与最新的 SQL Server Enterprise Edition 数据库引擎几乎完全兼容。 它还提供用于解决常见安全问题的本机虚拟网络实现。
Azure Data Lake Storage 是一个存储存储库,它以本机原始格式保存大量数据。 Data Lake Store 经过优化,可扩展到 TB 和 PB 级数据。 数据通常来自多个异类源。 它可以是结构化的、半结构化的,也可以是非结构化的。
Microsoft Fabric 中的 SQL 数据库 是基于 SQL 数据库的开发人员友好事务数据库。 使用它在 Fabric 中轻松创建作数据库。 Fabric 中的 SQL 数据库使用与 SQL 数据库相同的 SQL 数据库引擎。
Microsoft Fabric Lakehouse 是一个数据体系结构平台,用于在单个位置存储、管理和分析结构化和非结构化数据。
计算
Azure 数据工厂使用 集成运行时(IR)跨不同的网络环境集成数据,这是一种计算基础结构。 Azure 数据工厂使用 自承载 IR 在本地网络中复制云数据存储和数据存储之间的数据。
本地数据网关是本地安装的 Windows 客户端应用程序,充当 Microsoft 云中本地数据源和服务之间的桥梁。
Azure 虚拟机 提供按需、可缩放的计算资源。 Azure 虚拟机(VM)提供虚拟化的灵活性,但消除了物理硬件的维护需求。 Azure VM 提供一系列作系统,包括 Windows 和 Linux。
数据集成商
此体系结构概述了根据大型机源数据和目标数据库使用的各种 Azure 本机迁移工具。
Azure 数据工厂 是混合数据集成服务。 在此解决方案中,Azure 数据工厂使用本机连接器将数据从 Db2 源迁移到 Azure 数据库目标。
AzCopy 是一个命令行实用工具,用于将 Blob 或文件移入和移出存储帐户。
SQL Server Integration Services 是用于创建企业级数据集成和转换解决方案的平台。 可以通过以下方法使用它来解决复杂的业务问题:
- 复制或下载文件。
- 加载数据仓库。
- 清理和挖掘数据。
- 管理 SQL Server 对象和数据。
Host Integration Server 技术和工具可以将现有的 IBM 主机系统、程序、消息和数据与 Azure 应用程序集成。 主机文件客户端组件为从 EBCDIC 转换为 ASCII 的数据提供了灵活性。 例如,可以从已转换的数据生成 JSON 或 XML 格式的数据。
Azure Synapse Analytics 结合了数据集成、企业数据仓库和大数据分析。 此体系结构使用 Azure Synapse Analytics 转换解决方案。 它基于 Apache Spark,非常适合大型大型机数据集工作负荷转换。 它支持各种大型机数据结构和目标,并且需要最少的编码工作量。
Microsoft Fabric 是一个企业就绪的端到端分析平台。 它统一数据移动、数据处理、引入、转换、实时事件路由和报表生成。 它使用以下集成服务支持这些功能:
- 结构数据工程师
- 织物数据工厂
- Fabric 数据科学
- Fabric Real-Time Intelligence
- Fabric 数据仓库
- Fabric 数据库
其他工具
适用于 Db2 的 SQL Server 迁移助手自动从 Db2 迁移到Microsoft数据库服务。 当此工具在 VM 上运行时,它将 Db2 数据库对象转换为 SQL Server 数据库对象,并在 SQL Server 中创建这些对象。
主机文件的数据提供程序 是使用脱机、SNA 或 TCP/IP 连接的 主机集成服务器的 组件。
- 通过脱机连接,数据提供程序在本地二进制文件中读取和写入记录。
- 借助 SNA 和 TCP/IP 连接,数据提供程序读取和写入存储在远程 z/OS(IBM Z 系列大型机)数据集或远程 i5/OS(IBM AS/400 和 iSeries 系统)物理文件中的记录。 只有 i5/OS 系统使用 TCP/IP。
Azure 服务 提供环境、工具和流程,用于在公有云中开发和缩放新应用程序。
方案详细信息
新式数据存储解决方案(如 Azure 数据平台)提供比大型机和中型系统更好的可伸缩性和性能。 通过现代化系统,可以利用这些优势。 但是,更新技术、基础结构和做法很复杂。 该过程涉及对业务和工程活动的详尽调查。 实现系统现代化时,数据管理是一个考虑因素。 还需要查看数据可视化和集成。
成功的现代化使用 数据优先策略。 使用此方法时,可以专注于数据而不是新系统。 数据管理不再是现代化清单上的一项。 相反,数据是中心。 协调、以质量为导向的数据解决方案取代了碎片化、管理不善的数据解决方案。
此解决方案在数据优先方法中使用 Azure 数据平台组件。 具体而言,解决方案涉及:
对象转换。 将对象定义从源数据存储转换为目标数据存储中的相应对象。
数据引入。 连接到源数据存储并提取数据。
数据转换。 将提取的数据转换为适当的目标数据存储结构。
数据存储。 最初和持续地将数据从源数据存储加载到目标数据存储。
可能的用例
使用大型机和中型系统的组织可以从此解决方案中受益,尤其是在他们想要:
使任务关键型工作负载现代化。
获取商业智能以提高运营并取得竞争优势。
删除与大型机和中型数据存储关联的高成本和刚性。
注意事项
这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改进工作负荷质量的指导原则。 有关详细信息,请参阅 Well-Architected Framework。
安全
安全性提供针对故意攻击和滥用宝贵数据和系统的保证。 有关详细信息,请参阅可靠性设计审查检查表。
请注意本地客户端标识与 Azure 中的客户端标识之间的差异。 你需要补偿任何差异。
对组件到组件数据流使用 托管标识 。
使用用于主机文件的数据提供程序转换数据时,请按照 用于主机文件安全和保护的数据提供程序中的建议进行作。
成本优化
成本优化侧重于减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅成本优化设计评审核对清单。
SQL Server 迁移助手是免费的受支持的工具,可简化从 Db2 到 SQL Server、SQL 数据库和 SQL 托管实例的数据库迁移。 SQL Server 迁移助手自动执行迁移的所有方面,包括迁移评估分析、架构和 SQL 语句转换和数据迁移。
基于 Azure Synapse Analytics Spark 的解决方案基于开源库构建。 它消除了许可转换工具的财务负担。
要估计此解决方案的实现成本,请使用 Azure 定价计算器。
性能效率
性能效率是指工作负荷能够高效地缩放以满足用户需求。 有关详细信息,请参阅性能效率设计评审核对清单。
性能效率的主要支柱是性能管理、容量规划、 可伸缩性和选择适当的性能模式。
通过将逻辑实例与主动-主动模式下的多个本地计算机相关联,可以 横向扩展自承载 IR 。
使用 SQL 数据库动态缩放数据库。 无服务器层可以自动缩放计算资源。 弹性池允许数据库共享池中的资源,并且只能手动缩放。
使用主机文件客户端的数据提供程序转换数据时, 请启用连接池 以减少连接启动时间。 使用 Azure 数据工厂提取数据时, 请优化复制活动的性能。
供稿人
Microsoft维护本文。 以下参与者撰写了本文。
主要作者:
- 阿什·汗德尔瓦尔 |首席工程架构师经理
其他参与者:
- Nithish Aruldoss | 工程架构师
要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。
后续步骤
请参阅 Azure 数据库迁移指南。 有关详细信息,请联系 Azure 数据工程 - 大型机和 Midrange 现代化 。
请参阅以下文章: