次の方法で共有


メインフレーム データを Azure にレプリケートして同期する

Azure Data Factory
Azure Databricks

このアーキテクチャ例では、最新化中にデータをレプリケートして Azure に同期するための実装計画の概要を示します。 データストア、ツール、サービスなどの技術的な側面について説明します。

アーキテクチャ

メインフレームの最新化中にオンプレミスのデータと Azure データベースのデータを同期する方法を示すアーキテクチャ図。

この図は、Db2 ソースから Azure Data Factory パイプラインを経由して Azure 上のデータ ストレージ、分析、BI サービスへのデータ フローを示しています。 この図には 2 つの領域があり、1 つはオンプレミス コンポーネント用、もう 1 つは Azure コンポーネント用です。 オンプレミス領域には 2 つの四角形があります。 1 つの長方形は、Db2 zOS や Db2 LUW などのデータベースを画像化します。 矢印は、これらのデータベースから 2 番目の四角形を指し、統合ツールが一覧表示されます。 矢印は、各統合ツールから Azure セクションのコンポーネントを指しています。 セルフホステッド統合ランタイムは、"動的パイプライン" というラベルの付いたボックスを指しています。 このボックスには、1 つの親パイプラインと 3 つの子パイプラインが含まれています。 矢印は、これらのパイプラインから "データ ストレージ、分析、BI" というラベルの付いたボックスを指しています。 このボックスには、Azure SQL Database、Azure Cosmos DB、Azure Blob Storage などの Azure サービスが含まれています。 点線の両面矢印は、動的パイプライン経路を Azure Data Lake Storage Gen2 と Azure Databricks で接続します。 矢印は、オンプレミスの SQL Server 統合サービスと Microsoft 以外のツールから、Azure セクションの [データ ストレージ、分析、BI] というラベルの付いたボックスを指しています。 オンプレミス データ ゲートウェイ統合ツールは、Fabric Data Factory のデータ パイプラインを指しています。 矢印は、このパイプラインから [データ ストレージ、分析、BI] ボックスを指しています。

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

次のワークフローは、上記のダイアグラムに対応しています。

メインフレームおよびミッドレンジシステムは、オンプレミスのアプリケーションデータベースを定期的に更新します。 一貫性を維持するために、このソリューションでは最新のデータを Azure データベースと同期します。 同期プロセスには、次の手順が含まれます。

  1. Azure Data Factory 動的パイプラインは、データ抽出からデータ読み込みまで、さまざまなアクティビティを調整します。 パイプライン アクティビティをスケジュールしたり、手動で開始したり、自動的にトリガーしたりできます。

    パイプラインは、タスクを実行するアクティビティをグループ化します。 データを抽出するために、Azure Data Factory はオンプレミス テーブルごとに 1 つのパイプラインを動的に作成します。 その後、Azure でデータをレプリケートするときに、超並列実装を使用できます。 また、要件を満たすようにソリューションを構成することもできます。

    • フルレプリケーション: データベース全体をレプリケートし、ターゲット Azure データベースのデータ型とフィールドに必要な変更を加えます。

    • 部分レプリケーション、差分レプリケーション、または増分レプリケーション: ソース テーブルのウォーターマーク列を使用して、更新された行を Azure データベースと同期します。 これらの列には、連続的に増加するキー、またはテーブルの最終更新を示すタイムスタンプが含まれます。

    Azure Data Factory では、次の変換タスクにもパイプラインが使用されます。

    • データ型の変換
    • データ操作
    • データの書式設定
    • カラムの導出
    • データのフラット化
    • データの並べ替え
    • データのフィルター処理
  2. Db2 zOS、Db2 for i、Db2 LUW などのオンプレミス・データベースは、アプリケーション・データを保管します。

  3. セルフホステッド統合ランタイム (IR) は、Azure Data Factory がアクティビティの実行とディスパッチに使用する環境を提供します。

  4. Azure Data Lake Storage Gen2 と Azure Blob Storage はデータをステージングします。 この手順は、複数のソースからのデータを変換およびマージするために必要になる場合があります。

  5. データの準備のために、Azure Data Factory は Azure Databricks、カスタム アクティビティ、パイプライン データフローを使用して、データを迅速かつ効果的に変換します。

  6. Azure Data Factory は、次のリレーショナルおよび非リレーショナル Azure データベースにデータを読み込みます。

    • Azure SQL
    • Azure Database for PostgreSQL(PostgreSQL用Azureデータベース)
    • Azure Cosmos DB (アジュール コスモス データベース)
    • Azure Data Lake Storage
    • Azure MySQL用データベース
  7. SQL Server Integration Services (SSIS) は、データの抽出、変換、および読み込みを行います。

  8. オンプレミス データ ゲートウェイは、ローカルにインストールされた Windows クライアント アプリケーションであり、ローカルのオンプレミス データ ソースと Azure サービスの間のブリッジとして機能します。

  9. Microsoft Fabric のデータ パイプラインは、Db2 から Azure ストレージとデータベースへのデータ インジェストを実行するアクティビティの論理的なグループです。

  10. ソリューションでほぼリアルタイムのレプリケーションが必要な場合は、Microsoft 以外のツールを使用できます。

コンポーネント

このセクションでは、データの最新化、同期、および統合中に使用できるその他のツールについて説明します。

データ インテグレーター

  • Azure Data Factory は、ハイブリッド データ統合サービスです。 このフル マネージドのサーバーレス ソリューションを使用して、抽出、変換、読み込み (ETL) ワークフローと抽出、読み込み、変換 (ELT) ワークフローを作成、スケジュール、調整できます。

  • Azure Synapse Analytics は、データ ウェアハウスとビッグ データ システム全体で分析情報を得る時間を短縮するエンタープライズ分析サービスです。 Azure Synapse Analytics は、次のテクノロジとサービスの長所を組み合わせたものです。

    • エンタープライズ・データウェアハウスのためのSQLテクノロジー

    • ビッグデータのためのSparkテクノロジー

    • ログと時系列の分析のための Azure Data Explorer

    • データ統合と ETL および ELT ワークフローのための Azure Pipelines

    • Power BI、Azure Cosmos DB、Azure Machine Learning などの他の Azure サービスとの緊密な統合

  • SSIS は、エンタープライズ レベルのデータ統合および変換ソリューションを構築するためのプラットフォームです。 SSIS を使用して、データの管理、レプリケート、クレンジング、およびマイニングを行うことができます。

  • Azure Databricks はデータ分析プラットフォームです。 これは、Apache Spark オープンソースの分散処理システムに基づいており、Azure クラウド プラットフォーム用に最適化されています。 分析ワークフローでは、Azure Databricks は複数のソースからデータを読み取り、Spark を使用して分析情報を提供します。

データ ストレージ

  • Azure SQL DatabaseAzure SQL ファミリの一部であり、クラウド向けに構築されています。 このサービスは、フルマネージドでエバーグリーンなPaaS(Platform as a Service)の利点を提供します。 SQL Database には、パフォーマンスと耐久性を最適化する AI を利用した自動化機能も用意されています。 サーバーレス コンピューティングと ハイパースケール ストレージ オプションのオプション により、リソースはオンデマンドで自動的にスケーリングされます。

  • Azure SQL Managed Instance は、Azure SQL サービス ポートフォリオの一部です。 このインテリジェントでスケーラブルなクラウド データベース サービスは、最も広範な SQL Server エンジンの互換性と、フル マネージドでエバーグリーンな PaaS のすべての利点を兼ね備えています。 SQL Managed Instance を使用して、既存のアプリを大規模に最新化します。

  • Azure Virtual Machines 上の SQL Server は、完全なコード互換性を備えた SQL Server ワークロードをクラウドにリフト アンド シフトする方法を提供します。 Azure SQL ファミリの一部である Azure Virtual Machines 上の SQL Server は、SQL Server のパフォーマンス、セキュリティ、分析と、Azure の柔軟性とハイブリッド接続を組み合わせたものです。 Azure Virtual Machines 上の SQL Server を使用して、既存のアプリを移行したり、新しいアプリをビルドしたりします。 また、SQL Server 2019 を含む最新の SQL Server の更新プログラムとリリースにアクセスすることもできます。

  • Azure Database for PostgreSQL は、オープンソースの PostgreSQL データベース エンジンのコミュニティ エディションに基づくフル マネージド リレーショナル データベース サービスです。 このサービスを使用して、データベース管理ではなくアプリケーションのイノベーションに重点を置きます。 また、ワークロードを迅速かつ簡単にスケーリングすることもできます。

  • Azure Cosmos DB は、グローバルに分散された マルチモデル データベースです。 Azure Cosmos DB を使用して、ソリューションが任意の数の地理的リージョン間でスループットとストレージを弾力的かつ独立してスケーリングできるようにします。 このフルマネージドNoSQLデータベースサービスは、世界中のどこでも99パーセンタイルで1桁のミリ秒のレイテンシを保証します。

  • Data Lake Storage は、大量のデータをネイティブの生形式で保持するストレージ リポジトリです。 Data Lake Store は、テラバイトとペタバイトのデータにスケーリングするために最適化されています。 通常、データは複数の異種ソースから取得され、構造化、半構造化、または非構造化の場合があります。 Data Lake Storage Gen2 は、Data Lake Storage Gen1 の機能と Blob Storage を組み合わせたものです。 この次世代のデータレイクソリューションは、ファイルシステムのセマンティクス、ファイルレベルのセキュリティ、およびスケールを提供します。 また、Blob Storage の階層型ストレージ、高可用性、ディザスター リカバリー機能も提供します。

  • Microsoft Fabric は、エンタープライズ対応のエンド ツー エンドの分析プラットフォームです。 データ移動、データ処理、インジェスト、変換、リアルタイム イベント ルーティング、レポート作成を統合します。 Fabric Data Engineer、Fabric Data Factory、Fabric Data Science、Fabric Real-Time Intelligence、Fabric Data Warehouse、Fabric Databases などの統合サービスを使用して、これらの機能をサポートします。

  • Azure Database for MySQL は、 オープンソースの MySQL データベース エンジンのコミュニティ エディションに基づくフル マネージド リレーショナル データベース サービスです。

その他のツール

  • 分散リレーショナル データベース アーキテクチャ (DRDA) の Microsoft サービスはHost Integration Server のコンポーネントです。 Microsoft Service for DRDA は、DRDA アプリケーション リクエスター (AR) クライアントが使用するアプリケーション サーバーです。 DRDA AR クライアントの例としては、IBM Db2 for z/OS や Db2 for i5/OS などがあります。 これらのクライアントは、アプリケーション・サーバーを使用して Db2 SQL ステートメントを変換し、SQL Server 上で実行します。

  • SQL Server Migration Assistant for Db2 は、Db2 から Microsoft データベース サービスへの移行を自動化します。 このツールは仮想マシン上で実行されます。 Db2 データベース・オブジェクトを SQL Server データベース・オブジェクトに変換し、それらのオブジェクトを SQL で作成します。

シナリオの詳細

データの可用性と整合性は、メインフレームとミッドレンジのモダナイゼーションに不可欠です。 データファースト戦略は、 Azure への移行中にデータをそのまま利用できるようにするのに役立ちます。 最新化中の中断を防ぐために、データを迅速にレプリケートしたり、オンプレミスのデータを Azure データベースと同期させたりする必要がある場合があります。

具体的には、このソリューションは以下をカバーします。

  • 抽出: ソース データベースに接続してデータを抽出します。

  • 変換:

    • ステージング: データを元の形式で一時的に保存し、変換の準備をします。

    • 準備: ターゲット・データベースの要件を満たすマッピング・ルールを使用して、データを変換および操作します。

  • 読み込み中: ターゲット データベースにデータを挿入します。

考えられるユース ケース

このソリューションからメリットを得られるデータのレプリケーションと同期のシナリオには、次のようなものがあります。

  • コマンド クエリの責任 分離アーキテクチャでは、Azure を使用してすべての問い合わせチャネルにサービスを提供します。

  • オンプレミスのアプリケーションと、リホストまたは再設計されたアプリケーションを並行してテストする環境。

  • 段階的な修復または最新化が必要な緊密に結合されたアプリケーションを持つオンプレミスシステム。

推奨事項

次の推奨事項は、ほとんどのシナリオに適用できます。 これらの推奨事項には、オーバーライドする特定の要件がない限り、従ってください。

Azure Data Factory を使用してデータを抽出する場合は、 コピー アクティビティのパフォーマンスを調整するための手順を実行します。

考慮事項

これらの考慮事項では、Azure Well-Architected Framework の柱を実装します。これは、ワークロードの品質を向上させるために使用できる一連の基本原則です。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

信頼性

信頼性は、アプリケーションが顧客に対して行ったコミットメントを確実に満たすことができるのに役立ちます。 詳細については、「信頼性の設計レビュー チェックリスト」を参照してください。

  • 可用性を含むインフラストラクチャ管理は、Azure データベースで自動化されています。

  • Microsoft Service for DRDA フェールオーバー保護の詳細については、「 プーリングとフェールオーバー」を参照してください。

  • オンプレミス データ ゲートウェイと IR をクラスター化して、より高い可用性を保証できます。

安全

セキュリティは、意図的な攻撃や貴重なデータとシステムの誤用に対する保証を提供します。 詳細については、「セキュリティの設計レビュー チェックリスト」を参照してください。

コストの最適化

コストの最適化では、不要な経費を削減し、運用効率を向上させる方法に重点を置いています。 詳細については、「コスト最適化の設計レビュー チェックリスト」を参照してください。

  • 価格設定モデルは、コンポーネント サービスによって異なります。 使用可能なコンポーネント サービスの料金モデルを確認して、予算に合っていることを確認します。

  • このソリューションの実装コストを見積もるには、Azure 料金計算ツールを使用します。

オペレーショナル エクセレンス

オペレーショナル エクセレンスは、アプリケーションをデプロイし、それを運用環境で実行し続ける運用プロセスをカバーします。 詳細については、「オペレーショナル エクセレンスのデザイン レビュー チェック一覧」を参照してください。

パフォーマンス効率

パフォーマンス効率とは、ユーザーの要求を効率的に満たすためにスケーリングするワークロードの能力を指します。 詳細については、「パフォーマンス効率の設計レビュー チェックリスト」を参照してください。

  • Azure ExpressRoute は、実装で初期レプリケーションまたは継続的な変更データ レプリケーションに大量の帯域幅を使用する場合、ハイスケール オプションとして検討してください。

  • シナリオに適した IR構成 を選択してください。

次のステップ