Azure VMware Solution には、専用のベアメタル Azure インフラストラクチャから構築された VMware vSphere クラスターを含むプライベート クラウドが用意されています。 オンプレミス環境からワークロードを移行し、新しい仮想マシン (VM) をデプロイし、プライベート クラウドから Azure サービスを使用できます。 VMware と Azure ネイティブ機能の組み合わせを使用して、ワークロードの高可用性と回復性を実現できます。
Azure を使用する場合、 信頼性は共有責任です。 Microsoft では、回復性と回復性をサポートするさまざまな機能を提供しています。 使用するすべてのサービスでこれらの機能がどのように機能するかを理解し、ビジネス目標とアップタイムの目標を達成するために必要な機能を選択する必要があります。
この記事では、一時的な障害、可用性ゾーンの停止、リージョンの停止など、潜在的な障害や問題に対する Azure VMware Solution の回復性を確保する方法について説明します。 また、バックアップを使用して他の種類の問題から復旧する方法についても説明し、Azure VMware Solution サービス レベル アグリーメント (SLA) に関するいくつかの重要な情報を強調します。
運用環境のデプロイに関する推奨事項
Azure VMware Solution のデプロイでは、さまざまな領域にわたる慎重な計画が必要であり、多くの場合、複数の Azure サービスが必要です。 詳細なガイダンスについては、Well-Architected Framework の Azure VMware Solution ワークロード を参照してください。
信頼性アーキテクチャの概要
Azure VMware Solution は、VMware vSphere クラスターを使用するハイパーコンバージド インフラストラクチャを使用します。
Azure VMware Solution をデプロイするときは、1 つ以上のクラスターを持つ プライベート クラウドをデプロイします。 各クラスターには、コンピューティング、vSAN 経由のストレージ、VMware NSX 経由のネットワークを提供する ESXi ホストが含まれています。 Azure VMware Solution には、次の 2 つの世代があります。
- Gen 1 では、ノードに特化したベアメタル ハードウェアが使用され、専用のネットワーク アプローチが使用されます。 主要な概念の詳細については、 Azure VMware Solution のプライベート クラウドとクラスターの概念に関するページを参照してください。
- Gen 2 では、標準の Azure 仮想マシンの種類と Azure 仮想ネットワークが使用されます。 このアーキテクチャは、ネットワークアーキテクチャを簡素化し、データ転送速度を向上させ、ワークロードのレイテンシーを低減し、他の Azure サービスにアクセスする際のパフォーマンスを向上させます。
障害耐性
Azure VMware Solution には、インフラストラクチャレベルとアプリケーション レベルの両方で障害を処理するためのメカニズムがいくつか用意されています。
vSphere High Availability (HA): vSphere HA は ESXi ホストと VM を監視します。 ホストが失敗した場合、正常なホスト上の影響を受ける VM が自動的に再起動されます。 vSphere HA は既定で有効になっており、単一ノードの障害に対してコンピューティングとメモリの容量を予約します。
vSAN フォールト トレランス: vSAN ストレージ ポリシーは、ホスト間でデータの複数のコピーを保持することで、ストレージ レベルの一時的な障害から保護します。 ストレージ パスまたはディスクで一時的な問題が発生した場合、vSAN は正常なストレージ パスへのフェールオーバーを自動的に処理します。
ネットワーク冗長性: Azure VMware Solution には、ネットワーク レベルの一時的な障害を処理するための冗長なネットワーク パスと複数の VMkernel ネットワーク アダプターが用意されています。
一時的な障害に対する回復性
一時的な障害は、コンポーネントにおける短い断続的な障害です。 これらはクラウドのような分散環境で頻繁に発生し、運用の通常の範囲であり、 一時的な障害は、短時間の経過後に自分自身を修正します。 アプリケーションで一時的な障害を処理できることは重要です。通常は、影響を受ける要求を再試行します。
クラウドでホストされるすべてのアプリケーションは、クラウドでホストされている API、データベース、およびその他のコンポーネントと通信する際に、Azure の一時的な障害処理のガイダンスに従う必要があります。 詳細については、「一時的な障害を処理するための推奨事項」を参照してください。
Azure VMware Solution VM で実行されているアプリケーションの場合は、標準の一時的な障害処理プラクティスを実装します。
- 指数バックオフを使用して適切な再試行ポリシーを構成する
- 外部サービス呼び出しにサーキットブレーカーパターンを使用する
- アプリケーションの正常性を監視し、優雅な劣化を実装する
- VM の再起動の影響を軽減するために可能な限りステートレス アプリケーションを設計する
可用性ゾーンの障害に対する回復性
可用性ゾーン は、Azure リージョン内のデータセンターの物理的に分離されたグループです。 1 つのゾーンで障害が発生した際には、サービスを残りのゾーンのいずれかにフェールオーバーできます。
Azure VMware Solution Gen 1 では、ESXi ホストをリージョン内の 2 つの可用性ゾーンに分散する ストレッチ クラスターを介した可用性ゾーンがサポートされています。 Microsoft は、使用するゾーンを選択します。 クラスターは 2 つのゾーン間でアクティブ/アクティブ構成で実行され、vSAN も複数のゾーンにまたがる。 各ワークロードを 1 つまたは 2 つのゾーンにデプロイするかどうかを指定できます。
監視ノードは、スプリット ブレイン シナリオのクォーラムを提供するために、3 番目の可用性ゾーンに自動的にデプロイされます。 Microsoft は監視ノードを自動的に管理します。
標準クラスターは、ゾーン間で拡張されないクラスターです。 標準クラスターでは、クラスターとそのすべての ESXi ホストは 非ゾーン または リージョンと見なされます。 非ゾーン クラスターは、リージョン内の任意の可用性ゾーンに配置される可能性があり、Microsoft はゾーンを選択します。 リージョン内の可用性ゾーンで障害が発生した場合、非ゾーン クラスターとホストが影響を受けるゾーンに存在し、ダウンタイムが発生する可能性があります。
Azure VMware Solution Gen 2 では、プライベート クラウドの ゾーン デプロイがサポートされています。 ゾーンプライベート クラウドを構成すると、各クラスターとそのすべての ESXi ホストが、選択した単一の可用性ゾーンにデプロイされます。
ゾーンプライベート クラウドでは、可用性ゾーンの障害から保護されません。 複数のプライベート クラウドを個別の可用性ゾーンにデプロイして回復性を高めることができますが、各プライベート クラウドを個別にデプロイおよび構成する必要があります。
可用性ゾーンを選択しない場合、プライベート クラウド、そのクラスター、およびすべての ESXi ホストは 非ゾーン または リージョンと見なされます。 非ゾーン クラスターは、リージョン内の任意の可用性ゾーンに配置される可能性があり、Microsoft はゾーンを選択します。 リージョン内の可用性ゾーンで障害が発生した場合、非ゾーン クラスターが影響を受けるゾーンに存在し、ダウンタイムが発生する可能性があります。
他の世代の可用性ゾーンのサポートに関する情報を表示するには、このページの先頭で適切な世代を選択します。
Requirements
リージョンのサポート: ストレッチ クラスターは、ストレッチ クラスター構成をサポートする一部の Azure リージョンで使用できます。 現在のリージョンがサポートされているかどうかは、Azure リージョンの可用性ゾーンとホスト型のマッピングテーブルを確認してください。
最小ホスト数: ストレッチ クラスター構成を有効にするには、少なくとも 6 つのホストを 2 つの可用性ゾーン (ゾーンごとに 3 つのホスト) にデプロイします。 スケール インまたはスケールアウトする場合は、各ゾーンでホストの数が等しくなるように、ペアでスケールインする必要があります。
ホスト SKU: ストレッチ クラスターは、AV36、AV36P、および AV52 ホストの種類でサポートされます。 AV64 SKU は、ストレッチ クラスターではサポートされていません。
リージョンのサポート: ゾーンプライベート クラウドは、 Azure VMware Solution Gen 2 と 可用性ゾーンの両方をサポートするリージョンにデプロイできます。
考慮事項
リージョン内の各可用性ゾーンは、特定のホストの種類をサポートできます。 各ゾーンで使用できるホストの種類の詳細な一覧については、 Azure リージョンの可用性ゾーンとホストの種類のマッピング テーブルに関するページを参照してください。
費用
クラスターの可用性ゾーンの構成に関係なく、クラスター内の各ノードのコストが発生します。 価格の詳細については、 Azure VMware Solution の価格に関するページを参照してください。
可用性ゾーンのサポートを設定する
新しいクラスターをデプロイします。 サポートされているリージョンに新しい Azure VMware Solution プライベート クラウドを作成する場合は、デプロイ時に拡張クラスターとして構成できます。 この構成では、2 つの可用性ゾーンにホストが自動的に分散されます。 詳細については、「vSAN ストレッチ クラスターをデプロイする」を参照してください。
既存のクラスター: 標準クラスターをストレッチ クラスターに変換することも、ストレッチ クラスターを標準クラスターに変換することもできません。 代わりに、新しいクラスターをデプロイし、ワークロードを移行する必要があります。
新しいクラスターをデプロイします。 サポートされているリージョンに新しい Azure VMware Solution プライベート クラウドを作成する場合は、その可用性ゾーンを選択できます。
既存のクラスター: 既存のクラスターの可用性ゾーンの構成を変更することはできません。 代わりに、新しいクラスターをデプロイし、ワークロードを移行する必要があります。
すべてのゾーンが正常な場合の動作
このセクションでは、クラスターが拡張され、すべての可用性ゾーンが運用可能な場合に想定される内容について説明します。
リージョン間操作: VM は、いずれかの可用性ゾーン内のホストで実行できます。 VM の配置は、vSphere DRS アフィニティとアンチアフィニティ ルールを使用して制御して、パフォーマンスまたは可用性の要件を最適化できます。
リージョン間データ レプリケーション: vSAN は、可用性ゾーン間でデータを同期的にレプリケートします。 各書き込み操作は、完了前に両方のゾーンによって確認され、一貫性のあるデータ整合性が確保されます。
このセクションでは、クラスターがゾーンプライベート クラウドにデプロイされ、すべての可用性ゾーンが運用可能な場合に想定される内容について説明します。
リージョン間操作: VM は、クラスターの可用性ゾーン内のホストで実行されます。
リージョン間データ レプリケーション: データは別のゾーンにレプリケートされません。
ゾーン障害時の動作
このセクションでは、クラスターが拡張され、可用性ゾーンの停止が発生したときに想定される内容について説明します。
- 検出と応答: Azure VMware Solution は、ゾーン障害に対するインフラストラクチャ レベルの応答を管理します。 vSphere HA はゾーン障害を自動的に検出し、必要に応じて VM の再起動手順を開始します。
- 通知: ゾーンがダウンしても、Microsoft から自動的に通知されることはありません。 ただし、 Azure Resource Health を 使用して個々のリソースの正常性を監視したり、 Resource Health アラート を設定して問題を通知したりすることはできます。 また、Azure Service Health を使用して、ゾーンの障害を含むサービスの全体的な正常性を把握し、問題を通知する Service Health アラートを設定することもできます。
アクティブな要求: 障害が発生した可用性ゾーンで実行されている VM は、存続している可用性ゾーン内のホストで再起動されます。 影響を受ける VM へのアクティブな要求と接続は終了され、クライアントはそれらを再試行する必要があります。
予想されるダウンタイム: 正常なゾーンで失敗した VM を再起動する時間は、通常、VM の構成と起動手順に応じて数分です。 ストレッチ クラスターは、容量を減らして動作したままです。
障害が発生した可用性ゾーンにミラーリング監視ノードが含まれている場合、ミラーリング監視サーバーは到達不能になります。 十分なデータ レプリカを使用できる限り、データ ホストと実行中のワークロードは、すぐにデータを失うことなく動作し続けます。 ただし、vSAN はこの状態でクォーラム認識を失います。これにより、配置と復旧の決定を安全に行うのを防ぎ、障害後の VM の電源オン、再調整、修復など、特定の操作がブロックされます。
予想されるデータ損失: vSAN ではゾーン間の同期レプリケーションが使用されるため、ゾーン障害時にデータ損失が発生する可能性はありません。
再配布: vSphere DRS は、VM ワークロードを存続する可用性ゾーンに自動的に再配布します。 VMware NSX 経由のネットワーク トラフィック ルーティングは、新しい VM の配置に自動的に適応します。
このセクションでは、クラスターがゾーン プライベート クラウドにデプロイされ、可用性ゾーンの停止が発生した場合に想定される内容について説明します。
- 検出と応答: 可用性ゾーンの損失を検出する必要があります。 必要に応じて、別の可用性ゾーンで事前に作成したセカンダリ クラスターへのフェールオーバーを開始できます。
- 通知: ゾーンがダウンしても、Microsoft から自動的に通知されることはありません。 ただし、 Azure Resource Health を 使用して個々のリソースの正常性を監視したり、 Resource Health アラート を設定して問題を通知したりすることはできます。 また、Azure Service Health を使用して、ゾーンの障害を含むサービスの全体的な正常性を把握し、問題を通知する Service Health アラートを設定することもできます。
アクティブな要求: 影響を受ける VM へのアクティブな要求と接続は終了され、クライアントはそれらを再試行する必要があります。
予想されるダウンタイム: ゾーンが使用できない場合、クラスターとそのワークロードは、可用性ゾーンが復旧するまで使用できません。
予想されるデータ損失: 影響を受けるゾーン内のデータは、ゾーンが回復するまで使用できません。
再 分配: 必要に応じて、正常なゾーン内の他のクラスターにトラフィックを切り替える必要があります。
ゾーンの回復
可用性ゾーンが復旧すると、vSphere DRS は必要に応じて、DRS の構成とアフィニティの規則に基づいて、復旧されたゾーンに VM を再配布できます。 vMotion 操作を使用して VM の配置を手動で制御することもできます。
可用性ゾーンが復旧すると、ゾーン内のクラスターとホストが再び使用できるようになります。 ワークロードに必要なゾーン回復手順とデータ同期は、お客様が担当します。
ゾーンエラーのテスト
ゾーンの障害は、次の方法でシミュレートできます。
vSphere を使用してホストをメンテナンス モードにして、ゾーン レベルの障害をシミュレートします。
シミュレートされた障害時にバックアップおよび監視システムが引き続き機能することを検証します。
- VM の再起動とネットワーク パスの変更に対するアプリケーションの回復性のテスト (特に、クラスターを拡張したり、異なるゾーン内の個別のクラスターにアプリケーションをデプロイしたりする場合)。
Azure VMware Solution はゾーンの障害に対するインフラストラクチャの応答を管理するため、主に VM の再起動に対するアプリケーションの応答をテストする必要があります。
別のゾーンまたはリージョン内の別のクラスターへのフェールオーバーなど、ゾーンの障害に対するインフラストラクチャの応答は、お客様が担当します。 確実に応答プロセスを徹底的にテストします。
リージョン全体の障害に対する回復性
各 Azure VMware Solution クラスターは、1 つの Azure リージョン内にデプロイされます。 リージョンが使用できなくなった場合、プライベート クラウドとその中のすべてのリソースが使用できなくなります。
ただし、さまざまなアプローチを組み合わせたり、既存のインフラストラクチャと統合したりして、特定のビジネス要件と回復目標を満たすカスタムマルチリージョン ソリューションを設計することもできます。
回復性のためのカスタム マルチリージョン ソリューション
Azure VMware Solution で複数リージョンの回復性を実現するには、複数のリージョンに個別のプライベート クラウドをデプロイし、フェールオーバーやその他のディザスター リカバリー ソリューションを実装する必要があります。
さまざまな要件をサポートするさまざまなオプションがあります。 詳細については、「 Azure VMware のサード パーティのバックアップとディザスター リカバリー ソリューション: 制限事項、互換性、既知の問題」を参照してください。
バックアップと復元
Azure VMware Solution では、管理コンポーネント (vCenter Server、NSX Manager、HCX Manager が有効な場合) が自動的にバックアップされます。 これらの管理バックアップから復元するには、Azure サポート要求を作成します。
VM ワークロードの場合、Azure VMware Solution では複数のバックアップ 方法がサポートされています。 詳細については、「 Azure VMware Solution VM のバックアップ ソリューション」を参照してください。
サービス メンテナンスに対する回復性
Azure は、セキュリティ更新プログラムの適用、新機能のデプロイ、サービスの信頼性の向上のために、プラットフォームの自動メンテナンスを実行します。
メンテナンスが Azure VMware Solution のコンポーネントに与える影響について、および保守を担当するコンポーネントと Microsoft が保持するコンポーネントを理解するには、 Azure VMware Solution プライベート クラウドメンテナンスのベスト プラクティスを参照してください。
運用ワークロードに影響するメンテナンスの可能性を減らすために、クラスターのメンテナンス期間を構成できます。 詳細については、「 Azure VMware Solution のセルフサービス メンテナンスの計画 (パブリック プレビュー)」を参照してください。
サービス水準合意書
Azure サービスのサービス レベル アグリーメント (SLA) には、各サービスの期待される可用性と、その可用性の期待を達成するためにソリューションが満たす必要がある条件について記載されています。 詳細については、 オンライン サービスの SLA を参照してください。
Azure VMware Solution では、ワークロード インフラストラクチャと管理操作にさまざまな可用性 SLA が提供されます。
ストレッチ クラスターとして構成されたクラスターでは、ワークロード インフラストラクチャの可用性 SLA が高くなります。
ただし、可用性 SLA を満たすには、特定の方法でクラスターを構成する必要があります。 詳細については、SLA テキストを参照してください。