Amazon:今週のAWS障害は大規模なDNS障害が原因

Amazon:今週のAWS障害は大規模なDNS障害が原因

AWS

Amazonは、今週月曜日に多くのウェブサイトやオンラインサービスを停止させた大規模なAWS(Amazon Web Services)の障害の原因が、重大なDNS障害であったと発表しました。

BleepinComputerが今週初めに報じたように、このインシデントは米国東部(US-EAST-1)リージョンの重要なバージニア北部データセンターに影響を与え、アメリカやヨーロッパを含む世界中のユーザーに14時間以上影響を及ぼしました。

木曜日に公開された事後分析によると、レースコンディションがAmazon DynamoDBのインフラストラクチャ内、特にユーザーリクエストを正常なサーバーへルーティングするDNS管理システム内で重大なDNS障害を引き起こし、データベースサービスのリージョナルエンドポイントのすべてのIPアドレスが誤って削除されました。

「この問題の根本原因は、DynamoDBのDNS管理システムに潜在していたレースコンディションであり、その結果、サービスのリージョナルエンドポイント(dynamodb.us-east-1.amazonaws.com)に対して誤った空のDNSレコードが作成され、自動修復が失敗したことでした」とAmazonは述べています。

「この問題が太平洋夏時間午後11時48分に発生した際、N.バージニア(us-east-1)リージョンのパブリックエンドポイント経由でDynamoDBサービスに接続する必要があるすべてのシステムが即座にDNS障害を経験し、DynamoDBへの接続に失敗しました。これには顧客のトラフィックだけでなく、DynamoDBに依存するAWS内部サービスからのトラフィックも含まれていました。」

DynamoDBの障害はAWSインフラ全体に連鎖的な問題を引き起こし、DynamoDBのDNSシステムが不整合な状態となり、自動復旧では修復できず、手動によるオペレーターの介入が必要となりました。

Amazonはその後、問題のあるDNS自動化を全世界で無効化し、今後同様の問題を回避するために保護チェックの追加やスロットリング機構の改善、同様のバグを将来的に検出するための追加テストスイートの構築などの対策を講じました。

「このイベントがお客様に与えた影響についてお詫び申し上げます。当社は高い可用性でサービスを運用してきた実績がありますが、当社のサービスがいかにお客様やそのアプリケーション、エンドユーザー、ビジネスにとって重要かを理解しています」とAmazonは付け加えました。

「このイベントが多くのお客様に大きな影響を与えたことを認識しています。私たちはこの出来事から学び、さらなる可用性向上のために全力を尽くします。」

翻訳元: https://www.bleepingcomputer.com/news/technology/amazon-this-weeks-aws-outage-caused-by-major-dns-failure/

ソース: bleepingcomputer.com