+0 - 0  by

2017年3月1日のAWS障害の原因と、その対策

2017年3月1日にAWS(Amazon Web Services)の「Amazon Simple Storage Service (S3)」で大規模な障害が発生しました。S3を利用する多くのウェブサイト、アプリ、デバイスが一部あるいは完全に作動しなくなりました。

AWSの報告によると、当時作業チームのメンバーがS3の決済システムを修正するためにサブシステムを構成する数台のサーバーを停止する目的でコマンド入力しました。しかしコマンドの入力ミスにより意図したサーバーより多くのサーバーを停止してしまったようです。そのために他の重要なサブシステムにも影響が出てしまい、結果的にシステム全体を再起動しなければならない事態となってしまいました。

AWS公式サイトの説明によると、S3の急激な成長でシステムが巨大化し、思った以上に再起動に時間がかかったとのことです。

米SimilarTechのデータによると、4時間以上に及ぶ今回の大規模障害で、約15万サイトが影響を受けたとのことです。Amazonのような大手クラウドサービスであっても大障害は発生します。今後は、このようなリスクを回避するための対策が必要になってくるのではないでしょうか。

最近では、「単一のクラウドサービスにデータを預けるのはリスクがある」という理由から複数のクラウドサービスを併用する「マルチクラウド」という考え方も一般的になっています。

例えば、AWSに大規模障害が発生しても、Microsoft Azure上でサービスを継続しよう、という考え方です。

DRBDは、そのようなケースにおいて、AWSとAzureとの間で、データをリアルタイムに同期し、万が一AWSに大規模障害が発生した場合、Azure上でのサービス継続を可能にします。
https://www.3ware.co.jp/solution/disaster-recovery

ぜひご参考ください。

参考サイト:
http://itpro.nikkeibp.co.jp/atcl/news/17/030300696/?rt=nocnt
http://jp.techcrunch.com/2017/03/01/20170228amazon-aws-s3-outage-is-breaking-things-for-a-lot-of-websites-and-apps/

+ 0 - 0