Amazon apologises to customers impacted by huge AWS outage

目次

英文

※太字部分は解説がのちほどあり。


Amazon apologises to customers impacted by Monday’s massive outage, after it knocked some of the world’s largest platforms offline.

Snapchat, Reddit and Lloyds Bank were among more than 1,000 sites and services reported to have gone down as a result of issues at the heart of the cloud computing giant’s operations in North Virginia, US on 20 October.

In a detailed summary of what caused the outage, Amazon said it occurred as a result of errors which meant its internal systems could not connect websites with the IP addresses computers use to find them.

“We apologise for the impact this event caused our customers,” the company said.
“We know how critical our services are to our customers, their applications and end users, and their businesses.
We know this event impacted many customers in significant ways.”

While many platforms such as the online games Roblox and Fortnite were back up and running within a few hours of the outage, some services experienced prolonged downtime.

This included Lloyds Bank, with some customers experiencing issues until mid-afternoon, as well as US payments app Venmo and social media site Reddit.

The outage had a far-reaching impact – even reportedly disrupting the sleep of some smart bed owners.

Eight Sleep, which makes sleep “pods” with temperature and elevation options requiring an internet connection, said it would work to “outage-proof” its mattresses after some overheated and even got stuck in an inclined position.

Many experts said the outage showed how reliant tech is on Amazon’s dominance in the cloud computing sector, as a market largely cornered by AWS and Microsoft Azure.

The company said it would also “do everything we can” to learn from the event and improve its availability.

In its lengthy summary of Monday’s outage, Amazon said it came down to an issue in US-EAST-1 – its largest cluster of data centres which power much of the internet.

Critical processes in the region’s database which stores and manages the Domain Name System (DNS) records, allowing website URLs to be understood by computers, effectively fell out of sync.

According to Amazon, this triggered a “latent race condition” – or in other words unearthed a dormant bug that could occur in an unlikely sequence of events.

The delay in one process, which Amazon said occurred in the early hours of Monday morning, had a knock-on effect which caused its systems to stop working properly.

Much of this process is automated, meaning it is done without human involvement.

Dr Junade Ali, a software engineer and fellow at the Institute for Engineering and Technology, told the BBC “faulty automation” had been at the core of Amazon’s problems.

“The specific technical reason is a faulty automation broke the internal ‘address book’ systems in that region rely upon,” he said.
“So they couldn’t find one of the other key systems.”

Like others, Dr Ali believes it highlights the need for companies to be more resilient and diversify their cloud service providers “so they can fail over to other data centres and providers when one isn’t available.”

“In this instance, those who had a single point of failure in this Amazon region were susceptible to being taken offline,” he said.


英文の引用元:https://www.bbc.com

理解度チェッククイズ

Q1. 10月20日のAWSの大規模障害で、影響を受けたのはどの地域のデータセンターでしたか?

A. 米国カリフォルニア州
B. 米国ノースバージニア州
C. 英国ロンドン


Q2. AWSの障害で停止したサービスとして含まれていないものはどれ?

A. Snapchat
B. Reddit
C. Netflix


Q3. Amazonの説明によると、今回の障害の原因は何でしたか?

A. サイバー攻撃
B. 内部システムの接続エラー
C. 停電


Q4. “latent race condition” とは何を意味しますか?

A. 非常に早いサーバー通信
B. ごくまれな条件で発生する潜在的なバグ
C. データの暗号化技術


Q5. Dr Junade Ali が指摘したAWSの根本的な問題は何でしたか?

A. サーバーの物理的破損
B. 人的ミス
C. 自動化システムの不具合


答えと解説

A1. 正解:B
解説:文中の “an issue in US-EAST-1 – its largest cluster of data centres which power much of the internet” より、障害は米国ノースバージニアのUS-EAST-1リージョンで発生しました。

A2. 正解:C
解説:本文では “Snapchat, Reddit and Lloyds Bank were among more than 1,000 sites” とあり、Netflixは含まれていません。

A3. 正解:B
解説:“errors which meant its internal systems could not connect websites with the IP addresses computers use to find them” とあるように、内部システムが接続できなかったことが原因でした。

A4. 正解:B
解説:“latent race condition” は「潜在的な競合状態」、つまり「ごくまれな順序で起きるバグ」という意味です。本文でも “a dormant bug that could occur in an unlikely sequence of events” と説明されています。

A5. 正解:C
解説:Dr Ali は “faulty automation broke the internal ‘address book’ systems” と述べており、「自動化の不具合」が根本原因だと指摘しています。


ニュースの背景解説

Amazon Web Services(AWS)は、世界最大のクラウドサービス企業の一つで、多くの企業やウェブサイトがそのインフラを利用しています。2025年10月20日、米国ノースバージニア地域で発生した大規模障害により、SnapchatやRedditなど世界中の主要サービスが一時的にダウンしました。

原因は、ドメインネームシステム(DNS)を管理するデータベースが同期を失い、システムが正しく動作しなくなったことでした。Amazonは「自動化された内部処理の不具合(faulty automation)」が引き金だったと説明し、今後の改善を約束しました。

この事件は、現代のインターネットがAWSのような少数のクラウド企業に依存していることを浮き彫りにし、冗長化(バックアップ体制)の重要性を再認識させる出来事となりました。


英文全体の和訳

Amazon Web Services(AWS)は、10月20日(月)に発生した大規模障害の影響を受けた顧客に謝罪しました。この障害により、世界中の主要プラットフォームが一時的に停止しました。

Snapchat、Reddit、ロイズ銀行など、1,000を超えるサイトやサービスが、米国ノースバージニアにあるAWSの運用中枢の問題により停止したと報告されています。

Amazonによると、この障害は、ウェブサイトを見つけるためにコンピュータが使用するIPアドレスとの接続ができなくなったために発生したといいます。

「この出来事が顧客の皆様に与えた影響を深くお詫び申し上げます」と同社は述べました。
「私たちは、自社のサービスが顧客、アプリケーション、最終ユーザー、そしてビジネスにとっていかに重要かを理解しています。この障害は多くのお客様に深刻な影響を及ぼしました。」

多くのプラットフォーム(オンラインゲームのRobloxやFortniteなど)は数時間以内に復旧しましたが、一部のサービスは長時間にわたって停止が続きました。

ロイズ銀行では午後まで障害が続き、米国の決済アプリVenmoやSNSのRedditでも同様の問題が起きました。

この障害は広範囲に影響を及ぼし、インターネット接続を必要とする「スマートベッド」まで動作に支障をきたしたと報告されています。

睡眠ポッドを製造するEight Sleep社は、一部のベッドが過熱したり傾いたまま動かなくなったことを受け、「インターネット障害に強いマットレスを開発する」と発表しました。

専門家たちは、この障害が、テクノロジー産業がいかにAmazonやMicrosoftのようなクラウド企業に依存しているかを示していると指摘しています。

Amazonはまた、「今回の出来事からできる限りのことを学び、今後の稼働率を高めるよう努める」と述べました。

同社によると、障害の原因は「US-EAST-1」と呼ばれる同社最大のデータセンター群にあったといいます。
DNS(ドメインネームシステム)を管理するデータベースの重要なプロセスが同期を失い、URLとIPアドレスの対応が正しく処理できなくなりました。

Amazonによれば、これは「latent race condition(潜在的な競合状態)」を引き起こした、つまり非常にまれな順序でのみ起こるバグが表面化したといいます。

自動処理の一部に遅延が発生し、それが連鎖的な不具合を引き起こしてシステム全体が停止しました。

多くの処理は自動化されており、人の介入なしで行われています。

エンジニアでIET(英国工学技術学会)の研究員であるジュネイド・アリ博士は、BBCに対し「Amazonの問題の核心は、自動化システムの不具合にある」と述べました。

「技術的に言えば、不具合のある自動化が、その地域の内部アドレス帳システムを壊したのです」と説明しています。
「そのため、他の主要システムを見つけることができなくなりました。」

アリ博士はまた、企業がクラウドサービスを分散化し、複数の提供者を利用する必要があると強調しました。
「今回のように、Amazonの特定リージョンだけに依存していた企業は、一か所の障害でサービスが停止するリスクを負うことになったのです」と述べました。


英語学習ポイント解説

  1. apologise to customers impacted by …
    「〜の影響を受けた顧客に謝罪する」という表現。
    “apologise to 人 for 理由”の形が基本。ここでは「for」が省略されています。
  2. knocked some of the world’s largest platforms offline
    「世界最大級のプラットフォームをオフラインにした」。
    “knock … offline”は「〜をダウンさせる」という口語的表現です。
  3. occurred as a result of errors
    「エラーが原因で発生した」。
    “as a result of”は「〜の結果として」の定番表現。
  4. We know how critical our services are
    “how + 形容詞 + 主語 + 動詞”で「どれほど〜か」を強調しています。
    “critical”はここでは「重要な」の意味。
  5. do everything we can
    「できる限りのことをする」という慣用句。
    会話やビジネス英語で非常によく使われます。
  6. latent race condition
    IT用語で「潜在的な競合状態」。
    “latent”は「潜在的な」、”race condition”は「複数の処理が競合して不具合を起こす状態」。
  7. single point of failure
    システム工学の表現で「単一障害点」。
    1つの故障で全体が止まるリスクを指す重要な言葉です。
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次