2020/10/01 04:10 頃から発生した障害について

日本時間で 2020/10/01 04:10 頃から 05:00 にかけて、HTTP サーバーが 503 レスポンスを返し、各種ワーカーが作動しておらず、またストリームもすべて終了しているといった状態で、サービスの一切が提供できない状態になっていました。

原因としては、長時間の連続起動によるインスタンス劣化と、それにともなう性能劣化により EC2 (クラウド上のサーバー) が自動停止され、自動停止後は自動的に復旧するはずの部分で新たなサーバーリソースを確保できない状況が続いたため発生しました。

オペレーションなどはなく、時間的解決によって自動復旧機構が再稼働し、現在はすべての必要台数分だけサーバーリソースを確保することに成功しています。

以降、同様の事態を避けるべく、サーバーの一定時間以上稼働時のローリングなどを自動化することで再発防止を目指す所存ですが、実施時期は未定です。

この度は利用者のみなさん、並びに接続を維持していてくださっている各種 Fediverse サーバー管理者のみなさまにご迷惑おかけして申し訳ありません。

2020/10/01 10:00 追記

同原因の t3.small Spot Instance の oregon 上での売り切れにより、05:30 〜 07:00 までや、08:10 〜 08:30 ほどに再発していましたが、現在は安定している模様です。

Become a patron to

Be part of the community
Connect via private message