平素は、oViceをご利用いただき誠にありがとうございます。
2023年3月22日に発生したスペースにアクセスできない事象について、ご利用の皆様には多大なご不便をおかけいたしましたことを深くお詫び申し上げます。
該当の事象についての調査結果ならびに再発防止策について報告いたします。
■経緯
2023年3月22日15時00分頃、ovice UIのアップデートを実施し更新は正常に完了いたしましたが、その後処理行程(アクティブユーザーへの処理)でサーバーの負荷が想定以上に高まる事象が発生いたしました。
その結果、サーバーのCPU使用率が100%に達し、レスポンスが遅くなるとともに、一部のサーバーでメモリ障害が発生。レスポンスを受け付けられない状況となり、サービスへのアクセスが不可能な状態となりました。
■原因
DB更新時のユーザー情報再取得によるアクセス数の増加と、それにともなうシステム負荷増加に対する予測と対策が不十分だったことが主な原因でございます。
■対応
当事象を回避するためメモリを増設し、問題は収束いたしました。
■再発防止
2023年2月7日の障害発生後、バックエンド側のシステムアップデートについては、設計的に安全を保証できる状態となるまで、日本時間日中のシステムアップデートを実施しない運用をしておりましたが、フロントエンドのアップデートについてはシステム障害を誘発する可能性は極めて低いという設計判断と、これまでフロントエンドのアップデートによる障害は発生していなかったことから、日本時間日中のアップデートを継続しておりました。
今後につきましては、フロントエンド、バックエンド問わず、設計的に安全を保証できる状態となるまで、日本時間日中のアップデートは行いません。また、日本時間日中以外のアップデートにおきましても、より安全なデプロイの設計、仕組みについて検討を継続してまいります。