输错一个字母的代价,亚马逊云服务出现故障四小时
一位得到授权的团队亚马逊员工,本来准备删除少量 S3 子系统来解决问题,结果输入命令时不小心打错一个字母,结果删除了一大批本不该删除的服务器。
美国时间本周二,亚马逊 S3 存储服务出现故障。这导致包括美国证券交易委员会、苹果 iCloud、Soundcloud、Slack、芝加哥轨道交通系统 Metra 在内的多个网站和服务无法正常工作。此次服务故障持续时间接近 4 个小时。
今天亚马逊在其官方博客发文称,这次位于北弗吉尼亚州地区发生的服务中断,原因是人为操作失误。
当时,因为 S3 结算系统处理变慢了,亚马逊团队正在调试。一位得到授权的团队亚马逊员工,本来准备删除少量 S3 子系统来解决问题,结果输入命令时不小心打错一个字母,结果删除了一大批本不该删除的服务器。
被误删的服务器支持另外两个亚马逊 S3 服务重要的子系统,由于误删服务器数量太多,导致每个系统都需要完全重启。在子系统重启过程中,亚马逊 S3 无法处理服务请求。所以诸多使用 S3 的网站、应用出现故障。苹果 iCloud、Soundcloud、Slack 等使用亚马逊云服务的产品连不上了。
亚马逊花了近四个小时完成所有跟 S3 服务有关的重启、恢复工作。接着他们还对工作流程做了优化,程序员无法再通过预设工具快速执行删除命令,“在这次事件中,索引子系统的恢复时间超出我们预期。S3 团队原计划今年晚些时候对索引子系统进一步分区,我们正在重新调整工作优先级,马上开始进行分区。”亚马逊在博客中这样写道。
亚马逊 S3 全称 Amazon Simple Storage Service,是亚马逊云服务系统中提供在线存储、也就是“网盘”功能的服务。这项服务没有最低收费,每月按照实际使用情况和使用的不同 S3 存储段结算费用。亚马逊在 S3 介绍页面说该服务稳定、设计在线时间达到 99.999999999%。
但这次问题还是发生了,持续时间还不短。
之前 2015 年 9 月,亚马逊云服务也发生过大规模故障,也是 US-EAST-1 地区客户受到影响。包括 Netflix、Reddit、Tinder 以及亚马逊图书子站在内的多个网络服务无法工作。
发表回复