亚马逊网络服务解释故障并将使其更容易跟踪未来的故障

亚马逊网络服务周五公布了对本周早些时候发生的数小时故障的解释，该故障破坏了其零售业务和第三方在线服务。该公司还表示，它计划对其状态页面进行改造。

该公司说，亚马逊在弗吉尼亚州的大型数据中心US-East-1区域的问题是在美东时间周二上午10点30分开始的。

该公司在其网站上的一篇文章中写道：”为扩大托管在AWS主网络中的一项AWS服务的容量而进行的一项自动化活动，引发了内部网络中大量客户的意外行为。结果，连接亚马逊内部网络和AWS网络的设备变得过载。”

一些AWS工具受到影响，包括广泛使用的提供虚拟服务器容量的EC2服务。AWS的工程师努力解决这些问题，并在接下来的几个小时内恢复了服务。EventBridge服务可以帮助软件开发人员建立应用程序，对某些活动做出反应，但直到美东时间晚上9点40分才完全恢复。

宕机会损害人们对云计算基础设施的可靠性和准备处理从物理数据中心迁移应用程序的看法。它也可能对企业产生重大影响。AWS拥有数百万客户，是市场上的领先供应商。

AWS就此次故障对其客户造成的影响表示歉意。

受欢迎的网站和大量使用的服务被强行离线了，包括迪士尼+、Netflix和Ticketmaster。Roomba吸尘器、亚马逊的Ring安全摄像头和其他互联网连接的设备，如智能猫砂盒和应用程序连接的吊扇也因故障而被关闭。

亚马逊自己的零售业务在美国的一些地区陷入停滞。亚马逊的仓库和送货人员使用的内部应用程序依赖于AWS，因此在周二的大部分时间里，员工无法扫描包裹或访问送货路线。第三方卖家也无法访问用于管理客户订单的网站。

在故障期间，AWS试图让客户了解正在发生的事情，但是云计算在更新其状态页面(称为服务健康仪表板)时遇到了麻烦。

AWS说：”由于在这次事件中对服务的影响都源于单一的根本原因，我们选择通过服务健康仪表板上的一个全球通知公告来提供更新，我们后来了解到，这使得一些客户很难找到关于这个问题的信息。”

此外，客户在中断期间有七个小时无法创建支持案例。

AWS表示，它现在正在采取行动解决这两个问题。

“我们预计在明年初发布新版本的服务健康仪表盘，这将使我们更容易了解服务的影响，以及一个新的支持系统架构，该架构在多个AWS地区积极运行，以确保我们在与客户沟通时不会出现延误。” AWS说。

这不是AWS第一次改变其报告问题的方式。

2017年，流行的AWS S3存储服务发生故障，工程师无法在服务健康仪表板上显示正确的颜色来表示正常运行时间。亚马逊发布了通知公告，并到Twitter上发布了新的信息。

“我们已经改变了SHD管理控制台，以便在多个AWS地区运行。”亚马逊在关于那段插曲的信息发布中提到。