史诗级故障!阿里云全线产品崩溃,钉钉、淘宝、闲鱼全都瘫痪了?

11月12日晚,阿里云疑似故障,其整个产品线瘫痪:阿里云盘、钉钉、淘宝、闲鱼全部瘫痪。可以说这是一次史诗般的失败……



自从上一个程序员解语雀的产品彻底崩溃之后,已经过去了不到一个月的时间,又发生了这样罕见的P0事件。只是“一会儿见”。


如果你使用阿里云的公司,除非你可以通过多个云进行切换,否则你无法生存这个小时!
基本上,所有可用区都有问题,多位置不起作用!
由于微博上是阴天,所以图片被剪掉了,不然图片就看不到了。
多个可用区出现服务异常。
距离昨晚六点已经一个多小时了。饿了么无法下单,骑手无法进入系统,无法点外卖,无法在停车场拉杆,无法在超市结账!
受影响的地区:
华北2(北京)、华北6(乌兰察布)、华北1(青岛)、华东2(上海)、华南2(河源)、华北3(张家口)、中国香港、印度(孟买)))、美国(硅谷)、华南1(深圳)、英国(伦敦)、韩国(首尔)、日本(东京)、阿联酋(迪拜)、西南1(成都)、华南3(广州)、新加坡、澳大利亚(悉尼)、马来西亚(吉隆坡)、华北5(呼和浩特)、印度尼西亚(雅加达)、美国(弗吉尼亚)、菲律宾(马尼拉)、泰国(曼谷)、华东1(杭州)、华南1金融云、华东5(南京地区)、华东6(福州-本地区)、华北金融云2(特邀测试)、华东2金融云、华东1金融云、华北2阿里政府云1,非区域,德国(法兰克福),沙特阿拉伯(利雅得-合作伙伴运营)。


下面我们详细介绍这一失败以及云产品的普及对现代软件服务的影响。
据TechWeb报道,2023年11月12日下午,阿里巴巴系列产品,包括阿里云盘、淘宝、闲鱼、钉钉等均出现访问故障。
阿里云于17点44分开始检测云产品控制台访问和API调用异常,工程师迅速介入排查。
下午5点50分,阿里云确认故障原因与服务底层组件有关。然后,
下午6点54分,杭州、北京等地区控制台和API服务已恢复,其他地区正在逐步恢复中。
截至19时20分,大部分地区已通过批量重启组件服务的方式重启控制台和API服务。最后一个在
20时12分,北京、杭州等地区已完成消息队列MQ重启,其他地区也在逐步恢复中。


使用阿里云服务的API全部关闭。考虑到阿里云是国内市场份额最大的云服务平台,影响范围广泛,连锁反应也会波及整个行业。
甚至有网友评论“导致学校淋浴APP崩溃”,哈哈哈!


我也快速浏览了一下阿里云介绍的产品。幸运的是,阿里云的工程师及时挽救了这个问题,并没有真正伤害我们。不过,很多企业的线上业务受到的影响还是比较大的。
目前,阿里云尚未正式公布事件的具体原因,但从故障原因的简单描述来看,很可能与服务底层组件有关。一个组件的小故障可能会导致大范围的服务中断。当一个服务的底层组件冻结时,也会影响到顶层的应用和API,导致产品彻底崩溃。
果不其然,这次雨雀也没有成功。
在这个案例中,我们看到很多应用和服务仍然依赖于中心化的云平台。当云服务提供商遇到中断时,可能会影响各种依赖的服务和业务。
说起阿里云的履历,阿里的主业就是电子商务。后来,当业务做大了,处理网上订单和数据就变得非常困难。为了解决这个问题,他们在2009年创建了一个名为阿里云的部门。阿里云就像一个巨大的网上仓库,帮助阿里存储信息并处理网上交易。
后来,阿里云不仅为阿里和巴巴本人服务,还帮助其他公司和人们在网上存东西、运行程序。现在,阿里云就像一个互联网大工厂,为许多不同的公司和企业提供动力。
云服务可以比作电力供应。正如您家中的设备需要电力一样,许多网站和应用程序也需要云服务来提供存储和计算能力。如果云服务出现故障(例如停电),依赖它的网站和应用程序将停止正常工作。
阿里云服务的崩溃影响了多个应用程序,因为这些应用程序与各种电气设备一样,依赖于同一来源(即阿里云服务)的“电源”。
如果这个源出现问题,就会影响所有依赖它的应用程序,就像大规模断电一样。这就是云服务崩溃导致如此多应用程序失败的原因。


这一事件引发了人们对阿里云或者整个云产品稳定性的质疑。确保系统稳定性是云服务提供商的首要任务。随着当前云计算、云化、人工智能的普及,关注系统稳定性就显得更加重要。性别。然而,对于我们用户来说,记住一切会更好。大型云服务平台也绝对不是万无一失的。尝试进行多次备份(定期将数据备份到不同位置或云提供商,以避免一项服务出现问题),监控云服务性能和灾难恢复计划。
一件事是我很好奇失败的原因。我不知道这起事故是否也会被公开审查。
据我认识的一家公司介绍,在敏感时期(政治、节假日、交通繁忙)和周末,默认情况下禁用互联网访问。如果您想使用互联网,则需要经过批准。我不知道阿里怎么样,但应该是差不多的。
这次崩溃一般推测是RAM的问题(我是这么认为的,毕竟影响了整条线和所有区域的底层组件,而且RAM是非常一致的。而且有些场景看起来也像是认证问题,有些相关到内存)
我很好奇为什么有一个核心组件会如此兴奋地在双十一后或周末上线。
而且从故障时间来看,从班长发现问题到找到原因,足足花了一个小时。是不是有点长了?
如果不是网络连接造成的,正常工作的模块突然崩溃就更神秘了。



如今这次失败已经成为阿里云历史上最大的事故!阿里的产品影响如此广泛,不知道其他大大小小的互联网公司能产生多大的影响。
阿里云这两年走了很多人,内部转会/外部离职,人员混乱,体系无法稳定。东吴科技、软通动力、中软国际等多家公司都在招募阿里做外包。以阿里目前的技术水平值得怀疑,这一波故障极有可能是存储层的问题。今年99.99%的可用性已经没有了,325也是不可替代的。
唯品会、小红书、BOSS直招、语雀、阿里,今年失败多多!也希望互联网企业能够从今年吸取各种教训,不要在研发资源上吝啬、省钱,提高效率、降低成本、裁员、优化。最终系统出现故障,给他们带来巨大的损失。给研发人员一个安全的工作环境!
如果你的云产品崩溃了,可以在评论区告诉我吗?

展开阅读全文

页面更新:2024-04-02

标签:阿里   故障   华北   华南   杭州   淘宝   史诗   底层   应用程序   组件   全线产品   原因   产品

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top