TYPECHO WIKI
每一个作品都值得被记录

阿里史诗级崩溃 并非是单纯的坏事?

Typecho维基君站长快讯 • 428次浏览 • 发布 2023-11-13 • 更新 2023-11-13

就在双十一购物节庆典结束后的次日,阿里系的多款产品突然出现崩溃,此事件在当天18时左右迅速攀升至各平台的热搜榜单,引发了广大公众的强烈关注。

img

第一次见阿里云出这么大的事故,全球性的大故障,阿里系多款产品崩溃,如阿里云、钉钉、阿里云盘、淘宝、闲鱼、饿了么、天猫精灵、千牛等重要产品几乎都崩了。这次受影响的应用非常广泛,涉及到上百种产品,例如数据库、日志存储、OSS、VPN网关、负载均衡等等。如下图所示,密密麻麻一片全是受影响的产品。包括IOT(物联网)凡是使用阿里云IOT的服务的厂家也都崩了,比如大学里的自助洗衣机、饮水机、吹风机等等

网友朋友圈炸开锅了,如下图:

1.webp

2.webp

3.webp

针对公众的关注,阿里云方面也是立即做出反应,公开发声称于当日17点44分阿里云监控发现云产品控制台访问及API调用出现异常,目前阿里云工程师正在紧急介入排查,争取尽早恢复产品运行。

并且在之后,阿里云方面也陆续公开每一步的故障处理进度,其中包括在18:54时表示杭州、北京等地域控制台及API服务已恢复;19:20 工程师通过分批重启组件服务,将绝大部分地域控制台及API服务恢复等。

在一个阿里云客户服务支持的钉钉官方群内,有管理员发布公告称,2023年11月12日17点44分起,阿里云产品控制台访问及API调用出现出现使用异常,阿里云工程师正在紧急介入排查。

直到11月12日深夜,阿里云仍然没有做出公开回应。

但是有媒体报道称,阿里云私下给出了回应:“19点20分左右,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等APP已全面恢复。”

至于故障原因,阿里云并未提及。

img

而根据所有的公告反馈,此次故障处理完成共花费了三个半小时左右,影响到淘宝、钉钉、云盘、语雀、瑞幸、蜜雪冰城、虎牙等多个自家及客户的业务服务,覆盖国内、中东、东南亚等多个区域,在资损以及品牌形象方面影响不小。

且值得一提的是,就在2022年12月18日,阿里云香港Region可用区C也发生过大规模服务中断事件,当时市场对此也产生了热议,引发了后续一段时间内人们对于阿里云安全性、服务稳定性的质疑,给阿里云带来了不小的负面影响。

如今未到一年,阿里云再度出错,想必一定会让其客户和潜在客户考虑与之持续合作的可能性……

不过话说回来,随着阿里云连番出现问题,究竟是哪方面短板需要补足呢?阿里云此次故障事件后,又会对国内云计算产业带来什么影响呢?

01

云计算

如今不需要太多的大刀阔斧

对于阿里云所出现的故障问题,其根本原因可能涉及以下三个方面:

首先,系统故障是主要原因之一。阿里云的云平台是一个由众多服务器、网络、存储等组件构建的复杂系统,任何一个组件出现故障都可能引发整个系统的崩溃。例如,服务器过载、网络连接中断或存储设备损坏都可能导致云平台的全面故障。

其次,人为因素也是不可忽视的原因。阿里云的云平台由众多工程师负责维护和管理。如果在维护过程中出现错误,如错误的配置或错误的代码部署,都可能导致全线服务的崩溃。这种类型的故障可能是由于维护人员的疏忽或错误导致的,也可能是由于新员工对系统的不熟悉或操作不当引起的。

最后,外部因素也可能导致阿里云云平台的故障。例如,自然灾害如地震、洪水或网络攻击等外部因素可能对云平台造成影响,导致其无法正常运行。然而,根据最新的消息反馈,近期并没有相关报道显示阿里云的数据中心附近出现大规模的自然灾害以及强烈的网络攻击等情况,因此可以初步排除外部因素的可能性。

综上所述,根据目前的信息和排除法分析,阿里云出现故障的原因大概率可能是由于系统故障或人为因素所致,而这两个原因都能解释为什么在云平台出现故障后,阿里云的异地容灾服务未起到良好效果。

因此,阿里云需要对其云平台的系统架构和运维管理进行深入调查和改进,以避免类似故障的再次发生。

当然不只是阿里云,要知道仅讨论云计算平台的研发与运维能力,阿里云在国内服务商间也是名列前茅的存在,但即便如此,其也是出现了这次故障。这或许也说明了当下国内云计算服务商们在研发与运维方面可能都需要持续优化。

就以研发来说,按照以往的节奏,研发的目标总是追求足够的新颖性,这种新颖性不仅要求能够随时匹配不断变化的需求,甚至要能够预测市场需求的出现并提前做好准备。

然而,这种对新颖性的过度追求往往导致了对稳定性的忽视。这种倾向在云计算服务日益复杂的情况下尤为明显。随着云计算服务的不断发展,其架构也变得越来越复杂,这也使得稳定性成为越来越重要的问题。在这种情况下,“不够稳”的架构容易在不断“堆新”的过程中出现问题,从而影响到整个系统的性能和稳定性。

因此,在研发过程中,不仅要注重新颖性,更要注重稳定性。只有将稳定性和新颖性结合起来,才能够开发出更加优秀、更加可靠的云计算服务。

至于IT运维方面,对比过往,当下企业与服务商们有关运维的重视度已经有所提升,大家也在某种程度上认可运维工作、运维人员存在的必要性,但是这并不够。

如今,还是有许多企业、服务商更关注运维工作的投入成本,而忽视了运维工作带来的价值和效益,这导致了许多企业在运维方面的投入不足,无法满足实际需求。

此外,当下还是有些企业、云计算服务商对运维人才不够重视,认为仅需招聘一些基础运维人员即可应对,从而在出现问题时,运维人员往往束手无策,需要经过长时间的排查和定位才能解决问题,进而给企业和服务商造成了更多的损失。

因此,为了提高运维工作的效率和效益,企业和服务商需要更加重视运维工作,增加对运维的投入,提高运维人员的专业水平和技能,建立健全的运维体系,以更好地应对和解决问题。

就当下云计算的发展而言,在历经十余年的发展过后,国内的云计算已经积累了很多丰厚果实,继续延续大刀阔斧的发展步伐,不仅存在颇大的失败概率,同样可能会破坏到过往积累的果实,小步稳走,保证研发“新”度与服务稳定性的并行才是当下最后的方式。

02

晴天修屋顶

撬动「多云」

阿里云故障事件,除了带来的不只是云服务商们在服务上的反思,对于日后整个云计算发展格局或许也会产生一定影响,这种影响在于企业采用“多云战略”的进一步加速规模化。

多云战略的价值,其对企业客户来说可能是一个更具稳定性且更具性价比的新用云方式。当企业客户不再将所有的数据和业务都放在同一个云平台上,而是选择使用多个云服务提供商的多个云平台时,可以获得更高的稳定性和更好的性价比。

首先,多云战略可以提高企业的业务连续性。由于不同的云平台有着不同的特点和优势,企业可以通过使用多个云平台来确保其应用程序和数据在任何情况下都能够得到保护。如果一个云平台发生故障,其他云平台可以继续提供服务,从而确保企业的业务连续性。

其次,多云战略可以提高企业的灵活性和可扩展性。使用多个云平台可以让企业根据其业务需求灵活地选择最适合其应用程序和数据的云平台。同时,企业还可以根据其业务需求的变化来调整使用的云平台和资源,从而实现更好的可扩展性。

此外,多云战略还可以降低企业的成本。由于不同的云平台有着不同的定价模型和优惠措施,企业可以通过比较不同云平台的定价和优惠来选择最经济实惠的云服务。同时,使用多个云平台还可以让企业更好地利用云计算的规模经济效应,从而降低其成本。

沃尔玛基础设施服务副总裁Kevin Evans就曾指出,使用多个云平台比单一云平台更加经济,而且选择权有助于更好地管理成本。正是基于这种认识,沃尔玛坚决采取了多云战略,成功地将云计算支出降低了10%至18%,并解决了公有云和私有IT环境之间的数据移动复杂性问题。

综上所述,多云战略是一种更具稳定性、性价比和灵活性的新用云方式,这对于拥有一定大用户量,存在峰值使用高峰、多业务系统同时又追求云计算服务稳定性的企业而言,属实是一个不错的选择。

尤其,在阿里云此次出现故障问题之后,很多企业想必也意识到“鸡蛋放在一个篮子里”的危险性,这势必会让本就备受关注的“多云战略”进一步受到重视,甚至会加速企业采用“多云战略”的进程,提升其市场规模……

但转过头想一想,本文虽聚焦于阿里云在11月12日出现的故障进行深入探讨,但并无质疑其在技术和服务能力方面的意图。毕竟,阿里云作为国内云服务行业的领军者,其卓越的技术实力和优质的服务能力已被广泛印证。

换一个角度思考,即使是阿里云这样的大型云服务提供商也会遇到此类故障,那么其他云计算服务商是否能够保证万无一失呢?此次的故障是否会成为国内云计算行业的最后一次?没有人敢给出确切答案。因此,大家应该时刻保持警惕,做好预防措施,以便在遇到问题时能够迅速应对。晴天修屋顶,未雨绸缪,终究不会是错的事……

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,Typecho.Wiki所有文章均包含本声明。
厂商投放

【腾讯云】🎉五一云上盛惠!云服务器99元/月续费同价!

腾讯云五一劳动节海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!

广告
添加新评论 »