降本增”笑”?阿里云本月第二次大事故!

500

北京时间11月27日,阿里云部分地域云数据库控制台访问出现异常。据悉,从当日09:16起,阿里云监控发现北京、上海、杭州、深圳、青岛、香港以及美东、美西地域的数据库产品(RDS、PolarDB、Redis等)的控制台和OpenAPI访问出现异常,实例运行不受影响。经过工程师紧急处理,访问异常问题已于当日的10:58恢复。

500

此次受影响产品包括,云原生数据仓库AnalyticDB PostgreSQL版、图数据库、云原生内存数据库Tair、云数据库Redis版、云原生关系型数据库PolarDB、云数据库专属集群、云数据库MySQL版、云原生数据仓库AnalyticDB MySQL版、云原生分布式数据库PolarDB-X、云数据库ClickHouse、云原生多模数据库Lindorm、云数据库PostgreSQL版、云数据库SQL Server版、云数据库MongoDB版、云数据库HBase版、数据库自治服务、数据库备份。受影响地域包括,华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北1(青岛)、中国香港、美国(硅谷)、美国(弗吉尼亚)。

500

据悉,此次故障的社会影响面没有双十一后的那次史诗级大故障那么显著,因为数据库是IaaS类资源服务,数据库管控挂了,只会影响到管理操作,但不会影响客户在上面的业务。

不过值得关注的是,这已经是阿里云本月第二次控制台服务异常。首次异常是在双 11 结束的一天后(11月12日),涉及到阿里云盘、淘宝、咸鱼、钉钉、语雀等产品,持续时长约 3.5 小时。

近年来,阿里云曾多次出现服务异常。

据报道,2018年6月,阿里云曾出现持续近半小时的重大技术故障,彼时,阿里云官方对外解释称:“我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。”

据新京报消息,2019年3月3日,有网友在微博上称阿里云疑似出现了宕机事故。而这也让华北不少互联网公司受到波及,APP和网站全部瘫痪。对此,阿里云方面回应称,经紧急排查处理后逐步恢复服务。针对本次故障,阿里云将根据SLA协议(服务合同),尽快处理赔偿事宜。

2019年3月20日下午,阿里旗下淘宝、聚划算、天猫、闲鱼、千牛、1688、飞猪等多款产品曾集体出现无法正常使用、登录的问题。当时不少网友将故障矛头指向阿里云,不过这一次,阿里云官方并没有给出任何的回应。

2022年12月18日,阿里云再次爆发香港Region可用区C大规模服务中断事件,导致多个香港及澳门站点受到影响,最终则是以阿里云根据相关产品的SLA协议进行赔付。阿里云官方也对此坦言:“这对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。”

2023年11月12日晚间,也就是今年双十一的第二天,阿里云多个服务出现异常,包括阿里云盘、闲鱼、钉钉、天猫精灵、夸克、饿了么等均崩掉且无法访问。与此同时,阿里云服务器产品控制台、淘宝消息系统也无法正常使用。不少业内人士表示:阿里云这次的大故障说是P0都不够了。

看到这样的故障频率,对于阿里云这个中国公有云的领头羊来说,是不是有点说不过去?

对于阿里频繁技术故障背后的原因,有网友归结为阿里的大规模裁员。有网友根据阿里的财报数据估算,近9个月内,阿里减少了1.5万人。结合互联网行业广泛存在的35岁现象,降本增效,大量有着丰富经验、会干活的程序员都被裁员毕业了,留下的是写PPT的人,

写了PPT服务器却听不懂高大上档次的词汇,开猿节流,降本增”笑”,多错并举,齐头并禁。

对于云服务来说,可靠性、可用性是最重要的指标,但国内市占份额最高的阿里云表现却如此拉胯,这对于其自身是一种致命的打击,但更重要的是,阿里云这种故障频率,几乎可以凭一己之力,毁掉用户对公有云云厂商的托管服务的信心,这也很可能将直接把公有云乃至云计算行业拉进深渊!

全部专栏