博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
阿里云出现大规模宕机,原因系IO HANG,或将做出赔偿
阅读量:6242 次
发布时间:2019-06-22

本文共 1980 字,大约阅读时间需要 6 分钟。

事件回溯

据网友爆料,3月2日23:55分左右,阿里云疑似出现大规模故障情况,华北相当多互联网公司都炸了,一众APP和网站陷入瘫痪,一大波程序员、运营和运维人员都赶去公司加班。晚些时候,阿里云对此作出回应称:华北2地域可用区C部分ECS实例状态异常,导致该区域众多网站和APP都无法正常使用,不少公司就此事在微博刊登出回应公告:

\"\"

阿里云方面暂无确切故障原因并尚未给出具体受影响范围,其工程师正在进行紧急排查处理,并表示如果有进展会及时向用户同步:

\"\"

对此,不少程序员在微博吐槽,一时之间该话题之下哀鸿遍野。有网友怀疑是部分磁盘出现问题,凡是读写故障盘的系统软件或服务程序均会受到影响。

对于此事,某公司市场总监在微博表示,一直以为阿里云是公有云稳定的代名词,但出现这种事件让没有配套私服的中小公司措手不及,如果有完善的备用方案,不至于出现大规模宕机。

\"\"

截止发稿时,阿里云方面回应称:服务器等出现IO HANG,正在处理并将对受影响的客户进行赔偿。

云服务99.99%的安全性是否靠谱?

据了解,这不是阿里云第一次出现宕机事故。

2018 年 6 月 27 日 16:21 左右,阿里云也曾出现重大技术故障,16:50 分开始陆续恢复,官方给出的故障时间为 30 分钟左右,恢复时间大概花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知 bug。

本次事故被定义为 S1 级别,即核心业务重要功能不可用,影响部分用户,造成一定损失。阿里云发布官方声明,表示“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”

根据笔者统计,仅去年一年,全球主流云计算厂商就曾发生数十起宕机事故,原因更是五花八门,谷歌云曾因自动化失效导致宕机、AWS曾因数据中心出现硬件问题导致宕机、微软Azure爱尔兰数据中心曾因高温和打雷陷入宕机、腾讯云因运营和硬盘故障陷入宕机…

众多安全事故频发,云厂商承诺的99.99%的安全可靠性是如何定义的?

不久前,笔者曾就云服务的可靠性一事询问阿里云相关技术专家的看法,他表示,云计算厂商得出99.99%可靠性这一数字是经过验证的,通过客户部署反馈,确实故障率在0.01%以下。并且,一旦出现故障,云厂商也都有非常完善的容灾方案,目前主流云厂商已经在提供一定程度上的异构灾备能力,比如,阿里云的3AZ容灾方案,同城一定距离的地方,用户可以自己搭建跨DC方案,技术上能够满足异构容灾需求。如果客户追求极致容灾能力,有可能建设混合云或者采购多家云厂商,架构会带来很大成本压力,但这种选择应该比较少,就好比对安全可靠性要求极高的金融数据库领域,也很少有客户同时选择两种数据库方案。

随着云计算使用量的持续增长,很多企业纷纷开始选择放弃一些控制权,以降低成本。从业界来看,美国大多数互联网企业已经放弃自建数据中心而大规模应用云技术,例如NetFlix大规模应用谷歌云服务,专注于专有云和IaaS的Cloudera和Hortonworks合并过冬。

单一云平台被企业大规模应用同时,这也意味着一旦出现问题,给企业带来的损失和影响是巨大的,多云再次成为重要讨论话题。

多云可以解决所有问题吗?

根据 Gartner 调查,2018 年全球公有云市场整体增长为 21.4%,以亚马逊 AWS、微软 Azure 和阿里云为首的全球云计算“3A”阵营占据超七成市场份额。根据 IDC 数据,在中国市场上,阿里云市场份额相当于第 2 到 9 名的总和。在全球市场,阿里云已超过 Google 和 IBM 的云业务。

据统计,目前 40% 的中国 500 强企业、近一半中国上市公司、80% 中国科技类公司在使用阿里云,其数据中心也在全球范围内增长。可见,国内企业选择阿里云较多,这也让单一云平台绑定问题受到用户关注。

中国平安运维部负责人曾在接受采访时表示,很多大企业如今都会分散选择云服务商。一般情况下,小型企业受限于资金或人员等因素,可能会将所有服务放在同一云计算平台,但大多数中型企业还是倾向于选择多个厂商。

就目前的发展现状而言,云计算服务将越来越趋向于标准化,企业可以轻松得在不同云平台之间进行数据或者应用迁移,多云管理的门槛将被大大降低,如何选择云供应商将完全取决于企业实际需求和业务成本。

就目前国内云计算的应用进程来看,多云对企业带来的挑战非常大,具备容灾意识,尤其是重要业务的灾备方案一定要做好,比如依靠API快速升级扩容切换服务,配合完善的持续集成部署,完全依靠云供应商的长时间不间断服务是不可能的,云上也有故障率,具备完善的灾备意识是现阶段企业负责任的上云态度。

转载地址:http://ghdia.baihongyu.com/

你可能感兴趣的文章
Linux 常见编译错误
查看>>
ASP.NET MVC 3 Controller
查看>>
Vs中调试MVC源代码步骤
查看>>
JavaScript项目重构到底有多少坑要填要踩
查看>>
footer绝对定位但是不在页面最下边解决方案
查看>>
Oil Deposits(油田)(DFS)
查看>>
Android 画图(自定义坐标轴控件的拖动实现)
查看>>
在Linux下配置git并设置远程仓库
查看>>
[解题报告]499 - What's The Frequency, Kenneth?
查看>>
Vue入门---常用指令详解
查看>>
iOS 越狱后 SSH 不能连接
查看>>
soj 3291 Distribute The Apples II DP
查看>>
苹果App Store审核指南中文翻译(更新至140227)
查看>>
转 -- OK6410 tftp下载内核、文件系统以及nand flash地址相关整理、总结
查看>>
原来对MFC一无所知
查看>>
Java程序员看C++代码
查看>>
python处理Excel - xlrd xlwr openpyxl
查看>>
JS实现的购物车
查看>>
bzoj 3998 [TJOI2015]弦论——后缀自动机
查看>>
STL 的 vector 根据元素的值来删除元素的方法
查看>>