周鸿祎:我们从这次全球瘫痪中学到了什么教训?

周鸿祎:

从这次全球瘫痪学到什么教训?
有没有快速恢复重启的应急响应能力很重要 

这次全球IT最大的事故,导致西方国家的社会服务秩序、航空公司机场瘫痪等后果,我们需要去反思一下。
这次的罪魁祸首是一家叫CrowdStrike的企业级杀毒公司,他本来应该提供安全服务,保护企业不被黑客入侵,不被攻击。本来是一个保安,但是变成了搞事情的罪魁祸首。所以有几个点需要我们反思一下。

第一,超级安全软件成为反面教材。
CrowdStrike本来应该是帮助企业把守电脑,防止黑客入侵,结果自己却出了差错,这样的保镖不能请,就像请来的保镖给了你自己一枪。

第二,技术是个双刃剑,因为这种安全软件权限太高,可以深入系统底层,这也是安全软件必须要具备的能力。但一出错就会殃及池鱼,整个系统说挂就挂,一个小错误也能变成大灾难,所以做安全软件对编程的水平,对测试的能力要提出更高的要求。

第三,实际上是数字蝴蝶效应。这是微软的服务器,微软的系统出了问题就导致微软云出了问题,那影响的就不是微软一家企业,而是波及到整个产业行业,银行航空公司全都躺枪,这就好比在数字世界里,微软打了一个喷嚏,结果整个世界都感冒了。但对于银行航空公司来说,这次事件无疑是一次痛苦的教训,但也是一次学习的机会。

我有几个建议。
第一,要加大系统的冗余和容错设计,要确保单点故障不会带来整个系统的崩溃,必要的时候可以考虑多云的策略。就不要把鸡蛋放在一个篮子里,也不要只用Windows系统,可以跟Linux系统混合使用。

第二,提升内部安全和应急响应能力。虽然说有微软和CrowdStrike这样的服务商,但是服务商出错了,企业就束手无策,这样是不对的,企业自身要有应急预案,要有应急团队。出现类似的突发事件的时候,企业自己能够比如说重启电脑,重置网络服务,断开网络,保证系统重新运行。

有什么破局之道?
第一,加强云服务供应商的选择和评估,要确保他们有足够的技术能力和可靠的服务保障。
第二,分布式架构和多云策略,避免单一云服务的依赖,用多云的策略分散风险。
第三,定期安全演练和漏洞测试,模拟各种可能的故障场景,及时发现修补漏洞,提升整个系统的强壮性。

总之这是微软云的滑铁卢,给所有依赖云服务的企业敲响了警钟。
希望各大企业从中吸取教训,未雨绸缪,提升自己的安全响应能力,避免类似事情的重演。

我们有一个金句叫“没有攻不破的系统”,今天应该再加上“没有不会崩溃的系统,没有不会宕机的系统”,系统一定会宕机,一定会崩溃,这个在所难免,但一旦出现的时候,我们有没有能力快速的恢复,快速的重启,这是我们所有网络安全专家应该思考的问题。

所以像360做了20年免费杀毒,在全球有10亿以上的用户,这20年来经过了各种复杂情况的考验,在各种Windows系统、各种补丁中都是久经考验,所以360不仅仅是在捍卫每个人的电脑安全,实际上我们又在捍卫着中国各大央企、金融机构、机场、高铁等,很多关键信息基础设施的安全,未来随着人工智能的流行,各种AI控制的系统会日益流行,这里边一旦再出现类似的业务瘫痪或者网络安全问题,后果就更不堪设想。

所以通过这件事,你意识到网络安全的重要性、你意识到企业级杀毒软件的重要性了吗?今天,在捍卫我们国家国土网络各个城市的基础设施,各个城市网络、各个国家级的数字化的基础设施上,360扮演了重要的国家队的角色。我们通过稳定可靠的能力服务,使得中国能够避免出现类似这次全球大瘫痪的这种灾难。

500

全部专栏