云计算,一场无声的IT权力交接

500

2003年,美国加利福尼亚州,一家名叫XenSource的公司,在SOSP上发表了一篇名为《Xen and the Art of Virtualization》的论文。

那时,论文的作者本人,或许也未曾料想到,这样一个关于讲述X86架构虚拟化技术的小众论文,竟然无意拉开了一个名叫云计算的产业的发展帷幕,并在此后二十年中,成为亚马逊、谷歌、阿里、微软等等全球顶尖科技巨头们第二战场。

更让他想不到的是,发展迄今不过二十年时间,经过媒体、厂商的“不断宣传”,看着手机上的云笔记、云盘等等工具,普通大众对于“云”的存在也早已习以为常。

但是,云计算的发展,真的就止步在IDC机房+虚拟化吗?

答案是:并没有。

随着云计算规模的增长,量变,开始引发整个IT生态的质变:云计算的带动下,自研芯片、自研数据库、自研操作系统、自研服务器,几乎成为了每个科技巨头成长到一定规模之后的标准动作。

而遵循着安迪-比尔定律走了三十多年的IT产业,也开始发现,原来CPU不必是计算的唯一中央集权,原来Windows、IBM、Oracle、EMC也不一定是计算的必选项。

于是,一场围绕云计算所展开的无声权力交接开始了。

01云计算的前世今生:一个CPU集权时代的告别

要明白云计算的变革如何发生的,我们需要先了解一个背景:发展至今,云计算的阶段推动力量究竟是什么。为了方便理解,我们可以将近20年来的云计算产业发展分为三个阶段:

第一阶段,是云计算的萌芽期。这一时期最典型的时代背景就是移动互联网的高速扩张,以及流媒体的出现,带来了计算需求的洪水式爆发。

举个简单的例子,仅仅奈飞一家企业,在2008-2016的8年时间里,用户数增长了8倍,用户的阅读视频浏览增长了数千倍。

这时,以奈飞为代表,高速扩张期的新兴企业们,在IT建设上,面临两个选择:第一,自建数据中心,但从机房建设,到服务器的选型、部署、运维,再到网络建设,安全、备份、容灾、稳定性等等,都是摆在面前的一大难题。第二,租用别人的服务器,满足自身随时变化的计算需求。

同一时期,在技术层面,以XenSource公司发表的《Xen and the Art of Virtualization》论文,以及英特尔在至强处理器中引入虚拟化支持,以及亚马逊云EC2和S3发布这三大事件为代表,虚拟化为主要技术支撑的云计算技术开始正式登上历史舞台。

500

需求爆发,叠加技术的成熟,于是,奈飞选择将整个IT系统用八年时间,搬到竞争对手亚马逊的云上,支撑起8年千倍的业务腾飞。其他扩张期的小巨头们,也在这一阶段中,借助上云,感受到了关于分布式与弹性计算的魅力。

第二阶段,则是池化技术的变革,带来了云计算的存、算分离,通过规模化的调度、编排,形成了超大规模的计算和存储资源池。

自此,关于云计算是否“新瓶装旧酒”的讨论告一段落,产业的发展也进入了高速扩张期。在海外,我们看到存、算分离的趋势之下,亚马逊的EBS不断加速渗透;国内,阿里云盘为代表,相关的产品不断推陈出新,到了后期,仅仅在阿里,存储就可以被分为块存储、对象存储OSS、文件存储NAS等等不同类型。

攻城略地,抢占市场成为这一阶段的市场主流,并在奠定了国际上亚马逊云、微软云、阿里云三强鼎立的市场格局。

总结来说,两次浪潮,使得CPU为核心的传统X86架构,替代了大型机、小型机,满足了当时企业业务扩展带来的算力弹性需求。

但归根究底,他们的本质,都是通过软件的优化,将越来越多的计算节点连接组合,对外提供服务。但放眼如今,仅仅软件的变革,足以应对不同的需求吗?

过去几年的IT发展,我们不难发现,在云计算领域出现了三个难以忽略的变化:

第一,以超算为代表,科学计算的竞争已经从学界上升到国家,成为大国科技实力比拼的核心高地。

第二,CAD、EDA、BIM为代表,工程计算软件在产业中发挥了越来越大的作用,甚至成为一个相关产业的咽喉所在。

第三,深度学习爆发,自动驾驶加速普及,以大数据为基础的人工智能在学界、业界两开花,成为全球技术角逐重中之重。

毫无疑问,这三个趋势,无疑都指向了一个共同的方向——数据密集型计算。

这一背景之下,传统的硬件部署中,以CPU为核心的云计算架构开始变得过时。

原因很简单,数据的洪水,带来了计算集群内部数据交换、访问的需求的爆发,从而间接导致了本该用在计算的CPU资源,大多都被虚拟化所吞噬。相应的,带来了成本的提升、性能的下滑,以及安全、稳定性等等一系列问题。

500

数据密集型计算,耗费大量CPU资源在虚拟化与节点通信上

那么,如何解放CPU算力,决胜云计算的新时代?

02云计算的电动车时刻:下一代的CPU与发动机长什么样子?

在回答如何打破CPU集权之前,我们不妨回顾一下汽车产业的发展。在中国,这个产业的发展被分为两个清晰的节点:

l第一个节点,燃油车时代,我们市场换技术失败,自主品牌始终抬不起头。体现在市场层面,就是我们做得出发动机,却做不出最好的发动机;做得了汽车,却做不了高端车。

l第二个节点,电动车时刻。三电系统替代了传统的机械传动装置;电池代替了传统的发动机;前后压铸的地板与车门,颠覆了车型设计的规范。中国人不仅不再落后,甚至还超越老牌欧美日韩车企,诞生了一大批如蔚来、理想、小鹏等世界级新能源车企。

质变发生的原因在于,燃油车时代,我们面临的是一个别人出发比我们早了几乎一百年的固化市场,新能源崛起的秘诀,则是“换道超车”所带来的历史机遇。

对于对云计算来说同理,打败发动机的不会是一个更强的发动机,打败CPU的,也不会是一个更强的CPU。那么,如何参考汽车的经验换道超“CPU”?

2017年,两家云计算先驱行动了。10月,阿里云推出了名为神龙架构的新产品,思路是将原本需要CPU处理的虚拟化、IO工作,卸载到一块硬件卡片上,解放CPU的算力,降低云计算在运行过程中的损耗。

无独有偶,仅一个月后,在亚马逊的re:invent大会上,一款思路几乎完全相同的硬件——Nitro面市。在IT世界里,一场变革已悄然发生。

破圈的口号是英伟达喊出的。几年后 ,当英伟达将上述思路以DPU命名,推出首款DPU产品BlueField-2,并高举高打地宣告“一个能顶125个CPU”之后,行业中的DPU、IPU如雨后春笋般冒出,技术圈和资本圈迅速涌入。

但本质来说,无论DPU还是IPU,都是面向通用市场所开发的硬件产品,无法与云计算企业的软件做到完美适配。

DPU与CPU最大的差异,在于前者仅能在数据中心内发挥效用,需要和系统内的软硬件深度适配。

阿里云给出了问题的新解法。今年6月,阿里云在神龙架构的基础上,发布了全新的云基础设施处理器CIPU。

作为一种全新的架构方式,CIPU不仅可以像DPU、IPU一样做到对计算、存储、网络的加速,还能像苹果的A系列芯片+IOS一样,做到CIPU深度适配阿里云的飞天操作系统,实现软硬一体化,当计算资源、存储资源、网络资源接入CIPU后,就会被云化为虚拟算力进行调度编排,实现零损耗的计算平台、存算分析的高性能云盘以及RDMA技术的普惠化。

500

更通俗的来说,就是阿里云的就是飞天操作系统可以把阿里云的几百万服务器变成一台超级计算机;而CIPU职责则是在这个过程中,让算力虚拟化损耗降到0,并通过规模化应用RDMA网络技术,做到访问云端比访问本地硬盘更快。

但CIPU带来的,仅仅只是IAAS层面的性能变革吗?

03被低估的云计算,一场全产业链的换道超车

如果面前有一张足以变革未来的门票,你会抓住吗?

正如同电动车的崛起带来的不仅是蔚小理、比亚迪的翻身,还有整个中国汽车产业链如宁德时代、天齐锂业等零部件上下游的突围。云计算新一代计算架构的出现,背后的影响,则辐射到了整个IT产业的方方面面。

关于它所带来的变革,我们可以从三个层面来理解:

首先是规模效应带来的云计算内部芯片、服务器、计算、存储、网络等软硬件重构。

在飞天+CIPU的基础之上,阿里云构建了全栈自研的基础设施,包括:自研CPU芯片倚天710 ,模块化设计存算分离的磐久服务器,与CIPU结合虚拟化成本降到0的神龙架构,引领行业走向微秒存储的分布式存储系统盘古,让中心云到本地云和边缘云都有一致性的云网络体验的洛神云网络,带动国内去IOE浪潮的自研数据库PolarDB、AnalyticDB、Lindorm等。

500

底层技术变革,带来的是上层软件应用开发范式的重构。

举个简单的例子,我们使用自来水,不会在意这是哪个自来水厂的供水;用电,不会在意这是哪个发电厂什么型号的发电机的供电;但云服务的购买,当前依旧是“几核几G服务器”的传统模式,但放眼未来,随着云计算逐渐成为水、电一样的基础设施,云计算也将转变成为按照调用次数或流量计费的模式。

在这种模式之下,主机架构被Serverless架构所替代,用户只需要专注开发逻辑,不再为底层的运维而费心。同时,Serverless理念所带来的更多预制模块,又将降低软件开发门槛,也就是我们常说的“低代码”的流行。

在低代码的趋势之下,未来80%的应用将由业务人员进行开发。在阿里内部,这一理念的典型代表是钉钉,数据显示钉钉上两年增加了500多万的低代码应用,汇集低代码开发者数量达到380万人。

而在阿里云上,我们则可以看到,湖南烟草只需要两个开发人员就可以做出整套物流系统。南瓜电影在无人值守的情况下,也能应对百万级流量,并且总成本较此前下降40%。

软件的变革之外,云计算架构的变革,正随着量变到质变,重塑终端的新形态。

在讨论云计算如何重塑终端之前,我们先来回顾一下,历史上几次典型的计算终端变革:

70年代之前,计算以大型机为代表,时任IBM掌门人甚至断定世界上只需五台计算机;

随后,八九十年代,PC伴随着软件服务产业崛起,一个任务的执行被分解给了数据中心与终端共同完成,体积上,电脑开始变小,乃至便携。

再到2010年之后的智能机时刻,云计算替代传统数据中心,终端算力相较上一代产品继续削减,云端的算力则不断得到提升,人手一台手机,成为全世界的标配。

50年的变革中,终端越来越轻量化,云计算承担越来越多的计算任务,成为IT产业发展的大趋势。

那么下一代终端会是什么形态?以这个逻辑来看,一定是个更轻量级的产品。

在今年的阿里云栖大会上,新的参考范例正在浮出水面,一大批搭载了阿里云无影架构的新终端开始对外展出,包括了:

无影笔记本,以笔记本的重量做到了桌面电脑都无法做到的弹性计算存储、以及12万的Cinebench 跑分;

重量仅有83g的 Rokid Air+Station AR眼镜,连接键鼠就能当做一台无影云电脑使用,甚至完成大型设计、渲染等性能怪兽级任务;

谷东工业 AR 头盔,借助无影可以帮客户实现航发组件、高精度医学手术等高精度模拟培训;

500

联通基于无影研发的雁飞 5G 模组卡片云电脑,以名片大小内置了专网能力……

而作为这一切背后的基础设施,无影的“无影”正在加速云端融合带来一个万物皆计算机的新时代。

04

尾声:中国云计算,沦为平庸,还是通往伟大?

如果最近一年时间里,你是个还能经常出差的幸运儿,那么在各大机场或许你不难发现一些细微的变化,比如,阿里云的广告语,从“上云就上阿里云”这样简单粗暴的口号,换成了一句令人费解的描述“为了无法计算的价值”。

其实这是早在2015年的云栖大会上,就已经被提出的一句口号,兜兜转转七年过去,伴随着阿里云进入全球前三的角逐阵营后,这句口号再次伴随着这“Back to Basic”的新战略,构成了阿里云的发展核心价值观。

为什么在“为了无法计算的价值”回归,为什么要“Back to Basic”?

中国第一,全球前三,或许正是阿里云如今的烦恼与选择回归的根本。

在真正走到世界前列之前,中国的科技企业发展,面前往往是一个别人已经写好答案,比如电商,比如通讯,比如搜索,我们只需要一次次验证“copy to China”策略的正确性。可是,当我们已经站上山顶,前路已经无人,下一步要如何走?

云计算圈子中流传着这样一句话:“云计算是一场百年大计”。

电力刚刚诞生时,爱迪生想给纽约装上电灯,另一拨人在研究用电力拉磨,但百年之后,电力应用广及空调、电视、计算机,甚至互联网和人工智能的基础,都建立在电力之上。而电力技术本身,也还在以新能源身份,不断进化迭代。

以此来看,今天的云计算实在太年轻,云上的物种尚停留于“电灯、拉磨”阶段。这场新的技术变革,随之而来的产业变革,乃至人们的认知和想象力,都还站在百年大计的门口。

这时,方向是规模的增长,份额的增加吗?是摩尔定律仍在不断顽强续命,数据流量指数级暴增,计算的进步却只是在前一代的基础之上修修补补吗?还是利用更高的站位,去改变一些从前力不能及的事情,去定义新一代IT范式的变革,去回答一张空白的考卷?是沦为平庸,还是通往伟大?

中国的云计算企业,已经给出了自己的答案。

站务

全部专栏