网上最权威的芯片战分析——反芯片制裁战略研究(上)

仅以此文献给伟大的芯片专家和科技创新企业家戈登·摩尔。

致敬,逝去的摩尔和即将逝去的摩尔定律。

500

本文核心观点和结论是:美国对中国发起的芯片战,是在一个错误的时间、错误的领域、向错误的对手发起的错误的战争。

我曾在“《长津湖》及抗美援朝的军事科学解读”一文中系统地指出:中国人民志愿军之所以能用相对劣势的装备战胜优势装备的美军,一个关键性的原因是朝鲜半岛普遍山地的地形,而我人民解放军从建立的一开始就极为善长山地作战。志愿军最为充分地利用了朝鲜半岛的崇山峻岭,加上夜战,这些对美军造成了最大程度的能力限制。这有效地逆转了双方武器装备的差异,并使我军其他逆天的战略战术和素养(穿插、能聚能散、水银泄地、三三制与勇敢牺牲精神等)得以充分发挥。

我们可以设想一下,如果当年抗美援朝战争是发生在当今俄乌战争一马平川的战场,结果会是如何?志愿军还能否战胜美军?这个问题可能是要打一个问号的。当年63军为什么要死守铁原,15军要死守上甘岭?因为一旦失守,后面上百公里就是“一马平川、无险可守”。“抢占有利地形”,避免“无险可守”,这些是我人民解放军近乎本能的战术概念和反应。即使在平原地带,我军也可以通过挖地道而获得巨大优势。但这个只能作为防御手段。如果在一马平川的平原上,能打出五次战役里双方几十万人规模的围歼作战吗?这更是要打一个大大的问号的。

2000年前,甚至2010年前,摩尔定律高度有效,所以芯片领域可以说是一马平川,美国芯片企业可以说是一路狂飙突进,中国公司在没有能力从美国获得充分芯片技术资源共享前提下是难以对抗的。但在今天,随着摩尓定律逐步遇到越来越多的极限,相当于逐步进入了越来越多崇山峻岭的地形。这就是在目前这个阶段美国发起全面的芯片战争,中国为什么可以用相对劣势的技术打败美国最优势技术的客观条件所在。

本文目录:

一、我的学术态度——追求卓越和原创

二、对摩尔定律的深度讨论

三、CPU位长及64位极限

四、时钟频率(主频)及9GHz极限

五、指令集与计算架构

六、存储结构对计算性能的影响

七、片内多核与阿姆达尔定律

八、其他计算能力堆叠技术

九、其他影响计算能力的技术

十、中国芯片战制胜之道

一到五为上篇,六到十为下篇。

一、我的学术态度——追求卓越和原创

本文准备了很长时间,正准备写的时候突然见到网上传来人类芯片发展历史上最伟大的人物之一戈登·摩尔离世的消息。摩尔是一位对整个人类芯片技术历史发展有着举足轻重作用的人物,是我们这一代人心里的大神之一。尽管美国现在正在对中国全面地展开芯片战,尽管以他的名字命名的著名摩尔定律正在逐渐失去作用,也丝毫不影响我们对摩尔个人的高度尊敬和怀念。一个时代正在结束,可以用有人评价林肯的话来评价他:当一颗大树倒下的时候,才能准确丈量它的高度。

为什么要用“网上最权威”这样不谦虚的说法?先参见我以下最权威文章系列:

网上最权威的人工智能分析

网上最专业的VR分析文章

资深IT人详解什么是“元宇宙”——细说历史上那些“什么都不是”的概念

战略决战:中国科技如何领导世界——最权威分析

中国人的文化中有“谦虚是最大的美德”说法,但我要告诉你在当今的时代,“谦虚是最大的缺德”。为什么?

首先,在需要中国人大量地与西方人打交道的时代,你谦虚的话,别人不会认为你有美德,而只会认为是你真的没本事,真的不行,真的应该被人看不起。

其次,对于创新来说,如果不是“世界上最”的东西,能叫创新吗?所以,“最”是今天的中国学术界和科技界必需具备的、最起码的参与游戏的资格。如果你不是“世界最”的东西,有什么资格搬出来说事?纯属浪费社会资源和别人的时间。因此,谦虚往往成为学术体制内的庸人无所作为混日子的保护伞。“我们与世界先进水平还有很大差距”“追赶世界先进水平还需要几代人的努力”......这话听起来很规矩、让别人没话说,但事实上的作用就是“无论我做成什么样,你都别有意见。即使我占用了国家大量资源,也不需要做出世界最领先技术水平的东西”。

我们看到国外很多企业,依靠非常领先的技术,在公司介绍里一开头就是自己是某某领域国际领导性的企业,拥有什么世界最领先的技术。但中国公司就不被允许这么说,也不允许这么想。中国的广告法里就一刀切地全面禁止说“最”“第一”。即使中国公司真做出了世界技术最先进的东西,也不允许说出事实情况。过去这么规定是有合理性的,因为过去中国的确在技术上差太多,随便去说“最”往往事实就是吹牛和欺骗。

但今天已经完全不一样了,中国公司已经有大量世界最领先的技术,为什么不允许说?只要有充分的客观科学证据(第三方检测报告等),展示它们不行吗?要想做出世界上技术水平最高的产品,当然是要投入大量研发费用的。可是你长期费尽心力和投资、还可能失败的风险,去做出世界上技术水平最高的产品时,却被法律禁止说出事实来。你不说出来客户怎么知道?客户不知道你怎么能卖出好的价格?你卖不出好的价格怎么能收回巨额的研发投资?收不回投资,谁会愿意去做从0到1的、原创的工作?

中国公司只被允许说价格更低,一切商业环境都是在比拼价格。但在美国却没有对“最”“第一”的任何禁止。他们甚至把技术上“最”“第一”当成一个企业可以立身于市场的最基本资格、最起码的要求。美国企业说他们的产品技术是世界上最好的基本上是习惯性的,而中国企业做出了世界上最好的产品技术如果说出来却是非法的。何止是毒教材,今天的中国在思想上、法律上、文化上、教育上、学术标准上......被渗透、控制和封锁得有多么深、多么广?

500

IBM官网上对自己技术的宣传语“世界上首个......”“密集程度首屈一指”。按中国的广告法,这涉嫌违法吗?如果他不说,客户怎么知道他是第一个做出来的、世界上最领先的产品技术?

中国公司有没有世界上最好的技术?多得是。因为我专门研究和支持中国的原创技术,所以有很多中国拥有原创技术或世界最领先技术的公司会与我联系。苏州有一家公司苏州恒兆,开发了世界上能量效率最高的空调,远远超过其他国内外友商。现在根据中国空调能效的分级,最高的是1级,能效是5,但苏州恒兆可以做到6.5。另外,苏州恒兆还开发了完全不用安装的空调,很不好意思,世界首创,美国、欧洲、日本都没有,不仅是“最”,而且是目前全球具备“唯一性”的产品技术。怎么办?允许说是“世界技术最先进的空调”这个客观情况吗?

苏州恒兆不用安装的空调。基本原理其实也不复杂,它是将反向的热量储存在机器内的水箱里。

500

北京有一家高科技企业北京美尔斯通,开发了超导磁测量技术,其灵敏度达到世界最高。它的灵敏度高到多少呢?如果装在飞机上可以探测到水下很深处游动的鱼。实在不好意思,其技术水平远远超过美国,欧洲、日本根本就没有同类技术。这些实际情况可以说吗?

500

美尔斯通创始人米旺先生。

500

以美尔斯通超导磁测量传感器为基础开发的心磁仪。

芯片被封锁是很小、很小,小到几乎可以不值一提的小事情。真正的问题和障碍是我们所有人都在高喊要创新的同时,却在思想、文化、法律、教育、学术标准和商业模式上,对中国企业、工程师、学者们、投资者们原创性工作自己人为设置一道又一道封锁线。在这种情况下,能去简单责怪中国人不做原创吗?

最后,“谦虚美德”往往成为压制年轻人创新的最大思想枷锁之一。已经成为学霸的人,当然可以说话非常谦虚,因为他有谦虚的资格。无论他再怎么谦虚,说自己水平如何有限,因为他的地位在那里摆着,他说什么别人都得听。你一个功成名就的人可以这样,但也要求年轻人必须谦虚,不能说,即使做出了世界最领先的东西,也绝对不允许说出来。历史上,大量世界最领先的东西往往就是年轻人做出来的。谦虚,是压制中国科研创新环境的最大文化障碍和思想枷锁之一。

抱持学习的态度肯定是很重要的,客观地展示和要求做出世界最领先的东西绝对不是简单心态上的张狂,而是客观。我想说的是:我总是以“网上最权威”这样的目标来要求自己,要写就写这种水准的文章,尽管真的可以谦虚一下未必都能做到。但取发乎上,可能得乎其中,而取发乎中,就只能得乎其下了。

在前一篇“中美大变局已经到来”文章中(该文1.6万字),有一位叫“PL人生”的网友留言建议说“公众号的文章请力求做到短小精悍,观点鲜明”。

我回复他“非常感谢您提出的意见。为了方便读者阅读,我很早就开始用语音方式提供阅读便利。事实上,只要通过复制链接,用科大讯飞等软件也可以进行语音阅读。但有很多老人不懂这些软件的使用,所以我的每篇文章都提供了语音。但是,我写文章从来不在观点和论述方式上照顾读者,因为所有遵从照顾读者传播学规律的文章基本都是迎合和忽悠读者。我是要给读者真正的知识和分析问题的方法,如果不想接受这一点,就不要读我的文章。我不想去迎合和忽悠读者,更不以提升粉丝量为目的”。

一切短小精悍,观点鲜明的文章,必然会导致误解。如果你只是简单地、观点明确地说“中国会超过美国”,各种各样的误解就会铺天盖地而来。有人认为,这是振奋人心(我的目的不是要简单地振奋人心,而是要指明今天这个时代的中国应该干什么);有人会认为,这是民粹主义(我不是鼓动民粹,而是要中国人明白今天自己的责任和新时代需要掌握的第三代科学思维方法)。

有人认为,这是狂妄自大(我不是要人们单纯享受中国领先的自豪感,而是要人们充分意识到时代对今天中国人的全新召唤,今天的中国人面临的全新历史使命)......然后你又得一个一个地去深入解释,来回斗嘴争吵,最后篇幅不仅更长,而且导致大量散乱的、只是各自加深自己固有陈见的观点和难以消除的误解。人们听到的很多格言式的非常精彩的警句,表面上看起来很漂亮,实则空无一物。因为担心被误解,也只能说得空无一物,从而尽量不让人抓住把柄。因此,只有系统地阅读一些逻辑完整,论述完备的文章,才有可能真正提升自己的知识和分析能力”。

但就是这个“不照顾读者”的1.6万多字长文,发表以后却在网上以每小时10万+的阅读量迅猛增长,两天不到今日头条上的阅读量居然突破300万。

本文不仅是希望普通读者、政策制定者有所获益,而且能让专业的、甚至是资深的芯片和信息技术领域人员也能有所获益。

二、对摩尔定律的深度讨论

请读者注意我文章名称中说的是“芯片战分析”,不是说芯片技术分析。对芯片技术,我不能说权威。如果这么说,肯定就有人要挑战“那你怎么不去做芯片?”。本文将给出大量在其他文章中极少见到、相对硬核的内容,去解决一个很重要的问题:人们都会天然地认为,芯片技术越先进,芯片线宽越细,技术水平越高,集成度越高,晶体管越多,性能就越强。这个好像是天经地义不用说的事情。但如果要问:为什么它会是这样呢?能给出系统完备的、精确的解答吗?这个可能就算是这个领域的专家也未必都能说得清楚和完备。但这个问题如果说不透彻,就很难理解今天的芯片技术客观现状是什么,以及它未来将如何发展。同时也难以准确理解芯片战的结果走向如何。

“摩尔定律”是有3种表达方式的:

(1) 芯片上所集成的晶体管数量,每隔18个月翻一番。

(2) CPU的性能每隔18个月提高一倍,而价格下降一半。

(3) 用一美元所能买到的计算性能,每隔18个月翻两番。

上面三种表达方式在过去被认为是一样,或者说是“等价的”。但本文要告诉读者的是:它们之间有很多细微、在今天影响越来越大的本质差异。因为计算性能提升的比例与芯片上集成度的提升比例并不完全是一回事情,它涉及到很多影响因素。这些因素在过去一个一个发生了本质变化,导致最终芯片以及整个系统的性能提升速度越来越慢。摩尔定律遇到极限,并不仅仅是芯片线宽最终遇到量子效应难以再缩小、从而集成度难以再提高,而是很多其他影响计算性能的因素,早就一个一个遇到极限了。

在前面“中美大变局已经到来”一文中,其实已经简单提到一些相关问题,但在篇幅已经很长的该文中很难展开,本文就系统地把这个问题谈清楚。影响计算性能的因素综合起来有如下这些:

(1) CPU位长

(2) 时钟频率(主频)

(3) 指令集与计算架构

(4) 存储结构

(5) 片内多核与阿姆达尔定律

(6) 其他计算能力堆叠技术(3D集成、ChipLet、二次集成、板上多CPU、多计算板卡、多机柜、MPP、计算机集群等)

(7) 其他,如用带宽和存储换计算性能,从算法上降低计算量等等。

请注意以上分类相互之间有可能存在部分重叠之处或相互影响之处,以下我们就一一做出解释。

三、CPU位长及64位极限

首先体现芯片性能的是CPU位长。最早出现的CPU是INTEL的4004,它是INTEL的工程师特德·霍夫开发的,这个是4位的CPU。后来CPU位长就不断地升级,每次升级翻1倍。以下是CPU位长的发展情况。

要首先强调下,以上数据只是按INTEL的CPU来说的,历史上的CPU芯片当然是有很多的,甚至还有摩托罗拉曾开发过24位长的怪异CPU,如68000系列和56k系列DSP。4004是INTEL最早开发出来,但其他各代并不一定都是INTEL最先推出。甚至于,中国的沈绪榜院士在1977年就开发出了16位的CPU,比INTEL还早一年。

500

2010年4月18日,我去参观硅谷INTEL博物馆

500

500

第一个CPU芯片4004

500

4004芯片实物及介绍。这个小芯片的计算能力已经超过了占用整整一个房间的第一台电子计算机ENIAC。

500

对16位CPU8086及8088的介绍

现在要问这样的一些问题:为什么CPU位长更长,性能就更高?CPU位长更长性能就一定更高吗?64位CPU可能是终级的CPU位长,为什么?

如果要处理的数据是30位,并采用16位CPU来处理,那么至少就得分两次才能把数据送到CPU里去处理。但如果采用32位CPU,只要一次送进CPU就处理完了。这就是为什么CPU位长越长,处理速度就会越快的简单原因。但是否CPU位长越长,处理速度就一定更快呢?不一定。

最初开发的4004只有4位,要处理的数据位长几乎100%都会超过这个长度。所以,当开发出8008时,因为CPU位长提升了1倍,数据处理性能就会直接提升1倍。如果处理的数据位长低于CPU位长,无论其位长多么短,你都得使用至少一个CPU的周期去进行处理,这样CPU的位长增加就对提升性能没意义了。当CPU位长不断提升时,超过其位长的数据比例就会越来越低。如果超过其位长的比例是50%,CPU位长增加1倍带来的性能提升就不是1倍,而可能只有25%甚至更低了。

从目前来看,64位CPU是终极的CPU位长。得出这个结论需要一个前提假设:被处理的数据位长是受限的,并且极少会超过64位。为什么说它是一个假设呢?因为我们肯定不能说需要处理的数据位长一定不会超过64位,它肯定会是无限的。但从现实世界来看,被处理的数据位长不会太长。超过一定限度的数据,其数量占比会越来越低。为什么会这样?这个直接理解起来可能会有些模糊,我们就先举一些实际例子来说明。

2000年时曾有一个很著名的信息领域问题,叫“千年虫”。这是因为20世纪信息技术发展的初期,为节省当时极为宝贵的信息存储、处理和显示的资源,就把年份的数据只用两位数表达。例如1960年3月24日是表达成60年3月24日。两位数最多表达的年份是100年,然后就重复了。所以,这个问题其实最准确地说应该叫“百年虫”。在2000年以后,年份就改成4位数表达了。但这样做就没问题了吗?并不是,而是潜在了一个“万年虫”问题。因为当年份用到9999年时,下一年就会重复回到0000年、0001年......2000年......2023年对不对?

但我们需要担心这个问题吗?并不需要。因为电子设备的最长使用时间会长到几十年,软件使用时间会更长一些,但也不应该超过100年对吧?所以很多电子设备硬件和软件在上个世纪真会跨越到2000年时出现问题,但对万年虫我们并不需要担心。一个它是7970多年以后才会出现的事情,有太充分的时间来提前准备。另一个到那时的技术会远比今天发达太多了。所以,百年虫真是一个问题,而只要位长增加两位形成的潜在万年虫就不是一个问题了。

再以货币来举例,有些国家的货币因恶性的通货膨胀可能形成极低的币值,买一块肥皂都可能要100万亿亿元,这会造成表达货币的数字符号很长的位长(19位十进制符号表达100万亿亿)。但如果这样,往往人们就会发行新的货币,把位长降下来。例如,新货币的1元会等于老货币的10万亿亿元,从而上面的100万亿亿元就变成新货币的10元了。这就把原来的数字19位长度变成只有2位长度了。

从以上分析我们就可总结出信息位长有限性的两个基本原因:

一是信息表达的经济性,使人们会尽量采用更短的位长来满足要求。

二是位长的增长带来的信息空间增长是数量级的。越到后面的位长增长,带来的信息空间增加会是前面位长增长的数量级倍数,使得满足实际需要的能力数量级地增大。指数增长的能力会很快超过一般只是线性增长的实际需要。

下面我们再来谈一个更为硬核的科学因素,就是科学测量数据的不确定度水平限制。一切科学测量数据最终都是建立在七个基本的国际计量单位基础之上。其中在不确定度技术水平上最高的是时间单位,因此其他计量单位(长度米和重量kg等)都逐步地最终以自然界的常数(光速常数、普朗克常数等)和时间为基础来进行定义,最终一切科学测量数据的最好不确定度也都取决于时间计量。时间计量单位1秒是等于铯133两个超精细能级跃迁对应辐射频率的9192631770个周期的持续时间。这个定义还是1967年就实现的,它有10位有效数字。

后来随着时间测量技术的不断进步,其不确定度上的技术水平越来越高。2017年中国计量科学研究院的NIM5铯原子喷泉钟,其不确定度达到9E-16水平,这个时间测量数据会有16位有效数字。目前最高水平的光原子钟不确定度接近1E-18的水平,这个会有18位有效数字。这种技术水平的原子钟如果从138亿年前宇宙大爆炸开始运行,到现在偏差也不会超过1秒。未来当然不排除还可能会有更高水平的时间测量技术出现,但可以看到,至少目前19位长度已经是当前一切科学数据最大极限长度。64位CPU位长用于科学计算时,足以解决几乎所有科学测量数据的一次性处理。从工程应用上来说,这个不确定度水平的测量数据不要说是去火星,就是进行银河系的星际航行其精度也足够用了。这是位长有限性的第三个很硬核的原因。

第四个原因是采用量纲对数据位长的简化。前面内容可能有网友会有疑惑,为什么不确定度是1E-18,最大有效数字就是最多18位呢?比如说有一个科学数据不确定度是1E-6,有效数字是6位。可是实际的数字可能是远远多于6位啊?比如12,345,600,000,000,后面8个数字因为已经在不确定度以下,可以直接写成零,写别的数字没有意义。这个不是14位长度,远超过6位了吗?的确如此,但科学中会采用量纲来简化这个问题,一般遇到这种情况,不会像上面那样直接表达,而是写成123456亿,或者12345.6G。通过k、M、G、T......等量纲,可以大幅度缩短数字的位长。

网友还可能会有一个疑问:IPv6地址不是128位吗?采用IPv6的路由就不需要128位CPU吗?回答是不需要。以IPv6最主要的单播地址规划为例,它是将128位地址分成前面的64位网络前缀和后面64位的接口标识。在网络上不同的区域,会分别使用网络前缀和接口标识进行路由。所以一般最多只需要64位地址路由,而不需要同时处理128位地址。

64位二进制信息的空间,换算成十进制可达19位长度(1845亿亿)。我们当然不会说实际要处理的信息一定不会超过这个范围,但从现实世界信息看概率会是千分之一,甚至万分之一以下的程度。

如果超过64位的数据量只占极少数量,仅仅为这一点数据就去开发128位CPU的话,需要来比较一下如下两种方案的优劣:

一是直接采用128位CPU,其占用的晶体管数量简单来说可能就是64位CPU的两倍。

二是如果用同样数量的晶体管,同样的芯片生产技术,在一个芯片上做两个64位的CPU。

上面两个方案哪一个更好?因为99.9%以上的数据都是64位以下的,因此两个64位CPU获得的最终性能肯定会好过一个128位的CPU。这就是为什么64位CPU很可能是终级位长的根本原因所在。32位CPU可直接访问的内存地址空间是4G,这个还是非常受限的。而64位CPU可直接访问的地址空间,目前最高性能的INTEL公司的CPU仅利用到128G,远远没有开发完。

从2001年出现64位CPU至今20多年过去,2022年全球网络数据总流量为799EB,同比增长为21%。64位CPU可直接管理的地址容量已经与全球互联网总流量只差1个多数量级。

所以,当年在32位CPU还没推出来时,就有人在讨论128位CPU的开发问题。可是后来慢慢没人提了。

以上讨论说明了什么呢?就是从提升CPU位长角度来提升芯片性能的方向,最初是非常有效的。但位长越长,这个方向带来的实际效果越低,并在2001年实现64位CPU以后就达到极限,无法再提升了。因此,摩尔定律从那时候起其实就已经开始减慢。

2005年4月18日,中国科学研究院计算技术研究所发布了龙芯2号,这是中国第一款64位CPU芯片,这比INTEL晚了4年。此后越来越多的中国公司开发出各类64位的CPU芯片。

500

小名“狗剩”的龙芯2号

因为64位是终极的CPU位长,所以仅从CPU位长角度说,2005年以后中美技术水平就拉平并且可说是永久性地被拉平了。当然,CPU位长只是决定芯片和计算性能众多因素中的一个,这个技术被拉平当然不会使所有技术水平都拉平。但下面你会看到,一个接一个的技术因素,因为摩尔定律接近极限而被一个接一个地拉平了。

四、时钟频率(主频)及9GHz极限

芯片进行计算是在时钟频率控制下进行的。无论芯片的逻辑是什么,一个CPU在一个时钟周期里,最多就只能进行一次处理。即使完全相同的晶体管数量,完全相同的逻辑电路,如果时钟频率提升一倍,计算速度当然就会提升一倍。如果你把时钟降到1Hz,无论多么强大的芯片,它1秒钟也就只能做1次计算而不是上亿次。开发单板机的人在调试电路或软件时候,会有人工控制的单步运行方式,让你可以看到每一个时钟周期运行的结果是什么。此时电路性能就完全受人工的控制了。

如果自己攒过机的人就会很清楚一件事情:通过“超频”(把主板的时钟频率人为设置到高于CPU标称值)可以提升芯片性能。时钟频率提升多少比例,简单来说计算性能基本上就可以提升多少比例。相当于用较低的价格买到了更高价格的芯片。还有一个概念叫“睿频”。“超频”是装机的时候人工地把主频设置得更高,而“睿频”是在计算机启动稳定之后,自己自动地把时钟频率提升,从而自动提升性能——让你超还不如我自己超。不管具体技术是什么,总之要理解到时钟频率对计算性能的基础性决定作用。

当年INTEL的8086的主频才4.77MHz。后来CPU的主频从早期的几MHz、十几、几十、几百MHz,一直持续稳定增长,逐步发展到超过GHz的水平。如果是与当年8086完全相同的逻辑电路,能够换成现在4.77GHz的主频,其计算性能可以直接提升1000倍。可是,当主频接近9GHz后,这已经是微波波段,因为半导体电路本身的物理限制,其增长就停止下来了。

2001年,INTEL的第一个64位CPU Itanium1的时钟频率为1.5GHz。

2012 年,AMD FX-8350 创造了 8794.33MHz 的主频记录,后来就再也没超过。

英特尔的Raptor Lake-HX将在CES 2023上亮相,包括Core i9-13980HX,这是迄今为止最快的笔记本电脑CPU,拥有24个内核,32个线程。其主频为5.4GHz。超频者可以将 i9-13900K 超频至 8812.85MHz,与10年前AMD创造的记录持平。但9GHz基本就是极限了,极难被现在的硅半导体技术超过。

以下是目前INTEL市场上主流CPU的主要技术指标。主频从2.5GHz到5.4GHz。

500

所以早在2010年时,从主频角度提升计算性能的方向也遭遇极限。摩尔定律再下一个台阶。

2019年12月24日,龙芯发布的新一代通用处理器3A4000/3B4000,其主频为1.8 GHz -2GHz。2022年6月6日,龙芯发布3C5000,主频 2.1 GHz -2.3GHz,定位于服务器CPU。这些主频相比INTEL还是差一些,但也差不太多了。关键是:INTEL的CPU主频也就只能那样,停滞在那里,静静地等待被龙芯和其他中国研发生产的CPU追上。人们只关注到美国人在为中国芯片设置了封锁线A,但没几个人(包括美国政客们)会知道:美国人自己也被设置了更强的、理论和技术上都不可能突破的封锁线B,但A线却是技术上可以突破的。因此,美国公司是生活在两道封锁线A、B之间,这个空间必将越来越狭窄。

更离奇的一个事实是:千万不要以为A线只是锁住了中国人,美国公司是要靠中国市场活下去的,也就是必须要通过A线运送吃喝给养。如果你把A线彻底封死了,饿死的不是中国公司,而是美国公司。美国制裁的制空权轰炸的主要不是中国的后勤补给线,而是“美军”自己的后勤补给线,想明白了吗?

五、指令集与计算架构

很早就有精减指令集(RISC)与复杂指令集(CISC)的区分。这两个技术路线的基本逻辑是这样:

精减指令集RISC是减少指令集的复杂度,从而精减CPU的逻辑电路,把节省下来的空间用于增加片内寄存器或高速缓存的数量。精减指令集以后可能会有什么结果呢?某些计算可能在复杂指令集(CISC)的CPU中一个指令就完成,而在RISC的CPU中,可能需要多个指令来完成。

这怎么还能提升效率呢?这就涉及到后面将详细讨论的存储结构对计算性能的影响问题。此处只简单提一下CPU内的寄存器或高速缓存可以显著加速计算性能。如果这种加速的程度超过因精减指令而增加的指令执行数量,总体性能就可能是提升的。那如果加速的程度不能超过后者呢?就不一定了。还有一个问题,随着集成度的提高,采用复杂指令集的CPU也可以同时增加片内寄存器和高速缓存的数量啊?所以,这两种相互矛盾的思路到底最终作何选择,是需要根据实际信息处理的具体情况,进行仔细评估后才可做出更好的选择。

因此,按照复杂指令集的思路,是深入针对一些具体信息处理需求进行指令的优化。

专用数学协处理器。这个在80386时就出现了,这个CPU中另外集成了一个80387数学协处理器,专门针对浮点数学运算进行指令优化。这个可以使数学运算比通用处理器快上百倍。当然,这个同时又具有了多核与并行处理的特点,后面对此也会专门讨论到。

图形处理器GPU。这个最初是用于显卡上专门进行图形图像处理优化的。这种优化并不仅仅是处理图形图像数据时更好,而且由于对大数据量的并行处理和数学计算都进行了优化,所以后来GPU在开发巨型机和人工智能芯片时都有很好的表现。它对各种有大数据量并行处理和数学计算的业务都有较好的性能表现。

指令流水线。最初的计算架构是著名的“冯·诺伊曼”型架构,也就是串行架构。这种架构是速度最慢的。但一个指令本身就需要多个操作步骤,如:取指(从内存中提取指令)、译码、计算操作数地址、取操作数、执行指令、写操作数等。如果把一个指令执行的不同串行步骤分拆开,每一个步骤都交由专门的电路来执行,这样在前一个指令走到下一个步骤时,下一个指令就可以开始第一个步骤了。这相当于把本来是串行的指令执行过程变成半并行的。而不是一定要等一条指令执行完了才开始下一条指令的执行。这样就提升了计算性能。

500

为什么要叫“流水线”呢?它和工业生产中的流水线原理上的确就是有高度相同之处的。

500

平板电视生产流水线

工业生产流水线就是把多道工序在流水线上进行分工,不同的生产工序交给不同的专业生产环节来进行。这样在生产线上就可同时进行大量的产品并行生产,极大提升了生产效率。

另外还有超标量流水线,超流水线等,都是在流水线基础上的改进,此处就不再深入讨论。

延伸阅读:(见“纯科学”公众号)

中美大变局已经到来

网上最权威的人工智能分析

汪涛:网上最专业的VR分析文章

资深IT人详解什么是“元宇宙”——细说历史上那些“什么都不是”的概念

战略决战:中国科技如何领导世界——最权威分析

《长津湖》及抗美援朝的军事科学解读

500500

500

全部专栏