DeepSeek需要感恩美国吗?
文 | 北方朔风
在上周,DeepSeek开源了五个代码库,这些代码库不是大模型本身,而是大模型运行所需要的构架内容——这是之前预告过的内容,五天分别开源五个用来优化大模型效率的库。不过到了上周六,来了个意外惊喜,他们公布了V3/R1模型运行的成本利润率,理论上可以高达545%,这给业界惊讶的同时,也难免让人联想,为什么会额外公布这方面的信息呢?
因为在公布这篇内容的时候,DeepSeek专门注册了一个官方知乎账号,而就在之前,国内一家从事大模型云服务的公司潞晨科技,这家公司的老板尤洋公开在知乎发布长文炮轰maas(模型即服务)在中国市场跑不通,DeepSeek的模式一个月要亏几个亿。
DeepSeek公布成本利润率是否是对炮轰言论的一种回复,我们不得而知。但是面对这篇内容,这位来自于伯克利的高材生显然有些破大防,不仅攻击其他友商,而且还说出了一些非常匪夷所思的话,比如说指责DeepSeek没有感恩之心之类的话,随后还宣布停止DeepSeek的模型服务,虽然后续也有一贯的删文道歉,但是观感上实在是很糟糕。并且这家公司还被扒出之前曾经涉嫌盗用代码等问题。
其实这个事情背景并不复杂,V3/R1模型爆火之后,各家云服务厂商都在自家平台上线了模型,国内各路大模型云服务的使用率飙升,这当然是好事,可是定价却有点麻烦了。一下子爆发出的蓝海市场竞争激烈,家大业大的云服务巨头可以短时间免费,哪怕是较小的云服务厂商,也选择了和DeepSeek官方一样的定价,因为V3/R1模型的复杂性,以这个价格运行是否能赚钱,确实是个很看技术水平的事情。
至于尤洋的伯克利身份,这个倒是不必过多纠结,毕竟DeepSeek在MOE(专家混合模型)领域的优化设计,大概率是世界第一,美国人的高等学府比不上倒也正常。
简单的介绍一下,MOE模型和普通的大模型的区别在于,当遇到一个token的时候,MOE模型只会激活其中的一部分参数,也就是其中的一个小模型,这类模型模型虽然可能会占据更多的内存,但是优势在于,进行大规模并行推理服务的时候MOE的并行能力更加优秀,所以大厂为外界提供服务的模型往往是这类模型,而单纯的密集模型,更适合部署在本地。
比起目前世界上公开的其他同类模型,DeepSeek的模型更加复杂,类似的模型往往是几个类似的小模型堆在一起,而V3/R1有大量大小不一的模型,是目前开源模型之中最复杂的MOE,考虑成本上的优势,美国大厂闭源的那些模型里也很难有超过它的,在这方面的设计,确实可以说是世界第一。
甚至有一种猜想,是DeepSeek的技术人员先设计出了这一套高效运行的构架,在这个基础上才才开发出了V3/R1。
因为DeepSeek的复杂设计,如何高效部署模型无疑是个挑战,让很多工作者都掉了不少头发,DeepSeek以极具开源精神的方式,公布了运行的多个关键代码库,这样透彻的开源,全球是独一家的,从这个角度来说,全球大模型行业中,DeepSeek无疑是对开源社区最有感恩精神的了。
而潞晨科技的业务除了提供服务器之外,很大程度还要提供大模型运行的构架,当开源的构架比他们自研版本都好的时候,确实就被砸到了饭碗,后面如何回答投资人的质问就很有挑战性了。
在之前文里我们提到过,在大模型时代,互联网的开源精神受到了冲击,除了扎克伯格的llama之外,美国的AI大厂几乎不进行开源。OpenAI变成了closeai,马一龙虽然日常攻击OpenAI,但是Grok开源了早期型号之后,后续依然没有开源。
相反,国内企业的开源倒是一直很有精神,不说DeepSeek,阿里的qwen系列一直在各路开源榜单上霸榜,腾讯混元开源了他们的混元模型,阶跃星辰开源了多个多模态,minimax开源了线性注意力的模型,哪怕是之前认为开源没有前途的百度,也宣布即将开源多个模型。相比之下,美国的大厂虽然各个表示受到了震撼,但是依然不改,OpenAI的奥特曼可是在2023年底就承诺2024要开源一些有价值的东西,然而他还是鸽了。
很多人会感慨美国企业是否失去了开源精神,但是笔者对此倒是有其他的理解,那就是关于大模型这笔经济账,到底应该怎么算的问题。这或许也是尤洋陷入迷茫的重要原因。在大模型之前的时代,有很多开源项目,是由大厂进行,并且不收费的。那么这些硅谷大厂是否是大善人呢?虽然确实还有点开源精神,但是更大的价值在于,通过免费推广自家的产品,来建立标准,这背后往往会有更大的利益。
Deepseek选择开源,应该也有这方面的考虑,不过这估计很有挑战,一来是标准的确立和运行,需要时间,二来是美国对于中国开源模型的阻碍,三来是DeepSeek的思路确实天马行空,其他人能不能跟得上不好说,比如说在这次开源的代码库中,有一个叫做是flashMLA的,就是优化DeepSeek v2和v3的MLA框架效率,但是按照DeepSeek公布的新研究,他们下一代的构架很可能就不是这个,而是叫做NSA的构架,这二者能不能融合,融合之后是什么样的,是个很难说的事情。
但是到了大模型时代,通过开源获得更多收益的思路为什么不太行了呢?因为大模型的开发成本太高了,按照硅谷标准,当下顶级的大模型开发成本是十亿美元级别的,如果考虑数据中心建设成本还会更高,下一代模型规划的成本已经到达了百亿美元级别。硅谷各家企业的技术路线虽然有所不同,但是堆卡都搞的挺猛的,在这种情况,如果开源,如何回收成本呢?
虽然智算算力当然是个好东西,可是这样堆卡的路线,恐怕并非是唯一解。我们看到马斯克堆了二十万张卡的Grok3虽然有了提升,但是很难说是否有性价比,而GPT4.5的token价格则是离谱到了抽象的地步,而很多传言告诉我们,OpenAI的很多订阅服务是要倒贴钱的。
这也是之前DeepSeek冲击美国AI市场的一个逻辑,虽然美国的AI大厂依然可以靠财力支持堆卡,但是如果性能领先的优势是如此之小,那么又应该靠什么方式才能收回前期巨额投资的成本呢?要知道,当下美国AI市场,数据中心的投资回报率和资产折旧率,如果不是有AGI这块大饼画着,很难有人认为这是一个有价值的投资。虽然美股市场肯定会保证AI巨头们暂时不爆炸,但是DeepSeek代表中国AI向美国业界提出的质问,并没有消失。
因为现实条件的限制,我国的AI企业,则是选择了不太一样的路线,在成本控制上做出了很多努力,在去年上半年开始,国内AI企业进入了价格战之后,各方的成本优化进步了很多,并且很多厂商可以保持不错的利润率。而这样的模式继续发展,导向又会是什么呢?
其实很多从业者已经提出了一个可能性,未来的大模型会作为一种社会基础设施,就像是自来水和电力一样。他们没有高额的利润,但是依靠这些模型诞生的种种应用,会有更大的价值。这样的模式,听起来似乎比赛博朋克的世界线好不少,但是这恐怕并不符合硅谷AI人的想象。
过去几年,我们看到硅谷诸位AI大佬吹捧的模式里,AI似乎更类似某种神秘的工具,能提供垄断式的利润,而他们可以赚的盆满钵满,在他们的眼里,似乎赛博朋克式的世界观并不是什么坏事。再考虑到这帮人士和黑暗启蒙右翼之间的关系,这想一想就让人脑仁疼。而最近不约而同的,OpenAI和Anthropic的老板都开始吹大语言模型能让人长生不老,也不知道是要给特朗普献上长生不老药,还是要转移热点。
虽然在如此复杂的技术领域话题,笔者并不喜欢谁战胜谁,谁领先谁多少年的说法,但笔者还是要说,AI作为某种未来的基础设施来推进社会运行,似乎比赛博朋克巨企垄断的世界观要好上不少。如果可能的话,我们还是不要进入赛博朋克式世界观比较好,反乌托邦只停留在小说和游戏里边就得了,我们又不是大名鼎鼎的V,没必要真的去夜之城。这或许也是我国人工智能企业开源的意义之一了。
回到潞晨科技,其实类似的问题不光是陷入AI竞赛的云服务企业,而是整个云服务企业的挑战。过去的十年,云服务是十分关键的热点,但是云服务这事,巨头总是有很大的优势,这是个赢者通吃的行业,巨头砸钱扩张乃是常态。
人工智能的云服务也是如此,DeepSeek的moe模型就是典型的越多人用效率越高的那种,虽然545%这个数据是理想情况,实际利润率是明显低于这个水平的,但是DeepSeek高负载带来的高效率确实是小的云服务商难以做到的。在这种情况下,较小的AI云服务提供商,确实有很多需要思考的东西,如何做出特色,在全新的竞争之中存活下来,这可能是比攻击友商更有价值的事情。
回到尤洋先生的问题,在讨论这件事情的时候,有人会讨论尤洋先生爱国不爱国,他在这次关于DeepSeek和攻击友商的发言确实十分奇异搞笑,但是问题的关键也不是爱国不爱国这么简单。
尤洋后续在小红书上的阴阳怪气和找补
在GhatGPT横空出世之后,国内的舆论场无疑很混乱,其中人工智能从业人士的发言很是有趣,虽然有很多理性的人工智能从业者冷静的分析了相关的内容,但是也有一部分人工智能从业者对国内发表了比现在的尤洋还阴阳怪气冷嘲热讽得多的言论。
现在两年多过去,我们可以理性一点来说,人工智能技术很有价值,但是并没有那么夸张的价值,人工智能技术存在门槛,但是也没有那么夸张,对人工智能进行船货崇拜,是一种非常非常无趣的行为。
程序员群体的立场一直很复杂,但是当我们讨论一个群体的立场时,就不能单纯用心理学那一套。长期以来,国内学计算机的主要理想之一就是去硅谷大厂就业,毕竟有更高的待遇和更体面的地位;而要搞个什么项目,往往也是参考美国那边开源的东西;各种论文研究,也确实是美国占了大头。
这种情况下,对美国的研究有光环实在是人之常情。从这个角度来说,我们也可以理解部分程序员对美国的崇拜和对中国的偏见。在技术上有建树,不代表对于各方面事务都有深刻的理解,相反,他们的看法可能会更加幼稚,相信最近大企业家马斯克先生的各种表演,已经告诉了大家这一点。
当然,事情正在起变化。虽然硅谷人工智能热度很高,但是现在去硅谷就业的难度大了不少,特朗普先生推进的各项事业,肯定会加剧对华人的歧视。而且在大语言模型领域的开源方面,中国企业和开发者做出了比美国同行更多的贡献。或许很多之前陷入某种偏见的程序员,可以回头看一看自己的观点是否有些偏见了?
在一个更公平的世界中,这些偏见或许从一开始就不应该形成,而不是需要靠DeepSeek他们去打破。之前梁文峰谈论创新的时候就说到,中国人是有能力创新的,但是很多从业者和投资者不相信。很显然,这样的思想钢印已经严重背离了现实,已经成为当下创新的阻碍。DeepSeek团队并没有什么在国外大厂工作的人,这种本土化是十分难得的,也告诉我们有些思想钢印到了必须被打破的时候了。
人工智能技术的发展无疑是刚刚起步,中国人肯定会在这方面有很多的贡献,我们没理由因为美国人做不到,就觉得中国人也一定做不到,用这套逻辑去衡量国内这些新一代的技术工作者非常不公平。这完全不是科学,而是某种宗教。新的时代,我们已经不再需要这样的宗教,不是吗?