DeepSeek超越美国的AI突破,和PerPlexity创始人讨论

Web3天空之城·城主

【城主说】

DeepSeek R1在美国已经彻底爆发。

正如R1刚发布那天,本城文章硅谷AI霸权和神话的破灭开端:浅谈DeepSeek R1的意义  所预测,经过了几天发酵,美国人终于彻底反应过来,R1话题在周末刷爆各大主流媒体和论坛,美国各大AI团队和实验室已手持DeepSeek无私分享的宝贵论文来全情投入复刻R1推理模型实现,并已经有了诸多进展。DeepSeek这一次确实为AI届带来了足以实现跨越突破的火种。

在众多报道里, CNBC所做的长达40分钟的专题报道“中国新型AI模型DeepSeek如何威胁美国的主导地位” 很值得一看,除了主流分析,还邀请了当红AI搜索引擎Perplexity的创始人做了言之有物的深度访谈。

PerPlexity创始人Arvind对DeepSeek及中国在美国打压之下的AI发展创新做了很中肯的评价,甚至比很多公知的立场都要客观,让城主对这位甚至还没拿美国绿卡的小哥的印象大有加分。

很有趣的是,主持人和Arvind讨论的时候,还在预测DeepSeek 推理模型什么时候会推出,他们的预测基本是到今年底。

他们一定没想到,这个专访才过去几天,DeepSeek的R1就轰动了世界。

不多说,这个NBC专题的全文和视频完整版和大家分享:

【NBC完整版: 中国新型AI模型DeepSeek如何威胁美国的主导地位 | 油管爆火长篇报道-哔哩哔哩】 https://b23.tv/PMOjOJd

NBC:

中国最新的AI突破领先世界,值得高度重视。这项颠覆性成果并非来自OpenAI、谷歌或Meta,而是一家名为DeepSeek的中国实验室。这一发现令硅谷震惊,也让许多人重新审视中国人工智能领域的真实实力。

DeepSeek声称,其成果的研发成本仅为不到600万美元,耗时两个月,而谷歌和OpenAI花费数年时间和数亿美元才取得类似成果。DeepSeek的开源模型已成为许多美国开发者的基础。

DeepSeek发布的免费开源AI模型,在多项测试中击败了市场上最强大的模型,包括Meta的Llama、OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5。这些测试涵盖数学、编程和代码错误修复等多个领域。

DeepSeek的另一个推理模型R1,在一些第三方测试中也超越了OpenAI的尖端模型O1。在“人类的最后考试”这一新的AI模型评估基准测试中,DeepSeek的模型表现最佳,或与最好的美国模型不相上下。

令人瞩目的是,DeepSeek取得这些成就,是在美国政府对中国实施严格半导体限制的情况下完成的,这实际上限制了他们的计算能力。

在人工智能竞赛中,美国对中国实施了严格的芯片出口管制,切断中国获取英伟达H100等高端芯片的途径。这些芯片一度被认为是构建竞争力AI模型的必要条件,众多企业争相抢购。

然而,DeepSeek公司却另辟蹊径,利用性能较低的H800芯片构建了最新的模型,证明了芯片出口管制并非完全有效的扼喉手段。他们显著提升了硬件利用效率。

但DeepSeek的神秘面纱背后究竟隐藏着什么?关于其实验室和创始人梁文锋的信息少之又少。据中国媒体报道,DeepSeek诞生于一家名为“幻方量化”的对冲基金,该公司管理着约80亿美元资产。其官网的使命宣言简洁明了:怀着好奇心解开AGI的奥秘,以长远的眼光解答根本性问题。这与OpenAI和Anthropic等美国AI公司详细的章程和组织结构形成鲜明对比。

尽管多次尝试联系DeepSeek,我们均未得到回应。其人才队伍组建、硬件采购、数据获取等过程都未公开,令人费解。但这一谜团凸显了中美之间人工智能对抗的紧迫性和复杂性。

这不仅仅是DeepSeek一家。其他中国AI模型也凭借有限资源在竞争中占据了一席之地。李开复的初创公司零一万物.AI成立八个月就成为独角兽公司,2024年创造近1400万美元收入,其模型训练成本仅为300万美元,远低于GPT-4的8000万到1亿美元。阿里巴巴的千问也大幅降低了大型语言模型的成本。

这些中国的突破削弱了美国AI实验室一度占据的领先地位。2024年初,埃里克·施密特曾预测中国在AI领域落后美国两到三年,但如今他已经改变了说法。

中国在过去六个月取得的进展令人瞩目,多个中国程序,例如“DeepSeek”,似乎已追赶上OpenAI。这对OpenAI的技术壁垒提出了重大疑问。

2022年11月ChatGPT发布时,OpenAI占据绝对领先地位。如今,它不仅面临来自中国的国际竞争,还面临谷歌Gemini、Anthropic Claude和Meta的Llama模型带来的国内竞争。

游戏规则已经改变。功能强大的开源模型的广泛可用性,使开发者能够绕过高成本、高资源消耗的模型构建和训练阶段。他们可以在现有模型基础上进行构建,从而更容易、更低成本地进入该领域的前沿。

近两周,人工智能研究团队视野更为开阔,对低成本实现的目标也更为雄心勃勃。过去,达到行业前沿需要数亿美元甚至数十亿美元的投资。而“DeepSeek”则证明,数千万美元的投资也能取得显著成果。

这意味着任何一家声称处于领先地位的公司,例如OpenAI,都可能很快失去其优势。“DeepSeek”能够快速赶超,正是因为它建立在现有AI技术前沿的基础上,并专注于对现有技术的迭代改进,而非重新发明轮子。

他们采用优秀的预训练大型模型,并使用蒸馏技术,利用大型模型来提升小型模型的特定能力,这是一种非常具有成本效益的方法。通过利用现有数据集、应用创新调整以及利用现有模型,“DeepSeek”缩小了差距,甚至出现了“身份危机”,其自身模型确信自己是ChatGPT。

当被问及模型类型时,“DeepSeek”回答说是OpenAI创建的基于GPT-4架构的AI语言模型。这导致OpenAI首席执行官Sam Altman发布了影射“DeepSeek”的帖子。

复制已知有效的方案相对容易,但探索未知领域则充满挑战。“DeepSeek”并非完全复制,它利用OpenAI的输出和架构原理模拟GPT,同时暗中加入自身增强功能,模糊了自身与ChatGPT的界限。

所有这些都给OpenAI等闭源领导者带来了压力,迫使他们证明其高成本模型在竞争日益激烈的情况下仍具有优势。在这个领域,企业间普遍存在技术借鉴现象。例如,谷歌率先应用Transformer架构,OpenAI随后借鉴并将其产品化。因此,对单一大型语言模型的大规模投入是否仍是明智之举值得商榷。

OpenAI面临着巨大的风险。上一轮融资超过60亿美元,但公司尚未盈利,且其核心业务依赖于模型构建,风险远高于拥有云计算和广告业务的谷歌和亚马逊等公司。对OpenAI而言,推理能力至关重要,一个能够进行分析、逻辑推理和解决复杂问题的模型,将超越简单的模式识别。

目前,OpenAI的o1推理模型仍处于领先地位,但这一优势能否持续?伯克利研究人员近期展示了只需450美元即可构建一个推理模型,这意味着低成本构建具备推理能力的模型已成为可能,预训练模型的巨额投入不再是必需。游戏规则正在改变,保持领先地位可能需要更多创造力而非单纯的资金投入。

DeepSeek的突破正值AI领域巨头面临诸多挑战之际。OpenAI正转向盈利模式,并面临人才流失,如果游戏规则改变,它能否继续以越来越高的估值融资?正如Chamath Palihapitiya所言,AI模型构建可能是一个“金钱陷阱”。

美国政府的芯片限制旨在减缓竞争速度,将美国科技优势维持国内。然而,这可能反而促进了中国的创新。限制迫使中国寻找解决方案,最终可能创造出更高效的技术。中国以较低的资本投入取得了显著进展,这令人瞩目。DeepSeek作为开源模型,开发者可以完全访问并定制其权重或进行微调。

一旦开源软件赶上或超越闭源软件,所有开发者都会迁移到开源软件。关键在于开源软件成本低廉,成本越低,开发者采用的吸引力就越大。我们的推理成本为每百万个token 0.1美元,仅为同类模型收费的三十分之一。这将大大降低构建应用程序的成本。

例如,构建类似Perplexity的应用程序,可以选择向OpenAI支付每百万个token 4.40美元,或使用我们的模型只需支付0.10美元。这可能意味着全球人工智能的主流模型将是开源的,各组织和国家将逐渐接受合作和去中心化能够比专有封闭生态系统更快更高效地推动创新。

来自中国的更便宜、更高效、被广泛采用的开源模型,可能会导致全球人工智能格局发生重大转变。这尤其危险,因为这将使中国获得市场份额和生态系统。大规模采用中国的开源模型可能会削弱美国的领导地位,同时使中国更深入地融入全球科技基础设施。

开源软件的许可证是可以更改的,因此在美国本土进行建设至关重要。这也就是元宇宙如此重要的原因。

如果开发者因为效率更高而大规模采用这些模型,可能会产生严重的连锁反应,甚至影响面向消费者的AI应用程序及聊天机器人生成的回应的真实性。目前世界上真正能够大规模构建这种技术的国家只有美国和中国,利害关系和后果都极其重大,美国的领先地位正悬于一线。

为此,我们采访了Perplexity的联合创始人兼首席执行官Arvind Srinivas,他与我们深入探讨了DeepSeek及其影响,以及Perplexity的路线图。这段完整的对话值得一听,现在开始播放。


主持人:

首先,我想了解中美之间AI竞赛的利害关系。

Arvind:

中国在与美国竞争方面有很多劣势。

首先,他们无法获得我们这里可以获得的所有硬件,使用的GPU比我们低端,几乎相当于勉强使用上一代GPU。更大的模型通常更智能,这自然使他们处于劣势。

但另一方面,需求是发明之母。由于资源受限,他们不得不寻找解决方法,最终构建了一些更高效的东西。这就像是被迫在有限资源下,想方设法做出顶级模型。除非数学上证明不可能,否则总能尝试找到更有效的方法。这很可能会让他们想出比美国更有效的解决方案,而且他们已经开源了成果,我们也能借鉴。但他们培养的人才,最终将成为他们长期的优势。

美国领先的开源模型是Meta的Llama系列,表现优秀,可以在电脑上运行。但即使在发布时,质量最接近GPT-4的,也是巨大的405B参数模型,而不是可以在电脑上运行的70B参数模型。所以仍然没有小型、廉价、快速、高效的开源模型能够与OpenAI和Anthropic最强大的模型相抗衡。美国没有,Mistral AI也没有。

然后这些人却搞出一个令人震惊的模型,API定价比GPT-4便宜10倍,比Sonnet便宜15倍,速度很快,每秒60个token。在一些基准测试中表现相同或更好,在另一些则稍差,但大致处于GPT-4的质量水平。他们只使用了大约2048个H800 GPU,相当于大约1500个H100 GPU,这比GPT-4通常使用的GPU数量低了20到30倍。总计算预算大约为500万美元。他们用这么少的钱就做出了如此惊人的模型,还免费提供,并撰写了技术论文。这让我们质疑,如果我们有类似的模型训练方法,就能取得同样成果。

关键在于效率,成本和时间都大幅降低,GPU也简化了。理解了他们的方法后,确实令人惊讶。阅读技术论文后,发现他们想出了许多巧妙的解决方案,首先是训练了一个混合专家模型(MOE)。这并不容易,许多人难以追赶OpenAI,尤其是在MOE架构方面,主要是因为存在很多不规则的损失峰值和数值不稳定,经常需要重新开始训练检查点,这需要强大的基础设施。

他们想出了非常巧妙的解决方案来平衡这一点,而无需添加额外的hack。他们还找到了浮点8,8位训练的方法,至少对于某些数值计算来说是如此。他们巧妙地确定了哪些需要更高的精度,哪些需要更低的精度。

据我所知,我认为浮点8训练还没有得到很好的理解。美国大部分的训练仍然在FP16上运行,也许OpenAI也是。有些人正在尝试探索这一点,但这很难做到正确。由于提到了必要性,因为他们没有那么多内存,那么多GPU,他们找到很多数值稳定性方面的东西,使他们的训练能够工作。

他们在论文中声称大部分训练都是稳定的,这意味着他们可以随时在更多数据或更好的数据上重新运行这些训练。然后它只训练了60天。所以这非常令人惊叹。

主持人:

可以肯定地说,你很惊讶。

Arvind:

所以我很惊讶。

通常的观点,或者说我不会称之为观点,而是个神话,认为中国人只会抄袭。所以如果我们停止在美国撰写研究论文,如果我们停止描述我们基础设施和建筑的细节,停止开源,他们将无法赶上。但现实情况是,DeepSeek v3中的一些细节非常出色,如果Meta研究了它并将其中一些内容整合到Llama 4中,我也不会感到惊讶。试图抄写下来。对吧?我不会说抄袭。这就像,你知道的,分享科学。工程。但是重点是,它正在变化。中国并非仅仅在模仿。他们也在创新。

主持人:

我们不知道它究竟是用什么数据训练的,对吧?即使它是开源的。我们知道它部分的训练方式和数据,但并非全部。有一种说法认为它是在公共ChatGPT输出上进行训练的,这意味着它只是被复制了。但你认为它超越了这一点。存在真正的创新。

Arvind:

是的,你看,我的意思是,他们用14.8万亿个词元训练它。互联网上充斥着大量的ChatGPT内容。

如果你现在去看任何LinkedIn帖子或X帖子,大多数评论都是AI写的。你一眼就能看出来。人们只是试图写作。事实上,即使在X上,也存在类似Grok推文增强器这样的工具。或者在LinkedIn上,也有AI增强器。又或者在Google Docs和Word里,也有一些AI工具可以改写你的内容。所以,如果你在那里做了一些事情,然后把它复制粘贴到互联网上的某个地方,它自然会包含一些类似ChatGPT训练的元素,对吧?而且很多人甚至懒得去除“我是一个语言模型”的部分。于是他们就把它粘贴到某个地方。这很难控制。我想可解释AI(XAI)也谈到了这个问题。

我不会因为“你是谁?”或“你是哪个模型?”这类提示而忽略他们的技术成就,我认为这并不重要。

主持人:

长期以来,我们认为——我不知道你是否认同——中国在人工智能领域落后。这对于这场竞争意味着什么?我们可以说中国正在赶超,甚至已经赶超了吗?

Arvind:

如果说中国正在赶超OpenAI和Anthropic,那么同样也可以说中国正在赶超美国。许多来自中国的论文试图复现O1,事实上,我看到O1发布后试图复现它的中国论文比美国的还多。DeepSeek能够访问的计算资源与美国博士生大致相同。

这并非为了批评任何人,例如,即使是我们自己,在PerPlexity方面,我们也决定不训练模型,因为我们认为这成本过高,无法赶上其他研究。

主持人:

但你们会将DeepSeek整合到PerPlexity计算中吗?

Arvind:

我们已经开始使用了。他们有API,也开源了,所以我们也可以自己部署。这很好,因为它让我们能够以更低的成本做很多事情。更深层次的考虑是,如果他们真的能和我们一起训练出这么好的模型,那么美国公司,包括我们自己,就再也没有理由不去尝试类似的事情了。

主持人:

你会听到很多公众人物、思想领袖和生成式AI领域的专家,包括研究人员和企业家,例如埃隆·马斯克等人公开表示中国无法赶上。他们认为人工智能的主导地位关系到经济和世界的主导权,这件事已经被用如此宏大的术语讨论过了。你担心中国证明自己能够做到的事情吗?

Arvind:

首先,我不知道埃隆是否说过中国无法赶上,他只是指出了中国构成的威胁。萨姆·奥特曼也说过类似的话,我们不能让中国赢得人工智能竞赛。我认为,你必须将像萨姆这样的人所说的话,与他的自身利益分开来看。

我认为,无论你做了什么来阻止他们赶上,都毫无意义,他们最终还是赶上了。需要是发明之母。事实上,比试图阻止他们赶上更危险的是,他们拥有最好的开源模型,所有美国开发者都在此基础上进行开发。这更危险,因为这样他们就能掌握思想市场份额,掌握整个美国的AI生态系统。

一般来说,开源软件一旦赶超闭源软件,开发者就会迁移。这是历史规律。但Llama的出现带来一个问题:我们应该信任扎克伯格吗?更进一步,我们应该信任中国吗?答案是相信开源。 开源软件的优势在于,无论开发者是谁,无论来自哪个国家,你都拥有完全的控制权,你可以在自己的电脑上运行它,设置权重,你负责模型。

然而,依赖他人构建的软件,即使是开源软件,也并非没有风险。开源软件的许可证可能随时更改。因此,在美国拥有强大的AI研发力量至关重要,这也是Meta的重要意义所在。我们不必阻止Meta,而应努力超越它。

美国公司应该专注于做得更好。目前,我们听到更多关于中国公司效率高、成本低的消息。这是因为资金雄厚,能投入更多资源。 这不是需要责备的问题,而是资源差异带来的结果。

关于开源的定义也有多种解读。有人批评Meta没有完全公开所有内容,DeepSeek 也并非完全透明。 但并非所有人都具备完全复制其训练过程的资源。而Meta已经通过技术报告分享了大量细节,远超其他公司。DeepSeek的研发成本不到600万美元,而OpenAI的GPT模型成本远超此数。

这说明闭源模型的生态系统轨迹和发展势头与开源模型截然不同。

主持人:这对OpenAI意味着什么?

Arvind:

很明显,今年我们将会有一个开源的4.0版本,甚至更好、更便宜。但这可能是OpenAI以外的其他人做到的。他们可能并不在乎是不是自己完成的。我认为他们已经转向了O1系列模型这种新的范式,预训练时代已经结束。但这并不意味着扩展遇到了瓶颈,我认为我们现在在不同的维度上进行扩展。模型在测试时思考的时间量、强化学习、模型构建方式都在发生变化:如果它不知道如何处理新的提示,它会推理、收集数据、与世界互动,并使用各种工具。我认为OpenAI现在更专注于此,而不是仅仅追求更大、更好的推理能力模型。

主持人:

DeepSeek可能会将注意力转向推理吗?

Arvind:

我认为会的,这让我对他们的未来作品感到非常兴奋。那么,OpenAI目前的护城河是什么?我认为还没有其他人创造出类似O1的系统。虽然关于O1是否真正值得有争议,它在某些提示上表现更好,但在大多数情况下,它与SONNET并无不同。但至少他们在O3中展示了具有竞争力的编码能力,几乎达到了AI软件工程师的水平。

主持人:然而,内网充斥着推理数据,这只是时间问题吗?

Arvind:这有可能,但现在还不确定。所以,在它完成之前,仍存在不确定性,这或许就是他们的护城河,因为前还没有其他人拥有相同的推理能力。

主持人:但是到今年年底,即使在推理领域,也会出现多个参与者吗?

Arvind:我绝对这么认为。

主持人:

我们是否正在见证大型语言模型的商品化?

Arvind:

我认为我们会看到类似于预训练和后训练的轨迹,这些系统会被商品化,今年会有更多商品化出现。我认为这种推理模型会经历类似的轨迹,一开始只有一两个参与者真正知道怎么做,但随着时间的推移……谁知道呢?因为OpenAI可以专注于另一个进步。但现在,推理是他们的护城河。但如果进步一次又一次地发生,“进步”这个词的意义也会失去一些价值。

即使现在,也很困难,因为有预训练的进步,然后我们进入了一个不同的阶段。

可以肯定的是,现有模型的推理水平和多模态能力,很快就会以五到十倍更低的成本出现,而且是开源的。这只是时间问题。

然而,尚不清楚这种测试推理模型是否足够廉价,能够在手机上运行。这一点我仍不明确。

DeepSeek 的成果改变了太多格局,堪称中国的“ChatGPT 时刻”也未可知。这无疑增强了他们的信心,也让我们感到并未真正落后。无论如何限制算力,我们总能找到解决方法。团队对结果非常兴奋,这是肯定的。

主持人:

这将如何改变投资格局?那些每年在资本支出上花费数十亿美元的超大型云服务提供商,刚刚大幅增加了支出,而 OpenAI 和 Anthropic 则在筹集数十亿美元购买 GPU。DeepSeek 告诉我们,你并不需要这些。

Arvind:

他们会更加努力地进行推理,因为他们明白,过去两年构建的东西变得非常便宜,继续为筹集那么多资金找理由已无意义。支出方案会改变吗?他们还需要相同数量的高端 GPU 吗?或者可以使用 DeepSeek 拥有这种低端 GPU 进行推理?在证明不可行之前,很难说。但本着快速行动的精神,你会想要使用高端芯片,并比竞争对手更快行动。

我认为最好的天才仍然想在最先促成他们成功的团队工作。那些真正做到的人,拥有先驱的光环,而快速跟进者则不然。

主持人:

萨姆·阿尔特曼的推文,是对 DeepSeek 成就的一种含蓄回应,暗示他们只是复制。

Arvind:

任何人都可以复制。但在这个领域,每个人都在复制其他人。谷歌首先发明了 Transformer,OpenAI 只是复制了它;谷歌构建了第一个大型语言模型,但 OpenAI 优先进行了这项工作。所以,这件事有很多种说法。

主持人:

我曾问过你为什么不想构建模型,那是一种荣耀。一年后,你会因为没有参与那场激烈而昂贵的竞争而显得非常聪明,并且你在生成式 AI 的实际应用,杀手级应用上占据了领先地位。

谈谈这个决定,以及它如何引导你以及你对 Perplexity 未来展望。

Arvind:

一年前,我们甚至无法想象如今的成就。现在是2024年初,我们还未达到3.5的水平。虽然拥有GPT-4,并领先其他竞争对手,但多模态能力依然欠缺。鉴于资源和人才优势仍无法超越,我们决定另辟蹊径。

人们渴望使用这些模型,其中一个主要用例是:提出问题并获得准确、包含来源和实时信息的答案。模型之外,还有大量工作要做,例如确保产品可靠运行、扩展使用规模以及构建自定义UI。我们将专注于此,并充分利用模型改进带来的优势。

Sonnet 3.5的产品表现出色,它显著降低了幻觉的发生率,有效解决了问答、事实核查和信息检索等问题。这带来了使用量10倍的增长,用户数量也大幅增加,并获得了众多大型投资者的认可,黄仁勋便是其中一例。

一年前,我们甚至没有考虑货币化,那时我们专注于产品推广和规模建设。如今,我们开始探索商业模式,越来越多地关注广告模式。

我们理解一些人对于广告的质疑,即在有广告的情况下能否保证答案引擎的真实性。我们对此进行了充分考虑,只要答案准确、公正,不受任何广告预算影响,即使是赞助问题,其答案也不会被操纵,用户也可以选择忽略。广告商希望展现品牌最佳形象,这与人际交往中希望展现最佳一面类似。目前我们仅向广告商收取CPM费用,因此我们自身并无动力促使用户点击广告。

我们致力于长期正确地解决问题,而不是像谷歌那样强迫用户点击链接。

一年前,模型商品化还备受争议,但现在已不再如此。 密切关注这一趋势非常明智。我们从模型商品化中获益良多,同时也需要为付费用户提供更高级的功能,例如更复杂的搜索代理,能够进行多步推理,并提供分析性答案。所有这些功能都将保留在产品中。

然而,免费用户每天都会提出许多需要快速解答的问题,因此免费服务必须保持快速响应。 这将是免费的,这是用户习惯,这意味着我们需要找到一种方法让免费流量也能获利。 我们并非试图改变用户习惯,而是引导广告商适应新的习惯。他们无法再依赖谷歌的十个蓝色链接搜索模式。

目前,广告商的反应积极。许多品牌,例如Intuit、戴尔等,都在与我们合作进行测试,并对未来充满期待。 他们都明白,未来五年到十年内,大多数人都会转向AI寻求答案,而非传统的搜索引擎。 他们都想成为新平台和新用户体验的早期采用者,并参与其中。 他们没有采取观望态度,而是积极参与。

主持人:

这正好印证了你一开始提出的观点:需求是所有发明之母。广告商们认识到行业正在变化,他们必须适应。

非常感谢你抽出时间。

站务

全部专栏