国产大模型震惊海外，360周鸿祎怎么看？

你相信光吗

爱比丽屋01-06 13:57

微博@红衣大叔周鸿祎

前几天中国六代战机曝光，外网闹翻天了。这还不够，这两天中国大模型又出了新版本，致使海外AI社区刷屏。

国内AI创业公司DeepSeek发布了新的开源大模型，其参数量为6000多亿，性能赶上了GPT-4o和Facebook的羊驼，但训练成本比它们降低了10倍，价格仅为它们的10%。

该模型推出后，明显能感觉到海外AI技术人才对中国AI技术的进步，处于半震惊半懵状态。

网友评论整齐划一，都在问中国人是如何做到的？Meta的一位科学家惊叹，DeepSeek的训练像是黑科技。OpenAI的一位创始团队成员称，以前达到DeepSeek这种级别能力通常需16000个GPU，而现在DeepSeek只用2000个GPU，计算量减少了11倍，这证明AI算法还有很大优化空间。

大家可能不太了解DeepSeek这家公司，虽然我们有合作，但我对其了解不深，于是用纳米AI搜索查询了一下。DeepSeek中文名为深度求索，如名字所示，该公司一直低调行事，却早有名气。在硅谷，DeepSeek被称为来自东方的神秘力量。

其背后是量化私募的巨头幻方公司，2021年为做量化交易囤了一万张英伟达A100，当时ChatGPT尚未出现，大模型也未发布，如同Meta为搞元宇宙囤卡一样，都机缘巧合赶上了AI浪潮，所以在其他巨头闹卡荒时，DeepSeek手中有卡心中不慌。这家公司首次被人记住是因其发布2.0开源模型时提供了史无前例的性价比，模型推理成本降至每百万个token约一元，约为LLaMA的1/7、GPT的1/70，故而DeepSeek被称为AI界的拼多多，掀起国产大模型价格战，字节跳动、腾讯、百度、阿里纷纷降价。

如今开发者能享大模型福利，DeepSeek功不可没。

为何今日要提及此事？

过去我常说中美AI核心差距不大，约半年左右，主要差距在算力。因核心算法公开，多为工程化方法，模型也是开源的，差距实则不大，可很多人不信，一些专家还带节奏，称论AI实力美国领先，中国最多第二梯队，美国遥遥领先，我对此不敢苟同。

有人妄自菲薄还让众人灰心，长他人的志气灭自己的威风，对中国AI产业发展无益。

如今DeepSeek发布的模型有力回击了这些言论。微软、脸书、谷歌都在朝着10万卡集群做大模型训练时，DeepSeek仅用2000个GPU，花费不到600万美金和两个月时间，就做出一个与全球顶尖大模型能力对齐的开源大模型。

有人质疑说，新推的大模型是用国外模型知识蒸馏而来，但知识蒸馏方法人人可用，为何他人未做到？此次效率大幅提升，肯定是在底层架构上有不同于其他巨头的创新，DeepSeek定有不为人知的训练方法和工程实践方法。过去只有美国AI公司具备这种独有能力，如今中国公司也逐渐掌握了。

有人会说DeepSeek只是个例，缺乏说服力，能否说出更多先进国产大模型？当然可以。

比如阿里的通义千问，其推出的千问2.5系列大模型，其中的700亿参数版本，在视觉推理、数学和科学问题表现上与国外大模型相比毫不逊色，慢思考能力也逐渐提升。

此外，王小川的百川智能近期推出的金融大模型在专业能力上超过了GPT-4o，这也证实了我之前对专业大模型的判断，即在通用大模型基础上结合专业领域知识训练，专业大模型能力可超越通用大模型，我们称之为领域增强。

360在o1出现前就实现了慢思考能力，只是实现方法略有不同，360打造的安全行业大模型能力也遥遥领先于GPT-4o。

总之，希望观看这篇文章的各位相信中国 AI 发展并不弱，不要被某些专家言论误导。过去我们是模仿者和追随者，他人擅长从零到一，我们擅长从一到n，如今情况正转变，中国科技领域原发性创新已让全世界看到，过去是“Copy to China”，以后可能是“Copy from China”。

DeepSeek公司表现出色，开了个好头，今后我国AI创新定会更加活跃。借DeepSeek这个版本，我谈几点大模型发展的看法。

第一，无需再争论开源与闭源好坏，DeepSeek是开源的，开源模型正赶超闭源模型。在人类技术发展趋势中，开源可使大模型技术不被少数巨头垄断，唯有开源才能让大模型真正走入各行各业，让各级政府和企业低成本在开源基座模型上打造行业应用，推动生产力飞跃。所以DeepSeek的进步对推动中国AI产业发展是极大利好。

更令人振奋的是，中国正引领全球大模型开源浪潮，开源是互联网精神的直接体现，也是美国科技发展的源泉与机制。

然而，现在中国最强的两个模型通义千问和DeepSeek是开源的，美国最强的两个模型Claude和GPT却是闭源的.可见美国走向闭源，中国走向开源，这预示着科技发展天平向中国倾斜，一旦中国开源生态建立，这种创新机制将助力中国加速AI科技发展，掌握先机，实现从追赶者到引领者的华丽转身。

第二，DeepSeek 3.0版本用2000块卡做到了万卡集群才能做到的事，这表明我们在一定程度上打破了西方对我们的算力封锁，堪称奇迹。

当前美国想尽办法对我们进行小院高墙式的封锁，遏制中国AI产业发展，禁止高端算力芯片流入中国。只有强大对手才能逼出最强的自己，若针对中国AI芯片的禁令，最终使中国大模型在算力受限情况下找到更高效解决方案，那这种适得其反的结果影响将更广泛。此外，用这种极致训练方法训练专业大模型，算力成本会进一步降低，促使中国AI在专业、垂直、场景、行业大模型上更快普及。

第三，有人会问，如此一来我们是否还有必要建万卡集群？不要误解，我并非说中国AI发展不需要高端算力芯片，巨头们囤显卡建算力集群依旧必要，因为目前预训练算力需求或许没那么大，但像慢思考这类复杂推理模型对推理算力需求大，文生图、文生视频的应用也需消耗大量算力资源，巨头们提供AI云服务，构建庞大算力基础必不可少，这与DeepSeek降低训练算力需求是两回事，两者并不矛盾。

建万卡集群实际是个工程问题，做过一次便一通百通，所以马斯克从OpenAI挖人建十万卡集群，小米挖DeepSeek的天才少女，都是为获取工程化的万卡集群训练诀窍。

作为科技行业的从业者，看到DeepSeek推出如此厉害的模型，中国AI公司凭借原发性技术创新震惊世界，让曾经轻视我们的外国开发者同行惊愕，各位是否感到畅快、自豪与感动？

这绝对是中国AI产业发展的里程碑事件，我相信以后中国AI发展此类新闻会越来越多。大家应对中国AI产业发展充满信心。

科技举报

你相信光吗

爱比丽屋 |

1333篇文章 | 861人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

国产大模型震惊海外，360周鸿祎怎么看？

你相信光吗

你相信光吗

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏