国产大模型震惊海外,360周鸿祎怎么看?
微博@红衣大叔周鸿祎
前几天中国六代战机曝光,外网闹翻天了。这还不够,这两天中国大模型又出了新版本,致使海外AI社区刷屏。
国内AI创业公司DeepSeek发布了新的开源大模型,其参数量为6000多亿,性能赶上了GPT-4o和Facebook的羊驼,但训练成本比它们降低了10倍,价格仅为它们的10%。
该模型推出后,明显能感觉到海外AI技术人才对中国AI技术的进步,处于半震惊半懵状态。
网友评论整齐划一,都在问中国人是如何做到的?Meta的一位科学家惊叹,DeepSeek的训练像是黑科技。OpenAI的一位创始团队成员称,以前达到DeepSeek这种级别能力通常需16000个GPU,而现在DeepSeek只用2000个GPU,计算量减少了11倍,这证明AI算法还有很大优化空间。
01
大家可能不太了解DeepSeek这家公司,虽然我们有合作,但我对其了解不深,于是用纳米AI搜索查询了一下。DeepSeek中文名为深度求索,如名字所示,该公司一直低调行事,却早有名气。在硅谷,DeepSeek被称为来自东方的神秘力量。
其背后是量化私募的巨头幻方公司,2021年为做量化交易囤了一万张英伟达A100,当时ChatGPT尚未出现,大模型也未发布,如同Meta为搞元宇宙囤卡一样,都机缘巧合赶上了AI浪潮,所以在其他巨头闹卡荒时,DeepSeek手中有卡心中不慌。这家公司首次被人记住是因其发布2.0开源模型时提供了史无前例的性价比,模型推理成本降至每百万个token约一元,约为LLaMA的1/7、GPT的1/70,故而DeepSeek被称为AI界的拼多多,掀起国产大模型价格战,字节跳动、腾讯、百度、阿里纷纷降价。
如今开发者能享大模型福利,DeepSeek功不可没。
02
为何今日要提及此事?
过去我常说中美AI核心差距不大,约半年左右,主要差距在算力。因核心算法公开,多为工程化方法,模型也是开源的,差距实则不大,可很多人不信,一些专家还带节奏,称论AI实力美国领先,中国最多第二梯队,美国遥遥领先,我对此不敢苟同。
有人妄自菲薄还让众人灰心,长他人的志气灭自己的威风,对中国AI产业发展无益。
如今DeepSeek发布的模型有力回击了这些言论。微软、脸书、谷歌都在朝着10万卡集群做大模型训练时,DeepSeek仅用2000个GPU,花费不到600万美金和两个月时间,就做出一个与全球顶尖大模型能力对齐的开源大模型。
有人质疑说,新推的大模型是用国外模型知识蒸馏而来,但知识蒸馏方法人人可用,为何他人未做到?此次效率大幅提升,肯定是在底层架构上有不同于其他巨头的创新,DeepSeek定有不为人知的训练方法和工程实践方法。过去只有美国AI公司具备这种独有能力,如今中国公司也逐渐掌握了。
有人会说DeepSeek只是个例,缺乏说服力,能否说出更多先进国产大模型?当然可以。
比如阿里的通义千问,其推出的千问2.5系列大模型,其中的700亿参数版本,在视觉推理、数学和科学问题表现上与国外大模型相比毫不逊色,慢思考能力也逐渐提升。
此外,王小川的百川智能近期推出的金融大模型在专业能力上超过了GPT-4o,这也证实了我之前对专业大模型的判断,即在通用大模型基础上结合专业领域知识训练,专业大模型能力可超越通用大模型,我们称之为领域增强。
360在o1出现前就实现了慢思考能力,只是实现方法略有不同,360打造的安全行业大模型能力也遥遥领先于GPT-4o。
总之,希望观看这篇文章的各位相信中国 AI 发展并不弱,不要被某些专家言论误导。过去我们是模仿者和追随者,他人擅长从零到一,我们擅长从一到n,如今情况正转变,中国科技领域原发性创新已让全世界看到,过去是“Copy to China”,以后可能是“Copy from China”。
03
DeepSeek公司表现出色,开了个好头,今后我国AI创新定会更加活跃。借DeepSeek这个版本,我谈几点大模型发展的看法。
第一,无需再争论开源与闭源好坏,DeepSeek是开源的,开源模型正赶超闭源模型。在人类技术发展趋势中,开源可使大模型技术不被少数巨头垄断,唯有开源才能让大模型真正走入各行各业,让各级政府和企业低成本在开源基座模型上打造行业应用,推动生产力飞跃。所以DeepSeek的进步对推动中国AI产业发展是极大利好。
更令人振奋的是,中国正引领全球大模型开源浪潮,开源是互联网精神的直接体现,也是美国科技发展的源泉与机制。
然而,现在中国最强的两个模型通义千问和DeepSeek是开源的,美国最强的两个模型Claude和GPT却是闭源的.可见美国走向闭源,中国走向开源,这预示着科技发展天平向中国倾斜,一旦中国开源生态建立,这种创新机制将助力中国加速AI科技发展,掌握先机,实现从追赶者到引领者的华丽转身。
第二,DeepSeek 3.0版本用2000块卡做到了万卡集群才能做到的事,这表明我们在一定程度上打破了西方对我们的算力封锁,堪称奇迹。
当前美国想尽办法对我们进行小院高墙式的封锁,遏制中国AI产业发展,禁止高端算力芯片流入中国。只有强大对手才能逼出最强的自己,若针对中国AI芯片的禁令,最终使中国大模型在算力受限情况下找到更高效解决方案,那这种适得其反的结果影响将更广泛。此外,用这种极致训练方法训练专业大模型,算力成本会进一步降低,促使中国AI在专业、垂直、场景、行业大模型上更快普及。
第三,有人会问,如此一来我们是否还有必要建万卡集群?不要误解,我并非说中国AI发展不需要高端算力芯片,巨头们囤显卡建算力集群依旧必要,因为目前预训练算力需求或许没那么大,但像慢思考这类复杂推理模型对推理算力需求大,文生图、文生视频的应用也需消耗大量算力资源,巨头们提供AI云服务,构建庞大算力基础必不可少,这与DeepSeek降低训练算力需求是两回事,两者并不矛盾。
建万卡集群实际是个工程问题,做过一次便一通百通,所以马斯克从OpenAI挖人建十万卡集群,小米挖DeepSeek的天才少女,都是为获取工程化的万卡集群训练诀窍。
作为科技行业的从业者,看到DeepSeek推出如此厉害的模型,中国AI公司凭借原发性技术创新震惊世界,让曾经轻视我们的外国开发者同行惊愕,各位是否感到畅快、自豪与感动?
这绝对是中国AI产业发展的里程碑事件,我相信以后中国AI发展此类新闻会越来越多。大家应对中国AI产业发展充满信心。