炸场!Grok 3击败Deepseek?马斯克20万显卡造AI

电子发烧友网报道(文/莫婷婷)美国太平洋时间周一晚上8点(北京时间周二12点),马斯克旗下人工智能公司xAI正式发布新一代人工智能大模型Grok 3。在这款产品还未发布之前,马斯克就为它站台,表示“Grok 3将是地球上最聪明的人工智能”。那么,这款史上最聪明的AI大模型到底有哪些亮点?

Grok 3系列多项测试登顶,即将接入SpaceX火箭

此次直播有四人参与,分别是xAI工程师Igor Babuschkin,还有两位华人研究员:多伦多大学计算机科学助理教授Jimmy Ba,斯坦福大学博士后吴宇怀(Yuhuai "Tony" Wu),以及伊隆·马斯克。

500

此次发布的Grok 3系列有两个版本,分别为Grok 3和轻量版Grok 3 mini。Grok 3 mini经过了更长时间的训练,在某些情况下能够更快地解答问题。xAI还发布了推理模型Grok-3 Reasoning和Grok-3 mini Reasoning,以及首个AI智能体DeepSearch。

在近期的世界政府峰会上,马斯克提到Grok 3时表示,“Grok 3有极强的推理能力,在我们迄今为止所做的测试中,其表现优于我们所知的任何已发布产品。”

为了让Grok 3更加聪明,xAI团队在进行训练时用到了更多的计算资源。此前,Grok 2训练规模为2000 万 GPU 小时。而Grok 3训练规模是Grok 2的10倍,约为2 亿GPU 小时。

500

马斯克在现场展示了Grok 3进行AIME'24数学能力测试、GPQA科学知识评估、LCB Oct-Feb编程能力测试等多个测试的实际表现。马斯克将Grok 3与Grok 3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-40进行对比。在上述多个测试中,Grok 3的表现都优于其他AI大模型,特别是在LCB Oct-Feb编程能力测试中,Grok 3的得分为57,GPT-40的得分为34,几乎是后者的两倍得分。

在与DeepSeek-V3的对比中,Grok 3也有优异的表现,AIME'24数学能力测试以 52 分超 过DeepSeek-V3 的 39 分。GPQA 科学知识评估以75 分超过DeepSeek-V3 的65 分。LCB Oct-Feb 编程能力测试以57 分超过DeepSeek-V3 的 36 分。

500

在众包大模型评估平台Chatbot Arena(LMSYS)聊天机器人大模型竞技场的测试中,早期版 Grok 3拿到了1402分。xAI团队兴奋地表示,Grok 3是首个超过1400分的AI大模型,超过了 DeepSeek-R1、OpenAI o1、Gemini-thinking等推理模型。“它是在聊天室功能、编程等各方面的性能上,可以说是最强劲的。我们还在不断地更新。”

在推理能力方面,Grok 3的表现同样超出预期。在 AIME 2025 数学竞赛的测试中,两个推理模型Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning两个版本分别以93分、90分的成绩超过同比大模型。

500

Grok 3有DeepSearch模式、思考(Think)模式、Big Brain模式。思考(Think)模式时,Grok 3会展示出思考链路、思考时长,与DeepSeek类似。Big Brain模式则使用了更多的模式。

在发布会现场,xAI给出了不同的任务,包括发布让Grok 3生成“从地球发射、着陆火星,然后再次返回地球的3D 动图的代码”“使用 pygame 制作一款结合了俄罗斯方块和宝石方块的游戏,代码可以很长,效果要炫酷”等任务。Grok 3都顺利完成了上述任务。

针对游戏的任务,xAI团队选择让Grok 3结合俄罗斯方块和宝石方块两个游戏,这意味着需要把两个游戏的一些代码和要素去复制和融合在一起,这也展示出AI具备创造力的过程。

在进行火箭发射的任务时,工作人员一开始用Grok-3 mini进行测试,后面切换了满血版Grok-3。在经过114秒的等待后,Grok-3给出了答案。“发射时间窗口的计算过程中涉及了大量的数学和物理模型。那其实我们也能够在Grok 3的思维和推理的过程之中,去了解它到底引用了什么样的算式和推理,所以我们的模型能够为航空航天领域提供帮助。但大模型计算的发射窗口可能也会出现失误的问题,但是我相信它最终会给我们得出一个结论和结果。”xAI团队表示。

500

马斯克兴奋地提到,我们希望能够用Grok 3解决特别重要的任务,比如说去打造一辆特斯拉,或者说是发射一个真正的火箭。“我相信下一次重大的突破会在明年 11 月份出现,我们会在明年让 space x 火箭登陆火星,接入Grok 这样的模型去计算整个的发射过程。”

在发布会之前,马斯克就提到,Grok 3引入了思维链(Chain Of Thought)推理机制可以让Grok 3像人类一样,逐步解决复杂的问题。从发布会的测试任务结果来看,Grok 3逻辑推理测试中能够提供创新的想法和解决方案。

“全球最强”之争:建立最大H100集群,消耗20万块 H100

回顾xAI大模型的发展历程:2023年11月,xAI发布第一款大模型Grok-1,拥有3140亿参数,用于训练AI聊天机器人。2024年3月,Grok宣布开源。2024年8月,Grok-2大模型发布。在Grok-1的基础上,训练时除了采用大规模合成数据,还加入真实世界数据。

从Grok 2大模型发布至今,已将近一年。在这一年中,AI大模型的发展速度超乎想象,例如中国DeepSeek大模型的横空出世,OpenAI 的推理模型o3等。此外,OpenAI还在加速推进AI大模型的研发进程,针对o4模型训练已经启动。xAI似乎也感受到紧迫感。

500

可以看到,AI行业似乎进入了一场AI大模型性能的竞赛,特别是关于“谁是全球最强”。

为了打造出全球最强的AI大模型,xAI投入了大量的资源。Grok 3优异的表现是取决于哪些方面?马斯克坦言,一是我们有世界上最优秀的 AI工程师团队,我们可以重塑推理,真正确保 AI训练达到相关的一个算力极限。其次我们也必须去计算到底有多少 GPU 可以同时运行,用来突破整个AI 和大语言模型的边界。

xAI团队坦言,我们在训练大模型的过程中也遇到了很多的困难,我们认为在模型训练中,能耗能效在 65% 到 80% 之间,可以说是浪费了很多能源。如果想要进一步推进语言模型、AI技术的发展,必须去解决数据中心的冷却问题、供能等问题。

因此为了训练Grok 3,xAI团队提升了数据中心的容量,用约四个月的时间建立新的数据中心,用10万个GPU启动并运行。随着技术的投入,又用92天的时间把数据中心的算力提升了一倍,扩大到20 万块显卡。xAI团队认为这将是同类中最大的全连接的H100集群。与此同时xAI团队已经开始研究下一个AI集群,将比现在的集群强大5倍。

目前AI大模型竞赛的核心驱动力包括计算能力与训练规模、多模态与推理能力、开源与商业化平衡等。

xAI团队表示,Grok 3测试版现已面向社交媒体平台X用户推出。Grok 3会在一周后获得最佳体验,将有语音模式。xAI还将在Grok 3成熟后,开源Grok 2。

进入2025年,AI领域新的竞争已然开启。从马斯克的Grok 3来看,随着技术的成熟与强大,未来AI大模型将不仅仅能解决人们日常中的问题,还能进入科研领域。

小结

随着Grok 3的震撼发布,我们看到了通过20万张GPU训练出的大模型在性能上的巨大飞跃。与此同时,关于训练成本的话题也引起业内关注。消息显示,xAI公司投入巨大,特别是针对Grok 3的投入。消息显示,xAI公司进行新一轮的融资,此次计划筹集约100亿美元资金,融资后公司估值达到约750亿美元。另一边,DeepSeek R1以550万美元的成本进入人们的视野。这不禁让我们思考:在追求更高性能的AI大模型时,该如何找到成本与性能之间的平衡点。

500

声明:本文由电子发烧友原创

站务

全部专栏