炸场！Grok 3击败Deepseek？马斯克20万显卡造AI

歪睿老哥
芯片研发工程师

聚焦芯片行业的那些事，唯武侠与芯片不可辜负02-19 08:02

电子发烧友网报道（文/莫婷婷）美国太平洋时间周一晚上8点（北京时间周二12点），马斯克旗下人工智能公司xAI正式发布新一代人工智能大模型Grok 3。在这款产品还未发布之前，马斯克就为它站台，表示“Grok 3将是地球上最聪明的人工智能”。那么，这款史上最聪明的AI大模型到底有哪些亮点？

Grok 3系列多项测试登顶，即将接入SpaceX火箭

此次直播有四人参与，分别是xAI工程师Igor Babuschkin，还有两位华人研究员：多伦多大学计算机科学助理教授Jimmy Ba，斯坦福大学博士后吴宇怀（Yuhuai "Tony" Wu），以及伊隆·马斯克。

500

此次发布的Grok 3系列有两个版本，分别为Grok 3和轻量版Grok 3 mini。Grok 3 mini经过了更长时间的训练，在某些情况下能够更快地解答问题。xAI还发布了推理模型Grok-3 Reasoning和Grok-3 mini Reasoning，以及首个AI智能体DeepSearch。

在近期的世界政府峰会上，马斯克提到Grok 3时表示，“Grok 3有极强的推理能力，在我们迄今为止所做的测试中，其表现优于我们所知的任何已发布产品。”

为了让Grok 3更加聪明，xAI团队在进行训练时用到了更多的计算资源。此前，Grok 2训练规模为2000 万 GPU 小时。而Grok 3训练规模是Grok 2的10倍，约为2 亿GPU 小时。

500

马斯克在现场展示了Grok 3进行AIME'24数学能力测试、GPQA科学知识评估、LCB Oct-Feb编程能力测试等多个测试的实际表现。马斯克将Grok 3与Grok 3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-40进行对比。在上述多个测试中，Grok 3的表现都优于其他AI大模型，特别是在LCB Oct-Feb编程能力测试中，Grok 3的得分为57，GPT-40的得分为34，几乎是后者的两倍得分。

在与DeepSeek-V3的对比中，Grok 3也有优异的表现，AIME'24数学能力测试以 52 分超过DeepSeek-V3 的 39 分。GPQA 科学知识评估以75 分超过DeepSeek-V3 的65 分。LCB Oct-Feb 编程能力测试以57 分超过DeepSeek-V3 的 36 分。

500

在众包大模型评估平台Chatbot Arena（LMSYS）聊天机器人大模型竞技场的测试中，早期版 Grok 3拿到了1402分。xAI团队兴奋地表示，Grok 3是首个超过1400分的AI大模型，超过了 DeepSeek-R1、OpenAI o1、Gemini-thinking等推理模型。“它是在聊天室功能、编程等各方面的性能上，可以说是最强劲的。我们还在不断地更新。”

在推理能力方面，Grok 3的表现同样超出预期。在 AIME 2025 数学竞赛的测试中，两个推理模型Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning两个版本分别以93分、90分的成绩超过同比大模型。

500

Grok 3有DeepSearch模式、思考（Think）模式、Big Brain模式。思考（Think）模式时，Grok 3会展示出思考链路、思考时长，与DeepSeek类似。Big Brain模式则使用了更多的模式。

在发布会现场，xAI给出了不同的任务，包括发布让Grok 3生成“从地球发射、着陆火星，然后再次返回地球的3D 动图的代码”“使用 pygame 制作一款结合了俄罗斯方块和宝石方块的游戏，代码可以很长，效果要炫酷”等任务。Grok 3都顺利完成了上述任务。

针对游戏的任务，xAI团队选择让Grok 3结合俄罗斯方块和宝石方块两个游戏，这意味着需要把两个游戏的一些代码和要素去复制和融合在一起，这也展示出AI具备创造力的过程。

在进行火箭发射的任务时，工作人员一开始用Grok-3 mini进行测试，后面切换了满血版Grok-3。在经过114秒的等待后，Grok-3给出了答案。“发射时间窗口的计算过程中涉及了大量的数学和物理模型。那其实我们也能够在Grok 3的思维和推理的过程之中，去了解它到底引用了什么样的算式和推理，所以我们的模型能够为航空航天领域提供帮助。但大模型计算的发射窗口可能也会出现失误的问题，但是我相信它最终会给我们得出一个结论和结果。”xAI团队表示。

500

马斯克兴奋地提到，我们希望能够用Grok 3解决特别重要的任务，比如说去打造一辆特斯拉，或者说是发射一个真正的火箭。“我相信下一次重大的突破会在明年 11 月份出现，我们会在明年让 space x 火箭登陆火星，接入Grok 这样的模型去计算整个的发射过程。”

在发布会之前，马斯克就提到，Grok 3引入了思维链（Chain Of Thought）推理机制可以让Grok 3像人类一样，逐步解决复杂的问题。从发布会的测试任务结果来看，Grok 3逻辑推理测试中能够提供创新的想法和解决方案。

“全球最强”之争：建立最大H100集群，消耗20万块 H100

回顾xAI大模型的发展历程：2023年11月，xAI发布第一款大模型Grok-1，拥有3140亿参数，用于训练AI聊天机器人。2024年3月，Grok宣布开源。2024年8月，Grok-2大模型发布。在Grok-1的基础上，训练时除了采用大规模合成数据，还加入真实世界数据。

从Grok 2大模型发布至今，已将近一年。在这一年中，AI大模型的发展速度超乎想象，例如中国DeepSeek大模型的横空出世，OpenAI 的推理模型o3等。此外，OpenAI还在加速推进AI大模型的研发进程，针对o4模型训练已经启动。xAI似乎也感受到紧迫感。

500

可以看到，AI行业似乎进入了一场AI大模型性能的竞赛，特别是关于“谁是全球最强”。

为了打造出全球最强的AI大模型，xAI投入了大量的资源。Grok 3优异的表现是取决于哪些方面？马斯克坦言，一是我们有世界上最优秀的 AI工程师团队，我们可以重塑推理，真正确保 AI训练达到相关的一个算力极限。其次我们也必须去计算到底有多少 GPU 可以同时运行，用来突破整个AI 和大语言模型的边界。

xAI团队坦言，我们在训练大模型的过程中也遇到了很多的困难，我们认为在模型训练中，能耗能效在 65% 到 80% 之间，可以说是浪费了很多能源。如果想要进一步推进语言模型、AI技术的发展，必须去解决数据中心的冷却问题、供能等问题。

因此为了训练Grok 3，xAI团队提升了数据中心的容量，用约四个月的时间建立新的数据中心，用10万个GPU启动并运行。随着技术的投入，又用92天的时间把数据中心的算力提升了一倍，扩大到20 万块显卡。xAI团队认为这将是同类中最大的全连接的H100集群。与此同时xAI团队已经开始研究下一个AI集群，将比现在的集群强大5倍。

目前AI大模型竞赛的核心驱动力包括计算能力与训练规模、多模态与推理能力、开源与商业化平衡等。

xAI团队表示，Grok 3测试版现已面向社交媒体平台X用户推出。Grok 3会在一周后获得最佳体验，将有语音模式。xAI还将在Grok 3成熟后，开源Grok 2。

进入2025年，AI领域新的竞争已然开启。从马斯克的Grok 3来看，随着技术的成熟与强大，未来AI大模型将不仅仅能解决人们日常中的问题，还能进入科研领域。

小结

随着Grok 3的震撼发布，我们看到了通过20万张GPU训练出的大模型在性能上的巨大飞跃。与此同时，关于训练成本的话题也引起业内关注。消息显示，xAI公司投入巨大，特别是针对Grok 3的投入。消息显示，xAI公司进行新一轮的融资，此次计划筹集约100亿美元资金，融资后公司估值达到约750亿美元。另一边，DeepSeek R1以550万美元的成本进入人们的视野。这不禁让我们思考：在追求更高性能的AI大模型时，该如何找到成本与性能之间的平衡点。

500

声明：本文由电子发烧友原创

科技举报

歪睿老哥

聚焦芯片行业的那些事，唯武侠与芯片不可辜负 |

205篇文章 | 216人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

炸场！Grok 3击败Deepseek？马斯克20万显卡造AI

歪睿老哥
芯片研发工程师

歪睿老哥

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

炸场！Grok 3击败Deepseek？马斯克20万显卡造AI

歪睿老哥 芯片研发工程师

热点

站务

最近更新的专栏

风闻最热

全部专栏

歪睿老哥
芯片研发工程师