阿里Qwen2.5-Max下载超DeepSeek V3！又一国产大模型海外出圈

大眼联盟

02-05 09:50

2月4日凌晨，Chatbot Arena LLM Leaderboard更新了最新一期的榜单，不久前发布的Qwen2.5-Max直接冲进前十，超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型，以1332分位列全球第七名！同时，Qwen2.5-Max在数学和编程上排名第一，在Hard prompts方面排名第二。

500

Qwen-Max是阿里云通义团队对MoE模型的最新探索成果，新模型展现出极强劲的综合性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

ChatBot Arena官方账号 lmarena.ai 对其评价称，阿里巴巴的Qwen2.5-Max在多个领域表现强劲，特别是在专业技术向的（编程、数学、有难度的提示词等）方面。

据了解，Chatbot Arena是由LMSYS Org推出的大模型性能测试平台，目前集成了190多种模型。该榜单采用匿名方式将大模型两两组队，交给用户进行盲测，用户根据真实对话体验对模型能力进行投票。因此Chatbot Arena LLM Leaderboard成为全球顶级大模型的最重要竞技场。

此前，Qwen2.5-72B-Instruct发布后也曾闯入Chatbot Arena榜单全球前十，是得分较高的中国大模型；Qwen2-VL-72B-Instruct闯入Vision榜单第九，是成绩优异的开源模型。

目前，企业可在阿里云百炼调用Qwen2.5-Max模型的API，开发者也可在Qwen Chat平台中免费体验Qwen2.5-Max。

Qwen2.5-Max发布后，在海外开发者中引发了大量关注。有网友在对比DeepSeek-V3 和 Qwen 2.5后，高度赞扬了Qwen2.5-Max的出色表现。

500