毛诞节,中国不仅仅有六代机震撼世界,还有DeepSeek
本文来自微信公众号:未尽研究 (ID:Weijin_Research),
作者:未尽研究
12月26日,圣诞节刚过,深度求索发布了大模型DeepSeek V3,成为2024年AI界真正的压轴事件。
发布即开源,先看它有多酷:达到开源SOTA,超越Llama 3.1 405B;它的参数量约为GPT-4o的1/3,价格仅为Claude 3.5 Sonnet的9%,性能却可以和这两家顶级闭源大模型掰手腕。
整个训练过程仅用了不到280万个GPU小时,相比之下,Llama 3 405B的训练时长是3080万GPU小时(注:Llama用的是H100,DeepSeek用的是其缩水版的H800)。每秒生成60个token,是其上一个版本的3倍。算下来训练671B的DeepSeek V3的成本仅为557.6万美元,也就是说,任何一家初创公司都负担得起。
硅谷新“苦涩的教训”
DeepSeek V3推理和训练成本仅为硅谷顶级大模型的十分之一,这让硅谷有些懵圈儿了。OpenAI 12天连续线上产品发布、中间又有谷歌不停地截胡,刚刚结束,大家正过圣诞新年假期呢。
他们还发现:深度求索总共有139名工程师和研究人员,包括创始人梁文锋本人,参与了这个项目。OpenAI有1200名研究人员。Anthropic有500名研究人员。
独角兽AI公司scale.ai创始人Alex王感叹道:中国科技带来的苦涩教训:当美国人休息时,他们在工作,而且以更便宜、更快、更强的产品追上我们。
还有AI大神卡帕西、Meta科学家田渊栋、QLora发明人Tim Dettmers、OpenAI科学家Sebastian Raschka等点赞好评。
除了硅谷在圣诞假期被炸出来的大佬们,还有各种评论充斥,如:
“这对中国来说,可能比第六代战斗机更具‘斯普特尼克时刻’意义:一款名为DeepSeek v3的中国AI模型在几乎所有方面都与最新的ChatGPT和Claude模型媲美,甚至常常超越它们,而训练成本却只是极小的一部分(仅550万美元),并且它是开源的(意味着任何人都可以使用、修改和改进它)。”
“训练成本如此之低尤为重要,因为它彻底改变了谁能参与高级AI开发的游戏规则。在此之前,人们普遍认为训练这样的模型需要数亿甚至数十亿美元,而DeepSeek仅用550万美元就做到了,这笔钱几乎任何地方的初创公司都能负担得起。具体来说,这意味着DeepSeek刚刚证明了严肃的AI开发并不局限于科技巨头。”
2024年收官之时,这对硅谷是一个强烈的提醒:美国对中国科技封锁,包括最严厉的芯片和AI封锁,结果,资源短缺激发了中国科技企业的创新力。
位于杭州的量化投资基金幻方,2023年4月11日宣布做大模型,直到2023年5月,才把技术部门做大模型的团队独立出来,成立深度求索公司。2021年,幻方在亚太第一个拿到A100卡,成为全国少数几家囤有上万张A100 GPU的机构。自从ChatGPT时刻以来,业界弥漫一股“唯GPU论”的情绪,上万张卡加几亿美元,被认为是做大模型的门槛。
深度求索创立之初就宣布做AGI,会专注在大模型上,先从语言大模型做起,然后再做视觉和多模态等。从2024年初推出首个大型语言模型DeepSeek LLM,只能对标GPT-3.5,直到2024年底推出硬碰GPT-4o的DeepSeek V3,并且进军多模态、推理模型。
DeepSeek的2024
DeepSeek是中国及至全球少有的兼具强大的infra工程能力和模型研究能力的团队。DeepSeek全部开源,从它在2024年按时间顺序发布的8篇研究论文,可以看出在短短的一年之内,一家中国全部依靠本土人才的AI公司,是如何学习和赶超硅谷AI巨头的。
1. DeepSeekLLM:Scaling Open-Source Language Models with Longtermism(1月5日)
这是深度求索的第一个大模型。DeepSeek LLM包含670亿参数,从零开始在一个包含2万亿token的数据集上进行了训练,数据集涵盖中英文。全部开源DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat,供研究社区使用。DeepSeek LLM 67B Base在推理、编码、数学和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在编码和数学方面表现出色。它还展现了显著的泛化能力,在匈牙利国家高中考试中取得了65分的成绩。当然,它还精通中文:DeepSeek LLM 67B Chat在中文表现上超越了GPT-3.5。
2. DeepSeek-Coder:When the Large Language Model Meets Programming--The Rise of Code Intelligence(1月25日)
DeepSeek Coder由一系列代码语言模型组成,每个模型均从零开始在2万亿token上训练,数据集包含87%的代码和13%的中英文自然语言。代码模型尺寸从1B到33B版本不等。每个模型通过在项目级代码语料库上进行预训练,采用16K的窗口大小和额外的填空任务,以支持项目级代码补全和填充。DeepSeek Coder在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。
3. DeepSeekMath:Pushing the Limits of Mathematical Reasoning in Open Language Models(2月5日)
DeepSeekMath以DeepSeek-Coder-v1.5 7B为基础,继续在从Common Crawl中提取的数学相关token以及自然语言和代码数据上进行预训练,训练规模达5000亿token。DeepSeekMath 7B在竞赛级MATH基准测试中取得了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。
4. DeepSeek-VL:Towards Real-World Vision-Language Understanding(3月11日)
DeepSeek-VL是一个开源的视觉-语言(VL)模型,采用了混合视觉编码器,能够在固定的token预算内高效处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这一设计确保了模型在各种视觉任务中捕捉关键语义和细节信息的能力。DeepSeek-VL系列(包括1.3B和7B模型)在相同模型尺寸下,在广泛的视觉-语言基准测试中达到了最先进或可竞争的性能。
5. DeepSeek-V2:A Strong,Economical,and Efficient Mixture-of-Experts Language Model(5月7日)
DeepSeek-V2是一个强大的混合专家(MoE)语言模型,以经济高效的训练和推理为特点。它包含2360亿个总参数,其中每个token激活210亿个参数。与DeepSeek 67B相比,DeepSeek-V2不仅实现了更强的性能,同时还节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提升至5.76倍。在一个包含8.1万亿token的多样化且高质量的语料库上对DeepSeek-V2进行了预训练。在完成全面的预训练后,我们通过监督微调(SFT)和强化学习(RL)进一步释放了模型的潜力。评估结果验证了我们方法的有效性,DeepSeek-V2在标准基准测试和开放式生成评估中均取得了显著的表现。
DeepSeek V2发布,在中国百模大战中掀起了一场价格战,推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。硅谷惊呆了。
美国知名半导体和AI咨询公司semianalysis敏锐地感觉到,这家公司会是OpenAI的对手,也有可能碾压其他开源大模型。
“更有趣的是DeepSeek推向市场的新颖架构。他们并没有照搬西方公司的做法,而是在混合专家模型(MoE)、旋转位置编码(RoPE)和注意力机制(Attention)方面带来了全新的创新。此外,DeepSeek还实现了一种新颖的多头潜在注意力机制(Multi-Head Latent Attention),他们声称这种机制比其他形式的注意力机制具有更好的扩展性,同时准确性也更高。”
Semianalysis还为DeepSeek算了笔账,发现其大模型服务的毛利率可达70%以上:“单个由8个H800 GPU组成的节点可以实现超过每秒50,000解码令牌的峰值吞吐量(或在支持分离预填充的节点中达到100,000预填充令牌)。按照其API定价仅计算输出令牌,每个节点每小时可产生50.4美元的收入。在中国,一个8xH800 GPU节点的成本约为每小时15美元,因此假设完全利用,DeepSeek每台服务器每小时可赚取高达35.4美元的利润,毛利率可达70%以上。”
这一性价比,无疑具有颠覆性的威胁:“即使假设服务器的利用率从未达到完美,且批量处理规模低于峰值能力,DeepSeek仍然有足够的空间在碾压其他所有竞争对手的推理经济性的同时实现盈利。Mixtral、Claude 3 Sonnet、Llama 3和DBRX已经在压制OpenAI的GPT-3.5 Turbo,而DeepSeek的出现无疑是压垮骆驼的最后一根稻草。”
在V2的基础上,DeepSeek迅速推出了Coder-V2和VL2。
6. DeepSeek-Coder-V2:Breaking the Barrier of Closed-Source Models in Code Intelligence(6月17日)
DeepSeek-Coder-V2是一个开源的混合专家(MoE)代码语言模型,在代码特定任务中达到了与GPT4-Turbo相当的性能。DeepSeek-Coder-V2是从DeepSeek-V2的一个中间检查点开始,进一步预训练了额外的6万亿token,显著增强了DeepSeek-V2的编码和数学推理能力,同时在通用语言任务中保持了相当的性能。并在代码相关任务、推理能力和通用能力等多个方面都取得了显著进步。此外,DeepSeek-Coder-V2将支持的编程语言从86种扩展到338种,并将上下文长度从16K扩展到128K。在标准基准测试中,DeepSeek-Coder-V2在编码和数学基准测试中表现优异,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等闭源模型。
7. DeepSeek-VL2:Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding(12月13日)
DeepSeek-VL2是一个先进的大型混合专家(MoE)视觉-语言模型系列,相较于其前身DeepSeek-VL有了显著改进。DeepSeek-VL2在多种任务中展现了卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位。模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别具有10亿、28亿和45亿激活参数。与现有的开源密集模型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活参数下实现了具有竞争力或最先进的性能。
8. DeepSeek-V3:A Breakthrough in Inference Speed and Performance(12月26日)
DeepSeek-V3是一个强大的混合专家(MoE)语言模型,总参数为6710亿,每个token激活370亿参数。为了实现高效的推理和经济高效的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeek MoE架构,这些架构在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3首创了一种无辅助损失的负载均衡策略,并设定了多token预测训练目标以提升性能。团队在14.8万亿个多样化且高质量的token上对DeepSeek-V3进行了预训练,随后通过监督微调和强化学习阶段充分释放其潜力。综合评估表明,DeepSeek-V3超越了其他开源模型,并达到了与领先闭源模型相当的性能。训练过程非常稳定,在整个训练过程中,没有遇到任何不可恢复的损失峰值或进行任何回滚操作。
需要提一下的是,DeepSeek还于12月10日上线了搜索功能,早于SearchGPT正式上线一周。
DeepSeek的5万张H100?
就在DeepSeek于11月20日发布推理模型R1-Lite预览版时,离OpenAI发布推理模型o1预览版刚过2个月,semianalysis创始人Dylan Patel忍不住了,没有5万张H100卡,这活谁干得出来?!
“大家不要再以为他们只有那个1万块A100的集群了。他们在机器学习研究和基础设施管理方面非常强大,但这并不是因为他们使用的GPU数量少得多。”
梁文锋在接受科技媒体暗涌访谈时说:我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。
至于R1-Lite是怎么训练出来的,用了多少张卡,什么卡,目前还没有相关论文,但深度求索表示不久将会公布官方技术报告并且开放API。
就在两年前,正在从口罩三年摆脱出来的中国,碰上ChatGPT时刻,以为被一波大的技术浪潮甩下了,但是,在2024年,OpenAI止步于ChatGPT-4这一代,它在当年的创新,从文生视频的sora到推理模型o1,都已经被中国AI企业基本追上或者逼近,而且价格是其十分之一。难道电动车、无人机的故事,在AI领域会重演吗?
2025,你追我赶一定会更精彩。