AI的下一步,是从模型里偷知识

6500万美元,是外界估算的GPT4训练成本,这只是使用GPU的费用,还不包括人工等。

557万美元,是DeepSeek-V3的训练成本,同样只是GPU费用,但在效果上,不仅可以按着GPT4的头打,也顺道超过了GPT4-Turbo和GPT4o这两个继任者。

50美元,是AI教母李飞飞团队的做出s1模型的成本,不仅成本低,性能还强,据说它的数学能力已经可以媲美DeepSeek-R1。

500

我看了下闲鱼,H100的租赁价格已经降低到了20块,如果按照这个价格,现在只需要170人民币,就完成了s1的微调,随着芯片更新,这个数字还会越来越低。

被媒体误读,但是主流

50美元就能做出媲美DeepSeek-R1的大模型,不是哥们,现在的大模型门槛这么低了吗?我少吃一顿烧烤,就能训练出一个比肩DeepSeek的大模型? 

500

这是又一次的"AI炸裂体"的表演,还是说大模型的进化速度,已经比特朗普加关税还快了? 

500

500

500

当我仔细看完这篇论文后,这应该是又一次“AI炸裂体”的胜利。事实上,50美元并不是什么训练的成本,而是它们基于阿里Qwen2.5-32B微调出的s1的费用。

具体怎么实现的呢?它们先从58000个来自16个领域的问题中,精挑细选出1000个,然后用交给谷歌的Gemini Flash Thinking推理模型,然后把这些问题以及思考的过程,作为微调的数据,投喂给Qwen,最终让一个普通大模型,点开了推理技能树。比如下面这个回答,你可以看到,针对“raspberry中有几个r”的问题,它经过多轮思考后的,给出了正确答案。(s1还有让模型强制思考的技术创新,这里因为篇幅,不做展开)

500

用人话讲,李飞飞的团队就是把一道预制菜,重新回锅调味,做出了堪比私房菜的味道!说它们自己从零开始,用5毛钱,买点烂菜叶子,做出一道佳肴,的确是有点过于"震惊"和“炸裂”了。

蒸馏,主打一个省钱

蒸馏不是啥新鲜事,大家熟悉的DeepSeek-R1在发布时,官方团队同时也准备了许多自己蒸馏的模型。经过蒸馏的模型,效果都得到了很大的提升。

它们采用Qwen系列作为基底模型,通过蒸馏的方式,让320亿参数的小模型,就达到远超OpenAI的o1-mini的效果。

500

这是啥概念呢?就你手里4090的显卡来说,它足以轻松跑动DeepSeek蒸馏出的320亿的量化模型,也就是说,4090不仅能帮助你以影视级通关黑神话,还能每个月帮你省出20美元的OpenAI会员费。

什么你手里没有4090?很好,让我们一起说出那句经典的台词:Nvidia xxxx You。

500

对于行业内的用户来讲,蒸馏带来的好处,要比这20美元多得多。要知道,随着模型的参数逐渐增多,它的使用成本也随着水涨船高。

6710亿,是DeepSeek-R1的参数量,要运行它,至少需要配备8张H100显卡的服务器,按照现在的市场价,成本大概在200万左右,但如果用蒸馏过的模型,就像前面说的,4090就行,如果追求回答的精度和并发数,1张H100也足够应付了,整体成本不会超过20万。

比如我想创业,创办一个戒色网站,需要一个聊天机器人,不仅用来回答戒色网友的各种疑问,还需提出可执行方案,如果用6710亿参数的版本,可能一次回答需要耗费2块钱,而用蒸馏过后的模型,只需要2毛钱,成本就是差这么大。

500

而创办戒色网站的另外一个问题是,我需要让大模型给出的回答,要有自己的特色。

一般情况下,这需要大量的人工来清洗数据,然后对模型进行微调,一个流程走下来,也是一笔不小的花费。

500

调整模型是目前的主旋律

可以看到,在AI大模型狂奔了3年后,蒸馏+微调已经取代参数,成为了当下主需求。

打造一款像DeepSeek这样的模型很难,但调整模型也一点都不简单。除了需要有一个专门数据清洗,整理团队,还要有专门的模型工程师团队,入门的门槛很高了。

不过就在刚刚结束的Create大会上,百度智能云千帆模型开发平台全新升级,在模型服务层面,目前千帆平台上有超过100多个模型;在模型开发层面,千帆平台可以提供全面的模型开发工具链,支持深度思考模型、多模态模型的定制和模型蒸馏。

500

这啥概念呢?首先,在千帆上,你基本上能看到市面上所有的可用模型,除了自己的文心系列,从国内的DeepSeek,Qwen系列,到国外的Llama;模态上也是包含了文本,图像,视频,语音,比如在这里,就能看到可灵,Vidu这样的视频SOTA模型。并且它们还承诺,只要新的模型出来,24小时内上线。

500

其次,你想做一些模型上的调整,在这里鼠标点点,就可以成为全链路的工作。像前面说的蒸馏,微调,以前可能需要一个工程师团队才能搞定,而利用智能云千帆模型开发平台,一切都是开箱即用。

目前在智能云平台上做模型开发的企业不在少数,比如智联招聘。招聘一直是AI落地的最佳场景之一,旗舰模型参数大,调用成本高,推理速度也上不来。

500

于是它们利用了智能云模型开发平台上的一键蒸馏,用DeepSeek-R1作为教师模型,把参数更少的ERNIE Speed作为的学生模型。利用教师模型生成的几千个有关招聘的问题,进行蒸馏,最终就得到了一个性能媲美DeepSeek-R1的小模型。

不仅成本降低了1/3,模型回答的速度和并发数量也上来了。可以说,利用蒸馏降低成本,是AI时代创业非常重要的一环。

如何打造专业模型

除了蒸馏降低成本,如何基于企业自己的数据,打造出专业模型,实现需求上的对齐。

比如招聘行业,每个公司都有自己对业务的理解,并且这部分往往是不公开的。基于公开数据训练的大模型,肯定是无法达到公司的个性化需求。

这个时候,就需要人工对模型进行微调,以前都需要人工来判断回答的质量,而现在利用智能云平台上的基于强化学习的微调(RFT),人工这部分就由裁判模型取代,实现了全流程的自动化。

500

这样一来,不仅效率高了,模型的泛化也有很大的提升。

事实上,除了文本模型,图像模型,声音模型都是模型开发的热门,比如我想要做个自己的游戏,如何利用Stable Diffusion打造出自己画风的美术资产,做人工智能客服,如何克隆出不同的声音,都是模型开发中的环节。

有了百度智能云千帆的模型开发平台,不仅囊括了以上的所有过程,还覆盖到了模型开发的全周期,想要什么样的模型,登录到智能云,就可以自己打造。

AI时代创业,需要给模型开发

随着AI爆发进入到第三年,模型的回答越来越变得可用了,无论是什么事儿都可以问的DeepSeek-R1,还是史密斯吃面不再鬼畜的可灵,都在说明模型产出的内容已经追平甚至超过人类。

这点从IDC的报告中也能看出来,2023年,训练和推理的算力比例是6:4,而到了2027年,这个比例会变为3:7,随着模型成熟,更多的算力都用在了模型开发,推理上。但到底如何合理开发,增加效率,是目前模型行业中的问题。围绕这个问题,中国信通院跟百度智能云合作,在今年上半年启动了大平台落地实践报告的研究工作。

根据在Create大会『如何训练专精模型』分论坛上,中国信息通信研究院人工智能研究所平台与工程化部主任曹峰主任的介绍,大模型平台落地实践报告正式撰写完成,围绕着大模型建设、使用、管理三步落地路线进行了梳理,很快会通过公众号的形式和大家见面,感兴趣的小伙伴可以去蹲下。

今年,行业内的研究,也从研发更强的模型,转移到了如何更有效的利用模型。可以看出,现在的行业内最大的痛点,已经转移到了模型开发上。这次Create大会上的百度智能云千帆模型开发平台就是瞄准了这个行业痛点,提出的一个很好的解决方案。

它的出现,很好的助力创意的快速落地,降低了门槛。尤其是在智能体爆发的今年,之前爆火出圈的Manus,据说每个任务要消费2美元的算力,如果按1万个用户,每个用户每天执行3个任务来算,Manus团队每天支出的成本在6万美元。

如果它们像智联招聘一样,通过模型开发平台,蒸馏出更适合不同子任务的模型,那么节省下的成本,是非常可观的。

AI时代,创意和创业的界限一直在模糊,创业的起点,也正在从"需要敲开红杉资本大门"的焦虑,退化成"蹲厕所刷手机突然灵光一现"的戏剧性转折。

这次百度智能云模型开发平台的升级,意味着给AI创业加了更多的助推器,毕竟现在连模型调优都进入了预制菜时代。

站务

全部专栏