国产大模型进步显著追上ChatGPT,阿里的开源大模型打榜与生态应用还挺厉害
1.自从ChatGPT(GPT3.5)2022年底爆火,不少人有疑问,国产大模型啥时能追上,会不会搞不出来。努力了一年多到2024年基本清楚了,没那么难,及格线就是赶上或超过GPT3.5。还不是一两家,真投入资源搞国产大模型的,几家都及格了。赶超GPT4有点难度,好消息是GPT4已经没有研发秘密了(美国圈内都知道,也传到中国来了)。细节肯定还要finetune磨合,但只是时间问题,也包括在实际使用中不断完善。这是闭源的,代表大模型最高水平的方向。
2.另一个方向,就是开源大模型。如Meta的Llama2-70B(700亿个系数,比现在闭源的上万亿个少得多)很出名,中国都有不少开发者。Meta靠开源也做得不错,开发者积极使用反馈,社区一起进步。美国政客还想限制开源,意思是中国大模型靠抄开源。这是完全不懂技术,太小瞧中国AI技术实力了。开源大模型是可以打榜的,阿里的通义千问Qwen-72B、Qwen1.5-110B都上过著名开源社区HuggingFace的大模型榜单(Open
LLM Leaderboard)榜首,新发布的Qwen2-72B直升榜首(图一、图二),与上百个开源大模型竞争。
3.打榜的各类指标评测还是比较客观的,阅读理解、逻辑推理、数学计算、事实问答等项目看着挺有意思的。如果国产开源大模型能在榜单上经常出现、爬上榜首,起码说明开发跟上了节奏,还不时能有些小创新优势。因此Qwen在一些外国开发者眼中,都有了名气。这次阿里推出Qwen2,各界都还有些期盼,就是因为前面推出的版本技术表现不错。
4.开源的好处是,发展生态有优势。领先的闭源大模型用几千亿、上万亿个系数,绝对水平肯定更高,但是应用性能未必好,太贵、反应不及时。开源大模型轻量化应用,性能也相当好,更适合做生态、行业应用。这方面阿里也做得不错,可能是云计算积累的客户与渠道有优势,大模型生态也顺滑地过来了,开源社区和算力有优势。例如国产主流大模型,有超过一半在阿里云训练。
5.一个很好的事是,中国大模型行业应用还真有点小火了,有了开源帮助,就好多了。例如越南语的大模型,有开源的Qwen基础,上手就容易了,越南开发者也做出来了。用开源Qwen做应用的例子还有教育大模型、心理大模型。因为有教培,教育大模型是我们的优势领域,智能问答、试题生成、学习导航、教学评估,应用空间很大。有扫地机器人公司集成了Qwen-70B,自然语言交互与逻辑能力突飞猛进,这都打开了产业想象力。感觉行业应用主要还是要靠开源大模型,所以开源生态特别重要,目前来看阿里在国内做生态是领先的。
6.做开源,不是闭源实力不强,实际闭源技术实力要足够强,才能把开源做好。Qwen的开源模型,绝对性能上甚至超越大多数闭源模型。开源是不同的生态战略,有很大可能性,美国与中国的开源大模型生态,还是Meta、阿里等大公司主导。