科大讯飞持续深入大模型国产化“无人区”

500

作者|李小东

很少有一个行业能像大模型一样,在短短两年内就完成了剧烈的分化。

这种分化,很大程度上是由行业极高的资源禀赋门槛导致的,企业的资金、技术、耐力,无不实时影响着一家大模型公司的存续空间。类似半导体行业,大量的投入也无法规避流片的损耗,随着头部公司崛起,一大批中小企业顺势消弭,这种现象在国内的大模型市场体现得尤为明显。

在基础大模型与AI产品应用之间,一家公司是否必然要面临取舍,这个话题被讨论的越来越多。底层模型能力往往决定应用层上限,但前提是需要足够的算力来支撑,这正是当下制约多数公司发展的关键因素。

纵观国内的行业格局,其中以百度、阿里等为代表的互联网大厂,凭借自身的资源优势和对技术生态系统的判断,仍专注于通用大模型的研发;一些企业则基于对商业化的考量,将重心转向了应用层工具,例如包含智谱AI、月之暗面等在内的五小虎新生派。

但很长一段时间,行业里对算力的追求,具像化后其实是对英伟达GPU的一片难求,甚至Meta和xAI的开源模型,已经被当作决定国内底层基座模型的下限。联想到多年前在芯片领域长期被国外卡脖子的窘境,国产大模型需要解决的是极其类似的问题。

随着行业进入深水区,算力资源面临缺乏国产化方案的现实难题,以及对自主可控的迫切需求,在这种情况下,一直探讨国产化解决方案的华为和科大讯飞,作为自主创新派逐渐进入了主流视野。

01

讯飞星火再度进化

技术领域自主创新的重要性不必赘述,但毫无疑问这是个相当艰巨的过程。

华为与科大讯飞的合作渊源已久,具体来看,从早期在语音识别、自然语言处理等AI技术领域展开合作,推进软硬件整合,如今在大模型领域,为了实现完全的国产化,两家公司又开始自研算力底座。

这也是两家公司联合攻坚的重点发力方向:华为为星火大模型提供昇腾算力,支撑其训练和推理过程;讯飞则凭借AI 算法的优势,与华为的硬件进行适配和优化。

然而,要打造国产算力底座,过程绝非易事。最简单的例子,大模型训练以多机多卡任务为主,故障频率高,企业怎么去保障GPU的利用率?还有系统架构与并行训练的难题,一般来说,大模型的研发需要能支撑千亿参数规模训练的算力和框架,以及几千张卡同时连续运行,这对系统架构以及并行训练的集群能力要求也非常高。

据了解,在推出国产算力基座“飞星一号”的前后,讯飞走过了“敢用-真用-会用-用好”的四个阶段,从迈出尝试使用昇腾AI的第一步,到开始基于昇腾AI进行模型训练和推理,后续基于昇腾硬件的亲和特性,重新设计了星火大模型结构,进一步提升集群性能和推理性能等问题。

“星火大模型的持续迭代升级基础,是自主可控的算力平台,不会受制于人。”也就是在这段经历之后,作为首个支撑万亿参数大模型训练的万卡国产算力平台,去年发布的“飞星一号”,在硬件和软件上都实现了自主可控,引发了全行业游戏规则的震动。

例如,基于“飞星一号”训练的讯飞星火能力也在快速提升,在语言理解、文本生成、多模态等方面超过了GPT-4 Turbo。随着星火大模型性能的提升,应用场景在教育、医疗、金融、交通等领域不断拓展。

时间来到今年的科大讯飞1024全球开发者大会,“飞星二号”启动,由讯飞、合肥市大数据资产运营有限公司、华为三方联合打造,并在原先存、算、网全栈国产化的上一代基础上,完成再次跃迁。

500

具体体现在:智算集群规模扩大,整体的能效比提升,在提供相同算力的情况下,新的算力底座消耗的能源更少;以及数据处理流程优化,带来更好的运行效率和响应速度等方面。

值得一提的是,最新发布的讯飞星火4.0 Turbo,不仅性能更强,而且效率更高。首发8个语种的多语言大模型,为世界提供了第二种选择;尤其在多模态及超拟人数字人交互方面,现在你不仅能够通过语音和大模型对话,还可以与数字人更流畅地面对面实时交流。

02

更适合国产大模型的算力底座

相比过去的人工智能,比如人脸识别,是在较为封闭的体系内追求确定的答案,但大模型给出的是更加开放式的智能,想象力很多,因此即使AI已经火了这么久,真正的时代大幕也才刚刚拉开一角。

然而,越来越多的人也会提及,现在的国产大模型多如牛毛,虽然可选的大模型产品很多,但同质化、高分低能、实用性差、专业性不足的问题也很普遍,就连ChatGPT、Gemini这样的玩家也会存在这种情况。

为什么会这样?

一方面,开源框架和预训练模型的普及,让开发一个基础的大模型越来越容易。然而,大模型后续的投入门槛并不低,需要源源不断的数据和多样化的应用场景。并且目前对于大模型的评估标准尚不统一,很多企业的产品定位也不明确,应用场景不清晰,都在使局面变得更加混乱。

从这个角度来看,行业正处在一个去泡沫的阶段,这并不是坏事。但对于一个良性发展的市场来说,需要有更多具备潜力的选手有能力继续发展,这就要先去解决能够解决的问题,算力就是其中最重要的一环。

前面提到,来自国外的开源模型被当作决定国内底层基座模型的下限,来自国外的芯片,也在从性能、数量等方面也在制约国产大模型发展。就不难理解,讯飞与华为的国产化解决方案,不仅仅是为了解决自身发展的难题,更重要的是像他们说的那样:“给行业带来第二种选择。”

前段时间,据媒体报道,OpenAI关停了中国地区的API服务后,讯飞星火的API调用量出现了大幅度的增长。

官方认为,这件突发事件进一步验证了自主可控通用大模型底座的重要性,并在之后推出API普惠政策,面向受到波及的开发者和创业团队推出免费或优惠服务。

全国产算力底座提供的高性能算力资源,使得开发者能够训练和部署更大规模的AI模型,带来更多AI应用的落地可能。如今讯飞的开发者生态里,聚集了700多万实名认证的开发者团队,形成了活跃的开发者社区。

在刘庆峰看来,中美AI的激烈博弈下,国产大模型底座下的自主可控的繁荣生态,决定了能在这条路上走多远,也直接影响到国内技术开发者是否能在浪潮中享受更多红利。某种程度上说,这是个极高的战略构想,甚至能够支撑起讯飞在大模型行业里的未来想象。

03

大模型的走向更加务实

两百多年前,法拉第发现了电磁感应现象,为发电机的发明奠定了基础,但真正让电力走入千家万户的是麦克斯韦,他的电磁理论预言了电磁波的存在,并在未来广泛应用到通信、雷达、电视等领域。

类似的情节也发生在大模型。刘聪是科大讯飞的研究院院长,他并不认为一个通用的大模型,可以解决所有问题。尤其在当前国内市场,基础大模型更多的意义在于构建生态,而模型的价值更在于应用。

在他看来,尤其是面对B端市场,通用大模型往往并不奏效,这意味着模型需要越来越多,有越来越可收敛的场景,而不是一个万能的技术去适配所有场景。据信通院发布数据,当前近65%的AI大模型是垂直大模型,融合行业核心数据和业务生产数据,在相应行业解决问题更高效。

但在这个过程中,尤其是面对央国企这类对数据技术安全、业务稳定要求更高的行业,他们对业务场景和需求往往更倾向定制能力,因此大模型的运用又是一件阻碍重重的生意。

这也是讯飞能在国内一众大模型公司中脱颖而出的原因。

早在2019年,讯飞已经开展国产化移植优化工作,承担了国家多个AI国产化攻关项目。如今,基于飞星一号的国产底座能力,星火大模型可以说是完全国产:无论是自研的算法设计、模型结构,还是数据资源,包括被称为“无人区”的国产算力,都确保了大模型自主可控。

如今,在中标数、金额上,星火大模型已经成为央国企大模型首选。刘庆峰强调,AI应用正在日益进入到场景化的深水区,科大讯飞将针对行业痛点和场景,打造行业大模型,并且和多个行业合作伙伴探索大模型在实体产业中的落地。截至2024 年10月,与头部企业共建20多个行业大模型,覆盖300多个应用场景。

具体来看,例如在医疗行业,面对医疗资源的分布不均,讯飞星火医疗大模型应运而生,并在多学科知识问答、多形式语言理解、多环节辅助诊疗、多模态支持等方面的技术能力均排名第一。随着讯飞星火医疗大模型2.0的发布,其在海量知识问答、复杂语言理解等核心场景的能力实现升级。

针对实体产业,在汽车行业,讯飞星火智能座舱已在奇瑞、广汽、长城等六大车企的量产车型中落地,多款搭载端侧大模型的车型将在今年第四季度陆续上市。

除此以外,讯飞智能车载语音系统支持23个主要语种,搭载的车型远销60多个国家和地区,为中国汽车的出海提供智能化支撑选项,联想到前不久的数据泄露事件,全国产的解决方案给汽车厂商带来更加安心的解决方案。

大模型未来发展趋势如何?刘聪认为,大模型在开放之后,将会对普通人的工作和生活产生深远影响。在未来的几年里,可以预见,通用认知智能技术会飞速进步,带来一系列重大的创新和产业变革。

500

典型的例子,如在教育领域,大模型的加持不仅优化了AI学习机硬件,基于讯飞星火教育大模型,推出了基于“问题链”的高中数学智能教师系统,推动教育行业的智能化发展。更值得关注的是,技术的人文关怀也在此刻体现,比如为残疾人艺术团提供技术支持,帮助听障人士还原声音。

放眼全球,类似的成功案例也在逐渐涌现。随着技术的不断进步和应用场景的不断拓展,AI大模型正成为推动各行各业智能化转型的重要引擎。人工智能的未来充满了无限可能,而讯飞正站在这个新时代的门槛上。

站务

全部专栏