科大讯飞持续深入大模型国产化“无人区”

新眸

10-25 20:31

500

作者｜李小东

很少有一个行业能像大模型一样，在短短两年内就完成了剧烈的分化。

这种分化，很大程度上是由行业极高的资源禀赋门槛导致的，企业的资金、技术、耐力，无不实时影响着一家大模型公司的存续空间。类似半导体行业，大量的投入也无法规避流片的损耗，随着头部公司崛起，一大批中小企业顺势消弭，这种现象在国内的大模型市场体现得尤为明显。

在基础大模型与AI产品应用之间，一家公司是否必然要面临取舍，这个话题被讨论的越来越多。底层模型能力往往决定应用层上限，但前提是需要足够的算力来支撑，这正是当下制约多数公司发展的关键因素。

纵观国内的行业格局，其中以百度、阿里等为代表的互联网大厂，凭借自身的资源优势和对技术生态系统的判断，仍专注于通用大模型的研发；一些企业则基于对商业化的考量，将重心转向了应用层工具，例如包含智谱AI、月之暗面等在内的五小虎新生派。

但很长一段时间，行业里对算力的追求，具像化后其实是对英伟达GPU的一片难求，甚至Meta和xAI的开源模型，已经被当作决定国内底层基座模型的下限。联想到多年前在芯片领域长期被国外卡脖子的窘境，国产大模型需要解决的是极其类似的问题。

随着行业进入深水区，算力资源面临缺乏国产化方案的现实难题，以及对自主可控的迫切需求，在这种情况下，一直探讨国产化解决方案的华为和科大讯飞，作为自主创新派逐渐进入了主流视野。

讯飞星火再度进化

技术领域自主创新的重要性不必赘述，但毫无疑问这是个相当艰巨的过程。

华为与科大讯飞的合作渊源已久，具体来看，从早期在语音识别、自然语言处理等AI技术领域展开合作，推进软硬件整合，如今在大模型领域，为了实现完全的国产化，两家公司又开始自研算力底座。

这也是两家公司联合攻坚的重点发力方向：华为为星火大模型提供昇腾算力，支撑其训练和推理过程；讯飞则凭借AI 算法的优势，与华为的硬件进行适配和优化。

然而，要打造国产算力底座，过程绝非易事。最简单的例子，大模型训练以多机多卡任务为主，故障频率高，企业怎么去保障GPU的利用率？还有系统架构与并行训练的难题，一般来说，大模型的研发需要能支撑千亿参数规模训练的算力和框架，以及几千张卡同时连续运行，这对系统架构以及并行训练的集群能力要求也非常高。

据了解，在推出国产算力基座“飞星一号”的前后，讯飞走过了“敢用－真用－会用－用好”的四个阶段，从迈出尝试使用昇腾AI的第一步，到开始基于昇腾AI进行模型训练和推理，后续基于昇腾硬件的亲和特性，重新设计了星火大模型结构，进一步提升集群性能和推理性能等问题。

“星火大模型的持续迭代升级基础，是自主可控的算力平台，不会受制于人。”也就是在这段经历之后，作为首个支撑万亿参数大模型训练的万卡国产算力平台，去年发布的“飞星一号”，在硬件和软件上都实现了自主可控，引发了全行业游戏规则的震动。

例如，基于“飞星一号”训练的讯飞星火能力也在快速提升，在语言理解、文本生成、多模态等方面超过了GPT-4 Turbo。随着星火大模型性能的提升，应用场景在教育、医疗、金融、交通等领域不断拓展。

时间来到今年的科大讯飞1024全球开发者大会，“飞星二号”启动，由讯飞、合肥市大数据资产运营有限公司、华为三方联合打造，并在原先存、算、网全栈国产化的上一代基础上，完成再次跃迁。

具体体现在：智算集群规模扩大，整体的能效比提升，在提供相同算力的情况下，新的算力底座消耗的能源更少；以及数据处理流程优化，带来更好的运行效率和响应速度等方面。

值得一提的是，最新发布的讯飞星火4.0 Turbo，不仅性能更强，而且效率更高。首发8个语种的多语言大模型，为世界提供了第二种选择；尤其在多模态及超拟人数字人交互方面，现在你不仅能够通过语音和大模型对话，还可以与数字人更流畅地面对面实时交流。

更适合国产大模型的算力底座

相比过去的人工智能，比如人脸识别，是在较为封闭的体系内追求确定的答案，但大模型给出的是更加开放式的智能，想象力很多，因此即使AI已经火了这么久，真正的时代大幕也才刚刚拉开一角。

然而，越来越多的人也会提及，现在的国产大模型多如牛毛，虽然可选的大模型产品很多，但同质化、高分低能、实用性差、专业性不足的问题也很普遍，就连ChatGPT、Gemini这样的玩家也会存在这种情况。

为什么会这样？

一方面，开源框架和预训练模型的普及，让开发一个基础的大模型越来越容易。然而，大模型后续的投入门槛并不低，需要源源不断的数据和多样化的应用场景。并且目前对于大模型的评估标准尚不统一，很多企业的产品定位也不明确，应用场景不清晰，都在使局面变得更加混乱。

从这个角度来看，行业正处在一个去泡沫的阶段，这并不是坏事。但对于一个良性发展的市场来说，需要有更多具备潜力的选手有能力继续发展，这就要先去解决能够解决的问题，算力就是其中最重要的一环。

前面提到，来自国外的开源模型被当作决定国内底层基座模型的下限，来自国外的芯片，也在从性能、数量等方面也在制约国产大模型发展。就不难理解，讯飞与华为的国产化解决方案，不仅仅是为了解决自身发展的难题，更重要的是像他们说的那样：“给行业带来第二种选择。”

前段时间，据媒体报道，OpenAI关停了中国地区的API服务后，讯飞星火的API调用量出现了大幅度的增长。

官方认为，这件突发事件进一步验证了自主可控通用大模型底座的重要性，并在之后推出API普惠政策，面向受到波及的开发者和创业团队推出免费或优惠服务。

全国产算力底座提供的高性能算力资源，使得开发者能够训练和部署更大规模的AI模型，带来更多AI应用的落地可能。如今讯飞的开发者生态里，聚集了700多万实名认证的开发者团队，形成了活跃的开发者社区。

在刘庆峰看来，中美AI的激烈博弈下，国产大模型底座下的自主可控的繁荣生态，决定了能在这条路上走多远，也直接影响到国内技术开发者是否能在浪潮中享受更多红利。某种程度上说，这是个极高的战略构想，甚至能够支撑起讯飞在大模型行业里的未来想象。

大模型的走向更加务实

两百多年前，法拉第发现了电磁感应现象，为发电机的发明奠定了基础，但真正让电力走入千家万户的是麦克斯韦，他的电磁理论预言了电磁波的存在，并在未来广泛应用到通信、雷达、电视等领域。

类似的情节也发生在大模型。刘聪是科大讯飞的研究院院长，他并不认为一个通用的大模型，可以解决所有问题。尤其在当前国内市场，基础大模型更多的意义在于构建生态，而模型的价值更在于应用。

在他看来，尤其是面对B端市场，通用大模型往往并不奏效，这意味着模型需要越来越多，有越来越可收敛的场景，而不是一个万能的技术去适配所有场景。据信通院发布数据，当前近65%的AI大模型是垂直大模型，融合行业核心数据和业务生产数据，在相应行业解决问题更高效。

但在这个过程中，尤其是面对央国企这类对数据技术安全、业务稳定要求更高的行业，他们对业务场景和需求往往更倾向定制能力，因此大模型的运用又是一件阻碍重重的生意。

这也是讯飞能在国内一众大模型公司中脱颖而出的原因。

早在2019年，讯飞已经开展国产化移植优化工作，承担了国家多个AI国产化攻关项目。如今，基于飞星一号的国产底座能力，星火大模型可以说是完全国产：无论是自研的算法设计、模型结构，还是数据资源，包括被称为“无人区”的国产算力，都确保了大模型自主可控。

如今，在中标数、金额上，星火大模型已经成为央国企大模型首选。刘庆峰强调，AI应用正在日益进入到场景化的深水区，科大讯飞将针对行业痛点和场景，打造行业大模型，并且和多个行业合作伙伴探索大模型在实体产业中的落地。截至2024 年10月，与头部企业共建20多个行业大模型，覆盖300多个应用场景。

具体来看，例如在医疗行业，面对医疗资源的分布不均，讯飞星火医疗大模型应运而生，并在多学科知识问答、多形式语言理解、多环节辅助诊疗、多模态支持等方面的技术能力均排名第一。随着讯飞星火医疗大模型2.0的发布，其在海量知识问答、复杂语言理解等核心场景的能力实现升级。

针对实体产业，在汽车行业，讯飞星火智能座舱已在奇瑞、广汽、长城等六大车企的量产车型中落地，多款搭载端侧大模型的车型将在今年第四季度陆续上市。

除此以外，讯飞智能车载语音系统支持23个主要语种，搭载的车型远销60多个国家和地区，为中国汽车的出海提供智能化支撑选项，联想到前不久的数据泄露事件，全国产的解决方案给汽车厂商带来更加安心的解决方案。

大模型未来发展趋势如何？刘聪认为，大模型在开放之后，将会对普通人的工作和生活产生深远影响。在未来的几年里，可以预见，通用认知智能技术会飞速进步，带来一系列重大的创新和产业变革。

典型的例子，如在教育领域，大模型的加持不仅优化了AI学习机硬件，基于讯飞星火教育大模型，推出了基于“问题链”的高中数学智能教师系统，推动教育行业的智能化发展。更值得关注的是，技术的人文关怀也在此刻体现，比如为残疾人艺术团提供技术支持，帮助听障人士还原声音。

放眼全球，类似的成功案例也在逐渐涌现。随着技术的不断进步和应用场景的不断拓展，AI大模型正成为推动各行各业智能化转型的重要引擎。人工智能的未来充满了无限可能，而讯飞正站在这个新时代的门槛上。

科技举报

新眸

389篇文章 | 19人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

科大讯飞持续深入大模型国产化“无人区”

新眸

新眸

热点

站务

观察员小助手

【观学院线下招募】沈逸：新一届美国总统已来，但美国和世界将去向何方？

最近更新的专栏

风闻最热

全部专栏