首个全自研 “国家队Sora”问世
解读中国电信AI战略三大关键词
作者/ IT时报记者 孙妍
编辑/ 钱立富 孙妍
12月10日,Sora正式版终于发布,其文生视频在一致性上的突破再次震动全球,但并未令国内业界“恐惧”。过去一年,国内大模型文生视频能力在激烈竞争中逐渐拉平与全球第一梯队的水平,更难得的是,已有国家队大模型实现全国产化。
12月3日,在2024数字科技生态大会上,中国电信集团第一次举行TeleAI开发者大会,发布了首个由央企全自研的视频生成大模型,标志着星辰大模型体系完成了全模态、全尺寸、全国产的“三全”能力构建。
国产原创必然是中国基座大模型的命脉。中国电信集团CTO、首席科学家,中国电信人工智能研究院院长李学龙在大会上表示,星辰大模型已经完成基于全国产的万卡集群的模型训练,而且训练、推理和配套工具链都基于国产软硬件平台,实现了从底层架构到上层应用的全面国产化。
与此同时,大模型赛道正来到技术研发和商业化应用的十字路口,AI须更有力为实体经济发展注入活力,利用大模型解决生产实际问题。作为国家队,中国电信在加大研发力度的同时,也深刻意识到这点,中国电信董事长柯瑞文在2024数字科技生态大会上强调,必须坚持应用导向,加快用起来,以用促建、以用促创,加快“技术-产品-产业”的循环。
关键词1:国产原创
首个央企全自研视频生成大模型
Sora在今年2月横空出世后,国产文生视频大模型们都在跟进、比拼,一致性成为衡量文生视频能力的一大要素,即人物可以一直贯穿在整个故事中,保持一致的样貌。
在2024数字科技生态大会上,中国电信人工智能研究院(TeleAI)发布首个央企全自研视频生成大模型,填补了中国电信全模态的空缺,并公布了一段由星辰大模型生成的时长1分36秒的微电影,所有视频、语音、台词都由AI生成。
故事的主角是四位女孩,她们转身时保持着衣着、发型的一致性。第一位女孩从悬崖上跳进水里,动作干净、利落,没有发生扭曲,潜入水底产生的气泡等基本符合物理规律。第二位女孩骑着摩托车穿越火山,聚焦熔岩流淌画面过场到头盔上映射的曲面感非常自然。第三位女孩攀登悬崖,喘气的声音真实且与画面同步。第四位女孩在沙漠中骑骆驼时驼铃叮当,与怪物打斗精彩激烈,打开了动作片的大门。
文生视频大模型可以保证单个或多个主体人物在各视频片段中的外观一致性,实现对复杂动作和交互式动作的精确控制,并让角色和目标物体的运动符合物理规律,让视频与音频同步生成,达到音画同步的视听体验。
这背后的核心是基于VAST(Video As Storyboard from Text)二阶段视频生成技术实现了突破,能根据文本描述精准勾勒出包含视频构图、主体目标位置及人物姿态等关键信息的故事板(Storyboard),进而生成对应的视频内容。无独有偶,故事板也是Sora正式版的一大亮点。
每一个人都有一个梦想,可以天马行空地写剧本、拍电影。星辰大模型的文生视频不断推动梦想照进现实,为短剧和影视创作者提供一站式平台,输入一本小说,就能一键生成剧本,不需要请专业演员,不需要昂贵的布景,不需要艰辛地拍摄,不需要漫长的后期,就能自动生成一部电影。此外,基于星辰大模型在语义、语音、文生图等方面的能力,将更有力帮助短剧和影视行业降本增效。
李学龙还在大会上透露,Sora在今年2月发布,中国电信是在今年1月部署了文生视频团队,当时团队就在Sora发布后的两天内,做出了视频配乐的自动生成,速度极快。更难得的是,TeleAI视频生成大模型目前在权威视频生成评测榜单VBench中排名第一。
关键词2:开放合作
携手开发者打造TeleAI“大舰队”
开源与闭源是当下大模型业界的一大分岔路口,OpenAI、百度等企业走的是闭源道路,腾讯、阿里等企业走的是开源道路,而中国电信是率先且唯一开源大模型的央企。
2024年9月,TeleAI成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参)星辰语义大模型 TeleChat2,并正式对外开源千亿参数大模型——星辰语义大模型 TeleChat2-115B,标志着国产大模型训练真正实现全国产化替代,在“自主创新、安全可控”上站稳脚跟。
TeleChat2-115B基于中国电信自研的天翼云“息壤一体化智算服务平台”和“星海AI平台”完成训练,在保证训练精度的前提下,实现了GPU同等算力计算效率93%以上,同时模型有效训练时长占比达到98%以上。目前,TeleChat2这个央企唯一开源大模型实现了十亿级、百亿级、千亿级的全尺寸覆盖,全网模型的下载数量已超4万次。
开放合作,建立庞大的朋友圈一直是中国电信所走的道路。李学龙在大会上表示,TeleAI就像一支“海军舰队”,有大船,有小船,有丰富的供给和灵活的平台,和开发者们一起组成“大舰队”。
TeleAI将自用能力开放,面向不同的开发者推出了不同的平台,星海AI中台面向初级开发者,零代码的建模工具让不具备复杂技术背景的开发者可以低门槛地构建自己的模型。
天翼AI开放平台面向专业用户级,目前已经全面开放,它提供了党建公文大模型、百万表格理解、软件工厂等垂直模型。今年中国电信推出全国乃至全球首个支持40种方言的自由混说语音识别大模型,到2026年将争取实现全国333种方言的全覆盖。可以想象,届时知识的传递不再受限于语言的障碍,让AI技术能够触及每一寸土地,去打通乡村振兴的“最后一公里”。
软硬件结合的开发者则可使用星辰智能体平台。在2024年数字科技生态大会AI展区,不仅有穿戴式AI设备,还有各种机器人,如灵巧操作的人形机器人、踏着稳健步伐的四足机器人、精细协作的双臂机器人、深潜探索的水下机器人,每一个智能体都是与世界对话的承载者,技术不再是遥不可及的代码和算法,而已经融入我们的日常生活。
在大模型异构能力支持下,智能体们会相互协作,当“主人”说“我饿了”,一群机器人会为之服务:机器狗打开门,无人机出门去取早餐,早餐取回后机械臂会抓取递给“主人”。
李学龙将这三座平台比作武功秘籍库,一招一式皆有前人领路,即学即取、即取即用,平台在手功夫我有。算力的流转,数据的利用,硬件的适配,效率的提升,就可以一气呵成。
关键词3:商用加速
大模型“两手抓两手硬”
站在烧钱拼技术和商业化回报的十字路口,如何权衡这两者,成为大模型赛道上所有玩家的必答题。
“两手都要抓,两手都要硬。”在中电信人工智能科技(北京)有限公司副总经理刘翼看来,通过技术研发投入打造差异化优势,才能带来良好的商业回报;有了良好的商业回报,才能在技术研发投入上具备持续性。
在中国电信内部,TeleAI负责AI技术研发,而中电信人工智能科技(北京)有限公司等专业公司负责商业化落地。
规模应用成为下一阶段的主旋律。在2024数字科技生态大会上,中国电信公布了目前的商业化进程,已面向政务、工业、教育等领域推出50多个场景大模型,重点打造80多个行业大模型和20个行业智能体,提供“算力+平台+数据+模型+应用”的一体化服务。
在深圳、汕头等地,星辰大模型通过文本检索缺陷图像的能力打入工业质检,在检测场景中精准度超过99.4%;在北汽、长安汽车等智能网联汽车上,星辰大模型为车主提供沉浸式、智能化的座舱体验;在清华大学、中山大学等20多所高校及科研机构里,“息壤-科研助手”为教学辅助、实验研究等场景提供一站式科研实训服务;在个人家庭里,AI+手机、AI+云电脑、AI+摄像头等智能终端规模普及,AI眼镜、AI机器人等终端定制将打开更大的想象空间。
天翼AI手机在此次大会上发布,在端侧植入剪裁过的星辰大模型,可在通话过程中实现语音实时翻译、AI字幕、AI摘要等功能应用,而且可通过语音方式进行缴话费、订机票、订酒店等曹走,并在业内第一个提供AI生成视频的鉴伪能力。
此外,AI+数字政务正在全国推广落地,提升政务热线运营效率和市民感知。比如“AI+12345政务热线”深度赋能深圳“民意速办”平台,日均服务量达20万次,总体满意率达99.95%。在应急监测、防汛预警等场景,强化星辰视觉大模型应用,识别多种风险隐患和灾害,提升应急安全保障能力。
但是,大模型商业化过程仍充满挑战,仍处在早期探索阶段,受制于幻觉难消除,训练数据的质和量不足,交付标准化程度不高导致交付成本较高等原因,大模型还未走出一条规模化发展的道路。
如何加快推进大模型的商业化落地?刘翼在接受《IT时报》记者采访时提到四个关键词:持续投入、差异化特点、变革性场景创新以及开放合作。
AI是一场长跑,比拼的是谁能坚持跑到终点,作为央企AI国家队,中国电信毫无疑问会保持研发投入的持续性。差异化特点是商业化过程中避免同质化竞争的关键因素,比如国内首个支持40种方言自由混说的语音大模型,国内首个基于全国产化万卡集群训练的万亿参数大模型等都是中国电信差异化优势。中国电信同时聚焦实体经济与AI的深度结合,以及在C端场景发挥运营商的资源禀赋,试图找到变革性场景创新。中国电信进一步壮大TeleAI开发者生态,制定涵盖人才、算力、投资、场地、项目等各个维度的激励措施,引导、激励面向各类场景的AI应用开发。
柯瑞文在大会上也提到,要发挥我国超大规模市场优势、产业体系配套完整优势,加快推动应用形成产业,用科技创新成果赋能工业智能化的转型升级、社会的高效治理、生活的智能便捷,解决经济社会发展中的问题,把科技创新成果切实转化为现实的生产力。
排版/ 季嘉颖
图片/ 数字科技生态大会
来源/《IT时报》公众号vittimes
E N D