2024年AI行业重塑之道

500

500

人工智能大模型是指利用深度学习算法让计算机从复杂数据集中自动提取关键特征并做出精准决策的具有庞大参数规模的模型。

人工智能大模型可以分为通用大模型及行业大模型两种类别,通用大模型是指使用通识类数据对模型进行训练,使模型具备包括多语言工作能力、广泛学科的基础知识及逻辑推理能力等泛化内容任务解决的能力。行业大模型是指使用专项领域数据对模型进行训练,使模型提取出该专项领域规律并具备专项领域任务解决能力。

500

(1)Transformer算法奠定大模型基础

当前主流大模型普遍是基于Transformer算法进行设计的。Transformer的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。

(2)规模定律助推大模型智力涌现

“规模定律”描述了模型的表现与其参数规模之间呈现幂律关系,即随着模型参数规模的增加,模型在各种任务上的表现会随之提升。

“涌现能力”是指当模型的参数规模达到一定程度时,某些任务处理的能力会出现爆发性的增长,并成为大模型性能突破的关键。

图 1规模定律中大模型能力的呈现

500

信息来源:Emergent Abilities of Large Language Models,2022

500

(1)参数规模竞争为头部竞争主基调

近年来,以Open AI、谷歌为代表的行业头部大模型厂商仍在发掘“规模定律”(Scaling Law)所能带来的能力提升,通过将模型参数的持续扩张以提升模型的任务处理能力,人工智能模型的计算使用量呈指数级增长。

图 2 AI大模型的参数量变化

500

信息来源:Artificial Intelligence Index Report,2024

根据图3所示,过去大模型进行训练投入的训练成本随着训练数据的持续增长而呈现巨幅增长的态势。

图 3 AI大模型的训练成本对比

500

信息来源:Artificial Intelligence Index Report,2024

(2)多模态能力成为发展趋势

当下人工智能大模型的多模态交互正逐渐成为未来的发展趋势。表1展示了当下多模态模型按工作原理进行的分类,并展示了各种多模态大模型的工作原理。

表 1 多模态大模型的实现方式

500

信息来源:Multimodal Foundation Models:From Specialists to General-Purpose Assistants,2023

除了大模型朝向多模态方向发展以外,其多模态工作的能力也在不断深化。以图4所示, Claude 3.5 Sonnet 相比前一代在根据文字需求改进代码的测试中可以解决26%的更多问题。

图 4历代Claude 模型解决编程问题情况对比

500

信息来源:Claude 3.5 Sonnet Model Card Addendum,2024

(3)人工智能向全行业渗透

根据中国工业和信息化部信息,截至2024年7月30日,全国已备案的AI大模型为197个;其中通用大模型、行业大模型数量分别为61、136款,占比分别为31%、69%;行业大模型为目前AI大模型的主要开发方向。

图 5 全国备案大模型的行业分布

500

信息来源:国家互联网信息办公室

根据中国工业和信息化部信息,教育及金融行业是目前行业大模型开发中最受关注的两个领域。此外在办公、政务、医疗领域中,已备案的AI大模型的数量亦有着较大的比重。

500

根据中国工业和信息化部赛迪研究院数据,2023年中国语言大模型市场规模为132.3亿元,预计2027年中国语言大模型行业市场规模将达到600亿元。

图 6 中国大模型行业规模,2022-2027E

500

信息来源:中国工业和信息化部赛迪研究院,环球网

500

人工智能的发展可以看作是新一轮工业革命的开始,本章将把人工智能与传统生产方式中的主要工作场景进行对比分析。

(1) 人工智能内容获取场景前景分析

在内容获取的服务能力上,人工智能已展现超越人类专家的知识水平,“消费电子+”成为行业趋势。

在人工智能知识能力的测试方面,谷歌团队发布的测试显示OpenAI o1在专业知识测评中对专业问题的解答准确率要高于相关领域的专家,展示了顶尖语言大模型在部分专业领域的知识已达到甚至超过人类博士水平的现状。

现阶段,人工智能较为热门的落地方向之一便是可穿戴电子产品与AI的结合,相关AI电子产品包括AI耳机、AI手机、AI眼镜等。

图 7博士水平科学问卷完成情况(GPQA Diamond测试)

500

信息来源:openAI

(2)人工智能创作场景前景分析

在创作场景的服务能力上,人工智能已具备略优于人类的创造性,但对人类创作的替代能力仍不足。

2024年2月份,阿肯色大学团队对人工智能的创造性进行测试,结果表明人工智能大模型在需要开创性思维的创作类工作中已具备匹敌甚至超越人类工作者的基础条件。

现阶段的应用情况,人工智能在文本创作上已被较多尝试;在视频创作上,AI视频创作的难点在于大模型对物理规律的理解;在编程能力上,前沿大模型距离人类专业工作者的水平仍有差距。

(3)人工智能交互场景前景分析

在交互场景上,人工智能具备多模态的拟人化交互能力。现阶段以GPT-4o模型和谷歌的Project Astra为代表的人工智能模型都实现了跨模态的实时推理功能。除了多模态交互能力以外,人工智能大模型还展现了情感感知能力。

(4)人工智能行业场景前景分析

在行业应用场景上,人工智能可替代或辅助人类在传统工作场景的职能,实现人力成本的降低及效能的提升。

在金融应用场景上,人工智能可帮助机构搭建AI客服系统,提供全时段的问题解答与业务办理等服务。在金融领域的中后台及保险行业,人工智能亦有充分应用场景。

在政务应用场景上,一方面人工智能可以基于政务数据库,在政策的制定、社会数据的监控等方面提供智能检索、分析、决策设计等功能。在对公工作方面,人工智能亦有充分应用场景。

在医疗应用场景上,人工智能可以辅助医生进行疾病诊断工作、根据医生的诊断决策,提供多种方案的用药建议;在药物研发方面,人工智能主要应用在靶点发现、化合物的设计与筛选上亦有所为。

人工智能在其他的行业应用场景还包括自动驾驶、AI质量检测等对传统人工环节的渗透或替代。

500

(1)解决方案:“提示工程”引导模型输出更专业

提示工程是使模型回答更加专业化的一种解决方案,其在通用大模型现有的数据及参数基础上提供专业的“思维引导”,这些“思维引导”通常通过挑选出的提示语言来实现,在提示语言的引导下最终使大模型输出与专业领域要求更相关且更准确的内容。

图 8 提示词工程的运行步骤

500

信息来源:LARGE LANGUAGE MODELS ARE HUMAN-LEVELPROMPT ENGINEERS,2023

(2)解决方案:“预训练”创造行业大模型

使大模型针对特定行业亦具备专业工作能力的解决方案之一便是使用包含行业数据集的语料库对语言大模型进行预训练,最后可得到专业处理能力远超普通基础大模型的行业大模型。

预训练方法的应用主体除了包括对数据保密要求较高的企业,还适用于与现有大模型差异较大的场景,以更好地提升行业解决能力。

(3)解决方案:“精调”对模型进行局部调整

精调是指对已训练好的通用大模型参数进行针对于目标行业任务的调整,将行业数据集用于再次训练大模型,最终使通用大模型具备更丰富的行业数据积累以及专项问题解决能力的方法。与预训练相比,精调方式减少了训练时间,通常只需要对模型做局部调整,所需的训练数据也相对较少,是一种更为经济高效的方法。

图 11预训练与精调的对比

500

信息来源:公开资料整理

(4)解决方案:“RAG”外挂数据库拓宽模型行业知识

RAG通过在通用大模型原有基础上外挂目标行业知识库,能为基础大模型提供海量的行业数据信息输入,继而将基础大模型的通用任务解决能力与海量专业知识相结合,形成具备解决专业领域任务能力的行业大模型。RAG架构解决方案适用于具备丰富数据资源基础的企业,通常应用于特定行业的人工智能客服问答、内容查询及数据处理等任务。

图 12 RAG技术的实现步骤

500

信息来源:公开资料整理

500

百度

最近10年,百度在深度学习、对话式人工智能操作系统、自动驾驶、AI芯片等前沿领域投资,使得百度成为一个拥有强大互联网基础的领先AI公司。

百度自然语言处理以『理解语言,拥有智能,改变世界』为使命,致力于研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。产品方面,百度拥有NLP能力引擎、开发平台文心、智能对话服务与定制平台 UNIT、百度输入法和百度智能翻译。

腾讯

在NLP方面,腾讯云 NLP 服务深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。

科大讯飞

科大讯飞在自然语言处理领域的相关产品有讯飞听见、讯飞输入法和讯飞星火大模型。基于以语音交互为核心的智能语音技术,上述产品可以完成文本朗读、语音合成、语音识别、中文自动分词、词性标注、句法分析、自然语言生成、文本分类、信息检索与抽取、文字校对、问答系统、机器翻译、自动摘要等功能。

图表 10 科大讯飞融资历程

500

资料来源:企查查、融中研究整理

拓尔思(300229)

在自然语言处理领域。拓尔思有智语·自然语言处理引擎。该引擎提供非结构化数据结构化、赋能语义智能分析和支持构建知识图谱或本体知识库三大功能,面向智慧专利、智慧公安、智慧政务、智慧金融、开源情报分析等应用场景,以先进的NLP技术为用户的业务应用赋智赋能。

图表 11 拓尔思融资历程

500

资料来源:企查查、融中研究整理

思必驰

思必驰自然语言处理技术,专注于智能对话中的大规模、可定制语义理解解决方案和实体识别、语义角色分析、信息抽取等自然语言技术。

图表 12 思必驰自然语言处理核心优势

500

资料来源:融中研究整理

图表 13 思必驰融资历程

500

资料来源:36氪、融中研究整理

追一科技

自然语言处理(NLP)方面,追一科技在大规模预训练模型、自然语言智能交互(NL2X)、NLG(自然语言生成)等领域屡有创新,并将技术成果开放给业界,持续推动NLP技术的发展。在未来元宇宙时代,NLP技术有着极大的应用潜力,致力于成为元宇宙对话交互技术基础设施提供者。

图表 14 追一科技融资历程

500

资料来源:36氪、融中研究整理

香侬科技

在自然语言处理方面,香侬科技以深度学习算法和神经网络模型,解读亿万文本和图像,精准呈现关键信息。采用由语言学家自研设计的文本标注系统,持续进行大规模数据标注和流程优化;采用并行超算平台和大黄蜂深度学习框架,显著提高NLP算法开发效率;采用BERT等深度学习最新模型,并在算法上持续优化和突破。香侬科技深耕NLP,提供行业领先的信息处理的全新解决方案。

图表 15 香侬科技融资历程

500

资料来源:36氪、融中研究整理

出门问问(2438.HK )

出门问问拥有行业领先的AI基础设施能力、前沿通用大模型能力(自研大模型「序列猴子」),以及丰富的垂直领域软硬结合的优化算法技术模块,是为数不多的同时服务于消费者、企业、创作者三大类不同群体的公司。

图表 16 出门问问融资历程

500

资料来源:36氪、融中研究整理

零一万物

在自然语言处理技术方面,零一万物走的是自主研发大模型的道路,已经完成了百亿参数级别的内部测试,并计划在未来将模型规模提升至300到700亿参数。此外,该公司还计划推出开源的模型版本,与社区共享技术成果。零一万物的愿景是不仅仅做通用大模型,还要做能够处理图片、视频、3D等多种数据类型的多模态模型。

图表 17 零一万物融资历程

500

资料来源:36氪、融中研究整理

月之暗面

月之暗面的主要业务集中在开发和推广大模型技术,特别是在自然语言处理(NLP)领域。公司在大模型长上下文窗口技术上取得了新的突破,其自研的Kimi智能助手已支持200万字超长无损上下文,并开启了产品内测。

图表 18 月之暗面融资历程

500

资料来源:天眼查、融中研究整理

主线科技

表 2主线科技最新轮股权投资信息

500

信息来源:融中数据库

在港口无人驾驶方面,主线科技的无人驾驶方案设计出“多交通参与者混行博弈算法”,旨在解决无人驾驶车辆在港口运输所面临的交通参与者复杂、道路不明晰等痛点,在结合自身成型的无人驾驶商用车体系、物联网、大数据等技术后可为现存港口运输实现全域智联的无人驾驶技术升级。

深势科技

表 2主线科技最新轮股权投资信息

500

信息来源:融中数据库

在医药人工智能方面,深势科技借助自研药物计算设计平台,能够提供一站式药物设计解决方案。该平台覆盖了从蛋白结构解析、靶点发现和确证、虚拟筛选、先导物优化到药代动力学预测等临床前药物设计的全部阶段,利用自研核心算法在精度和效率上实现重大突破。

站务

全部专栏