GPT-4大模型硬核解读!看完成半个专家(下)

来源:智东西

GPT-4大模型硬核解读!看完成半个专家(上)

04.

GPT-4的算力基座

4.1 GPT-4计算服务器架构

500

▲计算服务器架构对比

针对GPT-4这类大模型的计算架构,按照计算芯片的组合方式,一般可以分为:“CPU+GPGPU”,“CPU+DSA”,和“CPU+DSA+GPGPU”三种类型。这三种类型目前都已在云计算场景广泛应用和部署。

DSA即领域专用加速器,是用于一些特定场景或算法族计算的芯片级加速。最早的GPU也属于DSA,也就是图形加速的DSA。随着GPU逐渐演化,将非常小的CPU核心加入GPU形成GPGPU架构后,才具备了通用化的计算能力

1)CPU+GPGPU是较早且部署众多的一种。由于这种架构的计算灵活度高,也可用于模型训练和非AI类计算。适合任务种类繁多且差异化大的云计算场景。

2)CPU+DSA是目前Google云计算(GCP)应用较多的方式。例如Google去年发布的Pathways计算系统(包含6144块TPU)就是这类架构的典型代表。这类架构计算灵活性稍低一点,但是计算性能和成本都非常明显优于CPU+GPGPU模式,非常用于GPT-4或其他算法部署场景。例如早些年的AlphaGo的性能突破很大程度上来自于Google自研的TPU。当时如果用GPU,估计超过人类棋手的集群成本恐是当年的Google也难以承受的。

500

▲Google Pathways “CPU+DSA”训练集群基础架构(来源:Google)

3)CPU+DSA+GPGPU介于前两者之间,充分提高了灵活性又明显降低了计算成本。这类架构需要算法设计/部署人员有丰富的异构架构部署经验。

计算卡间的高速互连对GPT-4计算的影响排在单卡算力之后。对于多数GPU来说,由于一般需要多卡才能放下一个模型,因此整体的计算效率受限于互连带宽和单卡有效算力密度。(算力密度大可以减少互连交互的总数据量)

500

▲AI服务器内部的卡间互连

以英伟达为例,HGX平台上有六个NVSwitch。每个NVSwitch连接2块GPU,总共有12个最短数据通道直连,形成接近立方体式的数据交互网。这里之所以说接近,是因为0123和4567平面之间的连接还不是两两互连,这一结构会限制GPU所能运行的模型的规模效率。

计算服务器之间的高速互连通过Infiniband实现。每个NVIDIA A100/H100可以访问服务器Infiniband结构,通过Infiniband提升服务器间的数据交互带宽,而大带宽的Infiniband一般通过光纤连接(使用SerDes技术)来减少损耗。Infiniband网络基于“以应用程序为中心”的观点,目标是让应用程序访问其他应用程序以及存储尽可能的简单、高效和直接,避免网络分层带来的延。这种结构大大提高了GPT-4训练的速度。

4.2 GPT-4计算相关芯片

对于GPT-4这类大模型来说,其部署需要大量的大算力计算、存储和数据交互芯片,包括:

AI计算:算力>100TFLOPS的GPGPU或大算力AI芯片

CPU:核数>8的CPU

存储:内存/GDDR/HBM/NVMe

数据交互:Infiniband卡

在Transformer技术兴起之后,传统CUDA核心的算力支持能力已表现出劣势,英伟达便在其GPU中添加Tensor Core这类DSA单元,以适应算力需求的变化。考虑到GPU这类通用架构芯片在计算效率和算力上已经暂时落后于GPT-4/ChatGPT这类大模型的发展速度,从芯片/半导体的历史发展规律看,预计近几年可能会有新的专用架构大发展来填补这一需求。这类新架构也许是针对大模型的DSA,或者是更接近于DSAGPGPU

500

▲CPU、GPU和存算一体芯片的架构对比

从目前GPT-4的部署需求来看,GPT-4大模型具有数据量大、数据带宽要求高、算力要求高的计算特点,且算法相对单一。如果要提高计算效率和性价比,就应该像超算那样选择更高计算密度的算力芯片。从这个角度上看,具备存算一体结构的DSA可以很好的满足这些要求,并且具备比GPGPU更高的计算性能,未来很有可能与CPU或GPU组合,形成GPT-4这类算法的主要部署芯片。

在GPT-4这类大模型训练中,一般需要使用Infiniband进行大算力芯片间的协同工作,整合海量芯片的算力。Infiniband摒弃了传统网络和应用程序之间消息传递的杂结构,使应用程序之间直接进行通信,绕过了操作系统,大大提高了效率。

05.

GPT-4的局限与未来改进方向

5.1 GPT-4局限

尽管GPT-4表现出出色的上下文对话能力甚至编程能力,以及能看懂图梗和分析数据图。我们也要看到,GPT-4技术仍然有一些局限性,还在不断的进步。

1)GPT-4在其未经大量语料训练的某些领域缺乏“人类常识”和引申能力”。GPT-4在很多领域可以“创造答案”,但当用户寻求正确答案时,GPT-4也有可能给出有误导的回答。大预言模型的安全性问题仍是横亘在其大规模商用上的拉路虎。如果遇到关系重大利益的抉择时,我们是该相信GPT-4的结果还是不相信呢?

500

▲大语言模型的SWOT分析(来源:互联网)

2)GPT-4需要非常大量的算力(芯片)来支持其训练和部署。抛开需要大量语料数据训练模型不说,在目前,GPT-4在应用时仍然需要大算力的服务器支持,而这些服务器的成本是普通企业在大流量服务时无法承受。对于私有化部署来说,还需等待更轻量型的模型或更高性价比的算力平台

3)GPT-4还没法在线的把新知识纳入其中,而出现一些新知识就去重新预训练GPT模型也是不现实的,无论是训练时间或训练成本,都是普通训练者难以接受的。

如果对于新知识采取在线训练的模式,看上去可行且语料成本相对较低,但是很容易由于新数据的引入而导致对原有知识的灾难性遗忘的问题。另一方面,缺乏检查的新的不良知识也可能导致模型本身的安全性问题。特别是GPT-4可能会继承从新数据中学到的偏见和不平等性。如果数据集中存在种族、性别、地理位置等方面的偏见,GPT-4也可能会在生成文本时出现类似的偏见。

4)GPT-4仍然是黑盒模型。目前还未能对GPT-4的内在算法逻辑进行分解,因此并不能保证GPT-4不会产生攻击甚至伤害用户的表述。OpenAI提供的文档报告称,GPT-4-launch的错误行为率为0.02%,远低于GPT-3.5的0.07%和GPT-3的0.11%1。这意味着GPT-4-launch生成的文本在10000次完成中只有2次违反OpenAI的内容政策或用户偏好。但即便这2次违反依然可能导致OpenAI受到严重的法律诉讼。

5)GPT-4仍存在社会和道德风险。由于GPT-4这类大型语言模型仍然存在根本性的黑盒特征。GPT-4仍然可以生成有偏见的、虚假的和仇恨的文本;仍然可以被黑客攻击(例如Prompt越狱)以绕过它的安全防护墙。尽管OpenAI提出了多项措施来减轻其模型的风险和挑战,但GPT-4仍然可能被滥用于创建假新闻、宣传、垃圾邮件或有害内容,还可能产生可能误导或伤害用户的事实错误或偏见。OpenAI的研究表明,GPT-4可以在许多领域与人类宣传员相媲美。

6)GPT-4仍存在幻觉和推理错误。尽管OpenAI声称GPT-4相对于以前的模型可以显着减少幻觉(在其内部评估中得分比GPT-3.5高40%)。GPT-4仍然可能会产生有害的建议(尽管GPT-4更有可能拒绝回答)、错误代码或不准确的信息,因此,GPT-4暂不应该用于错误成本高的区域(比如医学手术?)。

7)GPT-4存在泄露隐私可能。GPT-4可从各种内部许可和公开可用的数据源中学习,其中可能包括大量公开有效的个人信息。包括互联网上学习到有重要影响力人物(例如名人和公众人物)的大量隐私信息。GPT-4还可以聚合不同信息,将大量隐含信息关联挖掘出来形成有效的隐私信息。

5.2 未来改进方向

5.2.1 减少人类反馈的RLAIF

2020年底,OpenAI前研究副总裁Dario Amodei带着10名员工创办了一个人工智能公司Anthropic。Anthropic的创始团队成员,大多为OpenAI的早期及核心员工,并在2022年12月,发表论文《Constitutional AI: Harmlessness from AI Feedback》介绍人工智能模型Claude。

500

▲CAI模型训练过程(来源:Anthropic)

Claude和GPT-4都依赖于强化学习(RL)来训练偏好(Preference)模型。CAI(Constitutional AI)也是建立在RLHF的基础之上,不同之处在于,Claude的CAI的排序过程使用模型(而非人类)对所有生成的输出结果提供一个初始排序结果。这种模式的好处是节约了大量人工标注的时间和资源,可以加速大模型的训练进程,并降低成本。

CAI用人工智能反馈来代替人类对表达无害性的偏好,即RLAIF,人工智能根据一套法规(Constitution)原则来评价回复内容。

500

▲CAI与RLHF技术对比(来源:Anthropic)

5.2.2 数理能力的增强

GPT-4虽然已经具备解物理题的能力,但毕竟不是专门的解题算法,一些复杂的数理问题对话中仍会出现一本正经胡说八道的情况。

计算机学家Stephen Wolfram为这一问题提出了解决方案。Stephen Wolfram创造了的Wolfram语言和计算知识搜索引擎Wolfram|Alpha,其后台通过Mathematica实现。

500

▲ChatGPT与Wolfram|Alpha结合处理梳理问题(来源:Wolfram)

目前Woflframe已经可以通过ChatGPT调用(通过插件),未来也会实现GPT-4的集成。在这一结合体系中,GPT-4可以像人类使用Wolfram|Alpha一样,与Wolfram|Alpha“对话”,Wolfram|Alpha则会用其符号翻译能力将从GPT-4获得的自然语言表达“翻译”为对应的符号化计算语言。在过去,学术界在GPT-4使用的这类“统计方法”和Wolfram|Alpha的“符号方法”上一直存在路线分歧。但如今GPT-4和Wolfram|Alpha的互补,给NLP领域提供了更上一层楼的可能。

500

▲ChatGPT调用Wolfram(来源:Wolfram)

GPT-4不必生成这样的计算代码,只需生成常规自然语言,然后使用Wolfram|Alpha翻译成精确的Wolfram Language,再由底层的Mathematica进行计算。

5.2.3 GPT-4的本地化与小型化

虽然GPT-4很强大,但其模型大小和使用成本也让很多人望而却步。

有三类模型压缩(model compression)技术可以降低模型的大小和成本。

第一种方法是量化(quantization),即降低单个权重的数值表示的精度。比如Transformer从FP32降到INT8对其精度影响不大,但是会显著提升计算效率。笔者团队已研发出INT4量级的Transformer高精度量化算法,无需再次训练或更改模型,即可部署到GPT-4算力平台上,大大提升计算效率并降低成本。

第二种模型压缩方法是剪枝(pruning),即删除GPT-4的网络元素,包括从单个权重(非结构化剪枝)到更高粒度的组件如权重矩阵的通道。这种方法在视觉和较小规模的语言模型中有效,也是很多框架(Framework)上自带的功能。

第三种模型压缩方法是稀疏化。例如奥地利科学技术研究所(ISTA)提出的SparseGPT可以将GPT系列模型单次剪枝到50%的稀疏性,而无需任何重新训练。当然这种稀疏结构目前还仅仅是基于GPU架构实现的,在其他硬件平台上并不兼容,而且GPT-4的稀疏化是否在综合成本上优于压缩还有待观察。

500

▲SparseGPT压缩流程(来源:ISTA)

06.

GPT-4的产业未来与投资机会

6.1 大模型的技术栈

GPT-4这类大模型的用户量巨大,算力需求巨大,连接的设备和软件众多。其技术栈具有更多组件,可包括用于容器化、性能监控、商业智能、事件处理、云服务、微服务和分析的工具。

GPT-4/ChatGPT等大模型的技术栈可以分为5层:

1)应用层:将生成的AI模型(可通过接口)集成到面向用户的应用程序,运行私有模型或通过第三方接口运行模型。这一层的应用企业最多。大量企业无需研发自有的大模型,即可使用GPT-4带来的人工智能协作能力和生成能力,形成各类应用。

2)接口层:包括各种调用API和数据中心调用工具,同时提供对应的提示工程接口和模型精调接口。接口层将应用层和模型层衔接,方便应用层调用,使得开发者和用户能够以编程方式与模型进行交互。这可以简化GPT-4在实际应用中的部署和调用,从而降低使用门槛

3)模型层:包括各类开源或非开源模型,以及各种模型的共享平台。这一层提供了不同的模型数据和功能,通过接口层为应用层提供大模型的功能支持。

4)框架层:提供训练或云部署的深度学习框架和中间件等,包括PyTorch、TensorFlow等知名深度学习框架和中间件。

5)计算层:为模型层提供模型计算和调度的各种算力支持,为训练AI模型运行训练和运行推理任务提供基础设施。计算层包括了各种云计算平台和计算芯片。在这一层,AI芯片会是核心瓶颈。

500

▲GPT-4等大模型的技术栈

目前GPT-4的几乎所有内容都通过云计算GPU或TPU来运行,使用者包括运行训练工作的模型提供商/研究实验室、进行模型部署或精调的应用企业。在GPU替代CPU成为主要的AI算力芯片之后,AI界10多年来再一次受到大规模计算能力的限制

截至目前,GPT-4这个领域目前还未看到非常明确的技术或产品护城河。由于使用相似的模型,应用层企业在早期可能会缺乏很强的产品差异化;由于大部分云服务提供方目前只能使用同一FAB生产的GPU作为主力算力芯片,普通云提供商实质上也难以提供成本或性价比的差异化

GPT-4等大模型目前以同质化的模式进行构建,具备统一的“图像+自然语言”接口,因此短期内,除了模型参数本身不易训练好的壁垒外,暂时还未明确通过软件生态或数据管道建立自家独有竞争壁垒的路线。

就目前来说,我们还无法判断GPT-4这类多模态大模型领域是否会像互联网那样出现少数几家独大的情况。也许大模型的时代会是一个无中心的状态,每个团队都有可能成为英雄

6.2 GPT-4的产业应用

AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC(用户生产内容)和PGC(专业生产内容)相比,代表人工智能构思内容的AIGC,是新一轮内容生产方式变革,而且AIGC内容在Web3.0时代也将出现指数级增长

GPT-4模型的出现对于图像/文字/语音多模态的AIGC应用具有重要意义,会对AI产业上下游产生重大影响

500

▲GPT-4的应用领域(修改自OpenAI)

GPT-4对依赖人类智能处理和生成的各个领域和行业具有许多潜在的应用和影响。与其考虑哪些细分领域可以使用GPT-4这类技术辅助人工,不如考哪些领域还不能用GPT-4辅助,后者的名单或许更短一些。

可以快速使用GPT-4的一些行业包括(可视为会快速变革的行业的预测):

1)教育行业:GPT-4可以作为想要学习新技能或学科的学生的辅导员或指导者。GPT-4还可以根据学生的学习目标和进度,为他们提供个性化的反馈和指导。

2)文娱行业:GPT-4作为讲故事的人或作曲家,为观众和平台输出原创且引人入胜的内容。GPT-4还可以用作游戏设计师或角色,为游戏玩家创造身临其境的互动体验。

3)商业:GPT-4可用作营销人员或销售人员,为顾客和客户创建有效且有说服力的话术。GPT-4还可以用作客户服务代理或聊天机器人,以快速准确地响应查询和投诉。

4)新闻:GPT-4可用作记者或编辑,以生成有关各种主题和事件的高质量和真实的新闻文章。GPT-4还可以用作新闻检查器或验证器,用于检测和纠正错误信息和假新闻。

5)医疗大健康:医生或护士可以使用GPT-4作为助手诊断和治疗患有各种疾病的患者。GPT-4也可以用作治疗师或健康顾问,提供心理健康支持和建议。

6)法律:GPT-4可以作为律师或法官助理起草和审查法律文件和合同。

7)生命科学:GPT-4及其模型的生物分支可用于从用于临床试验的合成数据创建到基于蛋白质折叠模型的生成式蛋白质设计以加速药物发现,再到学术论文的研究总结。虽然采用还处于早期阶段,但加速药物发现和批准、改善患者疗效和节省医疗成本的潜力是巨大的。

8)供应链和物流:借助GPT-4的思维链能力来进行自动化产品开发,包括设计和组件替换,从而以更低的成本生产出具有更高性能和可持续性的新产品。GPT-4还可支持文档自动化和合同生成,以更好的简化工作流程。

随着算法技术和算力技术的不断进步,GPT-4也会进一步走向更先进功能更强的版本,在越来越多的领域进行应用,为人类生成更多更美好的对话和内容。

6.3 GPT-4对我们和未来的影响

GPT-4这类多模态大模型技术会对我们每个人的生活和工作产生一系列的影响。例如:

1)GPT-4会极大的影响宣传和社交。以后GPT-4这类技术会在互联网上横行,我们会很难分辨到底是“大众的声音”还是“中心服务器的声音”,大量没有主见的人可能会盲从于GPT-4这类技术生成的观点,人类会变成机器的复读机。同时GPT-4工具会大量渗透入普通人的社交,“唯有套路得人心”的场景会遍地开花。

2)AI大量替代低端重复性沟通和多模态工作。GPT-4会与机器人技术结合,从云渗透到端,进入每个人的日常生活。操作系统和办公软件的交互UI会大量被大模型主宰化。也许开始会有很多人因为AI技术的替代而失业,逐渐更多的人借助GPT-4这类技术获得更高的效率并成为自然语言程序员,人类开始剥削机器,创造力和自然情感成为人类能坚守的宝贵特质。

3)各种考核将从知识型考核转向综合能力考核。知道多少或者会什么外语已经不重要,工作经验或技术经验也只是看是否拥有更先进的GPT模型或算力。一些曾经的热门专业可能会逐渐凋落。人类下一代从人类“内卷”过渡到“人机互卷”,高层次能力竞争会更加激烈。

GPT-4这类多模态大模型到底会给我们每个人带来什么样的具体影响,也许是现在的我们还不能完全想象的。但这影响一定是巨大和深远的。毕竟“圣杯”的语义不仅仅代表贵重,也代表了神奇和不可思议,甚至是独一无二。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

全部专栏