紫光展锐科普 | 从云端到终端：端侧AI大模型的崛起与应用前景

科闻社
科闻社官方账号

天助自助者09-03 15:05

亮点速览

■ 紫光展锐自主研发端侧AI大模型推理框架，深度整合业内开源大模型，全面赋能各项业务；

■ 已成功适配Tinyllama 1.1B，谷歌Gemma 2B，阿里通义千问 0.5B/1.8B，微软Phi3 3.8B，商汤Internlm2 1.8B ，面壁智能Minicpm 2B等业内主流大模型；

■ 支持多种量化格式，为用户带来流畅的端侧大模型应用体验。

引言：云端到终端的跨越

2023年以来，以OpenAI公司的ChatGPT（Generative Pre-trained Transformer）为代表的生成式AI技术在全球点燃研发浪潮，从文本到图像，从音乐到视频，从游戏到教育，无一领域不在大力推动AI技术的应用，呈现出“百花齐放”的生动局面。国内AI领域亦风起云涌，上百个超过10亿参数规模的模型如雨后春笋般涌现，共同绘制了一幅“百模大战”的壮丽图景。

然而，随着AI技术的深入应用，AI模型的规模急剧增长，云端推理的成本问题日益凸显，大规模生成式AI的持续拓展面临严峻挑战：

■ 云端推理成本极高，生成式AI规模化拓展难以持续；

■ AI推理规模远高于训练，不仅训练单个模型会消耗大量资源，而且大型生成式AI模型的推理成本将随着日活用户数量及其使用频率的增加而增加。

AI大模型技术向终端设备迁移成为必然趋势，端侧AI大模型应运而生。端侧AI大模型，是指终端设备上运行大规模人工智能模型，随着智能手机和其他移动设备的计算能力不断增强，它们为这些复杂的AI模型提供了必要的硬件支持。

紫光展锐在端侧大模型领域 重点发展的关键技术

展锐在端侧大模型领域进行了深入布局和研究，下面分别针对模型轻量化、芯片支持、软硬件适配三项关键技术进行展开：

模型轻量化

通过量化、剪枝、知识蒸馏等先进技术为AI模型瘦身，有效降低模型复杂度与资源消耗，同时保持高精度，提升部署效率与性能。

500

模型量化是指将神经网络的浮点算法转换为定点。浮点模型权重和激活以FP32精度存储和计算，对存储和计算资源的占用较大。以文生图SD模型为例，直接部署浮点模型，运行消耗内存近10GB，这在内存小于12GB的手机上几乎无法推理。

量化技术可以有效降低模型存储和计算资源占用，这对于参数和计算量都很庞大的大模型来说尤为重要。以INT8量化模型为例，相较于浮点模型，可以降低75%的资源占用。模型经过INT8量化后，可以直接在NPU上运行，利用NPU对AI任务的加速能力，加速模型的推理。

500

蒸馏是一种基于教师-学生网络思想的训练方法，通过让一个小型的学生模型学习一个大型的教师模型的知识，从而实现模型的压缩。

500

深度学习模型中一般存在着大量冗余的参数，将权重矩阵中相对“不重要”的权值剔除（即置为0），可达到降低计算资源消耗和提高实时性的效果，而对应的技术则被称为模型剪枝。

芯片支持

在端侧运行大模型，需要芯片具备以下几点关键特性：

■ 高性能计算能力：端侧大模型通常包含数十亿的参数，需要强大的运算能力来处理复杂的数学运算。这通常意味着需要GPU（图形处理器）、NPU（神经网络处理器）或专用的AI加速器，它们能够并行处理大量数据，提供高效的矩阵和向量运算；

■ 高内存带宽：大模型在运行时需要大量的内存来存储模型参数和中间结果。因此，芯片需要配备高速缓存和高带宽的内存接口，以确保数据的快速读取和写；

■ 低功耗设计：端侧设备往往对功耗有严格要求，特别是在移动设备和物联网设备上。因此，芯片需要采用低功耗设计，如优化的架构、动态电压和频率调整等技术，以延长设备的电池寿命。

500

软硬件适配

AI计算部署在终端设备上面临诸多挑战，如芯片种类复杂、异构算力利用率低、算法框架兼容性差、精度损失、AI框架碎片化等问题。

各家芯片厂商都积极自研适用于自家芯片平台的AI异构计算推理框架：前端支持主流神经网络训练框架的AI模型，后端支持多个硬件计算设备，如CPU、NPU和GPU等，同时提供模型轻量化技术等。致力于将AI大模型轻量化，将计算任务分配到不同的硬件计算单元，从而确保端侧AI大模型的稳定运行与高效表现。

在AI领域，异构计算的应用场景包括但不限于高性能计算（HPC）、人工智能训练与推理、物联网与边缘计算、5G通信、多媒体处理和云计算等。例如，在高性能计算场景中，异构计算可以加速汽车建模仿真、电子自动化设计与验证、生命科学等领域的计算任务；在人工智能场景中，它能够支持深度学习训练和推理过程中的大量矩阵运算，尤其是在大规模互联网应用中，如推荐系统、广告和搜索等。

紫光展锐在端侧大模型领域的布局和成果

紫光展锐紧跟当前业界端侧AI技术趋势，在轻量化技术、自研大模型推理框架领域都进行了布局，并构建了全新一代的AI计算平台，提供算法、软件、硬件全栈解决方案，与产业合作伙伴在相关领域建立紧密合作，推动芯片应用生态的建设与行业落地。

轻量化技术的研究

紫光展锐自研的UniQuant是一款AI模型量化和压缩工具，包含了多种先进的训练后量化算法，可以有效地减少模型的大小和计算量，提高模型的运行速度和效率。紫光展锐深入探索并实践多种模型轻量化技术，成功将大型AI模型压缩至适合终端设备运行的规模，使其保持高效能的同时降低能耗。

自研大模型推理框架

自主研发高效、灵活的端侧AI大模型推理框架，支持多种模型格式与量化策略，支持kv cache、混合量化等大模型加速关键技术，基于展锐芯片平台支持高性能异构推理加速，大幅提升端侧大模型推理性能，为端侧高效运行生成式AI提供了可能，实现模型与终端设备的无缝对接，优化系统架构，确保端侧AI大模型在不同设备上的稳定运行与高效表现。

目前，紫光展锐的端侧大模型已成功适配TinyLlama 1.1B，Google Gemma 2B，阿里通义千问0.5B/1.8B，Microsoft Phi3 3.8B，商汤Internlm2 1.8B ，面壁智能Minicpm 2B等业内主流大模型，在T820和S8000硬件平台实现了Tinyllama 1.1B首次推理延迟小于1s，推理最高可达12tokens/s。

端侧大模型趋势展望

随着技术的不断进步与应用的持续拓展，端侧AI大模型将引领一场深刻的交互体验革命。

未来的AI 智能体不再局限于单一的交互模式，而是融合了屏幕显示、语音对话、甚至是视觉和听觉感知等多种能力，成为了一个能够理解复杂指令、执行多样化任务的“超级助手”。它们可以根据用户的习惯和需求，提供定制化的服务，从日常事务管理到专业信息查询，无所不包。

在智能出行领域，端侧AI将赋能自动驾驶系统，实现更精准、更安全的驾驶体验；在PC与物联网设备中，端侧AI将让每一台设备都具备智能感知与交互能力，构建更加智能、便捷的生活与工作环境。

紫光展锐将持续深耕端侧AI技术，开拓商用AI终端新应用、新场景、新形态，为生产力提供数字化和智能化的先进工具，让端侧AI惠及千行百业。

科技举报

科闻社

天助自助者 |

465篇文章 | 39人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

紫光展锐科普 | 从云端到终端：端侧AI大模型的崛起与应用前景

科闻社
科闻社官方账号

科闻社

热点

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

紫光展锐科普 | 从云端到终端：端侧AI大模型的崛起与应用前景

科闻社 科闻社官方账号

热点

最近更新的专栏

风闻最热

全部专栏

科闻社
科闻社官方账号