高清视频“施压”服务器:RISC-V迎来破局点
在互联网的流量世界里,视频已经变成了一种无可争议的“绝对统治者”。从高清直播、短视频狂潮,到智能汽车的多路车载影像以及AI加持的智能安防,视频几乎无处不在。然而,在这场视觉盛宴的背后,行业却正在经历一场前所未有的“算力焦虑”。尤其是在视频逐渐走向诸如8K等高清分辨率的当下,这种紧迫感尤为强烈。
要了解这一点,就要从我们为何能从网络上看到视频说起。
视频背后的芯片:RISC-V崭露头角
作为互联网“原住民”,我们对于在网上刷视频这件事司空见惯了。但其实当我们点击播放网络视频时,背后其实正在进行一场精密的“接力赛”:内容创作者拍摄的原始视频经过视频编码技术,被压缩成极小的数字数据流并存储在服务器上,并通过光纤、基站等通信基础设施投放到你的设备上。最后,你的手机或电脑利用视频解码芯片和软件将这些压缩数据还原,以获得原始视频。
具体到网络视频的场景中,服务器端具有视频编码能力的芯片就像是一个云端的“万能超级转码工厂”:它通过采用诸如H.265等下一代超高效编码算法,在不损失画质的前提下极限压榨视频体积,从而为流媒体平台节省数以亿计的网络带宽成本,让千家万户都能享受流畅、高清的低流量视听体验。
根据爱立信移动报告指出,视频在移动网络数据流量的占比到 2024 年底已上升至约 74% 经济合作与发展组织(OECD)的数据显示,视频流媒体主导全球宽带,占总流量的超过 70% 。在这些数据推动下,行业对视频编码和解码加倍重视,能实现这些目的的芯片,就成为了我们能获得良好视频体验的核心。
对这个行业有了解的读者都知道,以前的服务器视频编码都是集成在英特尔、英伟达和Arm架构的服务器芯片中。然而,考虑到视频编码场景的依赖组件相对固定、生态适配成本低。具备天生优势的RISC-V架构服务器芯片,正在吸引这个领域从业者的目光。
众所周知,凭借其开源、模块化与高能效的创新架构,RISC-V 服务器芯片正成为下一代异构数据中心与算力基础设施的全新引擎。具体到视频编解码领域,正如相关人士所说,这种高度契合并不是指用 RISC-V 的通用核心去硬抗高密度的编解码计算(这通常由硬件加速器 VPU 完成),而是指 “RISC-V 架构 + 定制视频加速单元/向量扩展(RVV)” 的异构组合,完美踩中了视频数据中心的核心痛点。
据笔者了解,市面上有不少芯片厂商正在瞄准这条赛道发力。但和很多RISC-V应用一样,随之而来的生态和软件问题,正在给大家带来困扰。
要解决视频编解码的生态问题,首先就要了解 H.265 这样的技术。作为超高清时代的基石标准,H.265 以高压缩、高算力开销著称,而其在开源世界的落地,则高度依赖 x265 开源社区。作为全球最核心的 H.265 软件编码库,x265 社区汇聚了顶尖的多媒体开发者,通过极尽苛刻的手工汇编优化,将复杂的算法转化为 CPU 上的高效率运行。对于 RISC-V 等新架构而言,想要真正融入主流多媒体生态,就必须深度对接 x265 社区。
发力生态,打破最后一道屏障
然而,作为一个本就年轻的架构,RISC-V 在这些方面的支持就少。据了解,在项目初期,x265开源社区对RISC-V架构完全“零支持”,连基本编译流程都无法通过;而且,彼时的RISC-V核心算子层面优化空白,其初始性能远落后于主流架构,未达实用门槛。
在实际应用中,开发者还要关注转置(Transpose)这类基础高频的 “幕后操作”,因为这是真正决定编码效率(涵盖编码速度、压缩率和画质等编码器性能优化显性指标)的关键;此外,视频编码还存在海量图像块数据并行处理需求,适配SIMD并行计算架构。然而,该架构的寄存器仅支持连续行数据运算,行列计算切换时必须通过转置操作重组数据,这就更让转置(Transpose)成为编码流程中不可或缺的重要操作。
持此之外,运动估计、变换量化、环路滤波等视频编码核心模块都高度依赖数据搬移和访存效率,而转置正是其中最频繁出现的基础操作之一。如果转置效率不足,整个编码流水线都会受到影响。
于是,对于RISC-V而言,要实现与成熟架构相当的编解码性能,不仅需要突破单个算子的优化瓶颈,更需要补齐编译器、工具链和媒体软件生态等方面的能力短板。
在看到这种现状之后,中兴微电子旗下的砺睿微一方面率先向社区提交功能适配补丁,成功打通基础编译与运行链路;另一方面,砺睿微展开系统性深度优化,并凭借基于RVV 1.0与Zbb扩展的算子汇编级重构、跨CPU动态调优、无转置指令场景下的特殊处理等操作,全面释放了RISC-V在视频编码领域的潜力;此外,砺睿微还通过对x265编码器的深度软件优化,最终在RISC-V平台上实现了视频编码性能提升。
针对RISC-V指令集的天生痛点,砺睿微还通过深度软件优化,成功构建出多条高性能、可工程化的转置路径。在指令精选组合方面,依托最优指令搭配,实现低开销、高吞吐的数据重排;在寄存器内直排,通过摒弃内存中转,大幅降低运算延迟;在编译器深度调度: 优化指令流水线,拉高向量利用率。
据透露作为RISC-V技术生态的深度耕耘者和贡献者,砺睿微在x265开源项目中累计提交并合入29个补丁,共计16,787行代码,为x265视频编码器实现了约300%性能提升的优化效果。
得益于砺睿微和 x265 社区等企业的投入,视频编码行业正在向RISC-V徐徐打开大门。



半导体行业观察官方账号



