别让“3秒迟疑”毁掉AI的未来:RTE如何成为具身智能的“神经系统”?

试想一个场景:一个高度精密的具身智能机器人,它拥有完美的机械结构和运动能力,但当你向它发出指令时,它却需要三秒钟的“思考”才能回应;或者,它无法分辨你是在对它说话,还是在对客厅的电视说话。这个场景的“失真感”揭示了一个冰冷的现实:再强大的大模型“大脑”,如果缺少了实时、自然、情境感知的“神经系统”,就永远无法真正融入人类世界。

这种“实时交互”的瓶颈,正成为人工智能走向普适应用的核心矛盾。

而这个矛盾,却意外地让一个一度被认为“流量见顶”的赛道——RTE(Real-Time Engagement,实时互动)重新站上了风口浪尖。在近日的声网Convo AI & RTE 2025大会上,声网创始人兼CEO赵斌的演讲中暗示:RTE行业残酷的“中场战事”已经结束,而以对话式AI为核心的“下半场”,才刚刚鸣哨。

500“死水”下的暗涌:RTE的中场战事与AI的“引爆点”

回顾RTE行业的过去五年,可谓一言难尽。赵斌在演讲中并未回避行业的窘境。疫情带来的爆发式增长过后,WebRTC的全球流量曲线一度陷入了“波澜不惊,甚至死水奔腾”的状态。

与此同时,行业竞争格局急剧收缩。时间倒回至2020年前后,全球RTE赛道上曾涌现出超过50家厂商。而到今天,“已经寥寥无几”。一些行业巨头也明显减少了投入,甚至有巨头的相关SDK功能被下架。RTE似乎正在沦为一个高度同质化、依赖价格战的纯基础设施(IaaS)“管道”。

这是RTE的终局吗?

一个戏剧性的转折点发生在2025年的8月。赵斌展示的数据显示,WebRTC的全球搜索量突然出现了一个“前所未有的暴涨”,其热度甚至远超疫情初期的峰值。

500

引爆点,正是对话式AI

“这个新物种的到来,必然引起实时互动领域的一个新的创新热。”赵斌强调。如今行业开始意识到,要实现真正“对话”的AI,过去用于视频会议的WebRTC,远比仅用于推送消息的WebSocket是更优的通讯标准。

这标志着RTE的价值逻辑正在发生根本性转变。它不再只是人与人的连接管道,更开始成为人与AI”交互的必要通路。

AI的“社交尴尬”:从7%到100%的交互鸿沟

对话式AI的潜力毋庸置疑,但它的现状却充满了“社交尴尬”。

赵斌在演讲中生动地描绘了当下AI的“真实现状”。今天的AI,更像一个“书呆子”。你问它一个问题,它无法像正常人一样干脆利落地回答,而是“引经据典”地给你一大串学术回复。

而在实际的应用场景当中,AI的“引经据典”式回复,并不利于用户更为直接地接受答案,也让AI走向场景的“最后一公里”充满了阻力。

500

这种体验的背后,是著名的“7-38-55”传播定律在起作用。赵斌指出,在人类对话中,真正的内容(语言文字)只占7%,而38%的信息来自语气、语速、语调,55%来自表情和肢体语言。

今天所有的大模型,几乎都还停留在7%的“内容级别”对话上。它们能“听懂”文字,却无法“感知”情绪。

这就是RTE“下半场”需要解决的核心问题:如何让AI内容对话走向生情并茂的交流

这需要一个远超LLM本身的复杂技术栈。AI不仅要听清(降噪、回声消除),还要理解谁在说(声纹识别、远近场判断),判断何时说(基于延迟的打断与抢麦),并感知怎么说(情绪、韵律)。

这套技术栈,恰恰是RTE厂商过去十年赖以生存的“核心壁垒”。

声网的“解题思路”:从“管道工”到“AI神经系统架构师”

如果说RTE的“上半场”是解决全球网络的“通达”问题,那么“下半场”就是解决AI交互的“感知”问题。赵斌的演讲,实际上完整展示了声网如何基于自身优势,构建这套“AI神经系统”的路径。

这条路径可以拆解为三个层次:

1. 坚实的旧基建:音视频的极致体验

在AI时代之前,声网就已在音视频体验上投入重兵。例如,其AI降噪能智能过滤非人声,保障“有效”信息的传入;其自研的AI编码器,在同等算力消耗下,对比X264能减少42%的编码率,这直接推动了720P以上的高清视频在海外直播间占比超过80%。

没有这种高质量的“信号”输入,AI的“大脑”再聪明也无济于事。

2. 核心的新引擎Agora-LLM-Framework

这是声网应对AI挑战的核心技术答案。赵斌特别强调,这是一个基于大模型底层的框架,它追求的是高效率、高并发和深度的平台结合能力。

这个框架的定位,是对话式AI的“编排层”或“中枢神经”。它负责连接LLM(大脑)、RTE网络(传输)和音视频处理(感官),解决AI交互中的上下文管理、多轮对话流转、以及实时性能问题。与传统解决方案只是做声音交互的处理“管道”不同,声网的方式,更像是要成为AI交互的“调度中心”。

3. 完整的工具链Convo AI 2.0与生态

在引擎之上,声网推出了Convo AI 2.0产品套件。它直接针对AI的“书呆子”问题,提供了对话上下文管理、声学特征处理、自然度管理等功能。

同时,他们推出了“AI评测平台”和“对话式AI Studio”。前者帮助开发者在众多模型中选择响应最快、效果最好的组合;后者则降低了AI应用的开发门槛。

500

声网的策略是清晰的:RTE的音视频处理能力为底座,以Agora-LLM-Framework框架为引擎,以Convo AI 2.0和工具链为抓手帮助开发者快速构建真正可用而非可演示AI应用。

RTE正成为AI的“第四种”基础设施”

当AI学会“说话”,它将撬动多大的市场?

赵斌在演讲中描绘了几个确定性极高的爆发领域。首先是AI陪伴,这个赛道有潜力从几十亿美元增长至千亿美元级别。其次,在客服、教育、游戏NPC、专业助理(如医疗)等领域,对话式AI正在全面渗透。

更有趣的判断,来自于对“AI硬件”形态的思考。

下一个“iPhone时刻”会是什么?赵斌认为,主流形态很可能不是一个全新的计算设备,而是以智能眼镜、耳机、手表、戒指自然佩戴的设备形态出现。AI助理将“无处不在”,你使用什么设备,它就出现在什么设备上。

这对RTE提出了极高的要求:必须具备跨平台、低功耗、高并发的运行能力。

但一个更具“戏剧性冲突”的未来是,为了提供极致的个性化助理服务,可能会出现一种“7x24小时”的个人设备,像“行车记录仪”一样,持续收集你所处的环境和经历的事件,以便“比你更了解你”。

“这一点,我相信也会越来越多地比它更大的,对于数据安全和个人数据所有权以及控制权的关注。”赵斌冷静地指出。他甚至预言,未来两三年,AI的发展也会逐步翻山对于欺诈或隐私安全事件的防范,从而重塑行业的监管环境。

无论是哪种未来,RTE的价值都已今非昔比。

从CDN(内容分发),到通用的计算(CPU),再到AI训练的算力(GPU),而下一个演进方向,必然是支持实时AI编排的基础设施。

对话式AI的爆发,正在将RTE从一个“可选”的通信模块,推向了AI时代“必选”的基础设施。RTE行业的中场战事或许已经结束,但一个由AI开启、关乎“感知”与“交互”的宏大下半场,正徐徐展开。

站务

全部专栏