让AI开口“像人”:最难的不是智能,是“嗓音”

500

Voice Agent 赛道正在爆发,但它迫切需要一个能让对话真正流动起来的底层引擎。

作者|Li Yuan

编辑|郑玄

2025 年过了大半,几乎可以确定,今年 AI 最热的赛道之一,就是 AI 陪伴类的硬件。

AI 擅长情感陪伴,我们早就从那些火爆的陪伴类 App 里领教过了。今年 AI 陪伴类的硬件热潮背后,其实更是 AI 语音技术的迅速成熟。

今年,你是不是也接到过 AI 销售的电话?从过去僵硬的机械音,AI 销售的推销目前已经到了几乎完全自然的语音对话。NotebookLM 火了一整年,也催生了一堆 AI 播客产品。AI 口语陪练 App 正在大把赚钱,更不用提 AI 虚拟伙伴和虚拟主播。

其实,这些具体应用的背后,都是一个新的赛道:Voice Agent(语音智能体)正在快速发展的后果。从幕后到台前,"Voice Agent" 正在开启大规模渗透,也因此催生了一批备受资本青睐的初创公司。

这一波渗透浪潮,让人们直观地感受到 AI 语音的「可用性」——它不再是遥不可及的未来技术,而是已经能创造商业价值的工具。但当行业试图将这些 Voice Agent 从早期尝鲜,推向大规模、高标准的商业场景时,问题也迎面而来:AI 语音系统已经到达可用的地步,然而这并不等于技术已经稳定好用。

想要实现一个好的 Voice Agent,大模型的「智商」只是底座。在交互的临门一脚,也就是「嗓音」层面,延迟、情商(拟人度)、个性化声音质感、流利度,每一样都不能或缺。行业实践早已证明,超过 1 秒的延迟就会打断对话节奏;而机械的播报,比如无法正确读出网址、邮箱或日期,则会瞬间暴露 AI 的「非人感」,这在专业的 B 端场景中是致命的。

这些细节体验,每一样都可能带来客户的大幅增加或流失。

Voice Agent 赛道正在爆发,但它迫切需要一个能让对话真正「流动起来」的底层引擎,一个能撑起下一代交互体验的 TTS 模型。竞争的焦点,已经从 LLM 的「大脑」,延伸到了 TTS 的「嗓音」。谁掌握嗓音,谁就掌握着下一代 AI 商业化的钥匙。

而 10 月 30 日 MiniMax 发布的 Speech 2.6 模型,似乎正是一个专为解决这些痛点而来的答案。

01

Voice Agent:AI 时代的交互界面

那么,到底什么是 Voice Agent?

简单来说,它是一个「能说话的智能体」——用户开口说话,它理解、回应、执行,一切都像在和人交谈。

和文本交互相比,语音的优势是压倒性的:它更自然,也更符合人类本能;比文字更快,也更适合即时沟通;同时语音更具情感温度,也更容易与人建立连接。

许多早期的 AI 产品早已证明了这一点。比如 AI 女友应用 Dolores 的开发者就发现,平台上 70% 的收入都来自于语音的购买。开发者曾经感叹道:「人们真的会为那几句逼真的『我爱你』付费。」

而对于企业而言,Voice Agent 意味着「成本更低、速度更快、更可靠的服务」,能让企业实现全天候待命:它们是 24/7 在线的银行、保险、物流 AI 客服;是汽车里帮你导航和控制空调的智能助手;是医疗场景中帮助医生自动生成病例的记录员……

500

语音本身就有天然优势,而 Voice Agent 的爆发,更来自底层技术的突破。

自从 2023 年开始,TTS 技术被广泛运用在配音、数字分身、语音助手等方向,并开始出现爆发式的增长,可用性大幅提高。这背后是模型架构的革新,尤其是基于 AR Transformer 等新架构的出现,让语音合成的自然度和表现力达到了新的高度。

硅谷顶级风投 a16z 近期发文,表示 Voice Agent 正在成为「AI 时代的交互界面」和「下一代 SaaS 入口」。

一个完整的 Voice Agent 交互中,通常有这样几个模块:

语音识别 (ASR):首先,ASR 模块负责「倾听」,将用户的语音转换成文本。

大语言模型 (LLM):接着,LLM 作为「大脑」,理解这些文本的意图,思考并生成回应的文本。

语音合成 (TTS):最后,TTS 模块(Text-to-Speech)作为「嗓音」,将 LLM 生成的文本答案,转换成我们能听到的、自然的语音。

如今,语音识别的准确率已经非常高,而大模型的差距正在缩小,真正的竞争已转向交互的「最后一公里」——那副负责「开口说话」的嗓音,也就是 TTS 模型。TTS 是交互的最后一环,直接决定了用户的主观体验。

一个普遍的误解是,TTS 只要「清晰可闻」就足够了。但在真实的商业场景中,这远远不够。决定一个 Voice Agent 成败的,从来不是单纯的清晰度,而是交互是否自然、可信、顺畅

语音交互对实时性的要求极高。保险电销的实测数据表明:AI 坐席必须在客户说完 1 秒内接话,否则「机器感」就会瞬间出现。传统语音链路(ASR + LLM + TTS)是串行处理,每一步都要等上一步结束,延迟常常高达 2~3 秒——在真实对话中几乎不可接受。

如果说低延迟是门槛,而「拟人感」则是灵魂。

一段富有情感的声音,能瞬间建立陪伴感与黏性。C 端用户追求沉浸与共鸣,一个机械音足以让人出戏;B 端企业则依赖语气的自然与可信,才能传递专业形象。

拟人感也包括足够聪明——比如,AI 客服需要读出 max-support@tech.com。一个「笨」的 TTS 会念成「max 减...」,而「聪明」的 TTS 则会读成「max 『杠』...」。这不仅考验模型的语音理解能力,也依赖于丰富的本地语言数据去支撑训练。

不同的 TTS 在表面上看起来似乎差别不大,但真正的差异藏在细节里——只有开发者才感受得到,而用户的留存,正是被这些细节一点点改变的。哪怕只是降低一秒延迟,用户也可能因此留下。

02

为 Voice Agent 而生:

MiniMax Speech 2.6

什么样的语音模型,才算是为 Voice Agent 而生?

在语音生成这条赛道上,MiniMax 一直是榜单常客——AA、Hugging Face 榜单第一已成常态。不过,近期 Minimax 发布的 Speech 2.6 模型,专为 Voice Agent 打造,MiniMax 交出了一份更惊艳的答卷。

直接看 Demo,就能感受到变化。

在官方发布的这段模拟客服场景 Demo 中,Speech 2.6 模型声音的表现力十分惊艳。

模型的女声客服并非匀速的机械播报,而是充满了细节。语言有时候快,有时候慢,这种语速的自然变化和节奏感非常接近真人对话。更关键的是,它甚至会生成一些极其拟人的微小停顿和吸气声,仿佛在思考或组织语言,这让「真人感」变得极强。那种微妙的节奏感,让人第一次觉得 AI 的「嗓音」是有呼吸的。

而在这些「听起来很自然」的背后,是一组更为惊艳的数据。

首先,Speech 2.6 就对准了 Voice Agent 的生死线——延迟

MiniMax Speech 2.6 将首包(First-packet)响应时间压缩到了 250 毫秒

这是一个什么概念?行业实践和一线项目的共识是,1 秒(1000 毫秒)是语音交互体验的绝对分水岭。一旦延迟超过 1 秒,对话的节奏就会被彻底打断,用户的感知会立刻从「交谈」切换为「等待机器响应」。而 250 毫秒,意味着从 AI 的 LLM 大脑「想」完答案,到 TTS「开口」说出第一个字,中间的停顿几乎符合人类的生理感知极限。这为实现真正流畅、可打断的实时对话流(Real-time Conversation Flow)提供了最关键的技术前提。

在语音赛道,MiniMax 的指标一直与 11Labs 这样的国际头部玩家「有来有回」。据一些行业测试披露,虽然 11Labs 官方声称其延迟可达 75 毫秒,但根据他们北美客户的实际测试,其在真实网络环境下的首包延迟也在 200 到 300 毫秒区间。从这个角度看,Speech 2.6 的 250 毫秒,是一个在真实商业环境中可稳定复现的、极具竞争力的低延迟数据。它解决的是 Voice Agent 场景下最基础、也是最致命的「停顿」和「卡壳」问题,让对话得以真正「流动」起来。

更令人惊喜的,在一些决定专业度的小细节上,Speech 2.6 做得也非常不错。

我们在官网的体验区发现,这次更新的 Speech 2.6 模型现在能正确读出电话、邮箱、网址、数学公式等结构化文本。    

比如在这次测试中,笔者让它读出极客公园的网址,效果相当不错。

它不仅按照中文习惯读成了「点 net」,前面的英文部分也没有机械地一个字母一个字母拼读,而是自然地读成了「geek」和「park」两个单词——更符合语义,也更像人。         

更有趣的是数学题的测试。笔者随手从网上找了一道初中水平的题目讲解,让它来朗读。

除了加号、等号、根号这些常见符号读得准确,最让人意外的是,那些久违的「因为」「所以」逻辑符号,它也能正确读出——连笔者这个早已离开课堂多年的成年人都愣了一下:原来是这样读的。

更妙的是,它对「x」的处理方式。那种读法,听起来就像中国人平时念「x」时的口音。当我选了一个老奶奶的声音来合成时,整段讲解突然有了熟悉的画面感——就像长辈在耐心地给你讲题。

这个功能对于 B 端开发者来说价值巨大。过去,当 LLM 需要播报一个邮箱或网址时,开发者必须在 TTS 上游额外搭建一套繁琐的文本预处理(Text Normalization)规则库,用正则表达式或硬编码,手动「翻译」文本,否则模型就会出错。

而当模型更聪明,B 端厂商和开发者的技术栈就被极大简化了,显著降低了文本准备的复杂度和维护成本。

在官网上,笔者发现 MiniMax 还专门针对 Voice Agent 的长尾需求做了不少处理。

比如在声音复刻技术上。在真实的商业场景中,企业可用的原始素材往往是「不完美」的。比如,用于复刻的录音可能来自非母语人士(带有口音),或者在录制时有轻微的结巴、不流利的停顿。

传统的声音复刻模型只会忠实地「复刻缺陷」。这导致生成的语音虽然音色很「像」,但听起来「不专业」、「不好听」,在客服或电销这类需要高度专业形象的场景中根本无法使用。

Speech 2.6 新增的 Fluent LoRA 模型,正是为了解决这个「复刻缺陷」问题。它能够在声音复刻的场景中,即使用户上传的是一段不流利的素材(如结巴、口音、非母语),也能够智能修正,复刻出一个流利、自然的表达。这极大拓宽了声音复刻的可用素材范围,让 B 端厂商在追求个性化音色的同时,不必再为素材的「不完美」而妥协,保证了 Voice Agent 对外输出的专业形象。

MiniMax 这种为 B 端落地扫清障碍的思路,不仅体现在「音色流畅度」这种精细的「深度」上,也体现在「多语种覆盖」的「广度」上。在多语言的支持上,Speech 2.6 此次支持四十多个语种,这为需要构建全球化产品的 AI 出海团队提供了坚实的底层支持。

MiniMax Speech 2.6 的升级路径非常清晰:它不再满足于做那个「指标刷榜」的 TTS 模型,而是通过解决延迟、智能和流畅度这三大难题,真正成为开发者最爱用的,下一代 Voice Agent 场景中,那个最稳定、最智能、最高效的「语音底层」。

03

谁掌握声音,

谁就掌握下一代 AI 商业化的钥匙

大模型的技术竞赛,显然已经进入了下半场。

如果说过去两年的主题是「炼大脑」——比拼的是谁的 LLM 更智能、参数更高、跑分更强——那么现在,人们除了关心模型的智能能力,也关注正在谁的商业化能力更强。

当 Voice Agent 正在成为下一代 AI 商业化的入口。在这场「Voice-First」浪潮中,LLM 负责「想」,TTS 负责「说」。AI 想得再聪明,也得说得自然,才能被人真正接受。谁能掌握更拟人、更低延迟的语音能力,谁就更有机会拿到商业化的「入场券」。

MiniMax 这次的 Speech 2.6 模型,让我们看到了它研发的能力和商业化的潜力。

在「声音」这个越来越关键的技术赛道上,MiniMax 早已是头部玩家。它的技术底蕴,来自于对底层架构的自研——基于 AR Transformer 模型的高质量 TTS 系统。这种架构选择使其在语音的自然度、表现力和多语种支持上获得了先天优势。

在开发者生态上,MiniMax 的布局同样稳健。海外多家主流 Voice Agent 基础设施平台 已将其语音能力接入:包括曾为 ChatGPT 高级语音模式提供工具的 LiveKit、GitHub 热门开源框架 Pipecat,以及 YC 孵化的语音部署平台 Vapi。对这些底层平台而言,接入哪个 TTS API,本身就是对其性能与稳定性的认可。

500

在国内,MiniMax 的语音能力也深度融入多个商业场景。从 Rokid Glasses 等 AR 设备,到 荣耀、魅族 等智能终端,再到 AI 玩具 Bubble Pal;从 超级小爱、纳米 AI 搜索、Key AI、MegaView AI 助手 到 Fuzozo 平台;乃至教育与垂直领域的 听力熊精准学——几乎所有语音交互形态,都能听到 MiniMax 的声音。

一个值得思考的问题是:一个技术指标早已登顶、同时被海内外「基础设施」和「终端产品」双重验证的语音模型,为什么还要专门为 Voice Agent 再做优化?

答案或许是——正因为有过大量落地实践,MiniMax 比别人更早、更清晰地看到了 Voice Agent 场景的真正痛点。

Speech 2.6 的发布,正标志着 MiniMax 先于其他公司的关注点转变:从「声音好听」,迈向「声音能落地」。

「好听」是一项技术指标,关乎音质、韵律与自然度,但要真正落地,还要解决更复杂的问题:延迟、智能与拟人。它解决的是开发者在落地时最棘手的问题,是 AI Agent 能否摆脱「机器感」、实现「专业度」的临门一脚。

通过在底层引擎中内嵌「智能化」和「流利性」,Speech 2.6 极大地释放了上层开发者的生产力。开发者不再需要耗费巨额成本去搭建繁琐的文本预处理规则,也不再需要为不完美的复刻素材而苦恼。

通过提供一个更快、更聪明、更流畅、更全面的语音底层,MiniMax 正在为整个 Voice Agent 赛道「减负」——

让开发者能更专注于 LLM 的业务逻辑与场景创新。

在大模型竞争的下半场,谁能为下一代交互——Voice Agent 提供最无缝、最自然、最智能的声音交互,谁就掌握了商业化的钥匙。而 MiniMax 看起来,正在握紧这把钥匙。

*头图来源:由AI生成

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

站务

全部专栏