AI 翻译耳机赛道 “卷” 出新高度,王炸属性拉满!

  “ 不要 998,不要 98,只要 9.8,就能把高科技 AI 翻译耳机带回家。”

  这句看起来有点闹着玩的广告语,却捧出了一个大杀四方的品类。从去年黑五拉爆销量后,一直火到现在。

  各种价格只要 10 美刀左右的 AI 翻译耳机,开始在 TikTok 疯狂推流。随便一条试用视频,就能拿到几十万点赞。

  视频里的博主们带上耳机之后,终于听懂了那些越南美甲师们,到底在悄悄聊什么。

  老外们纷纷留言表示,种草了、心动了,并把产品销量也顺手拉爆了。

500

  这还只是整个市场的冰山一角。现在打开购物软件,输入关键词【 AI 耳机 】,就能找到几千到几十块不同价位的选择。

  从名不见经传的小作坊,到国际知名的大品牌,都在这个战场里贴身混战。

500

  以上画面,对于经过智能手机发展的人来说,估计并不陌生。

  就像 2010 年前后的手机大混战时代一样,既有靠着高额补贴起家的“ 中华酷联 ”,也有乐视这些跨界选手。残酷的洗牌和行业竞争,无数厂商上演了进场和离场的割韭菜的故事。

  现在的翻译耳机市场的热闹程度,也大抵如此。

  就像安卓系统的开源挑起了战争,大模型的出现,也冲开了行业的水阀。无数半路转行的小白,靠着现成的开源大模型。仅仅用半年不到的时间,就能把产品送上线。

  然而,上个时代经验告诉我们的,混战落幕之后,只有能提供稳定服务,持续不断迭代的厂商,才能穿越周期,最终留下来。

  翻译本质上是一个很难被校验的行业。却又往往用在商务、贸易之类的重要场合。用户往往要求的不只是可以翻,更需要翻得准,翻的快。

  一旦出错,代价可能就是丢订单、或是支付巨额付违约金,造成经济与信任双损失。

  要想把一句简简单单的外语真正翻对、翻好,能撑起的高标准用户群体的需求,背后必须经过好几道工序和技术的层层加码。

500

  首先就像写好字前,笔得先拿稳,你得先能听得准,才能翻得对。

  别看这一步似乎很简单,实际上背后全是门道。很多做国际贸易的人都知道,国际展会、工厂拜访这些地方人多,机器轰鸣嘈杂。人耳都经常错听,让机器来听,更是可能听得牛头不对马嘴。

  最后出现了“ 马冬什么梅 ”现象,导致今晚吃啥和上亿合同报价,可能被识别进了同一个句子。一句数据或者行业数据没听准,可能就是巨大的损失。

  因此,科大讯飞在近期发布的新品 AI 翻译耳机,给行业带来了一个全新的思路——全球首个开放式的骨导 + 气导的开放式耳机方案,充分的考虑到陌生客户时开放式的耳机,对方更容易接受佩戴。

500

  这套方案的有趣之处在于其【 软硬兼施 】的多感融合 AI 降噪系统。大幅度提升整体翻译的准确度。

  经常跑会的人,肯定懂降噪的含金量。想象一下,你正身处一个喧哗的展会里,此时聊了一个月的重要客户打来电话。过去,你只能狼狈地到处找安静角落回拨,现在使用讯飞的翻译耳机,就能进行一场清晰的跨国对谈。

500

  当天知危编辑部也上手体验了一下,在周围都围满了观展人的情况下。科大讯飞的翻译耳机也清晰地捕捉我和对话者的声音。

500

500

  有了清晰准确的收音后,接下来,就是要琢磨怎么才能翻得快、翻得准。

  虽然现在通用大模型也能翻译个七七八八,可是你有没有发现,它们总是翻得特别慢。

  如果你用过那种翻译工具,肯定经历过那种“ 大眼瞪小眼 ”的尴尬时刻。两个人明明在面对面说话,却总感觉隔靴搔痒般不得劲。一句简单的问候也转译个五六秒,交流速度一夜之间倒回了 2G 时代。

  在日常交流中,两个人最多只是有点尴尬。但在分秒必争的商业战场上,则可能是致命的。

  一场决定项目归属的跨国谈判中,对方语速极快地抛出一个对你极不利的条款。你再怎么急迫,也只能等手边的翻译机慢悠悠地显示出结果。当你终于等到译文,对方可能早转下一个议题了。

  这其实是AI翻译行业公认的一个难题,因为传统翻译遵循的是“ 语音识别( ASR )→ 机器翻译( MT )→ 语音合成( TTS )”的级联架构。

  我知道听起来有点难懂,一句话概括就是:看似是语音同传,但脱下衣服一看,其实本质是文本翻译。

500

  一句话要先语音转文字,翻译成文字后才能转译,最后再将译文合成为语音。

  就好像在玩你画我猜的游戏,本来 A 可以直接告诉 B。结果中间偏偏多了几个传话的人,不仅导致效率大大变慢了,而且特别容易信息误传和丢失。

  讯飞翻译耳机则模仿真正的同传翻译官,采用了端到端技术。直接是语音对语音的翻译,砍掉了中间多余的语音转文本环节。讯飞目前在做的就是拓展端到端同传的覆盖语种,增快翻译速度。

  一个是点对点直达的闪送包裹,一个是要经过好几个中转站的传统快递,效率自然已经不是一个 Level。中英同传速度直接压缩到了首字响应快至 2 秒,比传统方案快了整整一倍。

500

  这也已经达到了高阶同传译员的行业标准。一个案例就能证明科大讯飞对于这套技术十足的信心。

  科大讯飞翻译耳机总经理林会杰在发布会现场,直接跨越了 6000 多公里,和迪拜的朋友打了一通远洋电话。即便远隔重洋,现场一问一答,依然丝滑流畅。

  达到这个程度,这款翻译耳机就已经足够可靠。但科大讯飞的目的,是让这款产品能真正在工作和生活里用上。不仅要翻得够快、够准,能适应嘈杂的复杂工况,也要能即拿即用,随时待命。

  它们先是内置了 AI 语音助手,让它不仅是翻译助手,更是一个能随时呼出的智能体小秘书。

  只要喊“ 小飞小飞 ”,再用一句话抛出你的问题,不管是查天气、查资料,还是练口语,私人助手就能随时响应。

500

  其次考虑到国外很容易出现断网、信号延迟的问题。一旦没信号,再牛的大模型来了都得遗憾离场。所以专门调试了端侧离线模型,能在无网络情况下,做到接近在线大模型的翻译效率,完成 18 组语种翻译。

500

  当然了,作为翻译国家队的科大讯飞,其优势肯定远不止这么一款耳机。

  现在翻译产品这么多,但不管是价格战,还是营销战,都没有动摇科大讯飞在行业的里的地位。

  经过十几年的技术积累和布局之后,科大讯飞早已经形成了自己的护城河。

  而对于有更严苛、更高端的商务、外事服务用户来说,科大讯飞也就代表了 AI 翻译产品可能的上限。

  说个可能有点粗暴的比喻,通用大模型打磨的产品,和科大讯飞相比,就像学校食堂和私人厨师一样。

  通用大模型就是食堂里分配的盒饭,你最多只能选 15 块还是 30 块的。但菜色( 功能 )都已经定死了,你也不求它多好吃( 好用 )。

  本质上只是停留在【 能翻 】,远远没法让专业人士们能实打实拿来用的程度。你不可能去带着重要的客户去吃标准化的快餐,不仅要吃饱还得能吃好。比如说降噪打磨不好,声音识别不清楚,最后录出来的东西都不能用,一场会议可能就泡汤了。

  而科大讯飞则是更像场景化的私人厨师,不仅是能做的好吃,更有能力为不同场景、不同需求的用户,给出不同场景下的解决方案。

  这样的能力,首先靠的是“ 国家队 ”级别的技术底子作为支撑。

  科大讯飞从 2012 年以语音合成起步之后,就不断和语音、文本打交道,一步步积累至今,是正儿八经的中国人工智能开放平台的【 国家队 】,并承建了全国唯一的认知智能全球重点实验室。

500

  做到全链路自研,算力是和华为一起硬磕出了一套国产解决方案。自研的星火大模型代表了全世界 AI 翻译模型的顶尖水平。使得科大讯飞能够不受限于第三方的技术迭代速度,拥有自主的“ 进化主权 ”。

  简而言之,用户选了科大讯飞,就等于无脑选了一份安心。

  这份安心有足够坚实的数据做支撑,IDC 发布的最新翻译报告《 中国 AI 翻译技术评估 》中,科大讯飞在翻译速度、翻译效果、翻译专业度等 8 个核心维度里,排名第一,有 6 项是拿下了满分。

500

  其次再好的技术,也要好的产品来承载。

  科大讯飞已经完成从翻译机、AI 录音笔、翻译耳机等硬件,到翻译 SaaS 平台、翻译 APP 、多语言会议系统、讯飞同传等一整套“ 软硬一体 ”的生态链搭建。从语音到文本,从图片到视频,硬件到软件,端侧到云端,覆盖几乎所有场景。

  不论你有任何的翻译需求,去科大讯飞的全家桶里找找,总有一款是适配你的。

  同时,背靠科大讯飞的生态能力。只要一个账号,就能打通不同产品之间的数据。用翻译机去拜访客户,信息会储存在 SaaS 平台,即便丢失设备,信息也会永远留存备份。考虑到不同的用户习惯,也可选择离线模式,不进行内容上传。

  最后,也是最重要的“ 长期主义 ”的稳定服务。在 AI 硬件厂商混战的时代,除了要看产品能力外,更看中一家厂商的寿命,能否持续长线运营。

  现在很多人不敢买没有大厂托底的新能源车,本质也是对于品牌持久度的不信任。

  举个再贴身的例子,早年知危编辑部用过一个叫 ThL 糖葫芦的手机,在2013年第一个用上 1300 万像素后置镜头的手机,该手机一发售就被疯抢。但等后盖需要修的时候,厂商早就没有售后了,这牌子发售的时候可是在各大中小城市有很多门店,在伦敦都开始打起了广告。

  在翻译行业也同样如此,即便拥有如此多产品线,但科大讯飞从来不是做完一个产品就结束了。而是根据用户的反馈,不断地升级。

  此次发布会已经是端到端技术在今年的第三次大更新。不仅同传速度和准确度不断攀升,还根据用户需求,增加了阿拉伯语和西班牙语。

  为用户的生意版图和旅行地图,拓宽了两个关键区域。阿拉伯语则是联合国的六中官方语言之一。西班牙语则是全球第二大使用人数的语言,拉美地区基本都以西语为官方语言。背后是巨大的商业潜力,知危编辑部查询得知光是西语系地区,和我们国家贸易总额就超过了 2.3 万亿人民币。

  除了翻译耳机外,科大讯飞的王牌产品讯飞双屏翻译机 2.0,也在此次发布会上迎来了新一轮的大更新,释放了部分升级亮点预告:

  会议翻译支持讲话人分离功能:中英会议翻译模式下,可以做到智能区分讲话人,还可以对各位讲话人设置专属名称,避免多人跨语言会议中出现“ 话不对人 ”,保证会议节奏同步,达到更自然的会议沟通效果。

  新增会议纪要生成与记录分享功能:会议翻译与旁听同传两大功能将支持基于识别/翻译后的中文内容,通过调用星火办公大模型,对会议内容进行智能纪要整理,同时还支持用户对翻译内容和会议纪要进行分享。

  发布会现场知危编辑部对【 群组翻译 】能力的演示感觉也比较深刻,讯飞翻译机产品总经理孙境廷在现场直接拉了四个不同语言、不同文化的人上台,实机演示。

  不论是汉语、英语,还是阿拉伯语和韩语,大家畅通无阻的在同一屏交流。翻译内容会逐句显示,为了避免信息遗漏,会同步展示原文和译文。还增加了播报功能,点击即可朗读,并目能调节语速。

500

  而在这场发布会上,知危编辑部不仅窥见科大讯飞能力的一角,更逐渐拼凑出其锚定全球市场的野心。科大讯飞的目标从一开始,不只是局限在国内。

  在全球化日益频繁的今天,中国和世界双方奔赴早已成为不可逆的趋势。

  在旅游方面,中国的朋友圈越来越大,已经和 29 个国家实现互免签证,单方面免签的国家就更多了。老外出现在中国街头,几乎已经稀疏平常的事情。

  而随着一带一路等全球性政策深入推进,外国在商务、外事交流上,对中国的需求都愈来愈大。

  因此科大讯飞想要打破语言隔阂的“ 巴别塔 ”,成为连接世界的桥梁。既帮助中国企业“ 走出去 ”,同时也帮外国企业“ 走进来 ”。

  这也是为什么这次发布会,选择了和远在 6000 公里外的迪拜跨国连线。讯飞已经累计服务了全球 50 多个国家和地区,支撑起超 42 万场会议。SaaS 海外用户突破了 150 万,成为欧美跨国企业供应链中的一员。

  现在的科大讯飞,早已成为了各种国际展会标配。甚至一场会议到底够不够国际化,就看是否有科大讯飞参与。

  足迹遍布冬奥会、残奥会、布达佩斯世界田径赛等各种国际赛事。今年的 WAIC,科大讯飞也作为唯一翻译合作伙伴,为现场观众优雅破译了辛顿的伦敦腔。

500

500

  聊了这么多,最后让我们回到最开始的那个问题。

  为什么 9.9 美元的翻译耳机,能够在全世界范围内走红?这本质上是因为,耳机这个产品是目前最理想的无障碍方案。

  它最贴近人耳,可以长时间佩戴,使用场景更广,能无缝融入旅行、商务、学习等无数场景中,最符合人类自然使用习惯。

  因此人们对这个形态的产品,有着巨大的期待。但很多粗糙的产品只抓住了大家对于这个形态的需求,解决了“ 有没有 ”,却远远没有够到“ 靠谱 ”。

  现在,科大讯飞这套软件+硬件+服务的闭环生态链,或许真的有可能在我们耳朵里,内置一个“ 永远在线、及时响应 ”的同传翻译。

  使得未来可以一人一只耳机,走遍全世界。让人们实现“ 打破巴别塔隔阂 ”的梦想,从耳朵里这个小小的设备开始,找到通往无障碍的路径。

站务

最近更新的专栏

全部专栏