人机大战2.0:一个耳机,就能抢同传的饭碗?
前两天,我去深圳围观了一场AI翻译和人类同传的对决。
坦白说,比赛开始之前,我心里一直在犯嘀咕。
众所周知,同声传译是翻译行业的天花板,而且这次参赛的人类译员队,有人从事大型跨国企业的翻译,有人为国家政要担任过同传,可谓高手中的高手。
而AI翻译队,是时空壶W4 Pro AI翻译耳机。
去年9月,国际消费电子展(IFA)期间,我介绍过时空壶W4 Pro,当时,这款耳机的定位还只是“个人语音翻译助理”。
到12月,W4 Pro先是和翻译专业的同学来了波人机大战1.0,今年3月份,又登上了《新闻联播》,足足报道了4分钟,排面拉满。
到6月,更是直接和高级译员PK上了。
这是啥速度,能在短短9个月的时间,从“个人助理”向“高级同传”发起挑战啊?
答案很明显,AI。
保守地说,AI一天,人类100年,现阶段的AI,当个智能翻译助手问题不大,但同声传译毕竟不是文字翻译,AI要完成“拾取声音—转为文本—云端翻译—语音输出”这么一整套流程,要求你必须听得懂、翻得快,还要译得准。
虽然我看好AI的能力,但和经验丰富的高级译员对战,初出茅庐的时空壶W4 Pro感觉不妙啊。
反过来,要是AI翻译赢了,是不是AI取代人类的清单上,又多了一个同声传译?
但看完比赛后,我发现事情还有第三种可能。
咱们先说比赛。
整个人机大战2.0共有两个环节,第一个环节是「基础翻译」。现场邀请英、日、法、西班牙语语种的外籍人士朗读相应的外文,AI翻译队和高级译员队以同传的方式输出,再由评委按照准确性、流畅程度、专业适配性和文化适配性进行综合打分。
万万没想到,一上来就是大活儿。
首先是口音问题,也不知道是上台紧张,还是并非母语,英语朗读者很多词吐字不清,让我一度怀疑自己的耳朵,法语咱也不懂,但主持人形容语速挺快,好像在唱Rap。
其次是内容过于专业,日语题中,出现了西安钟鼓楼、明神宗万历10年这种历史、地标性词汇,西语翻译则是大量的医疗专有词汇,非医学专业看完两眼一黑。
不过,这也算是同声传译的日常。
毕竟,不是所有人都会标准的播音腔,而且不同行业都有专业性极高的词汇,需要进行大量前期准备。
第一个环节,高级译员的速度更快,基本上第一句念完,翻译就能跟上,很多专业性词汇,像是前面提到的钟楼、鼓楼,还有一处专业地名「迎祥观」,译员也进行了准确翻译,但是当信息密度过高时,会遗漏一些关键信息。
而时空壶AI队在一开始,会有大概3-5秒的延迟,但一旦开始翻译,就能稳定输出,准确性、完整度也几乎无懈可击。除了个别专有名词无法准确表述,比方说「迎祥观」,大模型训练时「迎宾馆」出现的次数更多,权重更大,AI翻译就把「迎祥观」翻成了「迎宾馆」。
到了第二个环节的「关键词提取大比拼」,更是加上了嘈杂的环境音,专业度极强的量子计算、哲学、美学等概念,再加上三哥咖喱味的英语,直接给比赛上了个强度。
综合来说,时空壶AI队和高级译员队各有优势:
人类译员跟着讲者翻译,能更好地还原当时的语气和感情。就像商务谈判中的“No”,如果不是对方明确拒绝,就有谈的空间,也就意味着“Yes”。
但在兼顾听、记、译、说的情况下,人类译员会因为高强度多线程工作可能出现疏漏。
相比之下,AI就像一个么得感情的翻译器,可以通过理解上下文,生成准确的翻译,也不会像人一样受到环境的影响。
但也正因为要理解上下文,AI翻译会显得慢上半拍。
两轮比赛下来,时空壶AI队和高级译员队各有千秋,最终AI队以1170的成绩,赢得了这次人机大战比赛。
AI翻译比同传译员得分更高,是不是意味着AI就要取代同传了?
我问了现场AI领域、翻译行业的专家,学者,他们的回答惊人的一致:
AI不会取代人类。
AI翻译更高效、更准确,而且不知疲倦,而人类译员更有温度、更能传递情绪,更适合文化交流,双方侧重点不一样。
因此,AI翻译和人类不是你死我活的竞争,还有第三种可能:人机协同。
我们完全可以把AI作为工具,完成基础性的翻译工作,再由人类去完成更高级的文化沟通,情感交流。
实际上,现在很多业内人事,都会借助AI工具来提升工作效率。
现场参赛的那位日语同传译员跟我说,她平常经常会用到AI,很多工作先让AI翻译,自己再核对一遍,而且AI的词库更全,还能学到一些新单词。
正如在中英同传领域从业20多年的赵晨威所说,AI不会取代人类,但是AI会取代不会用AI的人类。
但话又说回来,同样是AI翻译,大厂的模型更大,实力更强,为什么偏偏是时空壶W4 Pro脱颖而出了?
抱着这样的疑问,我又去了一趟时空壶公司,发现问题的答案很简单——无他,唯坚持尔(也没啥,就是干)
2016年,市面上也有各种翻译设备,但要么翻译质量不高,只能简单直译,要么就是高延迟,反应慢。
恰好当年,AlphaGo和李世石的围棋大战,让全世界看到了人工智能的潜力。
于是,时空壶创始人田力决定,造一台AI翻译设备,不仅能用,更要好用。
一个好用的翻译设备,应该是“无形”的,它要够准确,够即时,够方便,才能让人们在跨语言交流的时候,尽可能忽略翻译产品,而专注于交流本身。
但等开始创业才发现,不是同行不想做,而是不好做啊。
之前市面上的翻译设备,主要采用的是点按操作,你按一下说一句,我再按一下说一句,非常不方便。
而时空壶坚持从更底层——也就是通信技术上下功夫,经过3年研发,攻下了“双向同传”技术。
双向同传的核心在于四通道同步处理:A母语输入、翻译输出以及B母语输入、再翻译输出同步进行,从而降低延迟。
还有一个关键,在于收音。
面对面交流,翻译设备不仅要隔离外部环境杂音,还要识别A说了什么,B说了什么,一不小心就搞错了说话主体。
时空壶采用三麦克风阵列+矢量降噪技术,通过软硬件的配合,定向定距识别佩戴者的声音,排除其他杂音干扰。
他们的工程师还带着W4 Pro去地铁、商场等人流密集的场所测试,验证矢量降噪技术的可行性,从输入端上保证了音源的准确性。
解决了听得清、翻(传输)得快的问题,还要保证译得准。
AI要理解上下文,才能准,但这又会慢。针对AI这个“bug”,时空壶又开发了一套Babel OS巴别系统,这个系统的核心在于AI语义分割,AI会判断你是否说完了,然后自动分割长句开始输出,不用等一句话说完再翻译,在翻译的准确和即时之间找到了平衡。
在AI翻译领域坚持近10年之后,时空壶做到了行业头部,W4 Pro的平均延迟更是压缩到了3-5秒,实现了L3级的AI翻译。
这个AI翻译的分级标准,有点类似自动驾驶行业的智驾等级。因为没有明确的行业等级,大家都说自己是AI翻译耳机,“开局一句话,其余全靠编”也行,翻译慢悠悠也算,导致行业生态很乱。
而有了分级标准,一方面可以避免同行浑水摸鱼,另一方面也是对未来AI翻译设备的想象。
在时空壶看来,目前W4 Pro还处于语音同声传译的L3级,L4级将支持多模态输入,能识别讲话的人语气、表情、动作,让翻译更贴合情境,到L5级就类似agent,不仅能帮你翻译,还会根据场合帮你修饰,甚至可能比你说话还好听。
从人机大战1.0到现在的2.0,AI在半年时间内,AI同传就可以和高级译员同台竞技且更胜一筹,按照这个节奏,未来人机大战3.0版本又会有什么样的精彩呈现?
而除了AI队和人类队,如果像评委们所说的,再出现一个人机协同队,三方争霸,这画面想想就刺激!
到那时,时空壶的AI翻译技术会达到什么程度?AI翻译设备会变成什么形态?人机协同又将会碰撞出什么样的火花?
现在很难想象,一切皆有可能。