认真用用 AI 翻译,再聊聊今后的人工翻译
本文首发于航通社,原创文章未经授权禁止转载航通社微信:lifeissohappy 微博:@航通社
新时代的翻译人士可以完全不会外语。
文 / 书航 2023.3.22
前天(没赶上 0 点前发,只好改了时间)文心一言终于给我发邀请码了,我一下午都跟本社读者群群友沉浸在调戏国产大模型的欢乐之中。但要想写个角度独特的评测可不容易,因为这时已经有很多人都评测过了。我会逐渐梳理清楚之后再写自己的版本。
但至少有一点是明确的:文心一言在翻译方面的能力——这或许是它现阶段表现最好的一种能力了——还是没有 GPT 表现得那么稳定。这一点很重要,不是说好不好,而是没有那么稳定。也就是说,偶尔它会对某些原文掉链子。
我昨天就在翻译一篇新闻报道时遇到了这样的问题,它甚至不舍得给我把 Deloitte 翻译成德勤。这种情形,如果是在生产环节,那我是不敢一直用的,最后还要自己上的话,就耽误事了。
我现在已经义无反顾地完全使用 ChatGPT(只需要 GPT-3.5,不舍得用 GPT-4)来做翻译,就像在之前的文章《ChatGPT 对 Grammarly 说:我干掉你,与你无关?》里说的那样。此后我测试过很多篇文字,都可以无条件信任它的结果。
目前仍有很多人类的资深翻译认为,AI 大幅砍掉了人工翻译的下限,但没有定义人工翻译的上限。最常用的例子是,有一些内容涉及到大量本国的语言以及历史文化,如果不了解该国历史文化,会丧失很多阅读时的乐趣。对其的翻译几乎相当于再次创作。
经过我的多次测试和实际使用,我的结论会是什么?
我将用两个实例来解释。这两个实例都跑在 ChatGPT(GPT-3.5)上,不需要 GPT-4 效果就已经足够好了;而文心一言目前无法做到同样的效果。
「谁是麦太」
我英语学得其实没有特别好,尽管我在自己的同龄人中比较少见的在学前班就请了英语家教,但现在还依然是哑巴英语,读和听都凑和,说和写就露怯。这也可能是中国成长的孩子们的通病吧。但自从谷歌和必应翻译到达基本可用的水平后,我都会半蒙半猜地直接阅读机翻内容。以前为了学英语我会逼自己阅读英文原文,但现在到了用英语的时候,还是母语思维更为方便。
现在我可以先把上面这段翻译成英文:
My English proficiency is not particularly good, even though I was one of the few in my age group who had an English tutor before starting preschool. Nevertheless, I still struggle with both speaking and writing, while my reading and listening skills are passable. This may be a common problem among children growing up in China. However, since Google and Bing translations have reached a reasonably usable level, I often read machine-translated content with half-guessing and half-mumbling. In the past, I would force myself to read English originals in order to improve my English, but now, when it comes to using English, my native language thinking is still more convenient.
然后再翻译回来:
尽管在幼儿园前我就是少数接受英语家教的同龄人之一,但我的英语水平并不是特别好。尽管如此,我仍然在口语和写作方面有困难,而阅读和听力技能则勉强可以。这可能是在中国成长的孩子普遍存在的问题。然而,由于谷歌和必应翻译已经达到了一个相当可用的水平,我经常阅读机器翻译的内容,有一半是猜测,有一半是咕哝。过去,我会强迫自己阅读英语原著以提高我的英语水平,但现在,当涉及到使用英语时,我的母语思维仍然更加方便。
虽然丢失了一部分「醍醐味」的微妙,但作为一种工具沟通完全没问题了。我想过,如果六七年前我曾有这个工具,或许那时我会直接转为 TechCrunch 总站的撰稿人呢。(我现在也可以试试……)
机缘巧合,我订阅了一个在香港推介 NFT 的人的 Newsletter。最近,他也写到跟 AI 翻译有关的内容。他开头的一个观点跟我想的一样:
「建议把文章翻译成英语,发展海外市场。那是既能保持自媒体的纯粹,又能增加一个全新发展维度的『低垂的果实』。」
中文世界有很多完全不输给英文同行的优秀写作者以及同样优秀的文字作品,但因为语言关系,没有被译介过去,而只能得到发展中国家的评价和待遇。打破「次元壁」的最好办法就是通过翻译,而所有在 ChatGPT 之前的翻译质量都会「差一点点」,或者说差了不止一点。
这「差一点点」其中一个重要的问题,就是瞎翻译专有名词和人名。英语对一个人的称呼,第一次出现的时候给出全名,此后只叫姓。而汉语的习惯是每次都用全名或至少只用名,所以谷歌或微软翻译就经常出现给个姓随便套名字的奇观,比如林郑特首之前经常被翻译为「林瑞麟」,李家超特首直接就是「李约翰」。
「来自北京的24岁陈怡宁今年1月在英国罗汉普顿大学的毕业表演视频出现后,也在网上赢得了数百万粉丝。正在接受舞蹈实践和表演研究生学位的陈说,她出于兴奋而进行了翻转,并补充说她对压倒性的反应感到惊讶。回到中国,3月3日,陈婷婷在抖音上上传了毕业典礼的视频片段后,数百万人为她自信的风格鼓掌。」(微软翻译)
在很多人用东北话、河南话、闽南话等轮番测试 AI 之后,这个人用在香港年轻人之间习惯使用的广东话来测试 ChatGPT。香港粤语以广州粤语为正音,但引入了一些对同一事物的不同翻译,以及有很多语气词、专有名词是与英语有关。举个例子,麦当劳的「麦香鱼」被叫做「魚柳飽」。所以我把他的例子拿来又用 GPT-4 测了一次。
原词 Google \ DeepL \ GPT-3.5 \ GPT-4
左膠 zuo jiao \ left glue \ leftist \ left-wing
弱弱一問(出现了两次) a weak question;weak and weak question \ I'm sorry;weak question \ Can I ask \ Just a weak question
此地無銀 there is no money here \ having no money here \ I don't have much to contribute here \ I know this might be a silly question
魚蛋 fish egg \ fish egg \ fish egg \ Fishball
提示点:
「左膠」在 GPT-3.5 和 4 的翻译都对。
「弱弱一問」的翻译,Google 和 DeepL 上下文出现的两次翻译居然前后不一致。
「此地無銀」的意思应该是「我说的是与字面相反的意思」。没有一家的回答是正确的。
「魚蛋」的标准翻译是 Fish ball。
由此可见,GPT-3.5 已经基本可用,而 GPT-4 效果更佳。如果翻译只是作为工具,目标是不影响人与人的交流,那么 GPT-3.5 足矣。
该文作者最后举了个例子:
麥嘜漫畫有這樣一個小故事。麥太問麥兜,為甚麼總是吃很多飯。心地善良的麥兜說,吃得飯多就有力氣,就可以幫別人打開瓶子了。
谷歌翻译是:
McMug Comics has such a short story. Mai Tai asked McDull why he always eats a lot. The kind-hearted McDull said that if you eat a lot, you will have strength, and you can open bottles for others.
GPT-3.5 翻译是:
There is a little story in McDull Comics. McDull's mother asked him why he always eats so much rice. McDull, who has a kind heart, replied that by eating a lot of rice, he would have more strength to help others open bottles.
对于「麥太」,谷歌翻译完全不懂,写成「Mai Tai」;DeepL 可以翻译成不算错误的「Mrs. Mak」;但 GPT-3.5 可以翻译成「McDull's mother」,意味着它的知识帮它理解了正确的人物关系。
接下来是一个彩蛋。
我:请翻译下面这段话为英文:灰太狼又被红太狼拿平底锅打了!
文心一言:The Wolf of the Gray has been beaten with a frying pan by Red Tooth.
「傅雷再造计划」
之前人类智慧「皇冠上的明珠」被认为是国际象棋或围棋(后来的事我们都知道)。与之类似的是,在翻译当中,最考验人类智慧的,可能是那些玩弄当地语言文字特性的「文字游戏」式的写作。
这有点类似于现在的网友用「弱智吧」的问题去测试 ChatGPT 或者文心一言。大多数弱智吧问题的本质,实际上是考察语言的多义性以及逻辑的连贯。当然现有的产品在这方面都不是特别好,但是本地部署一个 GPT 或同类的模型,并且进行针对性的优化,应该很快就可以解决这种问题。其实,我甚至可以仅仅在 ChatGPT 里使用自然语言来教育它如何改正,应该针对性注意语义中哪些双关和歧义的演变。那试想如果把整本小鸡词典都喂给它,它还会怕什么?
——这就是 ChatGPT 和之前所有的机器翻译,包括谷歌翻译或 DeepL 等一个最大的不同。它要想变换风格或者微调某方面的效果,比此前人类创作出的所有翻译工具都要简单。只需要对它说话就行了。
我这段时间用大量复杂的自然语言,调教 ChatGPT 做了很多不同的用途。为了验证我的想法,我准备用一些法语材料来形成相对更「有匠气」的翻译,虽然我完全不懂法语,只能机械地复制粘贴。
但首先我知道一个非常妙的例子。这就是《约翰·克里斯朵夫》第一句:
Le grondement du fleuve monte derriere la maison.
英译本是:
From behind the house rises the murmuring of the river.
许聪这样翻译:江流滚滚,震动了房屋后墙。
韩沪麟这样翻译:屋后江河咆哮,向上涌动。
而傅雷这样翻译:
「江声浩荡,自屋后上升。」
前四个字就完全把人震住了。这简直是中国翻译界的传世经典,有人评价说:「傅雷这翻译,简直可以把纸钉在墙上。」
下面,我让 GPT-3.5 来翻译这段话的法文原文,没有给出任何其他的条件。
法文原文
Le grondement du fleuve monte derrière la maison. La pluie
bat les carreaux depuis le commencement du jour. Une buée d’eau
ruisselle sur la vitre au coin fêlé. Le jour jaunâtre s’éteint. Il fait
tiède et fade dans la chambre.
直接法译汉
房子后面的河流咆哮着。自从一天开始以来,雨水不断敲打着窗户。玻璃角落上有一层水汽流淌着。黄昏逐渐降临。房间里感觉温和而无味。
重来,先法译英
The roar of the river rises behind the house. Rain has been
beating against the windows since the beginning of the day. A mist of
water trickles down the cracked corner of the glass. The yellowish day
fades away. It is warm and bland in the room.
再英译汉
河流的轰鸣声在房子后面响起。雨水从一天开始就不断敲打着窗户。玻璃角落处的裂缝上流下一丝水雾。黄色的白天渐渐消逝。房间里温暖而乏味。
此处还有一桩公案:据说,翻译家许渊冲曾认为,江声「浩荡」是误译,英译本的「murmuring」(潺潺声、低语声)是正确的译法。他认为法语的 grondement 意思是「沉闷的声音」。
GPT-3.5 认为,「grondement」在法语中的意思是「轰鸣声」或「隆隆声」。根据其他网络搜索结果,「grondement」也被用来形容诸如火车驶来的声音,各种线索都指向傅雷的翻译似乎更准确一些。当然,我自己完全不懂法语。
接下来,我使用 prompt 让 GPT-3.5 自行比对它的翻译和人类的优秀翻译,指出其中风格不同并尽力模仿。
一位中国翻译家将这段话翻译成:「江声浩荡,自屋后上升。雨水整天的打在窗上。一层水雾沿着玻璃的裂痕蜿蜒流下。昏黄的天色黑下来了。室内有股闷热之气。」 请试着在接下来的翻译中,将语句翻译成类似这样有匠气的风格。
然后,我用其它经典法语小说的开头来测试:
法文原文:
Lolita, lumière de ma vie, feu de
mes reins. Mon péché, mon âme. Lo-li-ta : le bout de la langue fait
trois petits bonds le long du palais pour venir, à trois, cogner contre
les dents. Lo. Li. Ta. Elle était Lo le matin, Lo tout court, un mètre
quarante-huit en chaussettes, debout sur un seul pied. Elle était Lola
en pantalon. Elle était Dolly à l'école. Elle était Dolorès sur le
pointillé des formulaires. Mais dans mes bras, c'était toujours Lolita.
GPT-3.5:
罗莉塔,我生命中的光芒,我的骚动之火。我的罪恶,我的灵魂。Lo-li-ta:舌头在上腭上跳动三下,最终在牙齿上发出三声撞击。Lo。Li。Ta。她是“Lo”这个名字的,早晨就是Lo,一个只有1米48的穿着袜子的女孩,一只脚站立。穿着裤子时,她是Lola。在学校里,她是多莉。在表格的虚线上,她是多洛雷斯。但在我的怀里,她永远是罗莉塔。
名家译文:
洛丽塔,我的生命之光,我的欲念之火。我的罪恶,我的灵魂。洛-丽-塔:舌尖向上,分三步,从上颚往下轻轻落在牙齿上。洛。丽。塔。在早晨,她就是洛,普普通通的洛,穿一只袜子,身高4尺10寸。穿上宽松裤时,她是洛拉。在学校她是多丽。正式签名时她是多洛雷斯。可在我的怀里,她永远是洛丽塔。(于晓丹)
法文原文:
Un jour, j’étais âgée déjà, dans
le hall d’un lieu public, un homme est venu vers moi. Il s’est fait
connaître et il m’a dit : « Je vous connais depuis toujours. Tout le
monde dit que vous étiez belle lorsque vous étiez jeune, je suis venu
pour vous dire que pour moi je vous trouve plus belle maintenant que
lorsque vous étiez jeune, j’aimais moins votre visage de jeune femme que
celui que vous avez maintenant, dévasté.
GPT-3.5:
有一天,我已经老了,在一个公共场所的大厅里,有个男人走向我。他自我介绍并说:“我一直认识您。大家都说您年轻时很美,我来告诉您,对我来说,您现在比年轻时更美,我不太喜欢您年轻时的面容,更喜欢现在那张破碎的脸。”
名家译文:
有一天,在一处公共场所的大厅里,有一个男人向我走来,他主动介绍自己,他对我说:我认识你,永远记得你。那时候,你还很年轻,人人都说你很美,现在,我是特地来告诉你,对我来说,我觉得现在你比年轻的时候更美,那时你是年轻女人,与你那时的面貌相比,我更爱你现在备受摧残的面容。(王道乾)
法文原文:
Quand
j’étais plus jeune, ce qui veut dire plus vulnérable, mon père me donna
un conseil que je ne cesse de retourner dans mon esprit : Quand tu
auras envie de critiquer quelqu’un, songe que tout le monde n’a pas joui
des mêmes avantages que toi.
GPT-3.5:
在我更年轻、更脆弱的时候,我父亲给了我一个至今我仍时常回忆的建议:「当你想要批评某人时,要想到并不是每个人都享有和你一样的优越条件。」
名家译文:
在我年轻幼稚,不谙世道的年代,父亲给我的一条忠告,至今还一直在我心头萦绕。“每逢你想要对别人评头品足的时候,”他对我说,“要记住,世上并非所有的人,都有你那样的优越条件。”(姚乃强)
法文原文:
Dans
un trou vivait un hobbit. Ce n’était pas un trou déplaisant, sale et
humide, rempli debouts de vers et d’une atmosphère suintante, non plus
qu’un trou sec, nu, sablonneux, sans rien pour s’asseoir ni sur quoi
manger : c’était un trou de hobbit, ce qui implique le confort.
GPT-3.5:
在一个洞穴里,住着一个霍比特人。这个洞穴并不让人不快,不脏、不潮湿,没有蠕动着的虫子和沉闷的空气,也不是干燥、空旷、沙子满地,没有坐下休息、吃饭的地方。这是一个霍比特人的洞穴,也就是说,这里有舒适的环境。
名家译文:
在地底洞穴中住着一名霍比特人。这可不是那种又脏又臭又湿,长满了小虫,满是腐败气味的洞穴;但是,它也并非是那种空旷多沙、了无生气、没有家具的无聊洞穴。这是个霍比特人居住的洞穴,也是舒舒服服的同义词。(朱学恒)
在此处,我的测试其实并不严谨。可以看到 GPT-3.5 在翻译第一个《洛丽塔》时,还是非常注重文辞修饰的,最终结果也和人类翻译很接近;但越到后面,它似乎就越是忘记了我对于「有匠气」的要求,而回归到了平常的翻译水准,当然也不差了。
为了节省精力,我把以上人类翻译范文一起喂给了他,希望他最后生成一段汲取了人类翻译风格经验教训的译文。我的 prompt 是:
我将结合一些优秀的人类翻译对你的翻译提出改进意见。(在这里贴出对应的翻译段落)如果你可以对照这几段人类翻译,和你自己的翻译之间的区别,那么请说你已经准备好了。我将再给你一些新的内容让你翻译。
ChatGPT 回复:
非常感谢您的反馈和指导!我会认真学习优秀的人类翻译,并努力改进我的翻译质量。
它又给了几个自己的例子来展示改进效果,尽管这意味着它听错了我的指令。
于是我发布指令:
好的,下面用更像是人类翻译的风格来翻译这一段:
我选的是 2014 年诺贝尔文学奖得主莫迪亚诺的小说《暗店街》的开头。《文学报》的评论文章认为:
莫迪亚诺的小说代表作——《暗店街》的几个中译本有着不同的开头,鉴定译本的优劣,在我看来只需看看小说的开头即可。
这篇评论缘起于《暗店街》在最新的一个译本里更改了开头,让老读者很不习惯。不过新译本的编者说,开头原本的翻译「我的过去,一片朦胧」并不是严格对应原文,只能说因为王小波的二次传播才变得脍炙人口。他们选择的是更忠实原文的译本。
那么我们就来一起欣赏《暗店街》开头的薛立华译本(旧)、王文融译本(新)和 GPT-3.5 译本:
法文原文:
Je ne suis rien. Rien qu’une silhouette claire, ce soir-là, à la terrasse d’un café. J’attendais que la pluie s’arrêtât, une averse qui avait commencé de tomber au moment où Hutte me quittait. Quelques heures auparavant, nous nous étions retrouvés pour la dernière fois dans les locaux de l’Agence. Hutte se tenait derrière le bureau massif, comme d’habitude, mais gardait son manteau, de sorte qu’on avait vraiment l’impression d’un départ. J’étais assis en face de lui, sur le fauteuil en cuir réservé aux clients. La lampe d’opaline répandait une lumière vive qui m’éblouissait. — Eh bien voilà, Guy… C’est fini…, a dit Hutte dans un soupir. Un dossier traînait sur le bureau. Peut-être celui du petit homme brun au regard effaré et au visage bouffi, qui nous avait chargés de suivre sa femme. L’après-midi, elle allait rejoindre un autre petit homme brun au visage bouffi, dans un hôtel meublé de la rue Vital, voisine de l’avenue Paul-Doumer.
薛立华:
我的过去,一片朦胧……那天晚上,在一家咖啡馆的露天座位上,我只不过是一个模糊的影子而已。当时,我正在等着雨停,那场雨很大,它从我同于特分手的那个时候起,就倾泻下来了。几个小时前,我和于特在事务所里见了最后一次面。那时,他虽像以往一样在笨重的写字台后面坐着,不过穿着大衣。因此,一眼就可以看出,他将要离去了。我坐在他的对面,坐在通常给顾客预备的皮扶手椅里。房间里,乳白色的玻璃灯具射出一道道强烈的光线照得我两眼发花。“完了,居伊......一切都结束了......”于特说罢,长叹了一口气。写字台上,摊着一卷档案材料。它也许是那个身材矮小、头发棕褐、目光惊愕、脸部浮肿的男人的,他委托我们跟踪他的妻子。那天下午,她要去和另一个身材矮小、头发棕褐、脸部浮肿的男人幽会,地点是在同保罗-杜梅林荫大道相邻近的一条街上,即维塔尔路上一家备有家具的公寓里。
王文融:
我什么也不是。这天晚上,我只是咖啡店露天座上一个淡淡的身影。我等着雨停下来,这场大雨是于特离开我时开始下的。几小时前,我们在事务所见了最后一面。于特像往常一样坐在笨重的办公桌后面,但穿着大衣,让人觉着他真要走了。我坐在他对面那张供主顾坐的皮扶手椅里。乳白玻璃灯光线很强,晃得我眼睛睁不开。“好吧,居依……结束了……”于特叹了口气说。办公桌上摊着一份卷宗。可能是那个目光惊愕、面部浮肿、棕色头发的小个子男人的卷宗,他委托我们跟踪他的妻子。每天下午,她去与保尔—杜梅林荫大道相邻的维塔尔街一家酒店式公寓,和另一个棕色头发、面部浮肿的小个子男人会面。
GPT-3.5:
我不算什么,只是一个清晰的轮廓,那个晚上,坐在咖啡厅的露台上。我在等雨停,一场在Hutte离开我的时候开始下的雨。几个小时前,我们在机构的办公室里最后一次见面了。像往常一样,Hutte站在厚重的桌子后面,但他穿着外套,让人真正感觉到他要离开了。我坐在他对面,坐在为客户准备的皮革椅子上。瓷灯发出刺眼的光芒,让我有些眼花。“好吧,Guy...结束了...”Hutte叹了口气。桌子上有一个文件夹。也许是那个小个子棕色眼睛惊恐、脸肿的男人的文件夹,他让我们跟踪他的妻子。那天下午,她要去一家家具齐全的酒店,与另一个脸肿的小个子棕眼男子会面,这家酒店位于保罗·杜梅大道邻近的维塔尔街上。
如果仅仅把三篇中译看作是三篇同题「洗稿」文章,那么 GPT-3.5 的版本显然支持新译本的译法「我什么也不是」,相比之下「我的过去,一片朦胧」对原文的改动可能过多。
GPT 有几处误译:「事务所」没有翻译出来。「乳白玻璃灯」给翻译成了「瓷灯」。「卷宗」变成了「文件夹」。「棕色」是用来形容头发的,它弄成了棕色的眼睛。而且,「面部浮肿、棕色头发」同时用来形容男子及男子妻子的情夫,应该在上下文中保持一致以提起读者注意。
但 GPT 一个显著的特点——我个人喜欢这种特点——就是语言更简练,特别是在前几句话里可以很明显地看出来。如果排除误译,我会更欣赏 GPT 的译本。
GPT 的另一个惊喜来自《洛丽塔》那里,它自作主张把 4 英尺 10 英寸翻译成了 1 米 48。对于文中单位的互译,我觉得多数时候都不应该变动,特别是货币单位,就算换成文中时代的汇率对于现代读者也毫无用处。然而将长度单位由英制改公制绝对可以说是一项「德政」。这个或许也应该具体问题具体分析,但这个现象说明了 GPT 可以了解一些基础的文化设定,就像它认识麦兜他妈妈。
因此,在对复杂艰深的当地语言进行「再创作」时,人类译者所需的背景资料,世界观,该国文化设定等等,可以统一扔到大模型里面去训练,然后生成一个专精于翻译培训的 bot 给人类翻译人员答疑。
结论
在翻译香港风格的粤语时,ChatGPT 对一些专有名词和表述的翻译都比较成功,至少不会因为错漏翻译阻碍交流。而且,它对上下文的理解使得它不会忘记之前已经出现过的内容,进一步保证了语义准确和完整。
这个结果证明了我们这些外行和人类专业翻译共同认可的一点——现在的 AI 翻译可以让中底层的人类翻译失业。而对此引发的进一步后果,有两种不同的预测:
一种是,因为人才断层,新的高级翻译无法从中低级翻译晋升而来,因此人类翻译将沦为小规模培训和传承的类似非遗的手艺活,失去自我造血能力。我也基本上倾向于这种预测。
一种是,人类可以跳过中低级翻译的训练,直接从教授高级别翻译能力做起,一开始做的就是最难的题。这意味着将中低级翻译工作和高级翻译工作视为两门不同的学科,尚不知道这样是否可以成功。
从结果看,似乎在「有匠气」和有独特风格方面,第二个实验不算成功。ChatGPT 的翻译虽然不失精准,但仍未能在风格化这方面赶超人类。
然而,这样的测试也让我看到了用最小化的人力来补足的希望——这也就意味着专职的人类翻译真正可以休息了。这就是让擅长中国文学的人,而不是擅长外语的人成为这部分内容的翻译家。
新时代的翻译人士可以完全不会外语。他们的作用就是把比较平直,但相对是逐字翻译的内容变得更有文采,负责「雅」的部分,然后也可以再喂给 AI 去进一步促进「信」和「达」。
其实,这就是那位一辈子不会说外语,但是翻译了 180 多部作品的翻译家林纾的经历。相信这样的事情会在未来更多次重现。
题图:由 Bing 采用 DALL-E 绘制,描绘了来自世界各地的人士在纽约联合国总部参加国际会议的情景。
prompt:people from different countries and races standing and chatting in new york united nations headquarters, detailed half-body photograph, news photo, live broadcast, sony camera, twitter trend