为什么百度AI能读对“铸币坊”?

500

一个生僻字,引发了一场关于多音字、大模型与知识图谱的"科考"。

近日演员刘美含在为新剧配音时,遇到台词"铸币坊",心里犯了嘀咕,这个"坊"字,该读几声?她下意识读成了第三声fǎng,但作为专业演员,较真的劲儿上来了,于是打开手机,准备问问AI这位"万事通"。

500

不问不知道,一问搞出个大新闻。

DeepSeek说读一声,元宝说一声,千问也说一声,百度AI说二声;最离谱的是豆包,刘美含手机上查是二声,录音老师手机上查是一声。同一个APP里同一个问题,却有两个答案。

刘美含懵了,网友们乐了,AI圈却懵了:原来这些号称"全知全能"的大模型,在一个简单的多音字面前,竟然集体翻了车。

只有百度AI,答对了,官方账号还特地来原帖下面报喜。

为什么发生这种情况?是百度技术更强?还是运气更好?又或者,这背后藏着某种被忽视的技术逻辑?

01

这个"坊"到底怎么读?

在讨论AI之前,我们得先把答案搞清楚。根据《新华词典》APP的明确标注,"铸币坊"中的"坊"字,标准读音为fáng。

南京师范大学文学院化振红教授给出的权威解释是:"坊"字在古代主要有两个读音:fāng和fáng。

现代汉语中,这种区分延续了下来,但有明确的使用场景划分fāng(一声):指里巷、街市、店铺、牌坊等,如街坊、牌坊;fáng(二声):指小手工业者的工作场所,如磨坊、染坊、作坊等。

而"铸币坊",顾名思义,是制造钱币的地方,属于典型的"作坊"范畴,因此应读fáng。所以,百度AI给出的"zhùbìfáng",确实是标准答案。

但问题来了,为什么其他AI都答错了?同一个APP豆包会给出完全不同的答案?

这背后,涉及到AI处理中文多音字的核心技术难点。对人类来说,多音字是小学语文的基础知识;但对AI来说,多音字是一个"噩梦级"的技术难题。

中文的多音字,本质上是"一字多音多义"的语言现象。同一个字形,在不同语境下,读音和含义完全不同。

500

人类判断读音,靠的是语义理解,我知道"铸币坊"是造钱的地方,是作坊,所以读fáng。但AI怎么判断?

目前,主流AI语音合成系统处理多音字,主要有以下几种技术路线。

最传统的方法是基于统计的概率模型。AI在训练时,学习了大量语料,统计某个字在不同上下文中的读音概率。比如,"坊"字后面跟着"街""牌"等字时,大概率读fāng;后面跟着"磨""染"等字时,大概率读fáng。

但这种方法有一个致命缺陷:冷门词汇、低频用法,容易被概率淹没。

"铸币坊"这个词在语料库中出现的频率极低,AI很难从统计规律中学习到正确读音。而"街坊""牌坊"等高频词汇,会主导模型的判断倾向。

更先进的模型会利用深度学习(Transformer架构)来理解上下文语义,从而判断多音字的读音,这类方法需要模型具备较强的语义理解能力。

但问题在于:大语言模型的训练目标,往往是"生成流畅文本",而非"精准标注读音"。

DeepSeek、通义千问、豆包等大模型,本质上是语言生成模型,它们擅长的是写文章、聊天、代码生成,而不是查字典。在语音合成模块中,这些模型可能只是简单地调用一个"字音转换"模块,而这个模块的质量,直接决定了多音字读音的准确性。

最"笨"但最可靠的方法是基于外部知识库的查询,直接对接权威词典API,实时查询标准读音。

但这种方法有两个问题:需要持续维护词典数据库,成本较高,且对于词典中没有收录的新词、专有名词,仍然束手无策。

02

怎么只有百度答对了?

现在,问题来了:既然多音字这么难,为什么百度AI能答对?

是百度的大模型技术比DeepSeek、通义千问、豆包更先进吗?答案可能没有那么简单。

主要是百度在AI领域有一个"老本行"——优势知识图谱。早在2012年,百度就开始布局知识图谱,目前已构建了包含数千亿实体、万亿关系的超大规模知识网络。

这个知识图谱,覆盖了人物、地点、机构、概念、事件等多个维度。在语音合成和语义理解中,知识图谱可以发挥关键作用。

包括实体识别"铸币坊"是一个专有名词,而非普通词汇;将"铸币坊"与"作坊""磨坊""染坊"等概念作语义关联,推断其属于"手工业场所"范畴;在知识图谱中,每个实体都可以预先标注标准读音。

换句话说,百度AI可能并非"现场推理"出了正确答案,而是"早就知道""铸币坊"应该读什么。

这是一场"开卷考试",百度提前把答案写在了知识图谱里。

百度在语音合成领域深耕多年,其技术路线涵盖了声学模型、语言模型、韵律建模等多个模块,并在多音字消歧方面进行了大量优化。

公开资料显示,百度语音合成技术采用了端到端深度学习架构,结合注意力机制和上下文编码器,能够在一定程度上实现多音字的语义消歧。

更重要的是,百度语音合成团队可能在训练数据中,专门标注了大量多音字场景,包括冷门词汇和专有名词。这种"人工干预",虽然成本高昂,却能显著提升多音字读音的准确性。

更重要的是,在搜索时代百度就积累了海量的词典、百科、知道等结构化数据。

《新华词典》《百度百科》《百度汉语》等产品,长期沉淀了大量权威的词条数据,包括读音、释义、例句等。这些数据,可以直接为AI语音合成提供"标准答案"。

当用户查询"铸币坊读音"时,百度AI可能优先调用了这些结构化知识库,而非依赖大模型的"推理"能力。

这也解释了,为什么百度AI能快速给出准确答案,因为它不需要"猜",只需要"查"。

03

其他AI为何集体翻车?

这个事件中,最诡异的是豆包的表现,刘美含查到的豆包,读音是fáng(正确);录音老师查到的豆包,读音是fāng(错误)。

同一个APP,同一个问题,两个答案。

这暴露了一个重要问题:AI模型的推理结果,存在很大随机性。

大语言模型(包括豆包背后的云雀大模型)在生成答案时,通常会引入一定的采样策略,导致同一个问题可能得到不同的回答。这种随机性,在"开放式问题"(如"写一首诗")中是优点,但在"事实性问题"(如"这个字怎么读")中,却是灾难。

这也意味着,豆包的多音字读音判断,可能更多依赖模型的"推理"能力,而非结构化知识库的查询。一旦模型"猜"错了,就会给出错误答案。

现在,我们再来看DeepSeek、元宝、千问等AI,为什么会读错。

DeepSeek是国内最火爆的开源大模型,其技术架构采用了混合专家模型和稀疏激活参数,在数学推理、代码生成等方面表现优异。

但DeepSeek在"铸币坊"问题上的失误,暴露了其一个短板:结构化知识积累不足。

作为一家相对年轻的AI公司,DeepSeek的知识图谱、词典数据库等"静态知识"储备,远不如百度深厚。在处理冷门词汇、专有名词时,DeepSeek更多依赖大模型的推理能力,而非知识库查询。

而"铸币坊"这种低频词汇,在DeepSeek的训练语料中,可能从未出现过,或者出现的次数极少,无法形成有效的统计规律。模型只能根据"街坊""牌坊"等高频词汇的概率分布,"猜测"读一声。

推理能力再强,前提是"知道"。对于不知道的知识,AI也只能瞎猜。

腾讯元宝接入的是DeepSeek-R1大模型。这意味着,元宝在处理"铸币坊"问题时,可能直接调用了DeepSeek的推理能力。而DeepSeek在这个问题上的"知识盲区",自然也被元宝"继承"了。

通义千问是阿里推出的大语言模型,在通用问答、知识检索方面表现优异。但在"铸币坊"问题上,通义千问同样答错了,这可能与阿里在语音合成领域的布局策略有关。

阿里云虽然提供语音合成服务,但其技术路线可能更侧重通用语音合成(如客服语音、有声读物),而非精准多音字消歧。在模型训练中,可能没有针对"铸币坊"这类冷门专有名词进行专项优化。

此外,通义千问的知识图谱和词典数据,可能主要集中在电商、金融、科技等阿里优势领域,而对语言学、历史学等人文社科领域的知识覆盖不足。

这也反映了一个行业现象:AI模型之间的"技术同源",可能导致"错误复制"。特别是AI在处理"事实性问题"时,大概率会优先调用"确定性知识库",而非依赖"概率性推理"。

大语言模型的本质,是生成式模型,擅长创作、推理、对话;但在回答"标准答案"类问题时,应该优先对接结构化知识库(如词典、百科、知识图谱),以确保答案的准确性和稳定性。

百度AI能答对"铸币坊",不是因为它的大模型更强,而是因为它在知识层做得更扎实。

其实对于语音合成、语音识别等领域的企业来说,多音字消歧是一个不可回避的技术难题。

目前行业通用的解决方案包括:构建多音字专用知识库,收录所有多音字的读音规则、常见搭配、冷门用法;基于BERT等预训练模型的上下文消歧,利用深度学习技术,理解上下文语义,推断正确读音;实时对接权威词典API,对于词典已收录的词汇,优先查询标准答案;晚上用户反馈机制,允许用户纠正AI的错误读音,持续优化模型。

这些技术方案,需要企业投入大量人力、物力,短期内可能难以看到直接的商业回报。但正是这些"看不见的细节",决定了AI产品的用户体验和信任度。

这次事件,也给整个中文AI行业敲响了警钟,中文是世界上最复杂的语言之一,声调、多音字、成语、典故、方言,每一个维度都是AI的"雷区"。

在追求"大模型参数规模""多模态能力"的同时,AI企业也应该回归语言处理的本质,先学会"读准一个字",再谈"理解一句话"。

站务

全部专栏