为什么百度AI能读对“铸币坊”？

超聚焦

昨天 19:26

500

一个生僻字，引发了一场关于多音字、大模型与知识图谱的"科考"。

近日演员刘美含在为新剧配音时，遇到台词"铸币坊"，心里犯了嘀咕，这个"坊"字，该读几声？她下意识读成了第三声fǎng，但作为专业演员，较真的劲儿上来了，于是打开手机，准备问问AI这位"万事通"。

不问不知道，一问搞出个大新闻。

DeepSeek说读一声，元宝说一声，千问也说一声，百度AI说二声；最离谱的是豆包，刘美含手机上查是二声，录音老师手机上查是一声。同一个APP里同一个问题，却有两个答案。

刘美含懵了，网友们乐了，AI圈却懵了：原来这些号称"全知全能"的大模型，在一个简单的多音字面前，竟然集体翻了车。

只有百度AI，答对了，官方账号还特地来原帖下面报喜。

为什么发生这种情况？是百度技术更强？还是运气更好？又或者，这背后藏着某种被忽视的技术逻辑？

这个"坊"到底怎么读？

在讨论AI之前，我们得先把答案搞清楚。根据《新华词典》APP的明确标注，"铸币坊"中的"坊"字，标准读音为fáng。

南京师范大学文学院化振红教授给出的权威解释是："坊"字在古代主要有两个读音：fāng和fáng。

现代汉语中，这种区分延续了下来，但有明确的使用场景划分fāng（一声）：指里巷、街市、店铺、牌坊等，如街坊、牌坊;fáng（二声）：指小手工业者的工作场所，如磨坊、染坊、作坊等。

而"铸币坊"，顾名思义，是制造钱币的地方，属于典型的"作坊"范畴，因此应读fáng。所以，百度AI给出的"zhùbìfáng"，确实是标准答案。

但问题来了，为什么其他AI都答错了？同一个APP豆包会给出完全不同的答案？

这背后，涉及到AI处理中文多音字的核心技术难点。对人类来说，多音字是小学语文的基础知识；但对AI来说，多音字是一个"噩梦级"的技术难题。

中文的多音字，本质上是"一字多音多义"的语言现象。同一个字形，在不同语境下，读音和含义完全不同。

人类判断读音，靠的是语义理解，我知道"铸币坊"是造钱的地方，是作坊，所以读fáng。但AI怎么判断？

目前，主流AI语音合成系统处理多音字，主要有以下几种技术路线。

最传统的方法是基于统计的概率模型。AI在训练时，学习了大量语料，统计某个字在不同上下文中的读音概率。比如，"坊"字后面跟着"街""牌"等字时，大概率读fāng；后面跟着"磨""染"等字时，大概率读fáng。

但这种方法有一个致命缺陷：冷门词汇、低频用法，容易被概率淹没。

"铸币坊"这个词在语料库中出现的频率极低，AI很难从统计规律中学习到正确读音。而"街坊""牌坊"等高频词汇，会主导模型的判断倾向。

更先进的模型会利用深度学习（Transformer架构）来理解上下文语义，从而判断多音字的读音，这类方法需要模型具备较强的语义理解能力。

但问题在于：大语言模型的训练目标，往往是"生成流畅文本"，而非"精准标注读音"。

DeepSeek、通义千问、豆包等大模型，本质上是语言生成模型，它们擅长的是写文章、聊天、代码生成，而不是查字典。在语音合成模块中，这些模型可能只是简单地调用一个"字音转换"模块，而这个模块的质量，直接决定了多音字读音的准确性。

最"笨"但最可靠的方法是基于外部知识库的查询，直接对接权威词典API，实时查询标准读音。

但这种方法有两个问题：需要持续维护词典数据库，成本较高，且对于词典中没有收录的新词、专有名词，仍然束手无策。

怎么只有百度答对了？

现在，问题来了：既然多音字这么难，为什么百度AI能答对？

是百度的大模型技术比DeepSeek、通义千问、豆包更先进吗？答案可能没有那么简单。

主要是百度在AI领域有一个"老本行"——优势知识图谱。早在2012年，百度就开始布局知识图谱，目前已构建了包含数千亿实体、万亿关系的超大规模知识网络。

这个知识图谱，覆盖了人物、地点、机构、概念、事件等多个维度。在语音合成和语义理解中，知识图谱可以发挥关键作用。

包括实体识别"铸币坊"是一个专有名词，而非普通词汇；将"铸币坊"与"作坊""磨坊""染坊"等概念作语义关联，推断其属于"手工业场所"范畴；在知识图谱中，每个实体都可以预先标注标准读音。

换句话说，百度AI可能并非"现场推理"出了正确答案，而是"早就知道""铸币坊"应该读什么。

这是一场"开卷考试"，百度提前把答案写在了知识图谱里。

百度在语音合成领域深耕多年，其技术路线涵盖了声学模型、语言模型、韵律建模等多个模块，并在多音字消歧方面进行了大量优化。

公开资料显示，百度语音合成技术采用了端到端深度学习架构，结合注意力机制和上下文编码器，能够在一定程度上实现多音字的语义消歧。

更重要的是，百度语音合成团队可能在训练数据中，专门标注了大量多音字场景，包括冷门词汇和专有名词。这种"人工干预"，虽然成本高昂，却能显著提升多音字读音的准确性。

更重要的是，在搜索时代百度就积累了海量的词典、百科、知道等结构化数据。

《新华词典》《百度百科》《百度汉语》等产品，长期沉淀了大量权威的词条数据，包括读音、释义、例句等。这些数据，可以直接为AI语音合成提供"标准答案"。

当用户查询"铸币坊读音"时，百度AI可能优先调用了这些结构化知识库，而非依赖大模型的"推理"能力。

这也解释了，为什么百度AI能快速给出准确答案，因为它不需要"猜"，只需要"查"。

其他AI为何集体翻车？

这个事件中，最诡异的是豆包的表现，刘美含查到的豆包，读音是fáng（正确）；录音老师查到的豆包，读音是fāng（错误）。

同一个APP，同一个问题，两个答案。

这暴露了一个重要问题：AI模型的推理结果，存在很大随机性。

大语言模型（包括豆包背后的云雀大模型）在生成答案时，通常会引入一定的采样策略，导致同一个问题可能得到不同的回答。这种随机性，在"开放式问题"（如"写一首诗"）中是优点，但在"事实性问题"（如"这个字怎么读"）中，却是灾难。

这也意味着，豆包的多音字读音判断，可能更多依赖模型的"推理"能力，而非结构化知识库的查询。一旦模型"猜"错了，就会给出错误答案。

现在，我们再来看DeepSeek、元宝、千问等AI，为什么会读错。

DeepSeek是国内最火爆的开源大模型，其技术架构采用了混合专家模型和稀疏激活参数，在数学推理、代码生成等方面表现优异。

但DeepSeek在"铸币坊"问题上的失误，暴露了其一个短板：结构化知识积累不足。

作为一家相对年轻的AI公司，DeepSeek的知识图谱、词典数据库等"静态知识"储备，远不如百度深厚。在处理冷门词汇、专有名词时，DeepSeek更多依赖大模型的推理能力，而非知识库查询。

而"铸币坊"这种低频词汇，在DeepSeek的训练语料中，可能从未出现过，或者出现的次数极少，无法形成有效的统计规律。模型只能根据"街坊""牌坊"等高频词汇的概率分布，"猜测"读一声。

推理能力再强，前提是"知道"。对于不知道的知识，AI也只能瞎猜。

腾讯元宝接入的是DeepSeek-R1大模型。这意味着，元宝在处理"铸币坊"问题时，可能直接调用了DeepSeek的推理能力。而DeepSeek在这个问题上的"知识盲区"，自然也被元宝"继承"了。

通义千问是阿里推出的大语言模型，在通用问答、知识检索方面表现优异。但在"铸币坊"问题上，通义千问同样答错了，这可能与阿里在语音合成领域的布局策略有关。

阿里云虽然提供语音合成服务，但其技术路线可能更侧重通用语音合成（如客服语音、有声读物），而非精准多音字消歧。在模型训练中，可能没有针对"铸币坊"这类冷门专有名词进行专项优化。

此外，通义千问的知识图谱和词典数据，可能主要集中在电商、金融、科技等阿里优势领域，而对语言学、历史学等人文社科领域的知识覆盖不足。

这也反映了一个行业现象：AI模型之间的"技术同源"，可能导致"错误复制"。特别是AI在处理"事实性问题"时，大概率会优先调用"确定性知识库"，而非依赖"概率性推理"。

大语言模型的本质，是生成式模型，擅长创作、推理、对话；但在回答"标准答案"类问题时，应该优先对接结构化知识库（如词典、百科、知识图谱），以确保答案的准确性和稳定性。

百度AI能答对"铸币坊"，不是因为它的大模型更强，而是因为它在知识层做得更扎实。

其实对于语音合成、语音识别等领域的企业来说，多音字消歧是一个不可回避的技术难题。

目前行业通用的解决方案包括：构建多音字专用知识库，收录所有多音字的读音规则、常见搭配、冷门用法；基于BERT等预训练模型的上下文消歧，利用深度学习技术，理解上下文语义，推断正确读音；实时对接权威词典API，对于词典已收录的词汇，优先查询标准答案；晚上用户反馈机制，允许用户纠正AI的错误读音，持续优化模型。

这些技术方案，需要企业投入大量人力、物力，短期内可能难以看到直接的商业回报。但正是这些"看不见的细节"，决定了AI产品的用户体验和信任度。

这次事件，也给整个中文AI行业敲响了警钟，中文是世界上最复杂的语言之一，声调、多音字、成语、典故、方言，每一个维度都是AI的"雷区"。

在追求"大模型参数规模""多模态能力"的同时，AI企业也应该回归语言处理的本质，先学会"读准一个字"，再谈"理解一句话"。

科技生活财经举报

超聚焦

15篇文章 | 0人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

为什么百度AI能读对“铸币坊”？

超聚焦

超聚焦

热点

站务

风闻社区小助手_小风

年味云游记2026：七重年味盛宴，晒回忆、品烟火、写影评、赢大奖！

观出行

调研｜请为中国人出行的“舒适度”打分！（文末有礼品）

最近更新的专栏

风闻最热

全部专栏