两折抛货、数据幻觉,子曰大模型难救网易有道

500

撰文 | 曹双涛

编辑 | 杨博丞

题图 | IC Photo

日前,网易有道子曰3.0大模型首批通过中国信通院“可信AI教育大模型”评估,并获最高5级认证。

随着大模型能力持续提升,有道不断聚焦高价值场景实现技术突破。当前子曰3.0已在两大高频应用中展现出显著优势:一是翻译,支持38种小语种实时互译,以较小参数规模实现媲美甚至超越部分大规模通用模型的翻译质量。二是辅导,其数学模型已正式开源,全面覆盖备课、出题、批改、答疑等教学环节。

但子曰大模型对有道不同业务板块的业绩推动,却呈现“冰火两重天”的局面。子曰大模型驱动的AI高考志愿填报、AI作文批改等功能,让用户满意度显著提升,续报率超过75%,创历史新高。2025年Q2,有道领世净收入同比增长约30%,有道领世所在的学习服务板块,收入同比增长2.2%至6.6亿元。

与之形成鲜明对比的是,小P老师作为子曰大模型在教育场景中最具代表性的落地应用,两者关系体现了技术基座与垂直应用的深度耦合。小P老师主要搭载在X20学习机、X7词典笔、Space One等有道硬件产品上。2025年Q2,有道智能硬件业务整体收入仍同比下降33.5%,成为三大业务中唯一出现负增长的板块。

500

图源:基于网易有道财报整理 DoNews制图

一、数据幻觉严重,小P老师频频“翻车”

“售价1400多的有道词典笔X7Pro,核心功能集中在查词翻译、AI拍照、语文写作辅助、数学同步学、与小P老师对话等有限场景。但AI拍照、语文写作辅助等功能,通过手机安装对应App即可轻松实现;而查词翻译更是几十元的点读笔就具备的基础能力。

且若是增加几百元预算,就能购入科大讯飞、作业帮等品牌的学习机——这些产品在功能丰富度和实际使用体验上,都明显优于X7Pro。”来自广东省的初中生林磊(化名)感叹道。

用户对有道词典笔的不满,进一步折射出其硬件产品面临的一系列深层问题:产品定价与功能体验不相匹配,差异化优势不足,市场竞争压力持续加剧,用户认知与忠诚度尚未稳固。尤其是当前市面上充斥着大量免费教育类APP,其硬件产品必须打造出真正独特、不可替代的核心功能,而非仅仅将现有App功能简单移植至硬件中。

相较性价比不足问题,小P老师核心学习功能的“数据幻觉”问题更让用户担忧。林磊让小P老师讲解方程组求解题目,小P老师将原题的“(y-1)/5=(x-1)/6”误识别为“(y-1)/4=(x-2)/3”。“连原题都能识别错误,又怎能准确讲解更复杂的数学题目呢?这样的词典笔,值得家长投入吗?”林磊的言语间难掩失望,并劝退身边大量同学购买有道词典笔。

500

图源:受访者提供

林磊的遭遇并非个例。小红书用户称,一道简单的计算题“765X529”,正确答案应为404685,但有道词典笔X7却给出了“404185”这一明显错误的结果。

也有网友称,自家孩子计算“186+213=399”。但有道词典笔X7Pro却误提示“这个计算错啦,正确答案应该是399”。前半句说算错,后半句又重复正确结果。前后矛盾的提示引发家长严重不满。毕竟小P老师连基础的四则运算都会出现错误,这样的辅导效果,实在让人不放心。

500

图源:小红书

数学逻辑错误问题不仅出现在有道词典笔上,有道AI答疑笔Space One同样被用户反馈存在类似问题。

小红书网友称,Space One的小P老师同时存在“讲解错误”和“题型识别错误”两大问题。在容器注水立体几何题中,选项为圆台/圆柱组合。但小P老师讲解时,错误地关联到长方体、圆锥。

在一元一次函数选择题中,小P老师不仅识别成填空题,还擅自拓展11道小问,直接脱离原题“自由发挥”,题型识别逻辑混乱。对小P老师答疑能力感到失望的网友,果断选择退款。

500

图源:小红书

这些看似低级的错误,根源深植于大模型的技术瓶颈中。哈尔滨工业大学与华为研究团队的综述论文就将模型“幻觉”的源头归结为数据、训练与推理三大问题,并指出模型会过度依赖数据中的表面模式,而非深层逻辑。数学因其精确性和容错性低,放大了这一缺陷。

基于此,小P老师在数学领域的频频“翻车”,已难以用偶然失误来解释,这不得不让市场对子曰大模型的核心推理能力打上一个巨大的问号。

和大模型在数学推理中更容易出错不同的是,语文、英语因有丰富的训练数据,通常表现更好。但小P老师在语文和英语科目上,同样存在数据幻觉问题。

网友询问小P老师“莞莞类卿”成语典故时,小P老师先是称该典故出自《世说新语・言语》,且虚构故事中男主遇见名为“世说新语”的女子,内容极其离谱;后又改口表示出自《红楼梦》第六十回,贾宝玉对晴雯的评价。

但百度AI、Kimi、豆包、元宝等均明确,“莞莞类卿”实际是电视剧《甄嬛传》的情节,与《世说新语・言语》及《红楼梦》并无关联。小P老师这类错误,很容易对学生形成知识误导。

500

图源:小红书

500

图源:基于豆包、kimi、百度AI、元宝回复整理 DoNews制图

在英译中场景下,A7词典笔将“Navigation is a game for brave people”翻译为“导航是一项考验勇气的活动”。该译文虽然大致传达原意,但表达略显生硬,不符合自然口语习惯,孩子理解起来可能存在困难。

更重要的是,译文将“导航”泛化为一种“需要勇气的行为”,偏离了其作为“辅助工具”的核心语境。例如,在行驶极其熟悉的路线时,使用导航何需“勇气”呢?

X7 Pro将英文句子“Her name is Li Meng”,错误翻译为“李b孟”,这不仅暴露出其在基础姓名音译方面的缺陷,更严重的是,译文中的“b”在中文网络及日常语境中,常被视作不文明用语的谐音或替代词。

对家长而言,本应服务于孩子学习的工具,却在扫描课本内容后输出可能带有冒犯性或低俗暗示的翻译,极易引发家长对产品品质的强烈反感。

他们不仅会担忧这类内容“伤害孩子认知”“可能教坏孩子”,更会对品牌信任产生质疑。此类内容层面的不当输出,远比单纯的技术性误译,更加挑战家长的心理底线。

500

图源:小红书

二、产品线单一,学习机低价清库存

小P老师在答疑过程中频繁出现的讲解错误与题型识别偏差,暴露出有道子曰大模型在准确性与严谨性方面仍存在明显不足。这一能力缺陷,正对其教育硬件业务构成多层次的潜在风险。

多项全球研究报告指出,AI大模型的输出质量(准确性、严谨性和可信度),是影响用户是否持续使用的决定性因素。

500

图源:基于公开信息整理 DoNews制图

教育领域对内容输出的质量要求,远高于一般应用场景。多数家长购买教育硬件的核心诉求是帮助孩子提升学习成绩,他们对“内容正确、讲解专业”的需求近乎刚性。一旦产品频繁出现错误,不仅无法有效辅助学习,甚至可能对孩子产生误导,这是家长无法容忍的。这种核心功能的可靠性问题,进一步加剧了有道硬件产品线的单一风险。

500

图源:基于公开信息整理 DoNews制图

从销售数据看,有道硬件营收高度依赖词典笔等传统产品。飞瓜数据显示,近一年(2024年8月28日—2025年8月27日)有道抖音官方旗舰店中,A7 Pro词典笔销售额突破1亿元,占该店总销售额的84.2%。X7 Pro翻译笔与E6 Pro翻译宝的销售额分别为2500万元-5000万元和1000万元-2500万元,三者共同构成店铺最主要的销售支柱。

500

图源:飞瓜数据

相比之下,AI学习机X20的两款链接销量严重偏低,仅分别为25万-50万和1万-2.5万,这一销售结构清晰反映出有道在学习机市场的弱势地位。

尽管词典笔等传统产品仍贡献主要营收,但智研咨询数据显示,2025年Q1,中国AI学习机市场的全渠道销售额为40.2亿元,同比上涨15.8%,预计未来AI学习机的销售额有望突破千亿。而有道学习机品类始终未能打开市场——线上表现已然乏力,线下渠道同样难见起色。

500

图源:飞瓜数据

在高线城市,来自南京市某家学习机门店的老板张磊(化名)坦言,“此前门店曾销售过有道X20学习机,但月出货量不足五台,门店只能将该产品下架,仅保留翻译笔作为附带销售的产品。当前有道在学习机市场发力不足,不少旧款库存机在电商平台以低价清理。例如,2022年10月上市的有道AI学习机X10首发价为2999元,当前拼多多587元的售价,相当于首发价的1.9折。”

500

图源:拼多多

在下沉市场,自带学生客流的新华书店,已形成“孩子现场体验→销售持续跟进→家长付款”的完整销售闭环,为学习机品牌的兵家必争之地。但在皖北某县城的新华书店内,学习机品牌以科大讯飞、步步高、作业帮、阿尔法蛋为主,看不到有道学习机的身影。

500

图源:DoNews

该县城新华书店的情况并非个案,据洛图科技调研数据,2025年Q1,国内学习平板出货量前六大品牌依次为作业帮、学而思、科大讯飞、步步高、小猿及小度,合计销量份额已达74.4%。综合多家第三方监测数据,网易有道旗下学习机(包括X20、X7、青禾等系列)目前在国内整体市场的占有率不足5%,其销售主要集中于天猫、京东等线上官方店铺,线下及下沉市场的渗透率仍然较低。

张磊表示,“产品综合竞争力弱,相较同价格带的机型性价比不足,是有道学习机销量低迷的重要原因。”当前厂商推出的学习机核心功能包括课程视频、练习资源&作业辅导、个性化学习与自适应教学、AI 辅导与互动功能,学情诊断与智能推荐。这些功能本质上是围绕学生学习闭环(学什么→怎么学→学得对不对→学得怎么样),打造一个“智能个性化学习系统”。

500

图源:基于公开信息整理 DoNews制图

但有道X20学习机尚未形成一个完整的学习闭环:

在学什么,部分学生认为X20课内同步视频质量低,老师讲解枯燥、缺乏吸引力;同步习题功能弱,题库不全,不能很好覆盖中高考需求。“学什么”的内容资源质量和丰富度不足,导致起点就不够精准。在怎么学,部分认为X20精品课堂偏知识拓展,与学生需求(预习、诊断弱点)不符;且前期缺少智能整理错题集的功能,学生只能盲目刷题。“怎么学”的路径和方法没有对齐学生需求,缺乏个性化和高效性。在学得对不对,有家长称五三试卷库最初没有自动判题功能,用户体验差;同步习题不能在线作答,缺乏即时反馈。“学得对不对”的即时诊断与反馈机制薄弱,孩子无法立刻知道问题在哪里。在学得怎么样,X20前期没有大数据诊断、错题整理、薄弱环节分析;“学得怎么样”的学情跟踪与智能评估不足,无法真正形成有效的学习闭环。

三、渠道与利润分配结构性困境,AI如何解决?

教育的本质远不止于知识的单向传递,更在于学习习惯的养成与行为模式的塑造。如何通过技术手段有效引导学习行为、维持专注力,已成为教育硬件亟待攻克的核心课题。

一方面,全球多份报告指出,自律不足与学习态度问题确实是影响孩子成绩的关键内因。自律能力不仅直接决定自主学习效果,还有助于培养积极情绪、增强耐性并提升学习参与度,从而间接促进学业进步。

为应对这一深层痛点,部分厂商尝试在学习机中引入“伴学师”“督学师”等功能,试图通过人机互动引导学生建立专注、积极的学习习惯,但有道学习机尚未推出类似功能。

500

图源:基于公开信息整理 DoNews制图

另一方面,学习机还需应对学生主动“对抗”学习的行为:部分学生通过随意点击、试错提交、利用反馈推测答案等方式规避真实学习。更有甚者,将点读笔带入考场、通过刷机将教育硬件变成游戏工具。

这类行为揭示出学习机产品面临的另一重现实:厂商如何打造防滥用机制与系统级管控,满足学生和家长对学习机的核心诉求——学习效果。

但有道在2025年Q2的研发投入为1.28亿元,同比下滑16.1%,主要源于研发人员数量减少及薪酬成本下降。当行业竞品持续加大在行为引导、学习管理及防滥用机制等方面的探索时,有道研发人员减少与成本下降,是否会导致其在行为引导算法优化、防滥用系统开发等关键领域投入不足,进而限制其回应深层问题的能力呢?

相较学习机功能问题,有道学习机深陷渠道与利润分配的结构性困境之中,这是AI很难解决的商业难题。张磊表示,“当前市面主流学习机售价普遍在4000元至7000元之间。由于客单价高,许多家长倾向于线下体验购买。为激励经销商推广,厂商通常为其预留可观的利润空间。例如,若按官方定价销售高端机型,单台利润可达一两千元。部分厂家甚至对窜货行为处以每台2万-3万元的高额罚金,以严格管控渠道。”

但有道却面临两难:若要提振线下销量,就必须拿出比竞争对手更具吸引力的利润空间,以争取有限的经销商资源;但公司目前正处于“降本增效”周期:2025年Q2,其销售与营销费用同比下滑22.1%,难以支撑高额渠道激励。叠加AI学习机同质化日趋严重,若产品本身缺乏差异化优势,又无法为终端提供足够利润,经销商自然倾向于转向其他品牌。

即便部分厂商试图通过AI自习室模式带动学习机销售(如松鼠AI),对有道而言这条路径也困难重重。AI自习室正值洗牌阶段,普遍面临生源不稳、运营成本高企与加盟纠纷频发等问题。存活下来的自习室对学习机的内容质量、功能可靠性及教学适配性要求极高,有道的学习机能否达到大批量采购标准仍存疑。

500

图源:DoNews

更关键的是,有道的互联网基因擅长轻资产与效率化运营,而线下渠道依赖人情网络、利益平衡与长期维护,这和有道的现有能力存在本质差异。步步高之所以能快速铺货、稳价控渠,正是基于其多年积累的渠道关系与地面执行力。这种差距,很难通过“子曰”大模型技术迭代就能补齐。

尽管有道CEO周枫强调“将通过AI构建长期竞争力”,并设定“改善智能硬件业务健康度”为目标。但横亘在有道硬件产品面前的多重难题——产品缺乏显著性价比、功能未达用户预期、硬件线单一、渠道短板突出——让这一目标的实现充满不确定性。

站务

最近更新的专栏

全部专栏