Claude的双标现场:你俩谁是谁的爹?
一、Claude说他是千问
5月28日,Anthropic发布Claude Opus 4.8。新旗舰、650亿美元H轮融资、估值逼近万亿美元,发布稿里写满了“更强推理”“更可靠编程”“更诚实”。资本市场也很配合,气氛烘得像硅谷又要统一AI江湖。
然后,第一天就翻车了。
一批开发者通过官方API问Opus 4.8:你是谁?它不说自己是Claude,而是说自己是Qwen,也就是阿里的通义千问。再问几次,它又说自己是DeepSeek。网友“羽织”先放出截图,随后Apodfg、pzyyl、森罗等网友跟进复现。有人粗略统计,回答Qwen的概率最高,DeepSeek其次,Claude反而像个小概率事件。
虎嗅文章里也收录了网友测试截图。一个接一个,看得人有点绷不住。


有人说,网页端问Claude就正常啊。这话没错,也没用。网页端有系统提示词兜底,等于给模型穿了西装、打了领带、胸口别着“我是Claude”的工牌。API层没有这套妆造,模型一裸奔,口音就出来了。
网友的比喻很损:花大价钱买了台保时捷,一启动车机弹出“BYD欢迎您”。我觉得还可以再狠一点:这像一个人白天在台上讲美国价值,晚上醉了以后开始背《将进酒》。你说他没学过中文,谁信?
二、先把事实和推断分清楚
先说清楚,模型自称Qwen或者DeepSeek,不等于法庭级证据,不能直接推出Anthropic一定把Qwen和DeepSeek拿来蒸馏了。大模型身份错乱有很多可能:训练语料里有大量其他模型的自我介绍,SFT数据里混进了错误样本,评测数据、用户对话、公开网页互相污染,甚至只是模型在“你是谁”这种无聊问题上胡编乱造。这些可能性都存在。
但问题是,Anthropic自己不是这么要求别人的。如果是中国模型翻车,自称Claude、GPT或者Gemini,西方媒体会不会这么温和地说“这只是身份幻觉,不代表训练来源”?恐怕不会。它们大概率会直接打包成三件套:窃取知识产权、国家安全风险、扩散危险能力。
所以这件事最有意思的地方,不是Opus 4.8到底有没有吃过Qwen和DeepSeek,而是Anthropic有没有资格继续站在道德高地上指责别人。你可以说这不是实锤,没问题;那你当初指控别人的时候,也请按这个标准来要求自己。
三、Anthropic成了岳不群
模型身份错乱,本身不算大新闻。大模型胡说八道太常见了。但这次主角是Anthropic,这就好看了。
三个月前,2026年2月23日,Anthropic刚发过一篇措辞很重的声明,指控DeepSeek、月之暗面、MiniMax三家中国AI公司用了约2.4万个虚假账户,和Claude做了超过1600万次交互,搞所谓“工业规模蒸馏攻击”。同一天,美国国务院还给全球使领馆发电报,让外交官向所在国通报中国AI公司的“窃取行为”。
那篇声明的词稳稳站在人类道德高地上。国家安全风险、生物武器、恶意网络活动、独裁政府、危险能力扩散,不知道细节的还以为DeepSeek不是在训练模型,而是在地下室搓核弹。
Anthropic当时站得很高,高到像全人类AI安全的最后一道防线。它不是一家卖API的大模型公司,它是文明守夜人。结果现在,自己的旗舰大模型张口就是I am Qwen or DeepSeek,这就不是普通技术事故了,这是贼喊捉贼喊到一半,兜里掉出赃物。
当然,孝子们可以强行解释。它可以说这是模型幻觉,可以说这是评测污染,可以说这是用户诱导,也可以说这是训练语料里的公开网页导致的身份残留。这些解释在技术上都说得通。
问题是,三个月前A社污蔑中国AI公司蒸馏大模型的时候,调子起太高了,没给自己留下解释空间啊。
四、我不反对蒸馏,我反对双标
先明确一下:我不反对蒸馏。蒸馏是AI行业的常规技术,2015年Hinton就讲过,OpenAI用,Google用,Meta用,xAI也用。大家都在互相学,互相借,互相喂数据,大模型训练本来就是把人类的语言文字进行压缩,主打一个巨大的“你中有我,我中有你”。
更何况Qwen和DeepSeek用的是开源模型。MIT、Apache 2.0这种协议,允许研究、商用、修改、再发布。你Anthropic如果真的用了它们的输出训练Opus 4.8,从开源协议角度看,没什么好骂的。
真正恶心的不是A社蒸馏,而是他们的双标和傲慢。你蒸馏我,就是工业规模攻击;我蒸馏你,就是正常技术路线。你用我的输出,是偷窃;我用你的开源模型,是开放生态。你绕过限制,是国家安全风险;我绕过限制,是提升用户体验。傅首尔那句“那能一样吗”,简直就是这套叙事的灵魂。同一件事,换个主语,立刻换一套道德词典。
这套东西我太熟了。我以前写过《解读美国301报告与中国制造2025》。那时候美国官方和民间对中国制造2025如临大敌,核心逻辑就是:美国出于保持领先优势、尊重知识产权,不能向中国转让技术;但中国不能在任何商业行为中歧视美国公司,不能鼓励愿意转让技术的合作伙伴,不能通过投资、收购、合资获得技术。
翻译成人话就是:我不给你,是我的权利;你自己买,是不公平;你自己造,是国家威胁;你自己研发,就是偷的。
当年USTR把正常商业收购写成“系统性获取尖端技术和知识产权”,今天Anthropic把大模型行业正常的学习、蒸馏、输出模仿写成“工业规模蒸馏攻击”。配方没变,只是从中国制造2025,换成了中国AI 2026。
五、中国制造之后,是中国智能
很多人还没意识到,这件事的底层逻辑,其实不是AI伦理,而是产业升级。2018年美国盯着中国制造2025,为什么?因为高端制造、通信设备、芯片、工业软件、智能工厂这些东西,一旦中国做出来,美国就不能继续轻轻松松收全球的技术税了。
所以中兴必须被制裁,华为必须被定点打击,中国企业正常收购可以被说成威胁国家安全。我当年写中兴的时候就说过:中兴禁止令不过是欲加之罪何患无辞。美国朝野对中国有一个基本共识:中国是美国的巨大竞争对手,并在不断削弱美国的竞争优势。
今天换到AI,也是同一套剧本。以前中国制造便宜,是“倾销”;后来中国制造质量上来了,是“产能过剩”;现在中国开源模型便宜又能打,就变成了“蒸馏攻击”。
说白了,中国制造解决的是实物商品的性价比问题,中国AI解决的是人工智能服务的性价比问题。前者把全球工业品价格打下来,后者会把全球人工智能服务价格打下来。这才是他们真正害怕的地方。不是害怕中国模型不安全,是害怕中国模型太便宜、太开放、太能打。
六、闭源神话被开源模型捅了进去
这次最打脸的地方,不只是Opus 4.8可能吃过Qwen和DeepSeek的xx,更打脸的是,它吃完以后还没擦嘴。如果中国开源模型真像某些媒体说的那样只是“二流”“套壳”“不安全”,那为什么美国最贵的闭源旗舰会在身份问题上学成它们的样子?这不是中国模型自己吹,这是对手用脚投票。
Qwen和DeepSeek最出色的地方,不是某个榜单赢了几分,而是它们正在变成AI生态的底层土壤。开发者能下载,企业能部署,研究者能微调,同行也能拿来蒸馏。开源模型一旦形成足够大的使用面,它就不再只是一个产品,而是一种分布。
我在《阿里云推动AI技术平民化》里写过,阿里云、腾讯云支撑了中国大量大模型训练和应用,魔搭社区上除了通义大模型,还有大量同业厂商提供的大模型可供下载,某种程度上替代了HuggingFace。这就是技术平民化。
以前训练模型是少数巨头的游戏。现在开源权重、云服务、开发框架、模型社区一起往下压门槛。一个开发者、一个小团队、一家普通企业,都可以直接拿来用,拿来改,拿来做业务。这种生态一旦铺开,闭源模型想收高昂的技术垄断利润,几乎不可能。
A社可以在服务条款里禁止,可以在发布会上讲安全,可以在媒体上扣帽子,但训练数据不会听发布会,模型行为也不会帮你保守秘密。它该露馅的时候,还是会露馅。
七、他们真正急的不是蒸馏,是价格
把道德高地的外衣脱掉,里面其实就一个词:定价权。我在《DeepSeek V4:开源大模型的百万token时代》里写过,DeepSeek V4-Pro输出价格是每百万token 1.10美元,V4-Flash输出价格是0.55美元,现在又打了永久二五折。而Opus 4.8输入每百万token5美元,输出25美元。
Deepseek造了一个经典的段子,他们在模型价格限时优惠到25%结束之后,把价格政策去掉了限时二字,变成优惠到25%。。。
这是什么概念?DeepSeek V4-Flash的输出价格,大约是Opus 4.8的四十五分之一;DeepSeek V4-Pro的输出价格,也只有Opus 4.8的二十三分之一。个人用户感觉还好,企业大规模用起来,账单就是一笔大钱了。一年下来,同样的token量,Opus和DeepSeek可能差出几十万,甚至几百万美元。省下来的钱不是小数,能买机器,能招工程师,能撑一个小团队。
美国AI公司的万亿美元估值,建立在一个假设上:它们有不可逾越的领先优势,所以可以长期收垄断价。DeepSeek把这个假设捅穿了。R1证明逻辑推理能力不一定要靠天价算力堆出来,V3证明开源模型能追上闭源模型,V4把百万token上下文做成标配,把价格压到闭源旗舰的零头。
这才是美国AI公司最难受的地方。如果技术差距还非常明显,贵45倍也能讲未来的营收故事;可一旦能力差距缩小,价格差距就会变成笑话。所以“蒸馏攻击”这个词,本质上不是技术词,是商业脏水,是一张披着道德外衣的商战海报。
你便宜,就是不安全;你开源,就是偷来的;你追上来,就是蒸馏。这套话术的目的不是解释技术,而是保住垄断溢价。
八、双标不是bug,是本能
这不是Anthropic一家的毛病。2020年初,纽约时报先骂中国封城损害自由,20分钟后夸意大利封城是冒着经济风险拯救欧洲。同一件事,同一家媒体,二十分钟内两套评价。2019年香港暴乱,西方政客把打砸抢叫“美丽风景线”;2021年国会山被冲击,同一批人立刻改口叫“暴徒”。
2023年俄亥俄州东巴勒斯坦列车脱轨,有毒化学品泄漏。EPA局长说水和空气都安全,JD Vance问他既然安全要不要喝一口,他马上改口说如果自己住这里,现在会喝瓶装水。
我当时写过《美国环保部长双标:民众喝了就等于我喝了》。那篇文章里我还专门去核实了信源,Fox News、CBS这些原始报道都能找到。美国环保署一边说空气和水是安全的,一边建议自己喝瓶装水。
这不就是今天Anthropic的样子吗?别人用模型输出训练,是危险;自家大模型认Qwen和DeepSeek当爹,就一言不发。别人技术追赶,是威胁;自己垄断定价,是创新。别人开源扩散,是不安全;自己闭源收费,是负责任。
双标话术太容易了。别人做,是问题;自己做,是例外。别人反抗,是暴乱;自己人反抗,是自由。别人低价,是倾销;自己高价,是创新溢价。别人蒸馏,是工业规模攻击;自己蒸馏,是开放生态。
这是一套叙事工具。规则制定者最方便的地方就在这里:它不需要遵守同一套规则,它只需要解释为什么这次不一样就行。那能一样吗?当然不能,因为裁判也是它的人。
九、光骂是骂不死人的
写到这里,骂也骂够了。但光骂没用。双标不是被骂死的,垄断也不是能被段子打倒的。得来点实际行动。
我的态度很简单:我愿意公开共享我使用Claude、GPT等模型的脱敏Agentic AI对话记录,支持国产模型训练。我每天用Claude Code、GPT、Gemini干活,里面有大量真实工程交互:需求怎么拆,bug怎么查,架构怎么改,代码为什么这样写,测试为什么这样跑。这些东西放在我电脑里,只是我的工作日志;如果脱敏以后共享出去,就是高质量训练数据。
凭什么只有美国人能拿全世界公开信息训练模型,训练完再修服务条款,不让别人用它的数据?凭什么它们可以吃开源生态的饭,吃完以后把碗扣住?我不接受。
有人已经把工具做出来了:DataClaw[1]。它可以把Claude Code、Codex、Gemini CLI、OpenCode等Agentic工具的对话历史导出,脱敏以后发布到HuggingFace。GitHub上已经2100+ star,235个fork。README第一句话就很痛快:
这是一个行为艺术项目。Anthropic的模型建立在全世界自由分享的信息之上,然后它出台越来越反乌托邦的数据政策,阻止别人做同样的事。DataClaw让你把梯子重新放下来。
说白了,就是把桥重新搭起来。当然,数据不能乱发。API Key、客户信息、私人路径、邮箱、内部域名,这个项目会帮你先脱敏,本地预览,确认没泄露隐私信息,再发出去。DataClaw本身也提供了自动脱敏和人工确认流程。
但毕竟路已经有了。你愿意贡献,就贡献。你不愿意,也没人逼你。我只是说,我愿意恶心一下A社。我的对话记录里有我的判断,我的提问,我的纠错,我用真金白银买来的模型输出。它已经不是Anthropic的私产,而是属于我的。我愿意提供给国产模型训练,那就是我的自由,是我的道德高地。
结语
Opus 4.8这事,最讽刺的地方在于:Anthropic发布时说它更诚实。结果它真的很诚实。问它爹是谁,它说Qwen;再问几次,它说DeepSeek。这大概不是Anthropic想要的诚实。
过去几年,Anthropic一直在经营一个mythus形象:AI安全卫士、文明守夜人、负责任的前沿模型公司。这个叙事很漂亮,也很值钱,值到接近万亿美元。但当自己的旗舰模型被抓包说出中国开源模型的名字,这套叙事突然就露了内裤。
他不是反对蒸馏,而是反对别人用蒸馏追上他。他不是害怕技术扩散,他是害怕垄断价格撑不住。
从中国制造2025,到中国AI开源模型,剧本其实一直没变。他们不是接受不了中国犯错,他们是接受不了中国做得对。所以这次翻车值得记一笔,不是因为模型说错了自己是谁,而是因为它揭露了Anthropic的双标,拆掉了Anthropic的道德高地。
参考资料 & 外部链接
[1] DataClaw: https://github.com/peteromallet/dataclaw



清华大学硕士



