蒸馏同事,炼化自己,AI 仿佛一种黑魔法

「任何足够先进的技术都与魔法无异。」——阿瑟·克拉克
我在想,为什么每次看到「蒸馏」这个词,总会有一种生理上的不舒服。
这里说的蒸馏不是化学课上的那个,把水煮沸变成水蒸气,不是这个,而是新近 AI 圈子里流行的一件事:把一个人的经验、判断方式、工作方法,提炼成一份结构化的文件,交给 AI 去运行。
这份文件叫 skill,整个过程就叫「蒸馏」。
前不久张雪峰去世,很快,GitHub 上出现了一个开源项目,叫「张雪峰.skill」。开发者说,这不是语录合集,是一套「认知操作系统」。他们研究了张雪峰 5 本书、十几篇深度采访、三十多条语录,提炼出了他的核心思维模型和决策方法。
你可以问它,比如「我孩子河南考生 560 分想学金融怎么办」,它会像张雪峰一样先追问你家庭背景,然后用他那套就业倒推法给你分析,最后不留情面地告诉你先保学校档次再考虑专业。
人没了,Skill 还在替他回答问题。

不光有张雪峰,有人蒸馏出了乔布斯 skill、马斯克 skill、芒格 skill、费曼 skill、特朗普 skill,甚至有毛选 skill。有人做了一整套「数字永生框架」,号称能从你的聊天记录和社交媒体里蒸馏出你的数字分身。
还有「同事 Skill」,能把员工的一套工作方式都总结出来,然后真人员工就不再需要了,「聚是 token,散是 skill」。相对应,有人搞了个「蒸馏协议」,戏称「牛马保护法」,帮你规定公司能不能蒸馏你,蒸馏出来的东西能不能商用,你的数字分身能不能替代你上班。
这算不算异化?马克思讲的那个——劳动者创造的东西不属于劳动者,反过来控制劳动者。公司把你的能力蒸馏成 skill,然后用你的 skill 替代了你,这不就是吗?经典牛马叙事,讲了两百年了。

但如果只是异化,我不会不舒服到这个程度。打工人对异化早就麻了。你告诉我,我正在被资本剥削,OK,好,这事我一直都知道,顶多叹口气,然后继续干活。但你要是告诉我,要把我蒸馏成 skill,我的身体会缩一下。
这是一种生理上的反应,依据心理学的观点,这是触碰到了某些心理原型,因而激发了恶心感。

我们可以先不考虑 AI 这件事,先回到「蒸馏」这个词上,想象一下蒸馏这个过程本身。
蒸馏到底是什么样子?我们应该都见过。现在我们试着把这个过程完整地在脑子里播放一遍。
一个容器,可能是个烧杯,可能是个长颈瓶一类的,里面装着液体。加热。温度升上去之后,液体里的某些成分开始气化,变成蒸汽往上走。蒸汽通过一根管道被导到另一个容器里,在那里冷却,重新变成液体。这部分液体就是馏出物——纯净的、浓缩的、被需要的部分,而留在原来那个容器底部的,是残渣,也就是要倒掉的东西。
这里面至少有三层让我不舒服的地方。
第一是加热。提取不是温柔的,不是从你身上轻轻舀走一勺。它需要对原料施加压力。你得被加热,被逼着改变状态,你身体里的某些东西才会被逼出来。
公司让你把工作经验「沉淀」成文档、把决策逻辑写成 SOP、把你的最佳实践「输出」出来——这些听着很正常的管理动作,如果用蒸馏的画面去看,就是在对你加温。你得反复追问自己,把模糊的直觉强行翻译成清晰的语言。这个过程不舒服,因为它本质上就是施压。

第二是分离。蒸馏的目的是把「有价值的部分」和「没价值的部分」分开。这里面藏着一个判断:你这个人是一种混合物,其中只有一部分是被需要的,比如你的决策模式、你的工作方法、你的判断习惯——这些是馏出物,要被收集。其他的,你的疲惫、你的情绪波动、你每天午饭后犯的困、你对工作意义的追问、你在做判断之前盯着窗外发呆的那三分钟——这些是杂质。这个词在使用的瞬间,就已经把你拆件估值了。
容器本身也让人觉得不舒服。馏出物被收走了,到了一个新的容器里,干净、纯粹、脱离了原来的基质。原来的容器还在,但它已经不重要了。想想看,你不是那个馏出物。你的 skill 是馏出物,你的经验的精华是馏出物。你是什么?你是那个被烧过之后还留在底部的东西。你是原料,不是产品。
如果我们换个词,比如「学习」「传承」「记录」「数字化」这些,这些词也很烦人,但不会让你不舒服。它们的画面里没有火,没有残渣,没有等级判断。
但蒸馏不是,蒸馏的物理过程自带了一整套关于纯与不纯、精华与废料、有价值与无价值的隐喻。你只要用了这个词,这套隐喻就跟着进来。

所以我的对于「蒸馏」的不舒服,并不仅仅来自蒸馏这件事的后果,也来自它所携带的画面。这个画面告诉我:你是原料,你将被加热,你身上有一部分比另一部分更有价值,有价值的那部分会被取走,然后你就是剩下的那个东西。
但这里就有一个问题,「蒸馏」这个词不是 AI 行业发明的,至少大家最早接触它,应该是在化学或者物理课上,那么 AI 的人为什么偏偏选了这个词?它是怎么进入 AI 领域的?
因为 Jeffrey Hinton,这位 AI 领域的教父级人物。

2015 年,Hinton 和 Google 的两个同事发了一篇论文,标题叫《Distilling the Knowledge in a Neural Network》,蒸馏神经网络中的知识。
这篇论文要解决的问题是:大模型太大了,跑起来太贵,没法部署到手机上、没法塞进实时服务里。2015 年的大模型放到今天看不算大,但当时已经够让工程师头疼了——多个模型组成的集成系统,推理一次要把每个子模型都跑一遍,成本扛不住。当然到了今天,这个问题被放大了千万倍:GPT-4 这种几千亿参数的模型,你不可能让每个用户的每次请求都跑一遍完整版本。
那怎么办?训练一个小模型。但不是让小模型从头学——你不给它看原始训练数据,不让它自己去理解世界,而是让它看大模型怎么答题。
简单举个例子。你给大模型一张图片,大模型说:这是猫,概率 92%;是豹,概率 3.5%;是狗,概率 1.2%;是汽车,概率 0.001%。
正常情况下我们只关心最终答案——猫。但 Hinton 说,那些「错误答案」上面的概率分布才是真正有价值的东西。大模型认为猫和豹有 3.5%的相似度、猫和狗有 1.2%的相似度、猫和汽车只有 0.001%的相似度——这些比例关系包含了大模型对世界的深层理解。它知道猫和豹在视觉上有亲缘关系,但猫和汽车没有。
这种理解不在任何一个「正确答案」里面,它藏在答案之间的缝隙里。然后你让小模型去学的,就是这个完整的概率分布——不只是「答案是猫」,而是「面对这张图,每个选项分别有多大可能,彼此之间是什么关系」。
小模型学的不是知识点,是大模型看世界的方式。一个经验丰富的老医生看片子,说「这大概率是良性的,但有一点点像早期恶性的形态,不太像炎症」。
如果你只记录他的结论——「良性」——你学到的很少。但如果你完整记录了他对每个可能性的把握程度,你学到的就远不只是一个答案,而是他几十年经验沉淀下来的判断结构。
不过要注意,这里学的还是对一个具体对象的判断——这张片子像什么、不像什么。是一张快照,不是一个动态的推理过程。
这个操作,Hinton 命名为「蒸馏」。
有意思的是,类似的操作,九年前就有人做过了。2006 年,一个叫 Buciluă的研究者和两个康奈尔的同事发了一篇论文,做的事情本质上一样——把一个大的集成模型的能力转移到一个小模型里。他给这个操作起的名字叫 Model compression。
模型压缩,一个平平无奇的名字,大的变小的,信息打包,行李装箱。纯粹的工程隐喻,干干净净,没有任何化学意象,没有加热,没有残渣,没有精华和废物的区分。如果这个词活到了今天,我们现在讨论的就是「把人压缩成 skill」。你会觉得不舒服吗?可能也会,但不适感会少一些,毕竟听起来就像把文件打个 zip 包,没什么大不了的。
但 Hinton 换了词,而且他不只换了词,他换了一整套隐喻体系。
Hinton 不是重复 Buciluă的工作,而是有实质性的突破。Buciluă 2006 年的做法比较粗暴——用集成模型给大量伪数据打标签,然后让小模型直接学这些标签(硬标签,即最终答案)。
Hinton 2015 年核心贡献是引入了 softmax temperature,也就是温度。这个参数控制的是大模型输出的「软硬程度」。温度设成 1,就是常温,模型给出锐利的、高置信度的判断——「这是一只猫,概率 99.9%」。把温度调高,比如调到 5、调到 20,输出就变软了,模型的「内心犹豫」开始暴露——「这大概是猫,但它有一点点像豹,有一丝像狗,甚至跟汽车有那么一丝微弱的关联」。
这些犹豫,这些在常温下被压平的、看不见的细微判断,Hinton 给它们起了一个名字,叫 dark knowledge,暗知识。就是前面说的那些东西——猫和豹之间 3.5%的相似度、猫和汽车之间 0.001%的微弱关联——这些藏在「错误答案」缝隙里的概率关系,在正常输出中几乎不可见,升高温度之后才浮现出来。
简单来说,Hinton 用了「温度」来控制蒸馏过程。温度低,模型给出确定的判断;温度高,模型的犹豫暴露出来,暗知识浮现。温度太高,有用的信号跟噪声一起出来了,小模型接不住。所以蒸馏的核心技术难题是什么?是控制火候。温度调到多少,决定了你能提取多深的知识。

所以你看到了吗?Hinton 做的不只是给一个技术操作换了个名字。他构建了一整套隐喻:有温度、有加热、有显现、有纯化。升高温度,让隐藏的知识结构从黑暗中浮现,然后把它转移到一个新的、更小的容器里。这已经是在用化学过程,来形成 AI 工程。
不仅是化学。他甚至在论文里用了一个生物学的类比:很多昆虫有两种完全不同的形态,幼虫形态专门用来从环境中吸收能量和养分,成虫形态专门用来移动和繁殖。传统深度学习的问题是,训练和部署用的是同一个模型——你让一个专门用来「吸收」的大家伙去「行动」,当然笨重。蒸馏就是把幼虫吸收到的营养转移到成虫体内。
选择「蒸馏」这个词汇的时候,Hinton 大概只是觉得「蒸馏」比「压缩」更精确、更生动,背后也有一整套的隐喻体系。他想到的,应该也只是在化学课上的蒸馏,也是一个简单的科学过程,而没有想到,这个词所携带的隐喻,远大于 Hinton 所使用的那部分。
公元九世纪,一个叫贾比尔·伊本·哈扬的阿拉伯人——西方把他拉丁化叫 Geber——他是人类历史上第一批系统性实践蒸馏的人之一。他相信,通过蒸馏,可以把物质中最本质的部分分离出来,得到一种最纯粹的东西。那个东西有个名字,叫 quintessence——第五元素。四种基本元素之外、更根本、更纯粹的存在。
一两百年后,有人把这个追求推到了极端,说即使是最好的蒸馏产物里仍然混杂着世俗的品质,你必须反复蒸馏——「通过持续的上升和下降」——才能触碰到那个东西。
他管那个东西叫「我们的天堂」。

炼金术把整个修炼过程分为七个阶段。蒸馏是第六步——倒数第二步。最有价值的东西在常温下不可见,藏在杂质中间,你需要升温才能让它显现。而炼金术士区分「文火」和「武火」——不同温度提取不同层次的物质,火候猛了,有用的东西跟废物一起蒸出来,产物反而不纯。
在炼金术的体系里,蒸馏被描述为「将挥发性的精华从它们在物质中的监牢里释放出来,以纯化的形式将其凝结」。知识被困在物质的监牢里,蒸馏是把它释放出来。这跟 Hinton 说的「知识被锁在大模型的参数里,蒸馏是把它转移出来」,是同一个句子的两种说法。
甚至一些细节也能对应上。Hinton 的论文里,当学生模型太小的时候,中等温度效果最好,温度太高反而变差。用炼金术的话说就是:小容器承受不住猛火。
而「蒸馏」这个词,也不是第一次被用在人身上。
十六世纪,瑞士有一个医生兼炼金术士,叫帕拉塞尔苏斯。这个人做了一件事,直接改变了蒸馏这个概念的范围。
他烧了一块木头,看着火焰、烟和灰烬,说:火焰是硫,烟是汞,灰是盐。一切物质都由这三种原则构成——硫代表可燃性,汞代表挥发性,盐代表固定性。
然后他说:人也一样。

盐是肉体。汞是精神——包括你的想象力、判断力、一切高等心智功能。硫是灵魂——你的情感、欲望、驱动你活下去的那股力量。
在帕拉塞尔苏斯的框架里,人不是不可分割的整体。人是混合物。三种原则按比例混合在一起。既然是混合物,它就可以被分离。
帕拉塞尔苏斯甚至认为人体器官的功能本身就是炼金术——你的胃在做什么?在把食物中纯粹的养分和不纯的废物分离。你的肺在做什么?在把空气中有用的成分和没用的成分分离。消化是蒸馏,呼吸是蒸馏。你活着的每一秒,你的身体都在对自己执行炼金术。
蒸馏矿物,是科学。蒸馏人,是什么?如果你看过《钢之炼金术师》,你应该立刻反应过来了,这就是人体炼成。
在这部动漫里,有一条底线,你可以炼成任何物质,但不能对人执行炼金术。爱德华兄弟违反了这条禁忌,试图用炼金术复活母亲。代价是什么?一个失去了整个身体,一个失去了手臂和腿。而炼成出来的东西,只是一个没有灵魂的肉块。

你可以复制物质构成,但灵魂不在等价交换的范围内。
这个故事听起来可能有点吓人。蒸馏是灵魂操作,帕拉塞尔苏斯说人是混合物可以被分离,炼金术认为蒸馏是把精华从物质的监牢里释放出来——好像我们正在做的事情,跟中世纪的巫术一脉相承。
但这个故事最终走向了大团圆。人类赢了,蒸馏被驯服了,灵魂操作变成了物理操作,物理操作变成了工程参数。一切可控、可解释、可量化。

1675 年,法国药剂师 Lemery 出版了《化学教程》,将炼金术士定义为「骗子和冒充者」,切断了化学和炼金术的联系。尽管化学使用了不少炼金术的技术,但炼金术做的事情——追求第五元素、探索灵魂的纯化、在蒸馏器前冥想宇宙的秩序——全是骗术。化学是新的、干净的、理性的。化学不搞那些神神叨叨的东西。
有个学者叫 Bruce Moran,他写了一本书就叫《Distilling Knowledge》——蒸馏知识。他在书里描述了这个过程:化学通过重新定义炼金术来与之切割,给自己制造了一段「不可追溯的历史」。它假装自己从来没有跟炼金术沾过边,把以前的「实践性的炼金智慧」重新包装成了「化学事实」。
简单来说,化学把自己洗白了。从此,蒸馏就变成了一个干干净净的技术术语。加热,气化,冷凝,收集。没有灵魂,没有第五元素,没有宇宙秩序,只有沸点、温度曲线和产出率。
不仅化学,物理学也完成了类似的切割。
牛顿去世之后,留下了大量私人手稿。1872 年,剑桥大学拿到了这些手稿,组织了一个学者团队花了十六年分类整理。整理完之后呢?他们把「科学的部分」留下了——光学、力学、数学,把剩下的几乎全部退回给了手稿的拥有者,朴茨茅斯伯爵家族。
退回去的是什么?牛顿的炼金术手稿,还有他的神学手稿。

于是,同一个人被劈成了两半。符合理性叙事的那一半保留,不符合的那一半装进箱子送回贵族家的阁楼。从此,我们有了教科书里的牛顿:苹果砸脑袋,万有引力,光的色散,微积分。干净利落,一个纯粹的理性巨人,「理性时代的第一人」。
现代世界于是在理性之上诞生了。1917 年,在第一次世界大战即将结束的时候,马克斯·韦伯站在讲台上,对一群年轻人做了一场演讲,叫「以学术为业」。他总结现代世界的特征,是「世界的祛魅」——原则上不存在神秘的、不可计算的力量。一切都可以通过理性来掌握。
你不需要巫师,你不需要咒语。你有工程师,你有公式。
太阳升起来了。三百年,蒸馏完成了从灵魂操作到物理操作到工程参数的全部旅程。人类终于把世界上所有的神秘力量都关进了笼子。一切可控,一切可解释,一切可量化。

不过,炼金术从来没有真的消失。
你知道英语里管烈酒叫什么吗?Spirits。法语叫 esprit,德语叫 Geist。这三个词在各自的语言里都同时有两个意思:烈酒,和灵魂。蒸馏出来的酒精,和人的精神本质,用的是同一个词。
这不是巧合。这是词源上的直系血亲。炼金术士把蒸馏过程中气化上升的那部分叫做物质的「spirit」——因为它是不可见的、上升的、脱离了物质躯体的。跟灵魂的行为一模一样。后来这个词分了岔,一条走向了酒吧菜单,一条走向了宗教哲学,但词根依然阐明着,在一瓶威士忌里,有着炼金术的残留。
甚至它还有着更加直接的回音。
2017 年,Google AI 的研究员 Ali Rahimi 在 NIPS——全世界最重要的 AI 学术会议之一——上做了一个演讲,引爆了一场行业争论。他的判断是:「机器学习已经变成了炼金术。」他说,这个领域弥漫着一种痛苦,「我们很多人觉得自己在操作一种外星技术」。

他说的不是某一个具体模型不可解释,而是整个领域在建造自己不理解的东西——为什么这组参数有效那组没效,为什么这个架构 work 那个不 work,没有人能给出真正的理论解释,大家靠的是经验、直觉和反复试错。
与 Hinton 齐名的杨立昆第二天反击,说这个类比是「侮辱性的」——这是一个情绪词。这也难怪,Rahimi 用「炼金术」来称呼「机器学习」,大概相当于你去告诉一个化学家说你不过是个炼金术师一样,相当于说你是个骗子,是个冒充者。
这样的用词,勾起了 LeCun 一些不好的联想。
1990 年代,神经网络在实践中已经有效了,但学术界嫌它缺乏理论保证,不够「科学」,集体转向了别的方法,神经网络被冷落了十多年。换句话说,上一次有人给这个领域贴上这个标签,LeCun 差点失去了一切,他说自己见过类似的标签,可以杀死一个领域。
当然,LeCun 也给了实质性的反驳:你说的不是炼金术,是工程。工程实践总是走在理论前面,你不能因为理论还没追上来就说实践是巫术。不过我们依然能看到,驱使他如此迅速而激烈做出反应的,是背后的某种恐惧。
但类似的说法依然在程序员圈子里流传着,在中国也有着一套类似的黑话——训练深度学习模型叫「炼丹」,调超参数叫「调丹方」,GPU 服务器叫「炼丹炉」,训练不收敛叫「炸炉了」。没有人组织过这件事,没有哪本教材教他们这样说,他们自己就这么叫了。

故事还没有结束。
还记得前面说的那个箱子吗?
牛顿被劈成两半,炼金术的那一半被装进箱子退回了朴茨茅斯伯爵家。
1936 年,朴茨茅斯伯爵的后人缺钱,把那批手稿送进了苏富比拍卖行。经济学家约翰·梅纳德·凯恩斯听说了这件事,但听得太晚,拍卖已经结束了,手稿被分散卖给了几十个买家。凯恩斯花了好几年时间把其中一大部分重新收集回来——主要是炼金术的部分。
然后凯恩斯发现,牛顿写了大约一百万字的炼金术文献。不是随手涂的笔记,是系统性的研究、详细的实验记录、对古代炼金文本逐字逐句的解读。
凯恩斯意识到,炼金术对牛顿来说不是什么边缘爱好,不是科学家下班后的消遣。在很多方面,它可能是牛顿毕生的核心工作——比物理学和数学更核心。牛顿相信,通过炼金术的方法研究物质的转化,可以理解流贯整个自然界的创造力。他的科学和他的炼金术不是两个割裂的爱好,而是同一个工程的两个面向。

1946 年,牛顿诞辰三百周年纪念活动在剑桥举行。凯恩斯本来准备了一篇演讲,但他已经去世了,演讲稿由他的兄弟代为宣读。
他写:
「十八世纪以来,牛顿被视为现代科学家中第一位也是最伟大的一位,一个理性主义者,一个教我们按照冷静而纯粹的理性去思考的人。
「我不这样看他。牛顿不是理性时代的第一人。
「他是最后的巫师,最后的巴比伦人和苏美尔人,最后一个以近一万年前那些开始构建我们智识遗产的先人同样的眼光审视这个世界的伟大心灵。」
是的,牛顿是最后的巫师。这一事实让我们不得不重新思考,关于「理性」的历史是不是只是一种叙述方式?
或者说,神秘学本身,是不是理性发展的重要力量,而当理性发展到极致的时候,神秘学也将拥有新的力量?只是那个神秘驱动力,事后会被清理掉,就像火箭升空之后抛掉助推器。

万有引力是超距作用——两个物体之间什么都没有,但它们互相吸引。这在十七世纪的机械论框架里是不可思议的,笛卡尔的信徒们攻击牛顿说这是「神秘性质」的复活。
牛顿自己也不满意。他在炼金术里寻找的,是一种能解释「物质如何在没有接触的情况下作用于物质」的理论。
他没找到,但这个追问本身,这种对「不可见的力」的执念,塑造了他提问的方式——而提问的方式决定了答案的形状。
程序员管训练模型叫「炼丹」,这不只是一个玩笑。它精确地描述了一种认知状态:我在操作一个我不完全理解的系统,我知道某些操作会产生某些结果,但我不知道为什么。我调参数靠的不是推导,是手感。我判断模型好不好靠的不是证明,是直觉。这跟炼金术士面对坩埚时的状态,在结构上是同构的。
LeCun 说这不是炼金术,是工程。他说得对——但只对了一半。工程的意思是「我不需要完全理解原理,只要能可靠地产出结果」。这确实是当前 AI 的工作方式。但炼金术也是这样工作的。炼金术士能造出硫酸、盐酸、王水,能提纯金属,能制造合金——这些都是可靠的、可重复的工程成果。炼金术和化学的区别从来不在于「能不能产出结果」,而在于「你认为自己在做什么」。炼金术士认为自己在触碰物质的灵魂,化学家认为自己在操作分子。同样的操作,不同的自我理解。
当 Hinton 写下「蒸馏」这个词的时候,当他用温度来控制知识的显现和隐藏的时候——他的语言背叛了他的自我理解。语言本身说:你在做的事情,比你以为的更古老,也比你以为的更深。

Hinton 在 2015 年发明 AI 蒸馏的时候,蒸馏的对象是模型。大模型蒸馏成小模型,千亿参数压缩成几十亿参数,成本降一个数量级,性能保留大半。这是一个工程问题,干净利落,没有任何伦理上的模糊地带。你蒸馏的是自己训练出来的模型,有完全的处置权。就像你自己酿的酒,想蒸馏就蒸馏。
而且最初蒸馏的东西也很简单。Hinton 那篇论文里蒸馏的是分类概率——大模型看一张图,给出「猫 92%、豹 3.5%、狗 1.2%」这组数字,小模型学的就是这组数字。这是一个相对静态的知识,像是一张照片:这张图像什么,不像什么,各自的程度如何。
但十年之间,蒸馏能提取的东西发生了质变。

2019 年,Google 发布了 DistilBERT——把当时最强的语言理解模型 BERT 压缩了 40%,但保留了 97%的性能。这证明了蒸馏在自然语言处理领域同样可行。
但 DistilBERT 蒸馏的还是语言理解能力——模型读完一段文字之后的判断,真正的跃迁发生在 2015 年。
DeepSeek 的 R1 模型会做一件之前的模型不会做的事:推理。面对一道数学题,它会一步步想,会停下来反思「等等,我前面那步好像有问题」,会推翻自己重来。这不是被人教的,是训练过程中自己涌现出来的。
然后 DeepSeek 要把这个 671 亿参数的巨型模型蒸馏成小模型。问题来了:怎么蒸馏一个会「推理」的模型?Hinton 蒸馏的是概率分布——一组数字。R1 的推理能力不是一组数字,是一个动态的思考过程。
DeepSeek 的做法是:让 R1 做大量的数学和编程题目,把它的推理过程——每一步怎么想的、在哪里停顿、在哪里反思、在哪里修正——完整记录下来,然后用这些推理轨迹去训练小模型。不是让小模型学 R1 的答案,而是让小模型学 R1 怎么一步步想到答案。
结果出乎意料。蒸馏出来的 32B 模型在多个任务上超过了 OpenAI 的 o1-mini,而且事实证明,用大模型生成的合成推理链去训练小模型,效果比用人类专家写的推理链还好。
想想这意味着什么?Hinton 那个时代蒸馏的是「判断」——这张图像什么。现在蒸馏的是「思考过程」——面对一个问题怎么推理、在哪里犹豫、在哪里修正方向。从蒸馏一个静态的判断结果,到蒸馏一个动态的认知过程。

这就好比最初你只能从老医生那里学到「这个是良性的」这个结论,现在你能把他看片子时的全部思考过程——他先看哪里、再看哪里、在哪个特征上停留最久、什么时候推翻自己的初始判断——完整复制过来。这个复制品不但好用,在某些维度上甚至比原装还好。
而且在这个过程里,有一条线正在缓缓移动。
Hinton 蒸馏的是分类概率——这张图像什么。这显然是在操作一个工程对象,跟人没关系。DistilBERT 蒸馏的是语言理解——读完一段话之后怎么判断。这也还是工程,但「理解」这个词已经开始让人若有所思了。DeepSeek R1 蒸馏的是推理过程——面对一个问题,先想什么、后想什么、在哪里犹豫、在哪里修正。
「推理过程」、「犹豫」、「修正」。
这些词,到 2024 年为止,我们还觉得它们专属于人类。当蒸馏的对象从「判断结果」变成「思考过程」的时候,模型蒸馏和人的蒸馏之间的那条边界,就已经开始模糊了。
你蒸馏一个概率分布,那是在搬运数据,你蒸馏一个推理轨迹——怎么犹豫、怎么反思、怎么推翻自己——这跟「提取一个人的决策方式」还有什么本质区别?
但光有能力还不够,能力需要一个容器。

2025 年 10 月,Anthropic 给 Claude 发布了一个功能叫 skills——一种标准化的能力封装格式。本质上就是一个文件夹,里面放一个 SKILL.md 文件,用自然语言告诉 AI「遇到什么情况、按什么步骤干活」。不需要写代码,会写文档就行。
2026 年初,OpenClaw 框架走红,它把 skill 系统做成了一个开放的生态。任何人都可以写 skill,发布到社区,别人一行命令就能安装使用。
然后有人问了一个看似自然但后果深远的问题:skill 里面装的是「怎么做某件事」的操作手册。那能不能装「怎么像某个人一样做事」的操作手册?
colleague-skill 出现了——把你的同事蒸馏成 AI skill。它从同事的飞书消息、钉钉记录、文档、邮件里提取两个维度:工作能力(负责什么系统、代码风格、处理流程)和人格特征(沟通方式、口头禅、决策倾向)。同事离职了,skill 还在。你在 AI 里输入「/create-colleague」,就启动蒸馏流程。
从「教 AI 做事」到「教 AI 像某个人一样做事」,这一步跨得太自然了。skill 提供了容器,大模型提供了理解力,一个人的公开产出提供了原料。
三样东西凑齐,蒸馏人就不再是科幻概念,而是一个有教程、有工具、有社区的现成操作。
然后这个操作爆发了,张雪峰 skill、前任 skill、牛马保护法……在 2026 年春天,集中出现,用 AI 的人,都开始蒸馏别人,也开始炼化自己。

你注意到这个过程里被丢掉了什么了吗?
张雪峰在做判断之前有没有犹豫过?他有没有在某个家长的案例面前破例过自己的规则?他有没有某些时候觉得自己的方法论是错的?他说出「不留情面」的话之前,有没有那么一秒钟考虑过对方的感受?
这些东西没有留在任何一本书里、任何一段采访里。它们消失了。skill 文件里只有他做了什么,没有他犹豫了什么。
模型蒸馏传递的是连续的概率分布——每个选项上犹豫了多少,精度很高。蒸馏人传递的是离散的规则描述——「遇到这种情况按这几步做」。本质上是把连续的、模糊的、充满隐性判断的认知过程,强行压成了可枚举的条目。损耗是巨大的。
但让人不安的不是现在的损耗大。让人不安的是,这个方向是明确的,精度在提高,边界在扩展。
今天蒸馏的是写过书的公众人物,明天蒸馏的可能是你在公司内网上留下的所有工作记录——你的邮件怎么写的、审批怎么做的、异常情况怎么处理的。你甚至不需要主动配合,你每天正常上班就是在生成蒸馏原料。
如果你看过《JOJO 的奇妙冒险》第六部,你应该对这个操作不陌生。普奇神父的替身「天堂制造」能从人身上抽出两张碟片——一张是记忆 DISC,一张是替身能力 DISC。抽走之后,人还活着,但变成了空壳。碟片可以被插进任何另一个人体内,那个人就获得了原主人的记忆或能力。

skill 提取的操作结构跟这个一模一样。你的经验是一张碟,你的方法论是另一张碟,抽走之后存进系统,可以被加载到任何 AI 里运行。你还在,但你的精华已经不需要你了。
当蒸馏的对象从模型变成人的时候,炼金术关于灵魂、关于第五元素、关于「人是不是可以被分解」的那些追问,突然不再是中世纪的遗物,而变成了迫在眉睫的现实问题。
你的公司要蒸馏你——这时候你需要的不是工程手册,而是帕拉塞尔苏斯式的追问:人到底是不是混合物?如果是,哪些部分可以被分离,哪些不能?分离的代价是什么?谁来承担?
神秘学的「新力量」就在这里。不是说我们要回去信炼金术,而是说,当理性的工具变得足够强大,强大到可以对人本身执行操作的时候,那些被理性驱逐了三百年的问题——关于灵魂、关于整体性、关于什么东西是不可还原的——会重新变得紧迫。
不是因为我们变得不理性了,而是因为理性走到了它自己的边界,而那个边界上站着的,恰好是它三百年前赶走的那些幽灵。

海德格尔说,技术的本质是「座架」——把一切存在者都摆置为可计算、可调用的「持存物」,包括人本身。你把一条河流变成水力发电站的能量供应者,你把一片森林变成木材的储备库,你把一个人变成「人力资源」——这些都是同一个操作:把活的存在蒸馏成可用的功能。
海德格尔写这些话的时候是 1950 年代,他面对的是工业技术。但你把他的句子里的「持存物」换成「skill」,把「座架」换成「蒸馏框架」,几乎不需要改动任何其他词。
这不是巧合。蒸馏——无论是化学的、炼金术的还是 AI 的——从来都不只是一个技术操作。它是现代性的核心隐喻。把世界分解为可分析的部分,提取有用的组分,丢弃「杂质」,把馏出物装进标准化的容器里以便流通和使用——这就是现代世界运转的方式。
而每一次蒸馏的对象从物推向人的时候,都会引发一场危机。泰勒把工人的动作分解成标准化的步骤,引发了劳动异化的讨论。心理测量学把人的智力蒸馏成一个 IQ 数字,引发了关于「智力到底是什么」的百年争论。现在 AI 要把一个人的经验蒸馏成 skill,引发的是同一种不安——只不过这一次,蒸馏的精度和规模都到了前所未有的程度。

所以我对「蒸馏」的不舒服,不只是对一个词的反应,也不只是对 AI 行业的一种批评。它是一种更古老的不安,是四百年来一直有人在表达、但从未被解决的那个问题:当你把一个活的整体分解为部分的时候,那个让它「活着」的东西,去哪了?
炼金术士管那个东西叫第五元素。黑格尔管它叫精神的自我运动。海德格尔管它叫存在的澄明。胡塞尔管它叫生活世界。他们用的词不一样,但指的是同一个方向:有些东西只在整体中存在,分析的刀切不到它,蒸馏的火烧不出它。
也许它没有名字。也许它就是那个「没有名字」本身——一切命名都是一种蒸馏,你给一个东西命名的瞬间,就把它从它所处的关系网络里抽离了出来。
老子说「道可道,非常道」,说的大概也是这件事:能被蒸馏出来的,就不是那个东西本身。

写到这里的时候,我突然意识到一件事。
我刚才做的是什么?我从一种模糊的生理不适出发,把它拆解成了隐喻分析、词源考古、科学史叙事、技术解读。我对自己施加了压力,逼自己把一个说不清楚的感觉翻译成说得清楚的语言。
我把「有价值的部分」——论点、论据、叙事结构——从「没价值的部分」——犹豫、跑题、写了又删的废话——里面分离出来。然后我把馏出物装进了一个新的容器里,就是你现在正在读的这篇文章。
我蒸馏了自己。
而且我用的还不是「压缩」。我没有把自己的想法打成 zip 包。我确实经历了加热——那种反复追问自己「你到底想说什么」的焦虑。我确实经历了分离——把直觉里可以被语言捕捉的部分和不能被捕捉的部分分开。我确实制造了残渣——那些我想到了但放不进文章里的东西,那些在论证的缝隙里闪了一下就消失的念头,它们还留在我脑子里,但已经不属于这篇文章了。
这篇文章是我的 skill 吗?某种意义上是的。你读完它,你会获得一种看待「蒸馏」这个词的方式——从炼金术到化学到 AI 的这条线索,以后你再看到这个词,你会想到帕拉塞尔苏斯,想到牛顿的箱子,想到 Hinton 的温度参数。这就是我的判断结构的一部分,被转移到了你身上。

但你没有获得的是什么?是我在写这篇文章的过程中,盯着屏幕发呆的那些时刻。是我在查 Buciluă 2006 年那篇论文的时候,突然想起自己高中化学课上蒸馏实验的酒精灯味道。是我写到帕拉塞尔苏斯把人拆成硫、汞、盐的时候,心里闪过的一个念头——如果我是混合物,那我的硫是什么?我的汞是什么?
那个念头持续了大概两秒钟,然后我把它放下了,因为它放不进论证里。它是杂质,也是我写这篇文章的一部分动力。没有那两秒钟的走神,后面的段落可能会写得不一样。我不知道会怎么不一样,但我知道会不一样。
所以这就是蒸馏真正诡异的地方。它不是一个你可以站在外面评论的操作。你评论它的过程本身就是它。每一次你试图把活的经验变成死的文字,每一次你试图把混沌的感受变成清晰的论点,你都在执行蒸馏。
写作是蒸馏,教学是蒸馏,甚至回忆都是蒸馏——你从一团模糊的感觉里提取出一个叙事,然后那个叙事就替代了原来的感觉,你再也回不去了。
也许我们需要的不是停止蒸馏,而是学会做一个好的酿酒师。知道什么该提取,什么该留下。知道馏出物不是原物,skill 不是那个人,地图不是疆域。知道火焰之下,总有什么东西在消失——而那个消失的东西,也许才是最重要的。

最好的酿酒师知道这一点。威士忌之所以是威士忌,不是因为酒精纯度高,而是因为蒸馏不彻底——那些没被完全去除的「杂质」,酯类、醛类、微量的铜离子,才是风味的来源。蒸馏的艺术不在于提纯,而在于控制不纯的程度。
凯恩斯说牛顿是最后的巫师。也许他说错了。也许每一个试图把世界分解为可理解的部分的人,都是巫师。也许整个现代性就是一场持续了四百年的大型蒸馏实验——我们一直在加热,一直在提取,一直在追求更纯粹的馏出物。
而 AI 是这场实验的最新一步。它把蒸馏的对象从物质推向了知识,从知识推向了人。火越烧越旺,容器越来越精密,馏出物越来越纯。
炼金术有七个阶段。蒸馏是第六步。第七步叫凝固——把纯化后的精华重新注入物质,让它重新获得肉身。没有凝固,蒸馏就只是破坏。你得到了纯粹的灵,但灵不落地,就什么都不是。
第七步还没有人做,第五元素依然没有出现。



洒家君泽官方账号




