红杉中国,刚刚发了一篇Paper

红杉中国,以出乎意料的方式刷屏国内AI圈。

今天,红杉中国对外宣布推出一款全新的AI基准测试工具xbench,并发布了一篇解释其工作原理的论文。这是自2022年ChatGPT点燃AGI赛道之后,第一家由投资机构主导发布的基准测试(Benchmark),给火爆的AI圈增添了新的话题。

500

过去两年多里,AI benchmark渐渐成为评估基础大模型和AI Agent能力的通用工具,海内外高校、研究机构和AI公司推出了大量不同维度的测试体系,而众多的基础大模型和AI Agent就像一个个高三学生,不断在各种题库里刷题,测试能力、提升成绩。

然而快速发展的基础模型和AI Agent毕竟不是普通的高三学生,题库很快被刷爆,并且频频获得高分甚至满分的成绩。这时候,一个重要的问题就出现了:到底是学生变聪明了,还是卷子出了问题?

红杉中国出品,有何不同?

xbench最早是红杉中国在2022年ChatGPT推出后,对AGI进程和主流模型进行的内部月评与汇报。在建设和不断升级“私有题库”的过程中,发现主流模型“刷爆”题目的速度越来越快,基准测试的有效时间在急剧缩短。

500

图片来源:OpenAI研究员姚顺雨个人博客(评估的有效时间在急剧缩短)

在官宣的技术报告中,红杉中国提出了这个让AI界头疼的问题:想要真实地反映AI的客观能力正变得越来越困难,如何构建更加科学、长效和如实反映AI客观能力的评价体系,正成为指引AI基数突破与产品迭代的重要需求。

科学、长效和如实反映,切中了当前AI基准测试的痛点。红杉中国表示,xbench的推出,是在“评估和推动AI系统提升能力上限与技术边界”的同时,“重点量化AI系统在真实场景的效用价值,并采用长青评估的机制,去捕捉Agent产品的关键突破”。

xbench采用双轨评估体系,构建多维度测评数据集,同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线:第一,评估AI系统的能力上限与技术边界;第二,量化AI系统在真实场景的效用价值(utility value)。其中,后者需要动态对齐现实世界的应用需求,基于实际工作流程和具体社会角色,为各垂直领域构建具有明确业务价值的测评标准。

此外,xbench采用长青评估(Evergreen Evaluation)机制,通过持续维护并动态更新测试内容,以确保时效性和相关性。xbench会定期测评市场主流Agent产品,跟踪模型能力演进,捕捉Agent产品迭代过程中的关键突破,进而预测下一个Agent应用的技术-市场契合点(TMF,Tech-Market Fit)。

实用和长青,成为了xbench最大的两个亮点:前者让xbench脱离了市面上很多基准测试中单纯的“智力测验”,后者则形成对AI能力的连续性评估,从而更早更快地判断出AI技术或产品实现落地的“奇点”将出现在哪里。

价值在哪里?

如果仅仅是推出一款基准测试工具,这在形式上并不新鲜,但结合xbench的特点以及红杉中国的行业地位,此举的意义和造成的影响可能会超越普通的基准测试本身。

两年多前,ChatGPT的横空出世终于让AI不再是纸上谈兵,给大众看到了实实在在的价值。这就像iPhone的诞生被视为移动互联网的开端一样,不少人将其比喻为AI时代的iPhone moment。

10多年前,iPhone等智能终端的出现和移动通信技术的进步,给移动互联网时代夯实了地基,最直接的表现就是智能手机APP的大爆发。如今,大模型成为了AGI时代的基础设施,AI应用正在像“全民APP”时代一样,呈现出雨后春笋的苗头。

那个“英雄不问出处”的年代似乎又重现了。移动互联网时代的一切都有望被AGI重构,而且大大降低了创新的成本。未来,一个有划时代意义的AI Agent,不一定非来自于大厂,它或许是某位计算机专业大学生的课后作业,甚至是某个高中生极客的灵光一现。

在这个新叙事下,TMF(技术-市场契合)正成为AGI创业的新范式:对大模型的能力和发展有清晰了解,并在这个基础上找到场景,开发出真正有需求的产品。

xbench的出现,就切中了大模型和Agent的TMF上。在技术报告里,红杉中国用三张图详细解释了TMF在Agent领域创业的阶段:

500

第一个阶段,未达成TMF:技术可信与市场接受区域没有交集,此时Agent应用仅是工具或概念,无法交付结果或规模化产生价值;Agent对人的影响较小。

第二个阶段,Agent与Human共同工作:技术可信与市场接受区域发生交集,交叉区域是AI带来的价值增量,包括:一,以低于最低人类成本提供可行服务;二,帮助提升应对重复性、质量要求中等的工作内容。而高水准的工作内容,由于数据稀缺、难度更高、依然需要人来执行,此时由于稀缺性,企业获取的AI收入可能会被用于支付高端工作产出。

第三个阶段,专业化Agent:领域专家在构建评估体系,并指引Agent迭代。专家的工作从交付结果转向构建专业评估训练垂类Agents,并提供规模化服务。

阶段1到阶段2的转变是由于AI技术突破、算力与数据的规模扩张带来的;阶段2到阶段3的进展则依赖于熟悉的垂类需求、标准、历史经验的专家。

如果说这是AGI时代的价值转移之路,那xbench就有望成为这条转移之路上的瞭望塔,第一时间看到和抓到AI技术与产品的突破。

投资机构扎的更深了

在此之前,几乎很少有投资机构会去发表一篇学术论文。投资人更多还是在商业化的指标里去评估一个项目的价值,再辅之以一系列感性的、微妙的判断。

当AGI的大潮汹涌到来之时,传统的打法正在发生变化。xbench在技术报告最后,发出了社区共建的号召:基础模型与Agent开发者可以使用最新版本的xbench评测集来第一时间验证产品效果,得到内部黑盒评估集得分;垂类Agent开发者和相关领域的专家或企业,可以与xbench共建与发布特定行业垂类标准的Profession-Aligned xbench;以及从事且具有明确想法的AI评测研究者,可以获取专业标注并长期维护xbench的更新。

成为标准的制定者,打造一个高人才密度的社区,在不断探求和推动AI技术上限的过程中寻找商业化落地的机会,这或许是红杉中国在AGI时代给出的投资新范式。

站务

全部专栏