字节跳动的AI布局,是「慢思考、快执行」的胜利

临界点在加速到来。

特朗普重返白宫第二天,就宣布「星际之门」项目Stargate Project:

OpenAI、甲骨文和软银将成立合资公司,未来四年投资5000亿美元(约3.6万亿人民币)用于AI基础设施。包括Arm、微软、英伟达、甲骨文和OpenAI等科技公司,都是初始技术合作伙伴。这似乎就是美国在AI时代的「曼哈顿计划」,向AGI时代无限加速。

赶在春节前夕,中国的头部大模型企业,密集进行了一轮推理模型更新。目前,DeepSeek的R1、Kimi的k1.5、智谱的GLM-Zero、阶跃星辰的Step-1o系列等,都在对标OpenAI的o1模型。

集体的智能涌现,意味着:中国厂商经过两年冲刺,通过跟随式创新缩小差距,甚至走出一条用更少资源、性能比肩的不同道路。如今,也到了原创式创新、大规模商用化的临界点。

1月22日,字节跳动正式发布了豆包大模型1.5系列。Doubao-1.5-pro模型在知识、代码、推理等权威测评得分全面超越GPT-4o 和 Claude 3.5 Sonnet,达到全球领先水平,并同步上线火山方舟对外提供服务,价格“加量不加价”。

500

过去一年,字节跳动是大模型增长最快的厂商。在2024年年初,字节跳动还被担忧入局大模型时间太晚。经过一整年全力投入的高频作战,字节取得的战果是:

据QuestMobile数据,截至2024年12月,豆包APP的月活用户约7523万;

截至12月中旬,豆包大模型日均Tokens使用量超4万亿,「豆包+火山引擎」大模型和云服务的组合,突破了B端企业市场和云计算的原有格局。

这堪称一次字节式「慢思考、快执行」的经典战役。

换句话说,每一次豆包大模型更新,都在以更低门槛、更低成本,将人工智能技术传递给上亿用户、开发者和企业。在事实上,豆包大模型已成为国内AI普惠的「布道者」

500

此次,字节跳动发布的豆包大模型1.5系列,包括了:

Doubao-1.5-pro:满血性能,支持256k长文本,多项测试得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型;

Doubao-1.5-lite:轻量级成本,旗舰级性能,极致响应速度,测评指标持平或超越 GPT-4o mini、Claude 3.5 Haiku;

Doubao-1.5-vision-pro:视觉理解模型,在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力全面升级;

Doubao-1.5-realtime-voice-pro:真正实现端到端语音对话,在豆包APP全量上线,即将开放API服务。

目前,Doubao-1.5-pro已经在火山方舟全面上线,我们也上手进行了几波测试。

500

最为核心的,就是豆包通用模型 1.5 Pro。

目前,Doubao-1.5-pro 在知识、代码、推理、中文等多个权威测评基准上都获得了最佳成绩。

500

这意味着,企业无论是需要处理中文文本,搜索专业知识,做编程开发,还是进行的复杂逻辑推理任务,都能全面胜任。

当然,到底能不能打,我们也上手实测体验了一波。

首先,我们测了两个逻辑推理题:

1. 绕晕很多人的「算账问题」

三个人去餐馆吃饭,总共消费了30元,每人付了10元;

后来老板说今天打折,只收25元,让服务员退回5元;

服务员私吞了2元,把剩下3元分给了三个人,每人退回1元;

这样,每个人实际上付了9元,三个人总共付了27元;

加上服务员私藏的2元,总共是29元。

那么,还有1元去哪里了?

Doubao-1.5-pro用0.46s秒答了:

500

2. 非常经典的「动物过河」问题:

农夫需要把狼、羊和白菜都带过河,每次只能带一样物品

狼和羊不能单独相处,羊和白菜也不能单独相处

请问农夫一共要过几次河

Doubao-1.5-pro用0.61s秒答了:

500

整体思路很清晰,根本难不倒它。

随后,我们也测试了故事创作能力:

请以“一场暴雨导致城市停电”为开头

创作一个至少包含三次反转的悬疑短篇小说

结局需要出人意料

豆包不到10秒给了我这样一个小短篇,大家可以评判一下:

500

轻量级的Doubao-1.5-lite,在性能上其实和去年9月的豆包Pro版本媲美。相当于说,企业客户只需花更少的成本,就能获得更出色的性能,AI的“智价比”更高了。

同时,此次多模态能力的全面提升,让豆包在交互和能力上,都更懂人,也更像人。

视觉理解能能力上,Doubao-1.5-vision-pro在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面升级,提升模型视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力。

在升级之后,Doubao-1.5-vision-pro可以读懂任意分辨率、任意比例的图片,不管是随手拍的图片、裁切后的模糊小图,豆包都能理解。

比如,能够完全识别手写的试卷,并进行判分:

500500500

同时,豆包APP已全量上线实时语音功能。

支持和真人一样的聊天互动,豆包可以模仿不同语气、情绪,能够在对话中处理打断和插嘴,也可做到唱歌、说悄悄话等有趣的互动方式。

距离豆包基础模型上次更新,才过了一个月。

我们从豆包大模型1.5 Pro的变化,也能看出字节在技术上的思路转变:

1.采用系数MoE(混合专家系统)架构,用激活参数仅为稠密模型参数量 1/7 的 MoE 模型,超过了稠密模型的性能,将性能杠杆提升至 7 倍,业界普遍为3倍。

2.字节跳动对硬软件进行了深度定制。自研服务器、网卡和网络协议,提升了算力集群的通讯效率;算子层计算和通信的高效交叠,保障多机分布式推理的稳定和高效;精细量化和 PD 分离等方案,灵活使用算力和多任务混合调度,实现更高效算力利用。

3.不使用任何其他模型数据,豆包构建了完全自主的数据生产体系,优化数据质量的同时,确保数据来源的独立性和可靠性。

不直接追求更大量级的模型规模,不走蒸馏模型的“捷径”。

豆包是在探索「模型效果、运行效率、成本控制」,三者之间的最佳平衡点——用更低的成本,提供更强的能力。

500

字节跳动在匹配应有的段位。如果2024年大模型行业是3倍速发展,字节跳动就是10倍速的跃迁。

去年年初,字节提高AI的战略定位,积极招揽顶尖人才,大量资源压强投入。「慢思考、快执行」的风格,贯彻了字节的作战思路:

1. 从C端破局,大规模、多领域、全覆盖推出AI应用。这是字节跳动最擅长的产品驱动+流量打法的「大力出奇迹」模式

2. 在B端饱和猛攻,通过极致优化的模型推理成本攻入企业市场。同时,在大模型加持下的火山引擎,也抬升了在云服务市场的地位。

先看C端产品,2023年8月,Grace改名“豆包”,作为AI智能助手正式上线;据QuestMobile数据, 截至2024年12月,豆包APP的月活用户数约为7523万。

多个渠道统计,豆包的用户量在国内AI产品遥遥领先,千万级的DAU是第二名的3倍(300万);在全球,豆包的月活用户数也仅次于ChatGPT(2.8亿)。

豆包APP完成阶段性使命,为字节获得初具规模的用户基础。目前,字节跳动已推出近20款AI应用,覆盖聊天、视频、编程、社交、教育等赛道。例如,AI视频生成的即梦,AI聊天社交的猫箱,AI教育的豆包爱学,AI音乐的海绵音乐。

再看B端,2024年5月,字节统一将大模型更名“豆包”,推出9款豆包大模型。当月,豆包大模型也通过字节跳动旗下的云与AI服务平台“火山引擎”,正式提供服务。

目前,字节跳动已推出了包括视频生成、实时语音、视觉理解、文生图、同声传译等超10款大模型。

字节跳动在B端的策略,是「更强模型、更低成本、更易落地」。通过豆包大模型和火山引擎这一对「大模型+云服务」组合抱团破局。

2024年5月推出时,豆包主力模型的定价仅为0.0008元/千Tokens,比当时行业价格便宜99.3%,带动了阿里云、百度等大模型降价,B端大模型价格进入“厘”时代;

12月火山引擎Foce冬季大会上,豆包视觉理解模型的定价,为0.003元/千Tokens,比行业价格低85%;

2025年1月,豆包大模型1.5全系产品,也提质不加价,在火山引擎上售卖API的Doubao-1.5-pro,随着推理成本持续优化,毛利率提升到50%;

从时间上看,火山引擎在2021年12月才正式加入云计算竞争,相比阿里、腾讯、华为、百度这四朵云,入场时间晚了一轮周期。坦白来说,云计算是一个对后来者非常不友好的赛道,哪怕是字节跳动。

火山引擎也是抓住了这一轮「大模型+云厂商」的热浪,终于取得了较大突破。2023年6月,火山引擎正式推出“火山方舟”平台,提供大模型的部署、精调、推理等服务。

在那个时间点,国内对算力的需求,重心还在大模型的训练侧。当时中国7成做大模型的公司,包括月之暗面、智谱AI等明星公司,都跑在火山引擎上。这个时期主要客户,也仍然是做大模型的少数几家企业。

随着大模型开始落地,大量企业客户开始参与到AI应用开发中,行业对算力和云服务的需求转向推理侧。火山引擎也将重心转向AI Infra能力,以及打造开发平台、工具链等各层次的生态补全。

2024年2月,火山引擎推出AI应用开发平台扣子,提供主流大模型的API,开发者和企业能低代码构建AI Bot;

5月,推出HiAgent平台,被称为企业开发应用的“SDK”,企业能快速开发大模型应用和智能体,成为火山引擎增长最快的产品之一。

12月,火山引擎升级以GPU为中心的AI Infra分布式业务体系,通过 vRDMA 网络支持大规模并行计算及 P/D 分离推理架构,提升训练和推理效率,降低企业使用成本;EIC 弹性极速缓存解决方案,实现 GPU 直连,使大模型推理时延降低至五十分之一,成本降低 20%。

这一套「模型能力+低成本+生态搭建」的组合拳,让火山引擎迅速在2024年取得了数量级的突破,核心在于为企业落地大模型、打造AI应用提供全周期的支撑。

根据火山引擎披露数据,截至2024年12月中旬,豆包大模型的日均Token使用量已超过4万亿,相比5月上线时的数据(1200亿)增长了33倍。

目前,豆包大模型已在金融、消费、电商、教育、汽车等30多个行业完成落地,与企业深度开发AI应用样板间。截至12月,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台。

例如,火山引擎在去年5月,与一汽红旗、东风、吉利、长城等24家车企成立了“汽车大模型生态联盟”;8月,火山引擎与多点DMALL成立“零售大模型生态联盟”。

小米的“小爱同学”,OPPO的Find X8新机,都使用豆包大模型提升用户体验;浙江大学与火山引擎搭建了“浙大先生”智能体应用开发平台;扣子专业版和HiAgent等工具生态,金融行业的招商银行、华泰证券、国信证券等十余家客户。

火山引擎总裁谭待表示,豆包大模型目前的定价,依然是有合理毛利的。这个价格是靠模型技术能力、工程能力、软硬件结合能力做到的,而不是只靠烧钱的卷低价。

这个思路的潜在意思是说:AI的To B业务还处于初期阶段,只有让更多企业和开发者用得起,一起持续降本、优化效率、做大蛋糕,商业模式才能长期成立。

500

到2024年的第四季度,大模型厂商的分化就已经尘埃落定。即便是「AI六小虎」,也已经有厂商在后撤,退出超大模型研发,转向垂直领域、行业模型和AI应用的层面。

目前市场上的厂商里:1.有能力继续迭代基础模型,2.有希望实现商业化盈利。能符合这两个要求的厂商可能只有十家,2025年还会进一步缩圈。

模型能力始终是第一位的。

Scaling Law仍发挥作用,下一代基础模型的参数和算力规模仍会有量级增加。据分析,GPT-4估计是1.8万亿参数,每轮训练成本6000万美金;GPT-5参数到十几万亿,每轮训练耗时几个月,算力成本5亿美金。

量级增加的成本,高频的研发周期,就会出清绝大部分非大厂的AI企业。而MoE、推理模型、多模态、Agent等众多的新技术方向,头部厂商也全部都要跟进。因为尖端竞争,无法再容忍因错过趋势,而导致落后出局。

与此同时,AI需要的庞大资金投入,与相比之下极少的盈利回报,也日益成为大模型发展的主要矛盾。

同样以OpenAI为例,ChatGPT活跃用户近3亿,去年底推出了每月200美元的ChatGPT Pro,而Sam Altman仍吐槽:Pro版订阅服务实际在亏损。据报道,OpenAI在2024年的收入约37亿美元,而亏损达50亿美元。创造规模化、成熟的盈利模式,是行业的共同难题。

对字节跳动来说,豆包大模型1.5 Pro跻身顶尖,C端产品积累庞大用户基础,火山引擎的B端业务厚积薄发,接下来更多要「直面天命」,找到在AI时代不可被替代的位置。

在2024年的大模型招标中标名单里,火山引擎的名字开始更多出现。在大模型的长期盈利模式尚不明朗的情况下,我们也要看到亚马逊AWS、微软Azure和谷歌云,都以惊人的增速在创造财务新高。2025年,火山引擎除了全生态的布局,在「更强模型、更低成本、更易落地」战术上还将猛攻。

在国内To B市场,火山引擎抓住了明晰的主线:

1.未来算力需求会进一步转向推理,直到超过模型训练算力;

2.当前绝大部分企业,仍无法上手大模型和AI应用;

3.混合云和私有化等定制需求,仍然持续高涨。只有把蛋糕做大,商业模式才有希望跑通。

据报道,字节跳动在1月下旬成立Seed Edge项目,核心是做比预训练和大模型迭代更长期、更基础的AGI前沿研究。这是字节在慢下来,用更长研发周期,探索更底层、更多元、更有想象力的技术变革。

从追随式的自我证明,到进入「无人之境」创造不可能。

站务

全部专栏