在卷价格这事上,劝你别拿“豆包”不当干粮
作者|陶然
编辑|魏晓
大模型应用落地元年最后的一个月,字节旗下豆包大模型再次迎来模型及应用层的全面升级。
先总结两个关键词:感知世界、回应需求。
12月18日的火山引擎Force冬季大会上,月初接入豆包APP及PC端的视觉理解模型正式发布,一并亮相的还有围绕AI视觉理解能力打造的诸多产品应用。
以及,豆包家族其余模型的大量升级,图文、代码、音视频都在射程范围。
视觉理解模型,通过各AI应用具象成用户手边能看见并理解万物的助理,也成为豆包此次升级最核心的变化。
研究表明,人类接受的所有信息中,有超过80%的部分来自我们的眼睛——来自视觉。
同理,对于旨在无限趋近于人类、成为工作和生活帮手的Agent来说,视觉理解能力也能极大拓展AI技术的应用边界。
随着AI与我们的眼睛完成信息对齐,人与AI交互的门槛会将会进一步降低,解锁更为丰富的应用场景:只要能看见,都可以问AI。
从理解信息
到理解世界
先说下大会开场给的一段测试案例,场景为火山引擎公司办公区。
这次测试预先载入了火山引擎企业知识库,相当于给模型圈定了一个大概的考试范围,即问答题目大多会是公司相关内容。
而视觉理解模型,就是要通过理解摄像头所看到的内容,查找并调用这个企业知识库信息,给出回答。比如,画面中这个公司logo摆件散了,怎么拼回去。
模型准确理解了三维空间中前后左右等等位置信息,和摆件之前的物理状态,最终给出了具体的组装方案。以此类推,载入火山引擎知识库能拼摆件,载入家具品牌知识库理论上就能决绝动手能力不足群体看不懂说明书、拼不上家具的问题。
还能,读懂体检报告再给出生活建议;
还能,读懂代码并提出修改意见;
再比如,通过图片了解到用户此刻正在火山引擎大楼,从这里到北京南站要40分钟车程。
倘若这项功能可以与具体城市、地区的高精地图联动,显然就会是路痴人群福音,被动导航从此升级为主动导航。
火山引擎总裁谭待在采访中表示,推出视觉理解模型相当于解锁了一个很大的场景,同过去只有文字对话形式的AI相比,聊天功能与深度推理的、图像视觉理解等能力的融合,能让模型有能力处理好真实世界大量综合性的信息,辅助人类完成一系列复杂工作。
“语言是来描述世界的,首先你理解这个事情得靠视觉。就像我们今天坐在一起聊一些事情,都得是你看得到它、感觉得到它,说出它的信息再来交互。”
由功能增强带来的应用拓展,也会对大模型的调用量和场景带来大幅提升。
图/AI蓝媒汇现场测试识图功能
能看懂世界的大模型,离“全知全能“的AI助理又近一步。
即梦
更值得期待了
前段时间,坊间曾传出“字节已经提升了剪映即梦业务的产品优先级,计划后续把更多资源向更多模态的产品形态转移到该业务”的流言。
本次大会,剪映业务负责人张楠同样登台演讲,内容基本围绕即梦展开。即梦,是张楠由抖音集团CEO改任剪映团队一号位之后推出的AI创作工具和社区,于2024年5月上线,包括智能画布、文生图/图生图、对口型、运镜调节等大量AI技术已在其图片、视频创作功能中落地。
得益于底层模型多模态,尤其是视觉能力的升级,即梦后续的发展空间显然会进一步拓展。
会上,张楠分享了两位即梦创作者用AI创作的短片,一部借聚光灯下大荧幕女明星的奇幻故事还原了从默片到有声时代、从黑白到彩色的电影发展史;另一部来自今年7月在抖音上线的科幻短剧《觉醒》。据称,该科幻短剧一经上线就吸引了许多关注与讨论,也成为抖音上首部单日点赞破40万的AI短剧。
如果说抖音是记录和分享“真实世界”的相机,那么即梦就是呈现“想象力的相机”。产品的灵感来自OpenAI先前发布的DALL-E 2模型,张楠希望用户“只需要输入某一刻的想法,借助 GenAI 的技术,画面就可以瞬间被呈现在眼前。”
基于字节自研的豆包·文生图模型、豆包·视频生成模型,即梦AI近期上线了三款各具特色的视频生成模型,并接入了最新的豆包·文生图模型,业内首创了“一句话P图”、“一键海报”和“动态海报”能力,并大幅提升了困扰行业多时的文字生成准确率难题,灵活且精准的图片创作编辑从此成为现实。
不管是画面的完成度,还是文字生成的质量,可以说这就是目前国产大模型的t0,中文文字生成的标杆。
依旧是价格屠夫
当然,该卷的地方,还是要卷的。
横向比较,豆包在整个大模型赛道可以算姗姗来迟,今年5月才正式发布。但,第一个特点就是后来居上:发布之初的模型日均tokens是1200亿。7月份涨到了5000亿,9月份达到1.3万亿;而截止到上周日,12月15号,豆包大模型的日均tokens数已经突破了4万亿,在7个月的时间里增长超过33倍。
第二个特点,则是整顿行业定价:豆包发布之初,捅破地板的模型价格把行业定价降低了99%,也掀起了第一轮大模型集体降价潮,用谭待的话说,是“降低到一个合理水平,让企业可以放心大胆的去做大模型应用创新。”
这次上架视觉理解模型,豆包又一次当起了价格屠夫:目前,Claude的价格是每千token 两分一里钱;GPT-4o的价格,是每千Tokens 一分七厘。阿里的通义千问的价格,是每千Tokens 2分钱。
而豆包,把这个价格杀到了“每千tokens 3厘钱”,再次比行业平均价格降低85%。相当于一块钱可以处理284张720P的图片。
视觉理解模型赛道也被豆包带入了厘时代,“好模型就是要让每家企业都用得起”。
现在来看,大模型或许会是一个比手机、比新能源更加“赢者通吃”,所以更需要所谓“终局思维”的赛道:scaling law路线下不断扩大的是模型能力,也是训练成本,只有产品力足够强,客源足够多,且有资源撑到最后的极少数玩家才能幸存。
豆包,显然是最够拼,目前也足够强:综合目前行业数据,豆包在国内目前以接近900万的DAU遥遥领先于第二名的Kimi(300万);甚至,在全球范围内,豆包约6000万的月活也仅次于OpenAI的ChatGPT,居全球第二。
并且,视觉理解等模型下一步的应用场景也在打开:会上演示的模型理解案例中,豆包大模型在接收到高跟鞋推荐相关问题后,自动连接到了似乎是抖音电商的相关购物推荐界面。
这种连接和传统广告营销的“硬塞”完全不同,AI做的是理解并回应用户需求。何况,豆包能理解的场景不只局限于是电商,毕竟字节旗下还有内容平台,还有教育等等。
足够丰富的内部生态、足够多的优质数据和应用场景,且都全面接入AI并相互打通,才是豆包成为行业“卷王”的秘诀。
Lanmeih/今日话题
你是豆包大模型的用户吗?体验如何?