抖音秘籍,对外开放

  金磊 鱼羊 发自 凹非寺

  量子位 报道 | 公众号 QbitAI

  “这一天终于还是来了……”

  字节跳动,这个站在短视频风口的巨鳄,终究把憋了数载的功力释放了出来:

  火山引擎。

  至此,抖音、西瓜、火山,能一次又一次成功掀起国民热潮的秘籍,流入江湖,尽数开放

500

  《抖音秘籍》,流入江湖

  先来回答一个问题,何谓火山引擎

  将名字拆分来看:

  火山之意:先蓄势,后爆发,并持久地爆发能量。

  引擎之意:先输入,后输出,并持续地提供动力。

  简而言之,火山引擎要做的,就是把字节跳动成立至今的,与“增长”相关的场景、技术、方法论等分享出来。

  火山引擎就像是一扇打开的窗户,能让外界的人直接看到字节跳动技术的实质。

  那么大火的抖音,它的致胜法宝又是什么?

  这本秘籍,叫做《AI智能体验套件》

500

  秘籍全本共分为四大篇章

  第一篇章:特效场景

  抖音作为一个内容创作平台,一个关键点,就是用户既是消费者,又是生产者。

  要想提升平台的活跃度,抖音在这一篇章主要修炼了两大功力:

  消费者转化成生产者:智能视觉特效和智能创作,可以降低高效生产的门槛。

  精准内容分发:通过推荐算法,提升视频的消费。

  好玩、有趣的AI特效,无疑是抖音爆火的一大原因。

  在短视频场景下,利用生成对抗网络算法的“只有淡妆”,成为了近期的一大爆款。

500

  用户们对于这种清新、自然的AI上妆效果,非常买账,直呼“建议焊在脸上”。

  并且还通过标签联动的方式,让特效成为热点,更多的用户会参与进来,使其价值发挥到最大。

  而这个AI特效,仅仅是上线了18天,便达到了抖音内部评级的S级

  再例如地标AR,让上海东方明珠、广州塔、西安钟楼等地标性建筑“动起来”。

  用户只需要扫描相应的建筑,就可以体验到动态、别样的地标AR效果。

500

  这一AI特效不仅仅增加了用户的娱乐体验,更是提高了文旅场景商业化的收益。

  还有在直播场景下,抖音通过一系列的特效,为主播们定制个性化的“礼物”,提高观众与主播间的互动体验。

  还有对于不愿意露脸的主播,抖音也通过Animoji虚拟形象功能,可以贴合主播自身的形象。

500

  另外,通过触发云渲染技术,将渲染工作转嫁到云端,还可以解决下沉市场一些主播因为手机终端算力不足,在特效玩法上受限的问题。

  而且为了提升画质,还采用了自研的算法实现自适应锐化。

  第二篇章:特效算法

  从第一篇章中不难看出,AI特效已经深入到了抖音的各种场景。

  而在此背后,抖音所修炼的功法,便是特效算法

  AI特效能不能呈现好的效果,算法适配格外的重要。

  因为算法本身是一个比较敏感的模型,模型本身又需要一定的泛化能力。

  然而现实场景非常纷繁复杂,人物在视频中的近中远距离、全身半身,录制时的横竖屏、室内室外光照,以及实时、非实时的处理要求。

500

  这些因素都会影响算法所产生的结果。

  因此,在不同的场景之下都会有不同的工程优化

  例如适配高中低端芯片,提升机型覆盖率;移动端大屏主机端,平台模型差异化等等。

  而要想达到上述的要求,背后所拥有的基础算法需是“方方面面”。

  大方向如人脸识别、人体识别、手势识别,以及图像分割等等。

  而再细分下来,所涵盖的算法内容则会更多,一张图来感受一下。

500

  第三篇章:特效引擎

  《抖音秘籍》的第三篇章就是特效引擎。

  所修炼的内容,首先就是多平台支持

  毕竟做移动端的生意,就需要在各种场景下都能玩得起来。

  因此算法不仅仅是在App上能产生效果,也能落在浏览器、小程序等场景。

  为此,抖音进行了移动端SDK开发,甚至还采用了云渲染这种比较重的方法去解决问题。

  其次,特效引擎中的另一大重点,便是3D渲染GAN等硬技术。

500

  细分来看包括物理引擎模拟、动画系统、虚拟形象等等。

  这些工作让玩法从2D向3D转化,加速了CG级特效玩法落地移动终端。

500

  当然,例如GAN等技术,也大大缩短了特效的生产周期。

500

  第四篇章:特效工具

  敲黑板,这一篇章是抖音秘籍中的重中之重

  原因如下:

  特效的生产效率,对于特效能不能落地业务起着决定性的作用。

  为此,技术团队主要做了三件事情:提升生产效率、完善设计生态,以及引擎同步升级。

  2D、3D、美颜等特效,若是一个人需要花费好几天的时间来完成,恐怕对于抖音这种体量业务,是完全hold不住的。

  为此,字节内部开发出了自己的生产工具,其底层和SDK都是同样的引擎,可以帮助设计师用无代码的方式,快速地生产特效。

  有多快?

  平均1天生产2D特效,5天生产3D特效。

500

  最重要的是这种工具还是对外开放的那种,可以链接外部设计师,起到反哺的效果,合力提高生产的效率。

  至此,四大篇章介绍完毕。

  可说了这么多,这样秘籍究竟能带来什么样的增效?

  火山引擎AI组计算机视觉方向工程师王坎分享了这样一个案例:

  火山引擎有一个短视频客户。产品原来运行了一年,才能积攒下小几十个玩法或特效贴纸。在用了火山引擎的工具+引擎之后,设计师一周就能设计出5-6套妆容,或者一天一个2D特效,上新速度有肉眼可见的提升。

  基本上能在保持原先特效团队规模不变的基础上,让产量增加十倍有余。

  火山为何现在“喷发”

  那么问题来了。

  字节跳动有足够好用的内部工具,在外部亦有探索实践,但为什么是在现在这个时间节点,选择对外“喷发”?

500

  按照字节跳动副总裁杨震原的说法,其实早在2017年,字节跳动就已经开始对外开放自家大名鼎鼎的推荐算法。

  但这样的ToB业务,在2020年之前,一直是“单点尝试”,远算不上是一项主业。

  2020年,字节跳动才打出了火山引擎这张牌,正式启动ToB业务。

  而现在,火山引擎在低调运行一年之后,终于来了一波强势“喷发”,高调展示了自己入局智能化/数字化服务市场的姿态和野心。

500

  巨头入场,自然分外引人关注。更何况,在现在这个时间节点,企业技术服务市场的竞争正日趋激烈——根据IDC数据,尤其是在更偏向底层的IaaS(基础设施即服务)+PaaS(平台即服务)市场上,高集中度竞争格局已然形成,在2020年上半年,阿里云、腾讯云和华为云就已经占据了62%的市场份额。

  所以,为什么是现在?

  杨震原将来自外部的因素归结为三点:

  第一个,是客户对字节跳动的技术和工具很感兴趣。

  第二个,字节跳动有很多数字化增长的实践。

  第三个,看中国市场的情况。从大的方向来看,企业向数字化、向智能化演进的速度在变快。因此,工具市场空间变得非常大。

  以CV技术为例,就有AI产业观察人士指出:“近几年来,在特效玩法这样的应用领域,国内几乎没有谁做得比抖音更好。”

500

  一方面,字节跳动掌握从算法到场景(如抖音、轻颜等)的全链条,能够在内部运行从算法研发到用户反馈的整个过程。

  更重要的是,抖音作为一个DAU早已突破6亿的国民级App,本身就是一个对技术服务有着极大需求的业务场景,对于面向B端的技术产品而言,可以说是一块绝佳的试金石。

  基于庞大的用户基数、海量的分析数据,字节跳动的技术团队在验证技术的场景价值方面,拥有天然的优势。王坎也谈到,火山引擎CV的最大竞争优势,就是可以复用内部已有的实验场景中成熟的生产流程。

  一个玩法能不能火,要看生产工具是否稳定,这就需要试验田。我们内部已经充满了这样的试验田,我们在已经运行稳定的产品上,抽象出知识和架构,提供给外部,这是我们最核心的优势。

500

  而如果仅从字节内部的视角来看,核心的原因还是,“内部产品打磨出来了”。

  王坎认为,字节内部掌握一个技术,跟对外提供一个ToB的服务,难度不在一个重量级。

  因为在内部,技术实践可以更激进,但在ToB产品里,稳定性才是第一位的。

  杨震原则举了AWS的例子:

  我们把AWS当作楷模。它把内部的东西做好,进一步提高质量,提供给外部的客户,又通过外部客户把内部产品打磨得更好,反过来更好地服务于自身的用户。

  把技术开放出去对一家科技公司来说,也是有很大价值的。要想建设高标准的技术团队,就要把“后卫”变成“前锋”,让公司内部中台出去看看外部的市场,去迎接更多的客户,这样才能真正打磨出好的团队。

  如何评价火山引擎?

  在面向个人用户的业务场景里,字节跳动已然证明了自己,此番公开揭起ToB大旗,又是否会对行业格局造成新的冲击?

  至少杨震原说:

  字节跳动的增长没有秘密。

  支撑字节业务狂奔的所谓“秘密”,就是扎实的基础设施,而现在,通过火山引擎,这些技术和工具本身不再被神秘的面纱笼罩。

500

  不过,杨震原也坦承,把事情做成功的关键,除了技术、工具,核心还是要靠企业自己,服务好用户、创造出价值。

  火山引擎能做的,是把数字化的理念和工具做好,更好地服务和支持大家。

  而字节跳动是否真的没有秘密,接下来,就看火山引擎的了。

  (应受访者要求,文中的“王坎”为化名)

全部专栏