如何用A/B测试,给企业增长开挂?

500

从勇者为王到精益创业,一代又一代的企业在这个瞬息万变的商业世界中追寻着增长的脉动与规律。大到国外的Google、Netflix、亚马逊,国内的字节跳动、BAT,小到十个人的创业公司、一个人的产品思考,所有人都渴望拨开重重迷雾、锚定真正的增长引擎。

在众多的增长方法中,以数据驱动为核心理念的A/B测试是当下最为炙手可热的尝试之一。为了进一步厘清这一增长方法的来龙去脉、可行性与适用范围、真正价值与常见误区,「深响」在充分的国内外案头研究基础上,访谈到多位一线操盘手,沉淀出当下市场对于A/B测试、数据驱动的主流理解与实际落地应用的情况。

今天为您奉上增长实验室系列第2篇,《如何用A/B测试,给企业增长开挂?》。

©深响原创 · 作者|吴鸿键

字节跳动旗下的短视频APP“西瓜视频”,原本叫“头条视频”。但为了让其在短视频行业更具品牌辨识度,团队希望更名。

在经过用户调研和多轮征集筛选后,团队选定4个待选名字进行A/B测试:西瓜视频、奇妙视频、筷子视频、阳光视频。最终的测试结果显示:“西瓜视频”和“奇妙视频”的点击率位列前二,分别比原名称增加了5.22%、5.08%的点击率。结合用户调性等因素综合考量,“头条视频”最终更名为“西瓜视频”。

无独有偶,一次快手内部会议上,联合创始人程一笑在听到“只要公司开放更多资源,营收就能大幅提升”的说法时,也只提了一个要求:先做A/B测试。

上述决策过程反映的,其实是两家数字化时代企业的共同思路:数据驱动、决策不完全依赖个人经验判断。而A/B测试,正是该思路的集合体现。

互联网巨头先行验证

大洋彼岸,在Google、Facebook、Netflix、亚马逊的传道下,A/B测试已是风靡硅谷的增长利器。在中国,这一方法论先在头部互联网企业中应用起来。

目前,BAT均以内部自建的方式应用A/B测试。同样,新一代互联网巨头字节跳动、美团、滴滴也都建立了自己的A/B测试平台,比如美团的Gemini、滴滴的阿波罗、今日头条的Libra。

具体应用上,以即时配送业务为例,美团以“提出假设、定义指标、检验假设(A/B测试)、分析学习、发布”五个步骤完成精细化的策略迭代,实现降本增效。类似的逻辑,滴滴应用在城市运营领域、字节跳动则更是把A/B测试应用到了产品命名、交互设计、推荐算法、用户增长、广告优化等方方面面。

罗征曾任腾讯广告副总裁,也在谷歌公司任职八年,目前为“像素偏移” 联合创始人与CEO。据他的观察,目前互联网大厂普遍接受A/B测试的逻辑。在算法层面,技术团队基本都能认同A/B测试的价值。“国内(A/B测试)的起步虽然晚一些,但我不认为国内的发展比国外差。”

500

但另一重不容忽略的事实是:大厂之外,A/B测试的渗透尚处于早期阶段。

即使是同处于互联网行业的中小企业,A/B测试的应用仍然较少。自建A/B测试平台需要人才和资金,推进A/B测试需要时间,要得出可靠的测试结果需要足够的数据量。这些对于中小企业来说都是稀缺的。

此外,如果业务负责人缺少应用新工具的意识,那么A/B测试再管用,在公司内部也难以推行。而退一步讲,就算创业者乐于尝鲜、想靠外包的方式应用A/B测试,市面上也没有让人一下就能想到的值得信赖的工具品牌。

互联网行业尚且如此,传统行业自不必说。虽然金融行业已有应用A/B测试的案例,但主要针对的还是互联网相关的产品,比如金融类APP上的功能测试。

问题随之而来:产业数字化转型不是当前的大热点吗?既然A/B测试的价值已经得到巨头认可,为什么还没有获得广泛普及?

这既有客观条件的约束,也跟关键位置上的“人”对于A/B测试的感知有关。

对于中小团队来说,A/B测试的成本不菲,无论是时间、研发,还是对应的机会成本。创业公司从0到1的时候,尤其看重迭代速度,晚几天发布版本,目标市场可能就会被对手捷足先登,这样的损失没有人愿意承受。

再者,A/B测试存在较高的技术壁垒。分流是A/B测试的基础,企业需要建立靠谱的A/B测试平台,保证科学的流量分割、流量层直接的正交互斥,使得实验不受干扰。此外,A/B测试平台的指标设计和解读、置信度的统计方法,也对应着不小的研发资源投入。

成本和难度之外,A/B测试也对企业本身的数据基建提出要求。有些企业缺乏坚固的数据基建,并不具备使用A/B测试的能力。而当一个既认可“数据驱动”理念、数据基建也过关的企业想推进A/B测试时,它会发现,即使能够对数据进行联动打通,市场上也少有成熟、可靠的A/B测试产品可供使用。

目前,国内独立第三方A/B测试工具还处于相对分散的状态,尚待龙头企业树立标杆。部分互联网大厂虽然锤炼出了一些可靠的A/B测试产品,但是对外开放还处于起步阶段。

至于关键位置上的“人”的问题,一个典型的场景是,部分掌握话语权的产品经理更愿意相信自己对于人性的认知和对于审美的把握,在其看来,数据只是辅助,真正影响决策的,还得是人的经验和洞察。

这或许不是行业环境的问题,而要追溯到中外教育理念的差异。A/B测试的理念从根源上更贴近西方教育中的逻辑、实验、辩证思维。在国外,A/B测试基本不需要在理念层面做推广,而国内的情况则明显不同。

诸多的客观约束、加上人们对A/B测试的认识存在差异,种种因素的叠加下,行业存在不少对A/B测试的误读和两极化判断。但好在,已经有不少资深从业者躬身入局,他们的切身感受,正是破解误读的关键。

A/B测试的三大误区

根据「深响」与互联网资深从业者,尤其是有过A/B测试实践经验的专业人士的交流,目前行业内存在的误读和两极化判断,主要体现为以下三大误区:

误区一:A/B测试是在浪费资源。

不只是中小企业,大公司内部在迭代业务时也会存在类似的质疑。除了上文已经提到的搭建测试平台所需的成本,A/B测试的资源投入还以更直观的形式体现于执行过程中。

一个最简单的例子,某公司旗下的APP想要提升注册转化,此时,业务部门想应用A/B测试,准备测试方案的过程需要协调各部门(比如设计、产品、运营)共同完成,而测试过程本身也是个需要投入时间的事情。测试做完,如果A/B测试效果不够突出,公司内部很容易出现“折腾一趟不划算”的想法。

成本,是A/B测试无法规避的问题。“越小的公司,对成本的容忍度就越低。这永远是一个取舍的问题”,罗征表示。

不过,小公司应用A/B测试的情况也不算罕见。早在2012年,有瞰学社创始人&CEO、知名互联网运营专家黄有璨就接触过A/B测试,丰富的互联网从业经验和创业经验,让其对A/B测试的价值有更切身的体会。

在黄有璨看来,如果公司业务处于早期,那么A/B测试稍微控制不好,肯定会造成一定资源浪费。但当业务比较成熟时,管理者思考的是:如果不做精细的A/B测试,要承担的风险是什么?

“假如这个测试能直接影响一年的收入,那么不做A/B测试,我要承担的风险可能是浪费三四个月的时间(在错误的决策上)。如果我投入资源做个详细的A/B测试,可能要花一百万或两百万,但这能帮助我节省下来三到四个月的风险,这笔帐肯定能算明白。”黄有璨告诉「深响」。

言而总之,A/B测试的成本问题,说到底是性价比问题。而看待A/B测试的性价比,不能只是静态地看测试的瞬间,而是要放长线来考虑。如果一次A/B测试帮助企业前置思考,避免了错误方案的执行,那绝对是“花小钱办大事”,不存在资源浪费一说。

如何评价一个A/B测试是好是坏?在黄有璨看来,一方面要看A/B测试本身的成本够不够低,或者效率是不是最高,即财务上要能算得过来,测试反馈也要足够快;另一方面,A/B测试结论的科学性和准确性和成本同样重要。

交流中,黄有璨多次提到了变量控制的难度——用户的构成、时间上的差异、以及用户来源渠道的不同等,都会影响A/B测试的准确性。只有当测试环境相对干净,不受额外变量的干扰,测试结果才有参考的价值。

“谁来设计A/B测试,他的思考或逻辑清晰不清晰,他是否能借A/B测试的信息反馈快速确定结论。这件事其实是更加重要的。”黄有璨表示。

500

误区二:小公司不需要A/B测试。

小公司需不需要A/B测试?这个问题其实已经把A/B测试预设成“大费周章”的事,但流程只是表象,A/B测试真正重要的是其“对照实验”和“数据驱动”的核心理念。

黄有璨向「深响」介绍了一段亲身经历,在公司业务还未成熟的时候,为了测试一个课程的详情页转化效率,黄有璨自己做了两三个版本的详情页,将其放在不同的用户样本中进行测试,以“人肉”手段跑完了A/B测试,最后选用了数据最好的详情页版本。

在黄有璨看来,A/B测试不是巨头的专利,它小到“一个人都可以做”。当业务模型得到验证,团队规模发展到几百人时,需要做A/B测试的场景也会越来越多,这时公司可以考虑让第三方工具帮忙提升效率。

上述经历其实都在说明一件事:做不做A/B测试,跟公司规模无关。如果在意成本问题,那么接入第三方工具会是一个值得考虑的选择。

在这方面,罗征向「深响」着重表达了自己对于小公司接入第三方工具的认可。“大部分小厂可以采用专门的SaaS服务,大厂通常会因为需求比较复杂和独特而倾向自研。”

认为A/B测试浪费资源也好,认为小公司不需要A/B测试也好,这些其实都是可以通过“算账”解决的问题。全盘否定不可取,而盲目买单A/B测试的做法,同样不是明智之举。

误区三:A/B测试是万能的。

互联网造就了诸多增长神话,也颠覆了各行各业的底层逻辑。因此,不少从业者将“数据驱动”、尤其是以数据驱动为核心理念的A/B测试奉为信仰,他们把A/B测试当作评判一切的标准,试图将所有业务进行量化。

这是个典型的“手拿锤子,看什么都是钉子”的思路。

据罗征总结,A/B测试更适用于用户数量大、且用户之间关联度不高,结果容易以数据衡量的领域,如广告行业、搜索系统等。如果行业本身并不具备这些特征,或者压根没法执行A/B测试,那么A/B测试的价值就很难体现。

罗征向「深响」描述了一个无法应用A/B测试的场景:大部分内容行业,比如综艺节目,就基本不可能做A/B测试,而且做产品原始设计的时候,其实也是不能A/B测试的。

“有些事情就没有办法A/B测试,或者A/B测试的成本过大,你就做不到了。”

A/B测试的真正价值

生于硅谷的光鲜背景、加上国内互联网大厂的带货,A/B测试概念的热度与日俱增。但太高的起点也让其被太多模糊焦点的信息所裹挟。纠偏的第一步,在于回本溯源,回答一个所有企业都关心的问题:A/B测试真正的价值到底是什么?

第一点,最直观的一点,A/B测试能真正落地数据驱动,帮助企业科学决策。在传统的经验主义运营模式下,业务负责人能力再强,也难免有失手的时候。但作为一种前置验证的手段,A/B测试的价值不仅能帮助企业准确评估哪个方案更好,还能评估出好多少、为决策提供量化参考。

今日头条APP曾因整体UI风格偏大龄被诟病。为了吸引更多年轻用户和女性用户,也为了在可接受的负向范围内改一版用户评价更高的UI,今日头条通过控制变量,开展了多次A/B测试,变量包括头部色值饱和度、字号、字重、文字间距、底部tab icon等。

经过多次测试,今日头条APP最终找到了一套综合效果最好的UI版本。新UI上线4个月后,图文类时长显著提升1.66%、搜索渗透显著提升1.47%。高频用户逐渐适应新UI的同时,用户调研也显示,年轻和女性用户对新UI表现出了更明显的偏好。

500

今日头条APP的案例正好解释了量化参考为何重要。在方案的实际执行中,业务人员需要在资金、人力、时间、后续维护等方面做好平衡,需要找到边际效益的临界点。A/B测试对不同方案效果的量化,恰好提供了对应的参考。

更重要的是,在不断的测试过程中,企业还将沉淀知识,建立起一套科学的运营、优化体系。这样一来,业务的创新不再高度依赖于某个关键位置上的“人”,领导者敢于放权,自下而上的创新得以实现。

第二点,同时也是科学决策的另一面,A/B测试能帮助企业规避风险。

假如一个带有错误特性的新版本全量推给用户,影响的可能是千万、甚至上亿用户的体验,后续挽回损失的代价也同样让企业难以承受。A/B测试可以通过分流出小部分流量进行测试,将负面影响控制在实验范围内,防止错误决策造成更大的损失。

“A/B测试本质上,是帮助我们提高选择、判断的准确性,以及提升决策时的效率,降低成本。”黄有璨告诉「深响」。

第三点,从企业发展的长远角度看,A/B测试是企业复利式增长的新标配,其尽可能地让企业的每个决策都带来正向收益,持续循环,最终实现指数级增长。

一家公司,从初创企业到独角兽,再到成为行业巨头,整个过程中最令人惊叹的地方往往是:这家企业需要在每个重要节点都做出正确的选择。如果稍有不慎,哪怕只是一次错误,也可能让原处于高歌猛进状态的企业走起下坡路。

道理不难懂,难点在于,没有人能看到未来,只能尽最大努力基于已有信息作判断。而A/B测试,是一个把消费者行为数据化、用数据对行为进行量化反馈的过程,这对企业预判趋势大有裨益。

从心理上,用户往往不知道自己要什么,但其选择偏好其实已经反映在了行为上,只是市场尚未有相应供给,告诉他们“你要的是这个”罢了。通过A/B测试,企业能够知晓消费者的选择偏好,由此动态做出决策,这相当于把“用户中心”往前再推一步,变成“用户决策中心”,确保每个决策都为企业带来正向收益,实现复利效应。

简言之,A/B测试让业务迭代、新品研发能够有的放矢,原本不确定的决策,将变成确定的决策,企业得以精准洞察商机。

除了驱动增长之外,A/B测试还可以帮助企业“做减法”。当前,很多企业推出了五花八门的服务,试图在广撒网中找到增长密码,但用户体验不增反降。而A/B测试,恰能帮助企业精准地“做减法”,帮用户简化场景中的选择。

最后,从更底层的理念层面看,A/B测试是落实数据驱动理念的最佳工具。让理念得到落实,进而辐射、渗透到企业的血脉中,才是A/B测试更大的价值。

小到UI设计的改变、转发按钮的放置,大到组织的迭代升级,A/B测试的价值可以贯穿企业增长的全过程。

但要做好A/B测试并不容易,需要有足够专业的人来设计测试方案,也需要决策者对A/B测试有足够的认同。这样,A/B测试才不至于在推行之初就阻力重重。

万事开头难,何况是一个投入先于效果、且极其考验决策者决心的工程。唯一可以确定的是,A/B测试的重要性日益凸显,价值已经非常明确。挑战当然有,但当企业真正掌握这把增长利剑时,业务增长路径就会豁然开朗。

最近更新的专栏

全部专栏