热搜:
2021年9月4日 – 9月5日,人人都是产品经理举办的【2021产品经理大会•广州站】完美落幕。字节跳动火山引擎资深数据营销产品解决方案@胡雪 为我们带来了精彩的分享,她分享的主题是《A/B测试增长实战》。

A/B测试也被称为对照实验,起源于医学研究领域,本质为分离式组间实验。那么,在互联网行业是如何应用实现快速增长的呢?

在产品迭代过程中,我们有很多的想法和方案,但是没有办法确定哪一个更好,所以把方案做成A和B,并且将用户进行均分,在用户特征相同的情况下,分别进行A和B的方案,根据用户真实数据进行评估,选出最优方案。

这就是互联网的A/B实验。

用一个具体案例进行分析。

这是一个团购APP的产品货架,也是流量最大的页面入口,我们想要优化标题文案,将“优惠团购”改成“限时特惠”,看看是否能够提升点击量。

于是,我们就进行了A/B实验,最后得出的结论是改动文案整体上没有太大效果。但是对于单价较高的娱乐产品来说,点击量提高了;但对于单价较低的餐饮产品来说,点击量没有变化。

产品团队也从中得到启发,单纯的文字游戏已经不能刺激到消费者了。于是我们做了一个新测试,突出折扣力度。

原始的版本只是凸显了原价和优惠价,现版本把折扣力度摆出来,明明白白告诉消费者打了多少折实际优惠。通过A/B测试,发现原来这样的改动更能刺激用户,整体点击率上升3%,客单价高的娱乐类提升更为明显为4.5%,甚至连之前没有打动的餐饮类客户也提升了1.6%,总结发现相比文案,用户对数字/价格更敏感。

所以,复盘这个例子可以得知,我们需要通过A/B实验,用自己的产品和真实用户检验自己的策略,这样才能得到增长实践中最有用的信息。

而字节跳动在发展的过程中积累了很多产品和运营的增长方法论,也希望通过火山引擎这样一个平台输出给大家。

火山引擎是字节跳动旗下的企业级技术服务平台,将字节跳动快速发展过程中积累的增长方法、技术工具和能力开放给外部企业,提供云、AI、大数据技术等系列产品和服务,帮助企业在数字化升级中实现持续增长。

字节内部是如何增长的呢?

首先我们自己每发布一款新的APP,其名字都要打N个包去各大应用市场跑A/B测试,把产品的决策权交给用户。张一鸣同学有句话说的就是:“哪怕你有百分之九十九点九的把握确定,那就是最好的名字,那测一下又有什么关系呢?”

抖音和头条的名字也是通过A/B测试来的,但抖音并不是当时下载激活的第一名,但是产品团队觉得抖音这个名字更贴合产品定位和调性,就用了抖音这个名字。

上面这个故事几乎每天发生在字节跳动,如今,A/B测试平台已经服务了超过五百条内部业务线,实际累计超过80万个实验,日增实验1500+,能够同时支撑超过一万个核心产品以及其他产品线的实验同时运行。

小到对外投放的一条推送文案,大到技术底座的升级,推荐算法的优化,功能的迭代,我们都是会先通过A/B测试跑出一个正向的效果,才会推广到全量用户。

增长黑客的创始人Sean Ellis说过:“如果你不做实验的话,我们可能就不会有增长。”

意思就是,我们每发版一个APP,会有很多部门推出的功能同时上线,如果不做实验,就不知道业务指标的波动是受了哪个功能影响。

还有一种情况,当我们的业务处于上升期,尽管我们什么都不做,业务指标还是会上升。那我们的迭代真的能带来实际增长吗?

其实业务发展的逻辑就像是马拉松,需要低损耗地朝正确方向持续小跑。

通过小流量去测试用户,能够加速产品的迭代,小步快跑积少成多。同时通过A/B测试保证数据是稳定且有效的,降低决策风险,保证眼前的路不是下坡路。

下图中的数据增长闭环,产品和运营人都不陌生。

举一个具体例子,为什么支付页的转化率低?很多人觉得就是通过分析数据猜测原因,选一个看似最能解决问题的可能就直接上线。在没有A/B测试的情况下,这看似是数据驱动决策,实际上还是经验驱动决策。

如果是我们,我们会怎么解决?

首先会提出假设,是用户不喜欢我们的UI风格吗?还是觉得支付流程过长?那通过设计不同UI风格,精简支付流程,同时让这两个方案进行A/B测试,让用户真实的行为告诉我们,更喜欢哪个方案。

解读实验报告的过程也是在解密功能对用户行为影响的过程。

A/B测试能够加深我们对产品和用户的认知,纠正过去错误的理解和偏见。

所以数据驱动这个圆环不停旋转起来,沉淀下来的就是新的经验新的认知,也提高了业务团队的决策能力。

所以A/B对于字节不仅是工具,可以说一种业务文化,这种经验和文化不断的传播,大带小、老带新,就形成了公司内部的正循环。

前面沟通了这么多A/B的价值,A/B实验具体可以在哪些场景下使用?

以电商用户为例,如下图所示,这是电商产品拉新、获取、激活、到最后流失的整个留存曲线。在这其中有几个拐点,产品和运营的工作就是运营和增长的手段在拐点来临之前把他们拉回,A/B测试所运用的地方也是这些拐点之前。

举个例子,在做广告投放时,可以通过不同的落地页进行转化对比,提升投放的ROI。用户吸引来之后,要对他进行激活,可以发优惠券,优惠券的金额根据数据对比实验决定。

成为了活跃用户之后,用户只有在体验过产品的核心功能并认可产品的价值才会真的留下成为一个活跃用户,这个阶段会做产品实验比如优化搜索、下单流程、支付流程等。

电商希望更多用户的能更快地匹配到更合适的商品、这样不仅能让用户在app停留更久,也能促进高频高质量的消费,就要推荐算法提升粘性,就会用到推荐算法调优实验。

  • 针对老用户,可以开发针对性的个性推送提升复购;
  • 针对沉睡用户,可以进行定向圈人开push实验进行召回唤醒。

这就是A/B测试在整个用户生命周期中的作用。

举一个实战案例,来讲述下A/B实验是如何在支付环节提升收益的。

这是一个租车APP,用户在结算页面需要支付租金和押金。押金比租金要高很多,这两个金额同时支付对于用户的心理成本很大,所以支付页面的转化率很低。

我们提出一个想法,把押金和租金的支付页面分开,明确告诉用户押金支付完可以退,是否能提升下单。

也有人担心这样拆分支付流程变长,用户会流失。

但是通过A/B测试,发现改动之后下单转化率提升了7%。虽然支付流程变长了,但是降低了用户的心理阻力。

有了优化场景,想做A/B实验,但具体的页面应该如何优化呢?

我们提出了LIFT模型,并且从中总结了一个公式:

用户动机=用户感受到的价值/收益–用户感受到的成本

我们要做的就是放大收益,缩小成本。

还是以电商产品为例,价值主张就是希望买到物美价廉的商品。如何放大这个价值呢?如果我是一个美妆爱好者,那就需要把营销的重点放在美妆品类,并且让我清楚地第一眼就知道这是一个关于美妆的营销活动。

以上就是需要提升的因素,而焦虑性和注意力都是需要降低的因素。

比如焦虑性,说一个大家不一定注意到的焦虑感来源,如果UI页面的色彩对比过于明显,对比度过高,从心理学层面来说会对用户造成一定程度的视觉焦虑。通过优化UI页面,可以减少焦虑和分散注意力的情况。

字节做了80w+实验,从前期的A/B小白到后期输出成熟的A/B测试平台,我们也是亲身踩坑,总结出了以下经验,实验常见的8个错误认知:

有些同学为了校验分流服务是否正常喜欢开aa实验,但是在检验假设的过程中,我们会犯第一类错误——我的策略没有用,但实验结果显示我的策略有用。

在95%的置信水平下这类错误出现的概率是5%,即我们开100次AA实验,然后观测某个指标,可能会有5次得到显著的结果。这是由于不可避免的抽样误差所导致的。发生AA置信的情况属于正常现象,A/B测试平台会保证分流和统计服务的可靠性,请你尽管大胆假设,小心实验。

另外,实验不显著就不停止实验。理论上任何一点差异只要样本足够多,都能检测出差距,A/B实验中,无论A策略与B策略多么相像,他们终归是不一样的。理论上来说,只要样本足够多(比如无穷多时),最后实验结果都会形成统计显著。但这种显著有意义吗?比如我的实验开启了整整10年,新策略使指标提升0.001%。

那这样的实验意义大吗?

既然A/B测试这么有效,但是公司开发资源紧缺,这可怎么办?

字节早期A/B测试也是没有产品化平台的,后续为了降低我们自己做实验的成本,开发了火山引擎A/B测试平台,一个低成本的实验解决方案。

比如运营人常用的落地页实验,将不同样式的落地页链接放上去,就能对比看出不同落地页的转化效果。

可视化实验,如果只是想改动页面的中文案、图片、颜色等,可以通过可视化实验调整UI页面。

push实验,这也是运营最常用的实验。测试推送的时间、推送的文案、推送的策略等,找到最佳的转化方案。

这还不够,用技术和算法实现了实验智能化,希望能够彻底把人力从琐碎的工作中解脱出来。

因此我们推出了动态调优的智能实验,其原理就是多臂老虎机。

这种实验无需A/B测试,根据用户实时反馈智能分配,并保障收益最大化,可以对大部分运营实验实现智能化,运营推送文案赛马、落地页动态优选、广告投放策略优选、活动页面样式调整呢可以 做MVT多变量组合智能优选,优势非常明显。

我用一个游戏的例子介绍智能化实验是怎么回事。

为了保持用户粘性,游戏一般有完善的用户激励体系,这款游戏app在运营初期设计了一套发元宝来激活用户的方案。早中晚发放三次元宝,每次会发push通知用户进行召回。

运营精心设计挑出了最满意四组文案。

这时他犯了难,如果开ab实验呢就需要一周,耽误事,而且用户量也不大,能回收的数据也不多影响实验效果靠人经验拍决策质量最不稳定,因此我们就推荐他智能化实验完美地解决了这个问题。

实验开启后无需操作和关注数据,abcd四组文案在每一次下发后都会实时收集反馈,自动根据上一轮的结果决定下一轮发什么,效果好的就加大流量效果差的就干掉,中规中矩的就给一少量流量留用观察,轮过几轮的循环推送,最终从均分,变成了绝大多数流量分给B和D脱颖而出并且旗鼓相当,A文案惨遭淘汰。最终效果相比均分,ctr提升9.2%,一定程度上实现了千人千面。

一旦实验增多,人力无法协调,智能动态调优实验就是一个解放人力的好方案。

实验上线后,如何解读实验结果呢?目前结果如何,谁好谁坏好多少,哪一天出结果?

例如,今天广州市的用户,在不同版本之间的转化率表现是怎么样的,方便我们更快速决策,知道我实验整体的结果和ROI,让我们的决策链更清晰完整。

实现以上实验想法的一站式全栈多场景实验平台,他具有哪些能力呢?

线上有多端的触点,多端sdk用来上报用户行为数据,根据实验的需要也可以从客户端或服务端实现分流,用以满足不同场景做实验的需求。

同时还需要有正交和互斥分流来保证分流的科学性。

说完分流,在不同的场景做实验,想要快速上线。编程实验、可视化实验、多链接实验、推送实验等都是能帮助产品和运营减少成本,快速上线实验的场景实验模板。

接着实验上线后,科学易懂的实验报告帮助解读实验数据,为业务做决策参考。

但是,A/B测试只是一个小流量的测试,产品推广到全量用户很有可能会产生性能崩溃、产品功能bug等问题。

Feature Flag智能发布可以帮助从小流量A/B测试验证成功的结果,丝滑稳定地过渡到全量用户中,为我们的产品迭代保驾护航。

综上,A/B测试有这些核心价值:

  • 业务创新:通过持续的功能优化打磨,累积创新效果,逐步形成迄今最优的产品形态。
  • 降本增效:降低试错成本,降低技术资源投入。例如UI交互优化,可直接通过可视化实验,无需申请研发资源,快速上线。
  • 收益提升:优化产品购买流程/文案可直接带来可观的经济收益。
  • 管理提效:业务部门精准衡量新策略/功能,对大盘整体的业绩贡献度,为管理层向上汇报提供准确的数据依据和科学度量。

我们总结了一个增长实践的地图。

火山引擎在产品运营方面是如何实现增长的呢?

从顶层目标【提升app活跃】进行拆解,得到提升主动自然访问和被动运营访问两个路径,自然访问通过完善产品功能体验,加强福利权益,创意互动等去支撑自然访问的提升,运营访就涉及精细化触达,通过触点,内容和策略的管理来实现提升被动打开的次数。

再通过不同的策略以及方法论,实现roi和规模的最大化,

这些其实都离不开强大的数据基座能力、数据分析,增长策略(包含ab测试),以及建模能力。

从下至上,达到提升活跃的最终目的。

我们的初心和愿景均是鼓励大胆创新,通过严谨的逻辑和工具小心求证,方能收获增长。

相关阅读

2021行业大会全国巡回预告

2021全年大会最后4场!杭州、深圳场「产品经理大会」,上海、北京场「运营增长大会」全部开启预售!

来大会现场,与腾讯、阿里等名企实战派专家共同探索未来产品经理新可能!