扫一扫 扫一扫 扫一扫 扫一扫 A/B 测试前身:历史悠久的对照实验今天互联网巨头热衷的 A/B 测试,其实源于学术层面的“随机对照试验”,作为一种方法论,这种对照试验有着悠久的历史:
...... 可以清楚地看到,随机对照实验作为一种方法论,在现代科学和商业发展中发挥了重要作用。它本质上能通过控制单一变量的方法来寻找最优解决方案,已经被广泛运用到工程学、医学、教育学和多个领域的商业实践中。而我们今天要聊的 A/B 测试其实就是随机对照实验在互联网领域的具体应用。 A/B 测试,互联网巨头的标配A/B 测试——又被称为小流量实验。 通常是针对某个功能/UI/逻辑策略等,提供两种(或多种)不同的备选解决方案,从总体用户中随机抽取一小部分流量,分配给不同方案,最终通过实验数据对比来确定最优方案。 今天,在硅谷和中国的互联网头部企业,A/B 测试已经成为业务发展的标配。我们简单梳理下 A/B 测试是如何风靡各大互联网巨头的——2000 年 2 月 27 日,谷歌搜索部门的一位工程师进行了互联网时代的第一次 A/B 测试——他想知道搜索结果每页展示多少条是效果最好的,当时默认为 10。实验是这样设计的:对于 0.1%的搜索流量,每页显示 20 条结果;另外两个 0.1%分别显示 25 条、30 条。这次测试从直接结果看并不成功——由于技术故障,实验组页面的加载速度明显慢于对照组,最终导致实验的相关指标下降。 但谷歌因此获得了意外收获——他们发现即便是0.1秒的加载延迟也会显著影响用户满意度。很快,谷歌将改善响应时间提升为高优先级事项。以这次实验为开端,A/B 测试在谷歌内部快速流行起来。 2012 年,据谷歌的首席经济学家范里安称,谷歌每年就会开展超过 5000 次的 A/B 测试。 亚马逊早期,工程师 Greg Linden 曾提出一个想法——在客户支付时,根据他们购物车中的商品,向他们提供个性化的“冲动购买”建议。他精心做了一个 Demo,但演示后当时亚马逊的一位副总裁武断地否决了这一想法。Greg Linden 并不气馁,他业余时间用三个半月完成了这一功能的开发,并对这个功能进行了小流量的测试。结果证明,即便是这个极其粗糙、简陋的版本,也让实验组用户的购买规模提升了 17%。 于是,“商品推荐”这个今天司空见惯的功能从此在亚马逊开启。 在 Facebook,CEO 扎克伯格曾公开宣称:
在中国,头部的互联网企业也都有自己的 A/B 测试平台。比如字节跳动的 Libra、美团的 Gemini、滴滴的阿波罗。张一鸣曾表示——“即使你有99%的把握某个名字比另一个名字更好,测一测又有什么关系呢?” 目前在字节跳动,每天同时进行的 A/B 测试达上万场,单日新增实验数量超过 1500 个,覆盖 400 多项业务。截至今年 3 月底,字节跳动累计已经做了 70 多万次 A/B 测试。 为什么互联网巨头热衷于 A/B 测试?互联网公司大规模运用 A/B 测试并非偶然,这背后深层次的原因在于,A/B 测试是数据驱动理念的最佳落地实践。它能以最小的风险实现业务的有效反馈。 字节跳动在发布 APP 的时候,通常会给 APP 取多个名字,打多个包上架到应用市场进行 A/B 测试,观察不同名字的下载率、留存率等指标。这背后其实是一种尊重客观事实的决策哲学。事实上,在硅谷的互联网文化中,那些靠拍脑袋的决策有一个专有名词“HiPPO”—"Highest-paid person's opinion",即“公司收入最高的那个人说了算”。 谷歌的技术专家 Avinash Kaushik 曾说:
Netflix 在 2016 年 4 月的一篇技术博客中写道:
有人会问——A/B测试的决策思想其实由来已久,为什么直到现在才变得流行起来? 答案是——实验成本。 在硬件产品时代,产品的开发成本很高,一台电脑如果控制不同变量,事实上它就变成两台不同的电脑,本质上属于两条产品线,而开发多条产品线对于硬件产品的成本是非常高的。软件产品时代开发成本同样高昂,一个版本的 Windows 要开发数年,一个 3A 大作开发同样动辄数年,这样庞大的开发成本是无法同时进行不同版本的开发的。同时,无论是硬件产品还是软件产品,它们从开发、上市到客户反馈,这个周期是极其漫长的,这样冗长的周期也让灵活多变的 A/B 测试难以大规模应用。而到了互联网时代,每一个产品特性都可以快速迭代,每一次迭代都能迅速得到反馈。开发成本的降低和反馈周期的缩短——这两重因素无疑给A/B测试提供了极其便利的实践条件。 为了让 A/B 测试的价值得到更大发挥,很多互联网巨头还将这项能力开放给 C 端用户。比如今日头条发布文章的界面,作者可以取双标题和双封面,经过小流量的测试之后,推荐系统会自动推荐点击率高的标题。Facebook 的广告系统也给广告主提供了一项组合实验能力,即客户可以上传不同的标题、描述、封面和按钮。Facebook 自动对这些元素进行随机组合,形成多个创意进行 A/B 测试,自动将预算分配到转化率最高的创意组合上。 为什么今天传统的“广告大师”越来越少了?因为互联网广告在很大程度上不再依靠“大师”的灵光乍现,而是更多地依靠优化师每天测试无数版文案和素材,甚至很多文案是机器生成的。 如何利用工具做好 A/B 测试?我们在上面的部分了解了 A/B 测试的原理和意义,很多公司会问:我知道在增长日益困难的今天,A/B 测试是一个好东西,那到底应该如何付诸实践呢? 的确,A/B 测试的实践并不是一个简单的过程,它比很多人想象得要困难,这个困难体现在几个层面—— 首先,需要确定 A/B 测试的关键环节。A/B 测试到底测什么的问题,即企业必须清楚哪些环节是推动业务发展的关键,在关键环节上进行试验。如果找不到关键环节,在无关痛痒的环节上,无论做多少 A/B 测试也是徒劳的。 其次,需要确保 A/B 测试过程的科学性和合理性。比如控制单一变量,即确保实验组和对照组只有一个关键变量是存在差异的;比如确保流量分配的均匀随机,即实验组和对照组的流量是完全独立的,不存在互相影响的关系。 最后,还需要确定合适的评价指标。评价指标通常不止一个,是看 A 指标还是 B 指标?过程指标还是结果指标?短期指标还是长期指标?单个指标还是多重指标?这些都需要根据业务实际情况审慎决定。 总结A/B 测试作为一种科学的实验手段,能够帮助企业在多种方案中寻求最优解,以最小的风险前置性地验证策略效果,为企业规避风险。作为互联网时代的企业,理性拥抱前沿趋势永远是最优的选择。 想验证你的设计?最简单最实用的A/B测试帮你搞定To be or not to be? 阅读文章 >欢迎关注作者微信公众号:「卫夕指北」 手机扫一扫,阅读下载更方便˃ʍ˂ |
@版权声明
1、本网站文章、帖子等仅代表作者本人的观点,与本站立场无关。
2、转载或引用本网版权所有之内容须注明“转自(或引自)网”字样,并标明本网网址。
3、本站所有图片和资源来源于用户上传和网络,仅用作展示,如有侵权请联系站长!QQ: 13671295。