6个要点，打造有效的A/B 测试

: kelisi 这家伙很懒，还没有设置简介...

0 人点赞了该文章 · 107 浏览

6个要点，打造有效的A/B 测试

管理者十分看重市场营销的价值，花费大量的精力投入到A/B测试的研究中，但是收效甚微。究竟是什么原因导致了一场垃圾A/B测试，我们又该如何改进呢，看看笔者是怎么说的吧。

在这个以数字为先的广告世界，许多领导者都渴望将营销、市场作为一门科学来管理。于是，他们用精确、测量、数据这些科学的字眼来说话，他们聘请专业人士，他们教团队用结构化的实验来验证他们的假设……

然而，除了十分专业的产品经理以外，大多数人并不知道如何用科学、正面的方法论去研究A/B测试的问题，尽管他们进行了所有“成功”的A/B测试，但对于具体的业务指标并没有多大改善。

为什么会这样呢？相关人员到底在A/B测试中学到什么？

我认为，从市场营销的角度来谈，在设计一轮A/B测试时，必须要记住以下六个要点：

一、统计显著性

虽然这几个字看上去毫无趣味，但大多数营销人员不能正确定义统计的意义。

当我们开始一个A/B测试——“我正在测试的广告之间没有性能差异。”

然后，我们运行测试并收集数据，我们希望这些数据将反馈给我们信息，并得出相反的结论，即存在性能差异。

但从技术上讲，问题是——“假设最初的假设成立，任何性能上的差异都是由随机因素造成的，那么能观察到实际差异的可能性有多大？”

所以，计算p值很棘手，但需要理解的重要一点是：p值越低，我们就越有信心得出我们测试的广告之间存在真正差异的结论。具体地说，p值为0.05意味着有5%的可能性，观察到的性能差异将由于纯粹的随机因素而产生。

然而重要的是，要学会理解这只是一个社会惯例所使用的标签而已。在一个数据匮乏、没有电脑的时代，这可以说是一个合理的标准，但在今天的世界，它可能已经被打破了。

二、统计显著性≠实际显著性

统计显著性分析虽然可以帮助市场人员评估广告之间是否存在性能差异，但它并没有说明这种差异在实际应用中有多大或有多重要。有了足够的数据，无关紧要的差异可被视为“具有统计意义”。

例如：假设你用两个稍微不同的广告运行一个A/B测试。

你为每个广告投放了1,000,000个展示，然后你发现版本A获得1,000个展示，而版本B获得1,100个展示。使用相关的A/B测试计算方法，你将看到这是一个“具有统计意义”的结果——p值为0.01，远远超过通常的0.05阈值。

但这一结果是否具有实际意义？

数字代表着一个进步，但在大多数营销环境中很难改变游戏规则。记住，有时候需要成千上万次的投放才能得出这个结论，而这个结论本身就很费钱。

我对营销领导者的实际建议是，要学会接受这样的事实——市场与产品不同，A/B测试中微小的调整可能很难会产生巨大影响。

要学会重新定义测试在市场营销中所扮演的角色，使你的团队成员将重要性分析理解为一种比较有意义的理念与方法，而不是定义成功。

三、谨防“偏见”

如何理解那些我们读过的、并与我们的团队分享过的、看起来微不足道的A/B测试带来的巨大性能收益的文章呢？

比如：“如何添加逗号提高30%的收入”“这个表情符号改变了我的生意”等等。

虽然肯定会发生这样的情况，但它们的数量和距离都比互联网搜索所能让你相信的要少得可怜。

在市场营销领域，这个问题被一些因素复杂化了：人们总是很轻易地认为通过一些A/B测试，轻松取胜就在眼前。所以，他们当然不会公布那些没有产生有趣结果的实验，也就容易造成一种分布偏见。我们不会看到或谈论所有A/B测试的结果，更何况一些测试运行的结果根本就是无关紧要的。

所以，请记住，一些看起来好得令人难以置信的结果很可能是真的。但你需要这样问自己：他们进行了多少次实验才得出如此惊人的结果?

不要因为要复制有价值的结果而感到压力。相反，要把注意力集中在不引人注目但更重要的工作上，测试有意义的不同策略，并寻找具有实际意义的重大结果——这才是真正的价值所在。

四、小心p-hacking

数据是营销人员最好的朋友，但它同时还带着一个警告标签，因为你拥有的数据维度越多，你就越有可能以某种方式陷入被称为“p-hacking”的反模式。p-hacking指的是数据分析能够从纯噪声中产生看似“具有统计意义”的结果的某些方式。

最明目惊心的p-hacking形式，不过是不断地进行实验，直到得到你想要的结果。记住，p值为0.05意味着观察到的差异有5%的几率是随机产生的，如果你将同一个实验进行20次，你应该期望仅凭偶然就能得到一个“显著”的结果。如果你有足够的时间和动力，你可以有效地保证在某一时刻取得显著的成果。众所周知，制药公司为了让一种药物获得FDA的批准会做这样的事情，但这可不是什么好事。

大多数营销团队永远不会做这么愚蠢的事情，但有一些更微妙的p-hacking形式需要注意。

例如：你针对受众运行两个不同的广告。但是，当高层次的结果被证明不显著时，通常会发生的情况是——我们对数据进行更深入的挖掘，以寻找更有趣的发现。

也许如果我们只看女性，我们会发现不同？我们看看不同年龄段的人呢？看看iPhone和Android用户……

这种方式很容易分割数据，但通常被认为是一种很好的实践方法。

在科学领域，这个问题已经通过一种叫做“预注册”的实践得到了解决。在这种实践中，研究人员公布他们的研究计划，包括他们希望进行的数据分析，以便他们研究的消费者能够相信，结果不是在电子表格中合成的。而在市场营销中，我们通常不会公布我们的结果，但是我们应该应用这些最佳实践。

五、在ROI 中包含实验成本

生活中一个经常被忽视的事实是——A/B是免费的。但其实，它们需要花时间、精力和金钱来设计和执行。

大多数A/B测试关注的是创造性，因为广告性能在很大程度上是由创造性驱动的。大多数写在A/B测试上的东西就像从天上掉下来的创意一样，你所需要做的就是测试，以确定哪种效果最好。

例如：假设你的总营销预算为25,000美元，而你正在尝试决定是在单个广告上花费2千美元，还是在5种不同的变体广告上花费5万美元。如果我们假设你需要在每个广告变体上花费1美元，来测试其性能作为A/B测试的一部分，那么你需要获胜的广告比A/B测试的基线性能至少高出20％才是值得的。

20%可能听起来并不多，但是任何做过重要A/B测试的人都知道，这样的收益并不容易获得，特别是如果你在一个相对成熟的环境中进行操作。所以，请记住，你的目标是最大化广告投资回报率，而不仅仅是为了实验而实验。预先运行ROI计算，以确定你需要多大程度的改进，才能使你的A/B测试物有所值。

六、写在最后

科学的营销方法对该领域具有不可思议的价值。但营销人员经常使用的一些方法和工具，可能只是肤浅的理解，最终浪费了大量的时间、精力和金钱。为了避免重复这些错误，并在相关问题上取得一些有价值的进步，相关人员必须学会从复杂或习以为常的错误中，不断吸取教训，改善并提升。

原文作者：Nathan Labenz

原文地址：https://martechtoday.com

译者：研如玉，编译过程中有所删减。

本文由 @研如玉翻译发布于人人都是产品经理，未经许可，禁止转载

题图来自Unsplash，基于CC0协议

6个要点，打造有效的A/B 测试

kelisi 这家伙很懒，还没有设置简介...

一、统计显著性

二、统计显著性≠实际显著性

三、谨防“偏见”

四、小心p-hacking

五、在ROI 中包含实验成本

六、写在最后

免责声明:

推荐内容