产品运营数据(用户增长实验三部曲(2):如何准确评估「产品和运营策略」的效果?)
用户增长实验三部曲(2):如何准确评估「产品和运营策略」的效果?
在采用一套新的产品、运营策略后,我们势必要对策略效果进行调研分析,并准确评估出效果如何、比以往好了多少等。那么除了保证评估结果的客观与科学,有没有一套准确的、有说服力的评估办法呢?
如何准确评估产品和运营策略的效果,几乎是所有产品经理、产品运营、数据分析、市场营销等同学日常工作中都会碰到的问题。大到一个新产品上线、一次产品方向调整;小到一次运营活动、一个文案修改,我们都付出了成本,按理说我们都需要知道有没有效果(定性),效果比之前好了多少(定量),对KPI贡献了多少(归因)。
数据总是有的,通常我们会不自觉的挑选利于结论的数据来说明效果。那么,有没有一套准确的、有说服力的评估办法呢?有的,那就是实验(对了,这就是实验三部曲之二——准确量化效果,从之前的数据看如果不改标题点击率会很低)。
我们最常见的、也最容易想到的效果分析方法是前后对比。
前后对比非常直观,比如,上线了一个新功能,配置了一个App闪屏,做了一场线下活动(便于描述我们统称策略),带来了多少效果?很多同学会直接拿这个策略“做之后”对比“做之前”得到增量,即
效果 =策略后 – 策略前
这样对比的问题非常明显:
活动前后一段时间,用户的活跃度是不同的。比如,某打车APP在清明期间做了一个运营活动,用清明节三天对比清明前三天,可以看到订单量猛增。这个效果可以归因于这个策略吗?
另外一种常见的效果分析,是局部对比整体或者说对比大盘。对比大盘也非常直观,我们往往会拿需要观察的人群(或者被策略命中的人群),来对比大盘得到增量,即:
效果 =观察人群-大盘人群
这样对比的问题也非常明显:观察人群往往是大盘中一个子集,只要不是随机从所有用户中抽取的,就有极大概率与大盘均值存在偏差。
比如,电商App运营活动,给进入手机详情页的用户发100元折扣红包,最后发现发了红包以后,用户群购买手机的的比例是同时间段大盘的两倍。这个效果可以归因于这个策略吗?
以上两个错误,在我经历过的大厂,并且就在今天,依然有同学经常会犯,只不过没有这么明显。错误的根源是用于对比分析的两组样本,本身不具备“可比性”。
判断可比性的原则:对比的人群间,是否仅存在“要评估的策略”这一个差异。一旦两个人群本身存在差异(非随机分组),或者其中一个人群中叠加了多个策略(非单一变量),都无法通过对比直接得到该策略的效果。
上面两个例子,大家都能看出来是不可比的,因为很明显存在样本偏差。
反推其原因,我觉得除了分析时不够谨慎外,还有就是存在惰性:前后对比、对比大盘,之前的数据和大盘数据往往都是现成的,拿来就比。
而科学的评估效果,则往往需要设计随机对照实验,成本、时间都增加了不少。而想要准确的评估策略效果,实验尽管有些麻烦,但是绕不开。
正确的评估方法是随机对照实验。实验的设计和下发,我们在《以抖音为案例,讲清楚“用户增长实验”在做什么》已经大概讲过,涉及到随机分组的方法,以及置信度等问题,不是本篇重点。本篇不妨先假设随机分组完美,实验下发理想,实验结果置信,仅讨论分析方法(这些问题可以交给实验工具)。
接上一部分,正确的效果评估,需要拿实验组-对照组获得增量,即
效果= 实验组- 对照组
假设我们已经拿到了数据,分析前需要确定分析方法。这里的分析方法包含三个要素:样本、指标、维度。
样本:通常是实验期间被实验命中的用户,含实验组和对照组指标:根据实验目的来定,通常包含整个人群的总体指标和人均指标两类(如实验组总时长、实验组人群时长)维度:时间维度,看一天、还是完整的用户周期;人群维度,仅看当日命中,还是累计命中 等不同的实验场景,需要我们组合不同的分析方法,下面我通过3个典型案例来具体介绍。
流量型实验最为常见,也最为理想。它指从整个流量(活跃用户群)中以某些条件筛选一部分,随机分组下发不同策略。
之所以理想,是因为整个样本可以看着是一段时间内状态稳定的群体,即实验前也是活跃的,可以进行理想的空跑期(即分好实验组和对照组后,并不立刻下发策略,而是观察一段时间以验证分组的均匀性,并且可以在实验分析时消除空跑期的差异;而拉新实验,新用户就没有空跑期数据)。
流量型实验,我们可以轻易对比实验组和对照组需要看的指标,例如:
样本:每天命中的实验组和对照组用户指标:根据实验目的来定,人均值通常有意义维度:时间维度,完整的周期;人群维度,一般仅看当日即可,也可关注累积常见的流量型实验场景:短视频App的feeds流推荐算法实验、App首页底部入口实验、电商详情页样式实验等。
唤醒型实验也比较常见,比如我们圈定某App的沉默人群(不妨定义为14天内不活跃用户),实验组通过App下发Push,而对照组不下发。实验的目的是评估下发Push对用户活跃度的影响。
样本:所有沉默用户,实验组和对照组指标:根据实验目的来定,处理人均值通常要小心维度:时间维度,完整的一周;人群维度,需要看累积用户为什么这类实验处理人均值要小心?
人均时长为例,人均值指标通常会拿总时长/活跃用户数。实验组通过Push唤醒用户后,其活跃用户数增多,但是由于唤回了部分沉默用户,其总体时长增加,人均时长可能反而会减少,最终可能造成“push降低了人均时长”的误判。
为什么需要看累积用户?(过于细节,可以跳过)
这个问题很容易被忽略,相对复杂,后续可以单独展开一篇文章,先简单介绍:
类似Push这样的唤醒实验,有经验的同学会知道,随着Push下发次数增多,一部分用户会转化为主动打开用户、而一部分用户可能就会关掉Push甚至卸载。
当我们在分析“持续发了一段时间的Push”对今天用户活跃度的影响时,需要看这一段时间以来所有命中过Push策略的用户,而不仅仅看今天命中Push的用户,否则我们会漏掉Push可能造成的负面影响(很多关闭Push用户和卸载用户不在今天命中Push的用户之中了)。
常见的唤醒型实验,除了对沉默用户发Push,还有App的图标红点实验,以及某些App通过短信下发优惠券实验等。
分享型实验,由于涉及到分享者和接受者,会更加复杂。例如,我们想看不同的分享文案,对分享点击率的影响,我们可以将对分享者随机分成AB两组,对应分享文案分别为A文案和B文案。
这里会有一个问题:A组和B组中的用户(分享者),很可能存在共同好友(接受者);这些共同好友,有可能会在朋友圈先后看到A文案和B文案的分享链接。而这些用户点击分享链接,很大程度上取决于先看到哪一条,而不是文案。所以,从看A、B两组分享链接的点击率,很可能无法发映出文案的影响。
设计实验时,我们无法保证用户分享给谁,也就无法预先设置“分享者-接受者”这样的用户对。对于这个case,我们应该设计成所有分享者随机出A、B两个文案,最终我们只需要分析的是A文案和B文案的点击率,而此时共同好友的影响就被抹平了。
现在分享裂变做的很多,裂变的文案、卡片样式、红包金额,等等都是关键的实验变量,由于其复杂性,我们后面可以针对具体案例来做专门的分析。
上面介绍了正确评估产品和运营策略效果的方法,就是实验,以及针对不同类型实验的分析要点。限于篇幅,只列出三类比较有代表性的实验类型,这些是我长期工作实战中的总结,应该在任何书籍、文章中都没见过,如有疑问还请指出~~
准确的效果,才能够帮助我们判断策略是否真正值得去做放大,进一步去争取更大的资源。虽然有些复杂的地方,但是相信大家都值得一试。
最后请记住:有条件,快上实验;没条件,创造条件做低成本的实验,用户ID包随机下发也是可以的,后端需要简单的支持。
真的不能实验怎么办?——还有一招,通过因果推断方法,近似构造实验组和对照组,后面我们详细介绍。
预告:实验三部曲-3 准确量化进阶版,我们将讨论更多可能导致分析结论错误的要点,比如SRM问题(Sample Ratio Mismatch)。当然,需要看下这一篇的反馈排优先级了~
《用户增长实验三部曲(1):生活中需要实验思维》
《以抖音为案例,讲清楚“用户增长实验”在做什么》
作者:jinlei886;5年+用户增长的一手经验,前腾讯、滴滴出行用户增长产品经理,专注增长策略挖掘、增长工具搭建、实验设计分析。本硕博均就读于浙江大学高分子系。微信公众号:用户增长实战笔记
本文由 @jinlei886 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议