以keep为例,如何完成增长实验设计与报告撰写?

完美的增长实验从来不是灵光乍现,一蹴而就,它背后往往有着合理的方法论和可落地的实验设计步骤,以严谨科学的姿态,检验一次增长的可能。

聪明的增长人,在一个闪着灵光的黑夜里,预想着通过这一次微小而巧妙的调整,数据发生了意料之中的显著变化,无数次迭代后,交上了令人侧目的增长成果。

然而,现实却是,看一眼玻璃窗上自己的倒影,感叹下越来越稀薄的发量,抿一口咖啡,苦恼着下面的难题:

  • 实验想法“靠天吃饭”,来源不稳定,没有依据;
  • 又要靠直觉来决定先做什么;
  • 实验做完发现数据收集的不够,无法分析,需要返工,迎来了大量吐槽;
  • 实验成功,但是没能最大化实验结果。

那么,理想的状态应该是什么呢?

按照优秀增长人的表现来看,理想的状态应该是这样的:

  • 有成型的方法和思路去持续产生高质量的实验想法
  • 通过实验想法科学排列优先级,永远专注于效果最大化的事情
  • 能够准确定义出实验指标,考虑到所有重要因素,从而得出可信结果
  • 有详细的实验设计和开发文档,和清晰的实验流程,从而保证质量和效率
  • 不仅了解实验的成败,还能分析背后的原因,放大洞察和影响

听起来非常美好,那么该如何实操呢?

具体来说,我们可以根据以下步骤完成一次完美的增长黑客实验设计:

  • 针对实验目标,产生实验假设
  • 按照ICE模型对实验想法进行优先级排序
  • 设计、完成增长实验并撰写报告:包括实验的目标、假设、打分、指标、受众、设计、结果、洞察、计划

以一个很火爆的健身App——keep为例,我们详细看一下每一步的具体产出和思考的方法

01 针对实验目标,产生实验假设

1. 实验目标

当前的工作重点是,提升用户对其他用户的“关注”率,即让更多的用户“关注”他们喜欢的达人,从而一方面提升内容质量体验,一方面给分享内容的用户以激励,长期促进平台用户的活跃程度和互动。

确定实验目标的方法:一般实验目标来自于上级领导,也可以是自己根据北极星目标进行拆解得到的,可以围绕自己的KPI提出。

2. 实验假设

提出实验假设的方法:围绕实验目标,梳理用户使用路径,分析相关的数据,结合最佳实践,发现可能的增长点,提出具体的实验假设。

02 对实验想法进行优先级排序(按照ICE模型打分)

ICE各项指标打分的依据如下:

根据三个实验的综合得分,可以确定评分最高的第三个实验“关注按钮醒目”,是值得优先进行的实验。

确定实验想法、实验假设后,需要选取实验指标、确定实验的受众、实验需要的样本数量、实验变量如何作用于样本,并将实验设计写成文档,提给工程师(实验设计文档,也就是下面实验报告中的实验目标、实验假设、实验打分、实验指标、实验受众和实验设计几部分)。

在一段时间后,收集到了足够多的数据,就可以进行检验,得到实验结果,验证或者推翻原有的假设,并根据实验结果制定下一步的计划(即完成下面实验报告的实验结果、实验洞察、后续动作部分)。

03 增长实验报告

1. 实验目标

提升用户对其他用户的“关注”率

2. 实验假设

在用户帖子页面,如果用户在某个文章或动态上停留5秒以上,“关注”按钮变亮变大,提示用户可以关注此博主,可以提高关注率。预期这一改动可以将帖子页关注按钮的点击率从当前的5%提升到6%。

3. 实验打分

4. 实验指标

5. 实验受众

全部用户。

因为关注功能是面向所有用户的功能,不是为某一特定用户群开发的,同时也希望所有的用户都积极关注其他用户,提高内容体验,同时给生产内容的用户激励。

6. 实验设计

(1)版本及流量设计

版本设置的原因:该实验是优化实验,我们只需要验证一个假设,所以只需要设计一个实验组。流量在对照组和实验组间均匀分流,保证两组的唯一区别是实验改动,这样才能进行后续的推断统计。

(2)实验流量分配及时长(点击率与访问量为虚拟数据)

如果预期能够将帖子页关注按钮的点击率从5%提升到6%,同时已知帖子页每天的访问量是10000。

流量分配:实验组每天分配5000流量,对照组每天分配5000流量

实验时长:当产生预期中的变化时,至少需要2天的访问量,可以达到统计显著性。同时考虑到用户的使用频率,2天只包含了大部分的高频用户,和很少的中频及低频用户,并不能代表全部的用户,所以需要将实验时长设置为14天,尽可能地包含所有类型的用户。

计算方法:通过网页计算工具,设置现有转化率为5%,预期提高1%,P值为0.05(95%的统计显著性),统计功效80%,可以得到,每组最少需要的样本量为7663,所以需要的时间为(7663/5000)=1.53天,所以当实验时长不少于2天时,就能保证监测到的预期大小的变化不是由随机因素引起的。

计算样本量工具网址:https://www.evanmiller.org/ab-testing/sample-size.html

7. 实验结果

实验时长=14天时,数据如下:

对关注点击率进行卡方检验,得到如下结果:

(1)该数据可信,因为观察的时间足够长,避免了功能变化产生的新奇效应,同时该keep是使用频次较高的应用,14天的时间已经能够覆盖到足够广泛的用户了。

(2)实验成功

  1. 实验组的帖子页面“关注”点击率显著高于对照组。说明实验组的设置,在95%的可能下,至少可以把帖子页面“关注”点击率提升0.7%。
  2. 帖子页面点赞率也有显著提升,至少上升了0.1%,说明确实帮用户找到了更感兴趣的帖子,提高了内容体验。
  3. 反向指标取关率虽然也有显著上升(p<0.05),但仅上升了0.1%,在可以接受的范围。

8. 实验洞察

当用户在帖子页面某一内容停留时间超过5秒时,放大关注按钮提高了用户的点击率,说明这样的设置可以引起用户注意并起到提醒用户关注发帖用户的作用,还可以帮助用户找到更感兴趣的内容。

9. 后续计划

  1. 将该设置产品化,全量上线;
  2. 清理该实验代码;
  3. 将该设置推广至其他类似的页面,继续进行测试。如添加好友的推荐页面,当用户停留在某动态超过5秒,放大关注按钮,并进行实验验证
    夜深,人静,你我的增长,才刚刚开始。

本文由 @Nicole 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

我来评几句
登录后评论

已发表评论数()

相关站点

热门文章