神秘公式 p<0.05 支配了整个硅谷?—20180305早读课

  • A+
所属分类:产品分析
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课       我过完年回来上班啦!好兴奋!!因为。。终于可以再次见到好基友Tommy了。。。
       可我今儿,一打眼就发现他不对,愁眉苦脸的,就问咋滴了呢。
       他说:“哎,最近又收到好多人寄来的刀片儿。。。”
       原来,这是用户们在抱怨他的产品不好用呢:“这个App是脑残吗...”,  “孤儿码农...”
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课       哎,我们搞App真的很难,因为有太多太多的细节,要做决策了。有一丢丢搞不好,          用户就会不开心。比如,按钮应该放在上面,还是侧面?让用户手机验证,还是密码验证?等等等等。。。
       关键是人们的呼声又不一样!总自相矛盾。。。
       比如你问妹子想吃啥,她嘴上说“随便”,其实她心里是想说:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课       这是一道送命题。。我们也很无奈啊,我们虽然工资低,但是放假少啊,心累。。。
       那。。。毕竟产品总要出去,最后到底是根据啥做的决定呢?
       还真不是靠产品经理拍脑袋,也不是靠码农和设计师撕逼,更不是靠高层们微信扔骰子定的。。。神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
       其实,好多硅谷企业呢,现在都已经有了一套基于统计学的科学方法啦!
       最简单地,总结起来就是一个公式:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课       这是TM啥?
       今天就来给你爆料下,这个不是秘密的公开内幕吧!

案件重现

 

       让你对两方案进行选择,最好方法是啥?很简单,做实验嘛。
       没错,先来一个例子。
       比如,你知道“颜色”对用户行为,有显著的影响吧。(不知道也不怕,我之前的文章有介绍过“颜色”在产品里的作用和背后的心理学原理,点这里:王者荣耀和LOL:真受不了没素质玩家
       于是,你现在想试试把按钮的颜色从绿色改成红色,想看看是不是有更多的人点击。
       然后呢,实验开始了,你让一半儿的人看到绿色按钮,而另外一半儿的人看到的,则是红色:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
       实验结束后,你得到的结果是这样的:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
       A组,绿色:100个人看到了这个按钮,没人点击这个按钮 B组,红色:同样有100个人看到,50个人点击。。。
       结论很明显,红色有效的促进了用户点击!实验成功!!
       但遗憾的是,现实往往不是这样简单。。。
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课      再来看一个例子。
      你应该知道,手机的“推送通知”对挽留用户很重要吧。发一个推送,用户没准就会点开好久不用的App了!(我之前的文章也有详细介绍过优化“推送通知”的办法,点这里:网易垃圾推送让我气到围笑
      所以,你又有了一个想法,想试试,个性化通知内容,是不是有效。
      于是,你分别给两组人发了不一样的推送通知。
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
       第一组收到的是非个性的:“屠龙宝刀点就送!明星都在玩!” 第二组则有一点点个性      化:“{$Name},屠龙宝刀点就送!明星都在玩!”
       好了,结果是,在发出推送的24小时内:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
       第一组,有95个人看到了,有4个人打开了App,但有1个人删除了你的App (可能是因为太烦了)。
       第二组,有107个人看到了,有11个人打开了App,但是有3个人删除了你的App。。。
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课        这结果就很尴尬了,喜忧参半的悖论?于是你打开了知乎,问到:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
        谢邀。如果只看打开率的话,那可能是第二组更好,可是第二组的删除率又上升了。
这怎么搞! 神秘公式 p<0.05 支配了整个硅谷?—20180305早读课还好我们有统计学。。。

p值是啥?

 

       这个事情,要是交给统计学家,会怎么处理呢?
       他们会计算p值(p Value)。
       什么意思呢?
       p就是概率Probability,p值就是说:新方案根本没啥卵用的可能性。。。
       咋算呢?
       为了简单,咱先只看打开率。
       那么第一组用户的打开率是:4/95 = 4.21%
       现在问题的关键是,我们需要知道,第二组这个打开人数的增长,到底是一个【恰好】出现的偶然结果,还是真的因为“个性化”的通知内容有效而提高的呢?
       要知道,很多用户即使不看通知,也会打开App的呀!
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课         统计方法上,我们会先来一个“无效假设(Null Hypothesis)”:也就是假设“个性化”通知根本没啥卵用,于是我们有:
       如果“无效假设”成立,第二组的真实打开率,那就是维持4.21%不变嘛,和第一组一样*。(*此处进行了简化,详情见文末)
       那么,我们来看看,按照4.21%这个打开率,第二组出现11个人打开App的概率是多少呢?
       这是一道高考送分题,答案就是:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课        这个值,就是p值, p = 0.0037。它代表,“个性化通知”没有任何用处的概率仅为0.0037。
       其实,p值就表示了:实验结果纯属巧合的可能性。
       所以p值当然是越低越好啦,那么多低是低呢?标准是啥?
       硅谷各公司,普遍采用的p值标准线是0.05。 也就是,如果 p < 0.05, 就代表数据有统计学显著性(Statistically Significant,口语交流时,简称"Stat-Sig"),实验结果是有意义的,无效假设将被驳回(Reject)。 神秘公式 p<0.05 支配了整个硅谷?—20180305早读课         你看,咱打开率的p值小于0.05,那么就可以说:“个性化”通知,对于促进用户打开App,有效。
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
(这就是p值小于0.05的感觉)
       我们再回过头来,看看两组删除率的p值,经过计算,我们得出p = 0.1795,大于0.05,也就是说,删除率上升,纯属偶然!
       这下好啦!!产品决策清晰了!
       相比原来的非个性化推送,我们发现个性化的推送打开率有显著性提升,而删除率则没有显著的统计学差异。
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课       于是,你们欢快地决定:上线“个性化推送”功能!! PM今晚请大家吃鸡!!

A/B测试

 

      上面提到的,整个新产品的验证过程,被称之为“A/B Test”(AB测试)。A和B就是指,实验里的两个组。
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
       AB测试是最最简单的工具啦,实际工作中会遇到更多的奇葩情况,那“A/B Test”可就不够了。比如,涉及到两个用户以上的社交功能,还有涉及到“钱“的情况等等,这些我以后再讲。。。
       可以说,硅谷就是由实验驱动着的。无论是一个小小的UI变动,还是推荐算法模型的升级,都会进行一次实验。因为实在是太常用了,很多大型App里,往往同时运行着超级多的实验。
       为了提高效率,各厂们都纷纷开发了,专门的实验工具和分析系统,让人们快速使用。
比如:
Google旗下Analytics产品的Content Experiments工具:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
       他可以快速的通过UI创建一个实验,还能在运行时,利用Multi-armed bandit算法,自动调整并分配流量比例,到不同的用户组,以加快实验速度。结束后,还会自动生成报表。
Uber的实验平台XP:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
         XP不仅是实验和分析工具,还帮助Uber安全上线和部署新功能,实时观测数据。
         Airbnb的实验框架 ERF(Experimentation Reporting Framework):
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
        ERF的交互设计非常好,还提供了美观的报表系统,p值一目了然:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
        Netflix的跨平台实验工具ABlaze:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
       他有着跨平台的优良特性。要知道,其实Netflix的压力非常大。数据发现,如果用户不能在90秒内找到自己喜欢的影片,他们就会关掉App。借助ABlaze,Netflix得以快速迭代产品,以便满足全球超过一亿用户的观影需求。 其实,这里还是要提一句,硅谷各企业的产品决策,绝对不是只考虑“p<0.05”这么简单啦。 这里也仅是出于科普的目的,对实际情况进行了极大的简化。 神秘公式 p<0.05 支配了整个硅谷?—20180305早读课        比如,当年“扁平化设计”刚出的时候,通过数据来看,用户肯定不满意,觉得丑。但是苹果,偏是不听呢~ 就要上线,就要上线,就要上线~ 最后你看,用户乃至业界还不都是被成功的教育了。

更进一步

 

       你可能会问,为啥这些硅谷企业都选0.05这个数字呢?
答案就是:
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
       嗯。。。其实这个真的就只是一个约定俗成的数值而已。 Tommy告诉我,提出这个值的人,还是和英国有关。这是几十年前,英国统计学家Ronald Fisher提出来的,后人沿用了而已。 当然,很多产品为了更加可靠,也会使用更低的p值, 比如0.01。
       不仅仅是硅谷这样的工业界啦,在学术界,尤其是统计学支撑的学科,比如心理学,生物医学甚至经济学,“p < 0.05”早就被当作常识一样了。
       比如,医学领域,有人提出了一种新药。想知道这种新药的效果,那就要进行实验了。简单来讲,他们会找到一些病人,随机的分成两组,比如每组20个人。
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
双盲测试:医生和患者都不知道分组情况
       一组人,作为测试组,会按时吃这种新药。而另一组则是控制组,不会吃这种药。 当然了,也不是啥也不吃。他们会被要求随便吃点啥,比如吃淀粉片,这东西被称为“安慰剂”。 因为心里作用也会影响治疗效果,所以不能让他们知道其实他们吃的东西没啥用嘛。吃安慰剂,就能保证他们不知道自己被分到了控制组。 实验结束之后,会看看哪组人治愈率更高,这个时候就要进行p值的计算来进行检验了。
       我也是从身边好多医学生物学博士朋友那里知道的:他们经常说,科研狗奋斗一生,就为了那0.05,其实硅谷的码农们又何尝不是呀~
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
(妹子,你的p值一定大于0.05, 因为我无法拒绝你)

后记

 

       我告诉Tommy,你看“p < 0.05”对吧,这就意味着,概率上来讲,咱们每上线20个产品,其实就会有一个产品是垃圾。。。所以,别难过了 ,你可能就。。。恰好是那个垃圾。。。 神秘公式 p<0.05 支配了整个硅谷?—20180305早读课 然后Tommy把我打了一顿 :)
--- *文中p值计算过程并不完全准确哈,而是为了可读性,进行了简化。因为第一组的4.21%也不能代表真实情况。这里其实是在比较两个样本的分布。特此大感谢我的数据科学家同事+朋友Cora帮我Review~实际比较复杂,比如先看成是一个正态分布,然后计算一堆值,再。。不说了,你去看统计学课本吧。。但是告诉你一个小秘密,已经有很多开源在线工具可以帮你计算p值了: ( 可见对于文中的例子,打开率p值可以为0.0453。)
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
ref: https://en.wikipedia.org/wiki/P-value https://support.google.com/analytics/answer/1745152?hl=en&ref_topic=1745207 https://eng.uber.com/experimentation-platform/ https://medium.com/airbnb-engineering/experiment-reporting-framework-4e3fcd29e6c0 https://taplytics.com/blog/how-to-experiment-like-facebook-and-netflix-by-adopting-the-10000-experiment-rule/ https://abtestguide.com/calc/ (免费计算p值的工具)
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课
作者: Han。作者授权早读课发表,转载请联系作者。
微信号:涵的硅谷成长笔记
编辑:早读堂-刘小妹欢迎投稿到早读课,投稿邮箱:mm@zaodula.com
神秘公式 p<0.05 支配了整个硅谷?—20180305早读课如果看到这段文字,证明您已经看完这篇文章了,有什么收获有什么感想有什么不赞同,我们期待您的留言评论,并诚挚邀请您加入“互联网早读课”QQ群,一同交流每天文章的心得并结识同行。官方11群:477502397,加群密码“城市+职业+姓名”,否则不予通过,入群后请修改群名片。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: