瑞幸之后爱奇艺再遭做空，数据≠事实，来自统计学大师的防骗指南

如果说瑞幸自爆造假22亿是第一片落下的雪花，北京时间4月7日深夜，浑水（Muddy Water）和狼群（Wolf Pack Research）联合发布的爱奇艺做空报告则是第二片雪花。

调查公司指出，爱奇艺存在严重的财务数据作假和用户数据作假，营收夸大了80亿-130亿元（27%-44%），整整37页的做空报告引发市场关注。

WolfpackResearch指出，爱奇艺的“DAU用户数据存在水分”“平台存在刷量行为”“夸大会员收入”“体育价格虚高”“夸大广告收入”“购买电视剧的费用虚高”。

不过，爱奇艺很快就发布声明，对这份做空报告内容予以坚决否认，4月8日，爱奇艺声称已披露的所有财务和运营数据均是真实的，符合SEC（美国证监会）要求，并表示将保留法律追诉的权力。

4月13日，国家广播电视总局发布《广播电视行业统计管理规定》，强调不得制造虚假收视收听率，对出现统计造假、弄虚作假行为的，所在单位的主要负责人承担第一责任，分管负责人承担主要责任，统计人员承担直接责任。

在生活中，我们经常会接触到统计数据，不论是政府和研究人员公布的调查结果，还是商家打广告时用到的数据结论。在很多人眼里，数据就是对事实最有力的证明。但实际上，各种各样的统计操纵无处不在，让人一不小心就会掉入陷阱。

那么，在信息繁杂的当下，我们如何才能练就一对火眼金睛，识破统计数据带来的虚假信息呢？

《统计数据会说谎》这本书里，作者揭开统计数据的神秘面纱，带我们了解统计学的基本原理，看清那些销售人员、广告文案、记者甚至专家常用的统计操纵技巧，让我们不再盲从于统计，更好地认清事实真相。

1. 统计陷阱一：样本内部偏差让结果失真

在讲如何识破统计陷阱之前，我们先要弄明白什么是“统计”。概括来说，统计就是对数据进行收集、处理、分析和解释，并且从中得出某种结论。

举个最简单的例子，现在有一万颗豆子，里面有红豆有绿豆，怎么知道红豆绿豆分别多少颗呢？你当然可以一颗一颗地数，得出精确的结果，但这得数到什么时候啊！为了节省时间精力，我们可以用统计的办法，先把这些豆子均匀地混在一起，然后随便抓几把出来，看看红豆绿豆分别占比多少，最终大致估计出红豆和绿豆的数量。

这是最简单的一种统计，但其实说简单也不简单。为什么呢？因为一万颗豆子是整体，而抓住来这几把则是样本，我们是根据样本的情况来推断整体的情况，所以样本的选取非常重要，一定不能存在太大的偏差。

那假如在抽样的时候出现了偏差，会导致什么后果呢？我们来讲一个真实的例子：1940年代，美国《时代》杂志上刊登了这样一则报道：对美国耶鲁大学1924届毕业生的调查发现，他们的平均年收入高达2.5万美元。

这是个什么水平呢？按照美元的购买力来算，1940年代中期的1美元大概相当于现在的14美元，2.5万美元也就相当于现在的35万美元，换成人民币就是200多万！照这么看，耶鲁毕业生的收入相当可观，简直让人羡慕嫉妒恨啊！但别兴奋得太早，仔细分析一下，我们就会发现这个结论有下面几方面存在疑问：

首先是数据的来源。如果是个人自己填报的收入，很有可能虚报。比如有人觉得自己赚得少怕丢脸，就故意多报一点；还有人可能实际收入比较高，但报给税务局的数比较低，为了防止逃税被发现，所以故意少报。既然数据来源不真实，统计结果自然就不准确。

其次是数据的计算方法。也就是说，就算大家都实话实说，每个人对于“年收入”的理解也会不统一，可能有人只算了工资，而有人算上了各种福利，还有人则把一些投资也加进去。这样一来，数据就没什么可比性了。

最后是样本不随机导致的偏差。要知道，上面说的调查时间离学生毕业已经20年，而且当时通讯又不发达，能联系上的人肯定不多。那些有所成就的肯定比失败潦倒的更容易联系，就算联系上了，也不是所有人都愿意配合调查，那些高收入的肯定比低收入的更愿意透露情况。所以说，样本本身就偏向了高收入群体，怎么还能用来代表整体情况呢？

你看，如果样本内部就有偏差，代表不了整体，也就没法保证统计结果的准确性。当然了，即便以上三个问题都不存在，2.5万美元这个数据也不一定能代表这届耶鲁毕业生在1940年代收入的总体水平。为什么呢？关键在于数据披露不完整。

2. 统计陷阱二：不完整的数据掩盖实际情况

我们刚才说到，2.5万美元人均年收入这个统计结果存在数据披露不完整的问题。为什么这么说呢？主要有两方面原因。

一方面，样本大小不明确。如果这批被调查的毕业生人数很少，样本就丧失了随机性，无法代表一整届毕业生这个整体。但在很多广告中，商家偏偏会利用这一点，故意忽略掉样本的数量，从而夸大产品的效果。

比如在1950年代，美国多克斯牙膏曾经打过一个广告，说根据测试用户反映，在使用新款多克斯牙膏以后，有23%的人蛀牙数量有所减少。乍一听，这牙膏效果显著啊！但实际上，参加测试的人数有多少呢？才13个人！

除了样本大小问题，数据披露不完整还体现在另一个方面，那就是数据之间的差异。我们回到前面年薪的例子，2.5万美元只是一个平均数，也就是N个数字相加再除以N的结果。问题是，如果数据相差很大，平均数就容易受到极端值的影响。假设样本是400个毕业生，只要里面有一个创业成功，成了年收入千万美元的大老板，就算其他人年收入都是0，平均下来年薪也能有2.5万美元。

因此，我们不应该只关注平均数这一个统计数字，还要结合众数、中位数，或者分层来看，才能更全面地了解真实情况。

换句话说，利用某些统计方式，可以掩盖真实的情况。除了我们刚才说的数据不完整以外，类似的情况还发生在统计图表的制作过程中。

3. 统计陷阱三：操纵图表给人带来错觉

我们经常会看到各式各样的统计图表，比如柱形图、折线图、饼图等等。有的图表里还会插入生动的图片，比如用一个钱袋子来代表1万元，用一头牛来代表1吨的牛肉产量。这些图表可以让枯燥复杂的统计数据变得更直观、更有趣，所以更容易被大家所接受。不过大家要注意的是，统计图表也是会骗人的。

怎么个骗人法呢？我们就先从最原始的统计图表——柱形图讲起。大家知道，柱形图可以用来比较几个数据的大小多少。好比说一家公司2001年收入1亿，2010年收入2亿，他们就可以用柱形图来表现这种翻倍的效果。但如果这个公司心术不正，就可能通过在图表上动些手脚，来夸大两个数据之间的差距。

第一种做法是改变纵坐标的起始数值。一般我们画柱形图，纵坐标都是从0开始的，但有些图的纵坐标故意不从0开始，相当于每根柱子都截掉了一段，相互之间的差异就被放大了。还是刚才的例子，如果纵坐标从5000万开始，那表示2010年收入的柱子就有2001年的3倍高，很容易让人以为收入是原来的3倍。

以前很多广告都这么操作，不过这种做法毕竟不符合作图规范，所以现在更常用的是另一种办法——缩小纵坐标的单位。比如原来纵坐标上1厘米代表5000万，那么两个收入数据也就是2厘米和4厘米的差别，虽然确实是翻倍，但视觉上没什么冲击力。如果让1厘米代表2000万，那两个数据就成了5厘米和10厘米的差别。也就是说，柱子被拉高，柱子之间的距离却没有变化，那么收入的增加趋势看上去就更加陡峭和明显。由于这种办法并不违反作图规范，很难被质疑。

除此之外，在对统计结果进行解读的时候，也有一些常见的陷阱。

4. 统计陷阱四：用偷换概念和颠倒因果混淆视听

就算没法操纵数据，还可以用其他一些手段来影响结论。

第一招是偷换概念。也就是说，如果你没法证明A，那就给人们展示一下B，并假装A和B是一回事儿。举个例子，有一个感冒特效药的广告，说是经过独立的第三方实验室测试，把这种特效药放进装满细菌的试管里，只需15克，就能在11秒里杀死试管里的3万多个细菌！听上去特别厉害吧，特别是再配上一张穿着白大褂的医生照片，简直太权威了！

但仔细分析一下，这里边玩的却是“看似相关”的把戏。首先，测试是在试管里做的，可是人体跟试管的环境能一样吗？其次，测试用的药物成分没有经过稀释，而给人服用的药品却必须限制含量和浓度，避免对身体组织造成伤害。最后，说这种药杀死了3万多个细菌，至于是哪种细菌、跟感冒有没有关系，这些都没提。因此光凭这条广告，根本不能判断感冒药的效果究竟如何。

第二招是颠倒因果。统计只能说明数据之间是否相关，而因果关系则需要结合理论和现实进行主观判断，这就给了某些有心之人可乘之机。通过颠倒因果，他们就能让统计结果支持自己的说法。

比如很多研究都表明，抽烟的学生往往比不抽烟的学生成绩差。有人可以把它解读成是抽烟导致学习变差，于是他们可以说“抽烟会让人变笨！”。但实际的因果关系并非如此，有可能是成绩不好的学生更有可能去抽烟。

除此之外还有一种可能性，那就是成绩差和抽烟之间压根没有任何因果关系，而是都跟第三种因素有关。比如我们来听听这个解释：压力太大的人容易抽烟，而压力太大也会让人成绩差，所以不能简单地说抽烟的人成绩差，它们只不过是“压力太大”这个因素导致的两种表现罢了。

所以你看，利用偷换概念和颠倒因果这两招来解释统计数据，就能利用似是而非的结论来支持自己的观点。

看到这儿，大家应该明白了，统计数据并不一定是完全真实客观的，而是存在各种各样的操纵行为。不管是抽样样本存在偏差，还是在数据披露和图表制作过程中耍手段，又或者是对统计结果别有用心的解读，总有人会用这样那样的法子，利用统计数据给别人传递错误的信息。这类行为用一个词概括，就是统计操纵。

那么听了这么多案例，我们在日常生活中又如何才能更好地鉴别和反驳这类统计操纵的现象呢？你不妨问问下面几个问题：

第一，样本是怎么来的，数量够不够大呢？
第二，在抽样的过程中，随机性有没有得到保证呢？
第三，呈现统计结果的时候，有没有故意遗漏了某些容易被忽略但是很重要的数据？图表是不是符合制图规范，有没有故意利用人们的视觉错觉？在解释统计结果的时候，存不存在偷换概念、颠倒因果，或是夸大意义的情况呢？

所以，我们有必要主动树立统计思维，学会批判性地看待统计数据。

编辑|凉山

排版|凉山

路上读书：全球名校博士30分钟精读一本好书。

展开阅读全文

页面更新：2024-03-02

标签：纵坐标数据试管统计学统计数据年收入偏差因果图表样本陷阱毕业生事实大师收入

1 2 3 4 5

瑞幸之后爱奇艺再遭做空，数据≠事实，来自统计学大师的防骗指南

王凯演了个影视剧里最难当的皇帝！历史上的宋仁宗，活得多憋屈？

中国第一位女性当权者：做“人彘”、杀儿子，女人狠起来有多可怕

记者卧底美国监狱，拍摄并记录可怕的监狱犯人日常，引起全美关注

《肖申克的救赎》其实是一部恐怖片！墙外的世界，自由成为梦魇

520连垃圾桶年年都能收到花，我却母胎solo手空空

一生打造两家世界500强企业，这个日本男人的经营秘诀——活法

“先天下之忧而忧”的范仲淹，确实是个一心为国的“完人”吗？

为什么我讨厌马丁·路德·金？美国种族问题的恶性循环

世界上最快乐的国家，丹麦人的小确幸，是蜡烛给的？

第四性“无性恋”：与其做爱，不如吃蛋糕

设置离婚冷静期？网友表示：我们是出不起复婚证的9块钱吗？

它是万千女性的福音，有了它，女性才拥有真正的自由

中国最早的“文化输出”：赵氏孤儿的故事，司马迁骗了你两千年

舌尖上的老北平：消失的味道，消逝的老北平饮食文化

儿子活埋79岁瘫痪老母亲，被救后，母亲担心儿子被判重刑

投资界著名实验：13个普通人进行2星期培训，也能成为交易

“时间管理大师”西门庆：主业副业两不误，婚内婚外双丰收

滴滴服务分真的有用吗？滴滴司机记住这几个操作，收入轻松

1.7亿补贴又来了！国庆期间滴滴司机收入到底如何？你能拿

滴滴司机注意！花小猪和滴滴数据打通！不注意单量控制会吃

土地出让收入使用范围将调整！或影响楼市？

买一套1000万的房子，月收入多少才匹配？

支付界大BOSS即将出台，非法收入无从遁形！

本周重要数据：大小非农来袭，中国制造数据影响全球经济复

史上最惨投资大师巴菲特导师华尔街传奇本杰明·格雷厄