广告
文章
  • 全站
  • 文章
  • 论坛
  • 博客
高级
首页 / 科技 / 科技创新 / 正文
 
广告
 

你又一次被“真实数据”欺骗了

——数据为何总是和事实相反?

我们收集的所谓“真实数据”其实是假的。
世界经理人专栏

卤豆干

90后英国博士在读。让我们用科学的方式,找到?#40092;?#20320;的商?#30340;?#24335;。转载请联系微信公众号卤豆干(ludouganquan)。

当公司需要推出一个新产品(服务,管理,市场)前,我们总是需要收集一些数据?#27492;?#26381;股东(或者我们自己),这个产品一定会大卖。

这时候,就是各种图表粉墨登场的时候了:饼状图,柱状图,条形图,折线图。。。

(这里本来应该有一张图,但是大家看了太多的PPT,我就不放了。)

我们讲的头头是道,下面的听众也频频点头。“看起来这个产品一定会广受好评?#34180;?#25105;们心里想。

然而,到了真正到了产品销售阶段时,我们却发现,根本没有用户愿意买账

我们明明是严格按?#23637;?#33539;收集数据,仔细的进行科学分析,每个步骤也有专人监督。这些真实数据为何不能反映真实的市场需求

我们收集的所谓“真实数据”其实是假的。

大多数人认为,假数据只有在故意造假的情况才可能出现。而我认为,有些时候,错误的收集方式也会产生“假数据?#34180;?/p>

那么,为何我们会收集到“假数据”呢?

1. 社会期许

“您?#19981;?#21917;什么口味的果汁?”我相信很多人都会如实回答。

“您和妻子/丈夫关系好吗?”这个问题就很难得到准确答案。

与之类似的还有:

您的月收入多少?

您认为自己聪明吗?

您对自?#21644;?#35980;评价如何?

在社会科学中,这叫做社会期许误差。人们更倾向于向他人展现正面形象,所以在回答问题时,更倾向于申报?#20658;己?#34892;为”来符合社会的期望。

这也是为何很多真正的抑郁症患者倾向于隐瞒自己的病情,因为他们希望能够符合周围环境对他的期望。而社会期望人的性格是积极外向的,这样导致了很多抑郁症患者很?#35759;?#23478;庭袒露心迹。

我最近看的一本书,《Everybody Lies》,就展示了这样有趣的现象:在社交网站?#24076;?#22312;短句“我的丈夫是”之后,最常见的形容?#23454;?#21069;五名是:“最好的?#20445;?/strong>最好的朋友?#20445;?/strong>最棒的?#20445;?/strong>令人惊讶的?#20445;?/strong>可爱的

而在搜索引擎上,前五名,除了一个“最棒的”以外,其他四个却变成了:刻薄的?#20445;?#28151;账?#20445;?#21516;性恋?#20445;?#35752;人厌的”

这也就证明了上面的观点:人们在可能被他人审视的时候会更倾向突出其好的一面,而在匿名且隐私的环境中才能表达真实的自己。

2. 幸存偏差

假设我们来采访一?#24405;?#20010;名人,他们的成功有什么必经之路:

乔布斯:我辍学了。

盖?#27169;?#25105;辍学了。

扎克伯格:我辍学了。

布特林:我辍学了。

总结:辍学才能成功。

这里出现了什么样的错误呢?

在统计学中,幸存者偏差是一种很常见的现象。即过分关注因为某些经历而幸存的人或事物,并且将这些经历定义为常识。

我们很容易找到类似的例子:

章鱼保罗在2010年世界杯中连续7次猜对?#28909;?#32467;果——其他猜错的动物没有被报道。

2016美国总统大选时,CNN的民调显示,希拉里支?#33268;?#26356;高——调查时主要选择了民族党支持者。

很多?#19981;?#30475;直播的人认为,主播收入高,外表光鲜,所以自己也要当主播——?#20961;?#20027;播占据了全部主播收入的80%以上。

3. 胡?#19968;?#31572;

前段时间,我对YouTube上的视?#21040;?#34892;过一个粗略统计。

结果是,一个在大多数人理解下的优秀视频,其观看量,点赞量,点踩量的比例一般为10000:100:2(这个数据只是一个预估,请不要作为考量方式)。

而且,不论是视频多么优秀,总是会有点踩的人。

这种“故意破坏他人体验的点踩”在社会心理学中叫做向下社会比较。这?#26234;?#20917;往往是那个人遇到了某些挫折,通过降低自我评价的参照系(即让他人的评价降低),?#27425;只?#26497;的自我评价。

这也是网络上的喷子和键盘侠,往往都是在现实生活中遇到了不顺心的事情的人的主要原因。

4. 分析错误

在不?#20204;埃?#25105;看到某个电影院的大数据分析:看《战狼2》的观众,有89%的人购买了冷饮。而看《前任3》的观众,有73%的人购买了热饮。

数据分析得出的结论是,看动作片的观众更?#19981;?#20919;饮来清凉自己的紧绷的神经。而看爱情片的观众更?#19981;?#29992;热饮?#27425;?#26262;自己的内心。

战狼2:2017年7月27?#19976;嫌场?strong>夏天。

前任3:2017年12月29?#19976;嫌场?strong>冬天。

其实分析员只要看看上映时间就知道,观众选择热饮或者冷饮的根本原因是天气问题,和电影本身没有任何关系

这种在统计学中被称为混淆了相关性和因果性。即分析时过分注重于数据之间的关系比?#24076;?#24182;且将这种关系直接定义为结论。

5. 人为造假

就在两周前,著名心脏专?#31227;?#32822;罗·?#21442;?#33832;涉嫌数据造假的新闻轰动了整个病理学界。由于他的31篇学术论文造假,直接导致大量相似的研究直接作?#24076;?#21508;种研究经费的损失高达数亿美元。

那么,他是怎么做的呢?

他在分析数据前,直接将自己的假说认定为正确的,然后用很多数据去?#25353;鍘?#33258;己的假说,如果数据不对,就换方式来重新将数据?#21543;?#20135;”出来。

这种?#22336;ǎ?#22312;很多?#35775;?#25919;客手上就用的炉火纯青。特朗?#31449;?#36716;发过“旧金山犯罪统计局”的统计数据。该数据显示,黑人是犯罪的主要根源。而实际?#24076;?#26087;金山犯罪统计局”根本就不存在。

人们很容易相信数字所带来的权威性。而这种利用数据?#27492;?#35854;的方式,就是利用了这一点。

这五个问题,导致了调查数据很难真实反映出用户的需求,从而扰乱了我们的判断能力。

那么,我们如何才能减少这些问题对数据结果造成影响呢?

1. 社会期许——匿名回答

社会期许误差的产生,是由于被访者担心自己的负面情绪或者状态不被社会所?#37038;堋?/p>

那么最有效的办法就是:为受访者创造一个完全匿名的,保密的环?#22330;?/strong>

正如天主教堂里的告解室一样,完全密封的匿名环境,加上神父的严格保密,让信徒可以安心的忏悔自己的罪行。

投票箱就是一个很有效的匿名方式。例如美国的国家大选,为了避免大家因为敏感的投?#34987;?#39064;引起争执,采用了投票箱的方式,保护了投票者的隐私。

另外一个解决方式是随机化回答。方式是将问题分为两类,敏?#34892;?#38382;题与非敏?#34892;?#38382;题。我们想要知道敏?#34892;?#38382;题的答案,而我们已知非敏?#34892;?#38382;题的答案。我们可以通过非敏?#24418;?#39064;的答案来反推出敏?#24418;?#39064;的答案。

举个例子,假设我们想要推出一个新式?#34892;?#22686;高垫,但是不知道使用增高垫的人数比例.我们可以设置两个问题:

敏?#34892;?#38382;题:“您是否使用了增高垫?”

非敏?#34892;?#38382;题:“您的电话尾号是否是1?”

我们先在黑箱里放置两个小球,一个红色一个蓝色。在回答问题前,要求受访者在黑箱里取一个球,但是这个球的?#19976;?#21482;有受访者知道。

然后告诉受访者,如果他抽的是红球,就回答“您是否使用了增高垫??#34180;?#22914;果抽的是蓝球,就回答“您的电话尾号是否是1??#34180;?#20294;是回答者只用回答“是?#34987;頡?#21542;?#34180;?/p>

那么,当我们收集到足?#27426;?#30340;数据后,我们可以得知受访者回答“是”的比例(设为a)。

由于我们知道,电话尾号为1的可能性为10%,而抽到红球或蓝球的几率各为50%,那?#27425;?#20204;就很容易依靠下面的公式推断出使用增高垫的人(设为x)比例。

公式

2. 幸存偏差——用户分层

幸存者偏差是由于受访者的样本过于相似,导致了数据结果并不能代表所有的用户。

由于我们无法对于对所有的用户进行普查,那么最容易的办法,就是?#29992;?#19968;个层次的用户抽取数人进行调查。

例如,我们想要对打车软件优惠券的使?#20204;?#20917;进行调查。我们就需要将用户分为四类:

1.  之前使用过打车软件,后来使用过优惠劵(老用户)。

2.  之前使用过打车软件,后来没有使用过优惠券(未涉及用户)。

3.  之前没有使用过打车软件,后来使用过优惠券(新用户)。

4.  之前没有使用过打车软件,后来没有使用过优惠券(潜在用户)。

?#29992;?#31181;类别的用户中,我们选取数人来进行抽查。在每个层级的人群中,我们也要尽量将年龄,性别,职业等等区分开来,这样才能减少幸存者偏差带来的数据偏差。

3. 胡?#19968;?#31572;——显示进度

大多数时候,受访者还是愿意配合采访的。让受访者不愿意配合采访的原因只有两种:外界因素和内部因素

由于我们无法控制受访者的外部因素(心情不好,急于做事,性格内向等等),那?#27425;?#20204;只能减少内部因素造成的影响。

所以,我们需要尽可能减少受访者对调查感到厌烦的可能性。

你们是否发现,当你安装一个软件时,就会有一个进度条显示安装的进程。而且,进度条并不是?#20154;?#21069;进的?

这是因为,进度条可以明确的告诉我们,我们还需要多久的等待。而非?#20154;?#21069;进的原因,则是经过了科学家的试验,证明相对于非?#20154;倮此担人?#30340;进度条更容易让人感到不?#22836;场?/p>

所以,在收集数据时,如果是访?#23454;?#27169;式,就需要在开始访?#26159;埃?strong>告诉受访者访?#23454;?#26102;长,并且将长问题穿插在短问题中。如果是调查问卷的模式,就需要在前面写明问题的数量,并且在其?#20449;?#19978;进?#35748;?#31034;(例如,已回答25%的问题)。

4. 分析错误——关注外因

我们在分析数据的时候,如果仅仅关注数据本身,就很容易出现混淆相关性和因果性的状况。

所以,在数据分析时,一定要考虑到外界因素所带来的影响。

正如第一台ATM机发明前,巴克莱银行对于用户对于ATM机的态度进行过一次调查。用户的数据反馈指出:相对于冷冰冰的机器,大家更?#19981;?#28909;情服务的柜员。然而银行发现,由于工会的强烈要求,导致银行必须考虑在周末放假。而很多领取周薪的工人只有在周末才有时间去银行取钱,那么这些工人的需求就很难满足了,所以银行依然决定推出ATM机。

结果大家都知道了,现在全球有着高达300万台ATM机为我们服务,也没有人觉得从ATM机器里面取钱有任何不妥。

所以相对于单纯的相信数据,更好的方式是将数据作为一个参?#36857;?#20294;是根据实?#26159;?#20917;来进行判断。

5. 人为造假——规避问题

人为造假的问题是最难以解决的,因为这个是调查者自己所决定的。

现如今在学术界,最广泛使用的办法就是让调查者签署一个保证书,利用保证书来?#38469;?#35843;查者的行为准则。

然而在公司中,这样的的方式并不太?#40092;省?#23398;术界出现了造假问题,那么这个人今后就无法再进行学术类工作。而公司员工的流动性更大,造假的调查者完全可以去其他公司继续工作。

我们只有从员工素?#23454;?#25552;升?#25237;?#25968;据的真实性进行反复检验,从而对于数据的人为造假进行规避。

总结一下:

1. 社会期许——为受访者创造匿名调查环?#22330;?/strong>

2. 幸存偏差——将受访者分层次调查。

3. 胡?#19968;?#31572;——让受访者不对问题产生厌?#22330;?/strong>

4. 分析错误——收集外界因素造成的影响。

5. 人为造假——提升员工素质,检验数据真实性。

如果按照这些方式去做,我们的调查数据准确度就能?#24739;?#22823;的提升。

本文系卤豆干授权世界经理人发?#36857;?#24182;经世界经理人编辑。文章内容仅代表作者独立观点,不代表世界经理人立场,如需转载请联系原作者获取授权,并请附上出处(世界经理人)及本页链接http://www.98280377.com/it/ma/8800095917/01/,推荐关注微信公众号(ID:CEC_GLOBALSOURCES)

© 世界经理人:自1999年创立以来,世界经理人网站(www.98280377.com)致力于引导职业经理人实现卓越管理,以专业的形象为经理人用户全方位提供最佳管理资讯服务和互动平台。

    

 
 

相关文章

今?#31449;?#28966;

 
广告
广告

世界经理人网站App?#30053;?/h4>

热门排行榜

  • 热门
  • 经典
  • 管理
  • 文章
  • 论坛
  • 博客
 
 
上海快3最新开奖