廣告
文章
  • 全站
  • 文章
  • 論壇
  • 博客
高級
首頁 / 新科技 / 科技創新 / 正文
 
廣告
 

你又一次被“真實數據”欺騙了

——數據為何總是和事實相反?

我們收集的所謂“真實數據”其實是假的。
世界經理人專欄

鹵豆干

90后英國博士在讀。讓我們用科學的方式,找到合適你的商業模式。轉載請聯系微信公眾號鹵豆干(ludouganquan)。

廣告

當公司需要推出一個新產品(服務,管理,市場)前,我們總是需要收集一些數據來說服股東(或者我們自己),這個產品一定會大賣。

這時候,就是各種圖表粉墨登場的時候了:餅狀圖,柱狀圖,條形圖,折線圖。。。

(這里本來應該有一張圖,但是大家看了太多的PPT,我就不放了。)

我們講的頭頭是道,下面的聽眾也頻頻點頭。“看起來這個產品一定會廣受好評”。我們心里想。

然而,到了真正到了產品銷售階段時,我們卻發現,根本沒有用戶愿意買賬

我們明明是嚴格按照規范收集數據,仔細的進行科學分析,每個步驟也有專人監督。這些真實數據為何不能反映真實的市場需求

我們收集的所謂“真實數據”其實是假的。

大多數人認為,假數據只有在故意造假的情況才可能出現。而我認為,有些時候,錯誤的收集方式也會產生“假數據”。

那么,為何我們會收集到“假數據”呢?

1. 社會期許

“您喜歡喝什么口味的果汁?”我相信很多人都會如實回答。

“您和妻子/丈夫關系好嗎?”這個問題就很難得到準確答案。

與之類似的還有:

您的月收入多少?

您認為自己聰明嗎?

您對自己外貌評價如何?

在社會科學中,這叫做社會期許誤差。人們更傾向于向他人展現正面形象,所以在回答問題時,更傾向于申報“良好行為”來符合社會的期望。

這也是為何很多真正的抑郁癥患者傾向于隱瞞自己的病情,因為他們希望能夠符合周圍環境對他的期望。而社會期望人的性格是積極外向的,這樣導致了很多抑郁癥患者很難對家庭袒露心跡。

我最近看的一本書,《Everybody Lies》,就展示了這樣有趣的現象:在社交網站上,在短句“我的丈夫是”之后,最常見的形容詞的前五名是:“最好的”,“最好的朋友”,“最棒的”,“令人驚訝的”,“可愛的

而在搜索引擎上,前五名,除了一個“最棒的”以外,其他四個卻變成了:刻薄的”,“混賬”,“同性戀”,“討人厭的”

這也就證明了上面的觀點:人們在可能被他人審視的時候會更傾向突出其好的一面,而在匿名且隱私的環境中才能表達真實的自己。

2. 幸存偏差

假設我們來采訪一下幾個名人,他們的成功有什么必經之路:

喬布斯:我輟學了。

蓋茨:我輟學了。

扎克伯格:我輟學了。

布特林:我輟學了。

總結:輟學才能成功。

這里出現了什么樣的錯誤呢?

在統計學中,幸存者偏差是一種很常見的現象。即過分關注因為某些經歷而幸存的人或事物,并且將這些經歷定義為常識。

我們很容易找到類似的例子:

章魚保羅在2010年世界杯中連續7次猜對比賽結果——其他猜錯的動物沒有被報道。

2016美國總統大選時,CNN的民調顯示,希拉里支持率更高——調查時主要選擇了民族黨支持者。

很多喜歡看直播的人認為,主播收入高,外表光鮮,所以自己也要當主播——頭部主播占據了全部主播收入的80%以上。

3. 胡亂回答

前段時間,我對YouTube上的視頻進行過一個粗略統計。

結果是,一個在大多數人理解下的優秀視頻,其觀看量,點贊量,點踩量的比例一般為10000:100:2(這個數據只是一個預估,請不要作為考量方式)。

而且,不論是視頻多么優秀,總是會有點踩的人。

這種“故意破壞他人體驗的點踩”在社會心理學中叫做向下社會比較。這種情況往往是那個人遇到了某些挫折,通過降低自我評價的參照系(即讓他人的評價降低),來維持積極的自我評價。

這也是網絡上的噴子和鍵盤俠,往往都是在現實生活中遇到了不順心的事情的人的主要原因。

4. 分析錯誤

在不久前,我看到某個電影院的大數據分析:看《戰狼2》的觀眾,有89%的人購買了冷飲。而看《前任3》的觀眾,有73%的人購買了熱飲。

數據分析得出的結論是,看動作片的觀眾更喜歡冷飲來清涼自己的緊繃的神經。而看愛情片的觀眾更喜歡用熱飲來溫暖自己的內心。

戰狼2:2017年7月27日上映——夏天。

前任3:2017年12月29日上映——冬天。

其實分析員只要看看上映時間就知道,觀眾選擇熱飲或者冷飲的根本原因是天氣問題,和電影本身沒有任何關系

這種在統計學中被稱為混淆了相關性和因果性。即分析時過分注重于數據之間的關系比較,并且將這種關系直接定義為結論。

5. 人為造假

就在兩周前,著名心臟專家皮耶羅·安韋薩涉嫌數據造假的新聞轟動了整個病理學界。由于他的31篇學術論文造假,直接導致大量相似的研究直接作廢,各種研究經費的損失高達數億美元。

那么,他是怎么做的呢?

他在分析數據前,直接將自己的假說認定為正確的,然后用很多數據去“湊”自己的假說,如果數據不對,就換方式來重新將數據“生產”出來。

這種手法,在很多歐美政客手上就用的爐火純青。特朗普就轉發過“舊金山犯罪統計局”的統計數據。該數據顯示,黑人是犯罪的主要根源。而實際上,“舊金山犯罪統計局”根本就不存在。

人們很容易相信數字所帶來的權威性。而這種利用數據來說謊的方式,就是利用了這一點。

這五個問題,導致了調查數據很難真實反映出用戶的需求,從而擾亂了我們的判斷能力。

那么,我們如何才能減少這些問題對數據結果造成影響呢?

1. 社會期許——匿名回答

社會期許誤差的產生,是由于被訪者擔心自己的負面情緒或者狀態不被社會所接受。

那么最有效的辦法就是:為受訪者創造一個完全匿名的,保密的環境。

正如天主教堂里的告解室一樣,完全密封的匿名環境,加上神父的嚴格保密,讓信徒可以安心的懺悔自己的罪行。

投票箱就是一個很有效的匿名方式。例如美國的國家大選,為了避免大家因為敏感的投票話題引起爭執,采用了投票箱的方式,保護了投票者的隱私。

另外一個解決方式是隨機化回答。方式是將問題分為兩類,敏感性問題與非敏感性問題。我們想要知道敏感性問題的答案,而我們已知非敏感性問題的答案。我們可以通過非敏感問題的答案來反推出敏感問題的答案。

舉個例子,假設我們想要推出一個新式男性增高墊,但是不知道使用增高墊的人數比例.我們可以設置兩個問題:

敏感性問題:“您是否使用了增高墊?”

非敏感性問題:“您的電話尾號是否是1?”

我們先在黑箱里放置兩個小球,一個紅色一個藍色。在回答問題前,要求受訪者在黑箱里取一個球,但是這個球的顏色只有受訪者知道。

然后告訴受訪者,如果他抽的是紅球,就回答“您是否使用了增高墊?”。如果抽的是藍球,就回答“您的電話尾號是否是1?”。但是回答者只用回答“是”或“否”。

那么,當我們收集到足夠多的數據后,我們可以得知受訪者回答“是”的比例(設為a)。

由于我們知道,電話尾號為1的可能性為10%,而抽到紅球或藍球的幾率各為50%,那么我們就很容易依靠下面的公式推斷出使用增高墊的人(設為x)比例。

公式

2. 幸存偏差——用戶分層

幸存者偏差是由于受訪者的樣本過于相似,導致了數據結果并不能代表所有的用戶。

由于我們無法對于對所有的用戶進行普查,那么最容易的辦法,就是從每一個層次的用戶抽取數人進行調查。

例如,我們想要對打車軟件優惠券的使用情況進行調查。我們就需要將用戶分為四類:

1.  之前使用過打車軟件,后來使用過優惠劵(老用戶)。

2.  之前使用過打車軟件,后來沒有使用過優惠券(未涉及用戶)。

3.  之前沒有使用過打車軟件,后來使用過優惠券(新用戶)。

4.  之前沒有使用過打車軟件,后來沒有使用過優惠券(潛在用戶)。

從每種類別的用戶中,我們選取數人來進行抽查。在每個層級的人群中,我們也要盡量將年齡,性別,職業等等區分開來,這樣才能減少幸存者偏差帶來的數據偏差。

3. 胡亂回答——顯示進度

大多數時候,受訪者還是愿意配合采訪的。讓受訪者不愿意配合采訪的原因只有兩種:外界因素和內部因素

由于我們無法控制受訪者的外部因素(心情不好,急于做事,性格內向等等),那么我們只能減少內部因素造成的影響。

所以,我們需要盡可能減少受訪者對調查感到厭煩的可能性。

你們是否發現,當你安裝一個軟件時,就會有一個進度條顯示安裝的進程。而且,進度條并不是勻速前進的?

這是因為,進度條可以明確的告訴我們,我們還需要多久的等待。而非勻速前進的原因,則是經過了科學家的試驗,證明相對于非勻速來說,勻速的進度條更容易讓人感到不耐煩。

所以,在收集數據時,如果是訪問的模式,就需要在開始訪問前,告訴受訪者訪問的時長,并且將長問題穿插在短問題中。如果是調查問卷的模式,就需要在前面寫明問題的數量,并且在其中配上進度顯示(例如,已回答25%的問題)。

4. 分析錯誤——關注外因

我們在分析數據的時候,如果僅僅關注數據本身,就很容易出現混淆相關性和因果性的狀況。

所以,在數據分析時,一定要考慮到外界因素所帶來的影響。

正如第一臺ATM機發明前,巴克萊銀行對于用戶對于ATM機的態度進行過一次調查。用戶的數據反饋指出:相對于冷冰冰的機器,大家更喜歡熱情服務的柜員。然而銀行發現,由于工會的強烈要求,導致銀行必須考慮在周末放假。而很多領取周薪的工人只有在周末才有時間去銀行取錢,那么這些工人的需求就很難滿足了,所以銀行依然決定推出ATM機。

結果大家都知道了,現在全球有著高達300萬臺ATM機為我們服務,也沒有人覺得從ATM機器里面取錢有任何不妥。

所以相對于單純的相信數據,更好的方式是將數據作為一個參考,但是根據實際情況來進行判斷。

5. 人為造假——規避問題

人為造假的問題是最難以解決的,因為這個是調查者自己所決定的。

現如今在學術界,最廣泛使用的辦法就是讓調查者簽署一個保證書,利用保證書來約束調查者的行為準則。

然而在公司中,這樣的的方式并不太合適。學術界出現了造假問題,那么這個人今后就無法再進行學術類工作。而公司員工的流動性更大,造假的調查者完全可以去其他公司繼續工作。

我們只有從員工素質的提升和對數據的真實性進行反復檢驗,從而對于數據的人為造假進行規避。

總結一下:

1. 社會期許——為受訪者創造匿名調查環境。

2. 幸存偏差——將受訪者分層次調查。

3. 胡亂回答——讓受訪者不對問題產生厭煩。

4. 分析錯誤——收集外界因素造成的影響。

5. 人為造假——提升員工素質,檢驗數據真實性。

如果按照這些方式去做,我們的調查數據準確度就能夠極大的提升。

本文系鹵豆干授權世界經理人發布,并經世界經理人編輯。文章內容僅代表作者獨立觀點,不代表世界經理人立場,如需轉載請聯系原作者獲取授權,并請附上出處(世界經理人)及本頁鏈接http://www.98280377.com/it/ma/8800095917/01/,推薦關注微信公眾號(ID:CEC_GLOBALSOURCES)

© 世界經理人:自1999年創立以來,世界經理人網站(www.98280377.com)致力于引導職業經理人實現卓越管理,以專業的形象為經理人用戶全方位提供最佳管理資訊服務和互動平臺。

    

 
 

相關文章

今日聚焦

 
廣告
廣告

世界經理人網站App下載

熱門排行榜

  • 熱門
  • 經典
  • 管理
  • 文章
  • 論壇
  • 博客
 
 
上海快3最新开奖