星期三, 5月 17, 2023

數據、謊言與真相


人會說謊,但大數據不會。大數據成了窺探你內心的新窗口。作者賽斯-史蒂芬斯這麼說。當人面對朋友、醫生、家人、老師,我們不會完全坦白。但當獨自在google上搜尋時,我們會透露真實的疑惑、渴望與恐懼。google資料分析師用大數據推翻你對人們的既定印象。從約會、選舉到體育,真相會讓你不安、驚訝、捧腹大笑。

第一篇「管他大數據還是小數據」。第一章「別讓直覺扯你後腿」。作者引用數據及車例証明:更好的社經地位表示更有可能成為NBA球員。換句話說,普遍的看法是錯誤的。至少數據發現窮人的孩子比較矮、而且缺乏社交能力。所以無法實現籃球明星夢。


第二篇「大數據的驚人力量」,包含第二至第六章。第二章「佛洛伊德說的正確嗎?拼錯字背後隱藏的慾望」。人在拼字時出現錯誤,這些錯誤和禁忌之間未必有關連。因為大數據允許我們進行快速且可控的實驗。它也允許我們測試因果關係,而不僅是相關性。它是大數據的第四種力量。

第三章「怎樣的數據算是大數據」。大數據的「第一種力量」:重新想像有什麼東西有資格當成數據。通常大數據的價值不在於本身的大小,而在於提供新類型的資訊,也就是以往從未蒐集過的資訊,讓人們得以研究。「大數據革命跟蒐集更多數據無關,而跟蒐集正確數據有關」。例如「成為賽馬明星的關鍵是什麼?」塞德發現了:左心室大小。「喝酒、工作、禱告」美國人三個年層的慣用語。

第四章「躲在線上的真相」。每個人都在說謊。人們對朋友、對老闆、對子女、對父母、對醫生、對老公、對老婆、也對自己說謊。而且他們確實對調查說謊。即使調查是匿名的,但是人們總希望保持良好形象。研究人員一再發現人們一真提供錯誤訊息,以維護自己美好的形象。所以引伸出大數據的「第二種力量」:就像數位誠實豆沙包,某些線上來源,讓人們承認自己在其他方面願承認的事。講到性愛人們總有許多祕密比如次數、尺寸、喜好、時間長短等。

第五章「我們週遭發生了什麼事?」首先討論大數據心理學,就是人類行為的特寫,究竟我們的鄉里城鎮正在發生什麼事?這也是大數據的「第三大力量」:它允許我們有意義地放大檢視數據集的細部,獲取關於我們是誰的新見解。除了年之外,還可以放大其他面向。如果數據足够,可以觀察特定城鎮居民的行為。觀察每小時、每分鐘都做了什麼。甚至找出「分身」、預測誰會不誠實報稅?那個城巿可以致富、長壽、轉貧為富?

第六章「整個城巿都是我的實驗室」。社會科學日漸採用「隨機對照實驗」。它是証明因果關係的黃金標準。在數位世界裹,隨機對照實驗既省時又省錢。它是大數據的「第四大力量」:讓隨機對照實驗變得更容易進行。只要你在線上,幾乎隨時隨地都可以進行。現在臉書每天進行7000次AB測試。歐巴馬選總總、超級杯現場直播廣告、總統被暗殺等。


第三篇「小心面對大數據」。第七章「大數據、大垃圾」,討論「維度的詛咒」。當你有很多變數或維度時,就會出現破壞力。較新的數據往往提供我們比傳統數據源更多的變數,每個搜尋字詞、個推文類別等。許多人聲稱使用一些大數據源預測巿場,其實他們祗是被維度的詛咒所騙。

第八章「數據越多越多問題?」我很可能因大數據而無法借款。有時候大數據的力量令人深刻到提心吊膽。大數據會引發道德問題。

結論「大數據告訴我,很少人看到最後一頁」。但是大數據允許放大檢視的能力,讓社會學的研究變得更容易。我們可能稱之為「規模科學-science at scale)。也就是以一個簡單方法和利用大數據,在短時間內進行幾百次分析。


沒有留言:

對話-伊斯蘭與寛容的未來

改革伊斯蘭教己漸漸成為廿一世紀政治意識形態最重要的議題。本書對話坦誠、睿智且富有感情,尤其在涉及的思想與道德議題有最佳闡述。 這本書載錄 美國新無神論者 山姆 - 哈里斯 (Sam Harris) ,以及前 伊斯蘭極端份子 德 - 納瓦茲 Maajud Nawaz)...