美大選民調又估錯　傳統民調失效也不等同大數據準確

發佈時間：2016-11-15
瀏覽次數：5181次

美大選民調又估錯　傳統民調失效也不等同大數據準確

美國總統大選已塵埃落定，一日之前所有報紙民調都說希拉莉篤定當選，但結果卻如大家所知。有趣的是，在大選前預言說中的卻是人工智能，由印度開發的 MogIA AI 就成功預言杜林普當選。這證明了傳統民調已經完全失效了，但大數據和人工智能是否又一定準確？
人人都想問：為何公投結果和民調預測完全不同？
其實早前的英國 6 月脫歐公投已經有這樣的情況了。當時鋪天蓋地都是留歐的聲勢最強，傳統機構民調、市場預測，就連博彩網站也是留歐的賠率較低，而在公布結果前由調查機構 YouGov 做的票站民調也是留歐佔多。結果因為出乎預期，於是股市跌、匯價跌，人人都想問為何公投結果和民調預測完全不同。
當時很多人分析原因，有人認為脫歐派被標籤為「年長、愚蠢、低學歷」，沒人願意對民調承認自己的真實想法，也有人認為脫歐派大多不是網民，因此難以被發現，亦有人指脫歐派都是窮人居多，就算下注脫歐也改變不了賠率。
但不管原因為何，公投結果改變不了，英國政府動盪，卡梅倫下台，文翠珊政府亦正研究如何啟動脫歐程序。對卡梅倫政府而言，預測失準帶來的損失非常大。正所謂「千金難買早知道」，成功預測未來結果就能及早準確，決定做或不做什麼事。如果卡梅倫準確預先知道公投結果，又豈會願意啟動公投？

傳統民調哪兒出錯了？追不上時代！
爆冷成功脫歐，就有人預測會不會在美國大選也出現戲劇性結果，當時人人都是說「個別事件」，但結果是再一次爆冷，這一刻實在不能不問，傳統民調哪兒出錯了？事實上民調從來不兒戲，是社會統計學的專業範疇，通過用公正客觀的方式收集大量樣本，再按比例投射到整個群體，是相對客觀、精確地反映社會輿論的方式。
傳統民調會用隨機方式以電話訪問民眾，在訪問前排除一些因素後再向被訪者發問一組問題。不過今時今日愈來愈少人用家居電話，也愈來愈少人願意花時間受訪，回應率愈來愈低之餘，加上愈來愈多人不樂意公開真實的想法（即使是匿名民調），自然更難像以前般控制樣本的純樸性。
2012 年奧巴馬競選連任時，民調就估計是對手羅姆尼勝出，但結果是奧巴馬遙遙領先，近年全球大選都同樣有民調失準的情況。先撇開別有用心想造假，又或缺乏資源「為做而做」的民調不論，現實是民調手法落後已追不上現時實際社會發展。因此不少人都提倡民調中心應發展其他新技術，以令民調能更符合現實發展，並提升準確性。

小眾觀點傾向沉默、但原來票數足以改變結果
最多人討論的當然是社交媒體的大數據調查。在商業世界早已應用社交媒體大數據來協助掌握消費者的口味，例如香港的電視台就已經利用上述技術來了解新劇集、新節目的網上口碑，甚至隔日就能在黃金時間的娛樂新聞節目回應；而消費商品更會監視消費者對新商品的即時反應，甚至用於調整商品的市場對策。
不過，脫歐公投時何嘗不是網上一片「留歐」之聲？社交媒體大數據顯然仍有一些難以跨越的界限。傳播理論有所謂「沉默螺旋」：愈多人同意的內容，愈是比較放心公開說，反而抱持愈是小眾觀點的人就愈傾向沉默。由於社交媒體是公開的，自然愈有這種傾向，於是支持脫歐、支持杜林普的聲音就隱藏了起來。
而且輿情能否跟選票真實掛勾是沒有因果關係的，在網上大罵政府的人不見得是選民，更不見得會在大選日投票，如果直接把網上輿情和選情預測掛上等號，幾乎一定出事。就以 2010 年香港的「五區補選」為例，當時網上就討論得相當激烈，但實際其實只是一少部分人熱鬧而己，投票率僅為 17.1%，是回歸以來最低。

人工智能大數據預測比民調更準？
另一個會被談論的就是 Google Trend。比起眾多雜亂的社交平台，幾乎在中國以外的全球市場統一天下的 Google 是單一平台，擁有大量的搜尋數據，做統計分析其實相對客觀和誤差較少。而前面提過的人工智能 MogIA AI 也同樣是收集 Google、Facebook、Twitter 和 YouTube 的大量數據來做分析。
Google Trend 做的是呈現網民的搜尋趨勢，例如杜林普會和哪些字一齊被搜尋，在什麼時候開始多人搜尋杜林普，哪些地區的網民搜尋最多杜林普的訊息，這些都能在 Google Trend 上得到答案。搜尋趨勢是很客觀的，它能呈現一些社會議題被討論的多寡，配合其他數據交叉分析能得到有價值的結果，而且也沒有「沉默螺旋」的問題。
但問題是，談論得多就是否等如能夠勝出大選？中間有沒有邏輯關係？其實這個誰也沒有答案。2014 年世界盃比賽，當時中國百度就推出了類似的趨勢網站，並利用中國網民的搜尋趨勢來預測賽果。但問題就來了，如果比賽實際影響因素是球員表現、天氣和場地狀態，那搜尋趨勢又代表到什麼？

AI 不懂「讀心」、網民意志未必真實呈現
不過大選跟球賽的最大不同，當然是大選是呈現選民的集體意志，網民的搜尋趨勢當然會對投票抉擇有影響，而正面訊息和反面訊息的搜尋趨勢絕對值得參考，但要說 Google Trend 或其他基於這些數據來分析的選情預測的準確性夠高，目前仍需要時間去驗證。
事實上，就連每天都寫科技消息的筆者，也對人工智能預言杜林普當選的結果有所保留。畢竟這其實是一個「賭大細」的遊戲，選出獨立候選人的機會比圍骰還要低，如果不是杜林普就是希拉莉的話，猜中的機率也不過是一半一半，實際就跟向八爪魚保羅請教世界盃賽果一樣。
據 Business Insider 的報導，印度公司 Genic.ai 所開發的 MogIA，自 2004 年就開始就預測美國總統大選結果，而其結果就三次皆中，如果再計今次杜林普的話就更是四屆全中。為了進一步排除人為的偏見和誤差，MogIA 會利用機器學習來建立演算法，經過 12 年的學習就更加完善。
但即使如此，人工智能也未能解決一些核心問題，例如杜林普得票最多的就是鄉村地區，而最熱愛科技的卻是城市人。而且就連 Genic.ai 也承認，MogIA 對人類的「反諷」語言依然未盡了解，未必能夠辨別出否定的言論，而熱烈的互動率也絕不代表受歡迎。

傳統學術非無能為力、往績其實更佳
搖擺州份之所以難預測正在於人心的反覆，沉默選民的意向能否被正確收集和分析，目前仍要看他們有否積極在互聯網上表現，人工智能並非真的能「讀心」，要證明大數據和人工智能可取代傳統民調，還是需要時間做更多實證，不過隨著社交媒體的使用者愈多，準確性能提高應該是必然的。
不過傳統學術是否真的無能為力？似乎也不是。美國紐約州立大學石溪分校政治學教授 Helmut Norpoth，分析了自 1912 年起的歷屆大選並歸納出兩個預測模型：初選模型和搖擺效益模型，而且就憑它成功預測了由 2000 年起的五屆總統大選，而他更預測杜林普的勝率達 97%。
而美國政治史學家 Allan Lichtman 也透過歸納歷屆大選而在 1981 年提出「入主白宮的 13 個關鍵」，並成功預測其後 30 多年的八屆總統大選。這 13 道是非題其實是反映施政成效，得分愈低就會選輸，而Allan Lichtman 就因此也同樣斷言杜林普將會勝出。
因此預測選情還是需要結合傳統和新科技，傳統的預測模型仍然經得起考驗，配合大數據和人工智能將有更多的交叉求證的工具做預測，未來將會是多重工具做分析的時代。

搜索

Document

產品推薦

美大選民調又估錯 傳統民調失效也不等同大數據準確

人人都想問：為何公投結果和民調預測完全不同？

傳統民調哪兒出錯了？追不上時代！

小眾觀點傾向沉默、但原來票數足以改變結果

人工智能大數據預測比民調更準？

AI 不懂「讀心」、網民意志未必真實呈現

傳統學術非無能為力、往績其實更佳

美大選民調又估錯　傳統民調失效也不等同大數據準確