星期一, 8月 08, 2016

量測與效力(Impact)是資料科學的兩大關鍵

紀懷新(Google研究科學家)在「臺灣資料科學家愛好者」年會分享表示:「資料科學中,最重要的就是量測(Measurement)跟效力(Impact)。」進一步強調:因為資料取得太容易,而忽略資料來分析背後的真正目的,反而難以找到可以發揮效益的成果。他用兩次挫敗和一次成功的故事詳加說明。

挫敗之一維基百科成長趨勢分析

分析發現維基百科在2001年至2003年,文章數量的成長狀況並不穩定,而度過2003年後,文章數量才開始按照指數模型(Exponential Model)。也觀察到2001年開始,文章編輯次數、活躍編輯者的數量兩者都按照指數模型成長,但是到了2007年,他們的成長趨勢開始停滯無法用指數模型解釋。後來改用人口統計學中的「羅吉斯成長模型」理論來說明,修正為有飽和上限的羅吉斯成長曲線。雖然找出解釋現象的規則是一大成就,但維基百科團隊雖覺有趣,卻沒有重視他的研究成果,這讓當時的紀懷新感到失望。

挫敗之二Google +社群分析再度不受重視

盤點社群研究相關文獻歸納出人們可以從社群中獲得滿足的兩大需求:資訊以及社交,想要提高社群活躍程度,就得同時滿足這兩大需求。除了加強成員社交圖譜(Social Graph)的連結外,也得讓使用者取得新資訊的難度降低。

透過使用者間連結(Edges)分析社群圖譜中所組成的三角形,來作為剖析該圖中社群互動程度,是頻繁或是稀疏的指標。找出兩個場堿:其一,第三區域(Third Place)的概念,人群互相交談、獲得新資訊的場所,例如西方世界中的酒吧、理髮廳,或是臺灣過去的寺廟、廣場。其二,新資訊布告欄(Topic board)式的社群型態,以新資訊取得,使用者在滿足資訊的需求後,「沒有必要跟社群成員進一步連結。」

再透過滾雪球取樣(Snowball Sampling)取得800多位使用者的回饋意見,才了解大部分用戶能符合紀懷新的研究假設:「一半滿足資訊需求,另一半使用者則是想拓展社交圈。」分析結果滿意,但不能採用也不受重視。

用Google+翻譯成功降低語言隔閡

紀懷新觀察到Twitter前三大語言分別是英語、日語及葡萄牙語,而具備英語能力的使用者,其中不少比例同時也能使用西班牙文或葡萄牙文,「但是英語和日語的連結就相對比較弱。」因此,如果社群平臺具備翻譯功能,讓使用者能理解非自家母語的文章,就能更有效地串接不同母語的用戶。紀懷新想要做的是,讓Google+系統自動翻譯,系統可以判斷瀏覽者慣用的語言,將文章內容自動翻譯成不同國籍的朋友都能看得懂的內容。

2013年8月,Google+的翻譯功能正式上線,而Google進行了A/B實驗,評估翻譯功能對平臺的成效,短短一周,可以利用翻譯功能的使用者,除了貼文數增加2.49%,文章分享數更成長7.19%。

資料來源 http://www.ithome.com.tw/news/107414

沒有留言:

對話-伊斯蘭與寛容的未來

改革伊斯蘭教己漸漸成為廿一世紀政治意識形態最重要的議題。本書對話坦誠、睿智且富有感情,尤其在涉及的思想與道德議題有最佳闡述。 這本書載錄 美國新無神論者 山姆 - 哈里斯 (Sam Harris) ,以及前 伊斯蘭極端份子 德 - 納瓦茲 Maajud Nawaz)...