大數據是否會引發出大的泡沫出來,這是一個值得省思的問題。現在資訊業一頭熱的鑽進去討論Big data的議題。當然,我們就是要解決巨量儲存、巨量搜尋、巨量挖掘這一切的一切都是為了做巨量分析。但問題來了,資訊人員的分析總是建構在data mining algoAI algo或用OLAP來分析探討資料。巨量資料下,分析演算法雖然重要,但更重要的是『解讀』的能力。試想:若是一個醫療資訊庫,那具備解讀能力的絕對不會是從事資訊業的我們,而是具備專業知識的醫療團隊們;若是替製造業累積了上億比製成資料,一樣的看的懂得不會是建構big data的人們,而是那些具備專業製成know-how的人才有辦法解讀。這就是資訊業中喊的很熱的big data,一旦沒有跨業整合,其實這一切會變成只是做而做而已。很可能到最後回過頭來看,突然發現又跟data warehouse一樣當初都喊的很熱,但現在大公司真的有data warehouse又有幾間呢?這值得省思。

 

Big data絕非單純的資訊工程可以完事!想想amazon,他們的CRM系統的推薦機制做得很好,也從中解讀了不少user behavior相關的資訊。相信在他們這群人裡面,有人很懂電腦、有人瞭解統計學、甚至有人熟捻認知心裡學,這樣的跨領域整合才能為big data帶來往後巨大的效益,畢竟如果只是蓋了一座雄偉的皇宮,裡面也確實藏了許多驚人的寶藏,但只有不得其門而入,其實一切都是枉然。在台灣我們本來就缺乏跨領域的思維,許多人都非常專精在自己的領域當中,像我雖唸過統計,但現在問我一題假設檢定我可能都檢定不出來真的是說起來汗顏。

 

Data mining當然是個好工具,但得小心把隨機問題看成了因果關係,這會變成看圖說故事的窘境。Big data怎麼在資訊人當中運用呢?我想當然就是用data mining居首,但挖掘出來之後,不管是用分類、分群、關聯法則也好,得到的結果,開始去解讀時,需要非常小心。結果是否真的在現實世界中存在了因果關係,這是值得玩味的,畢竟也有可能是收集的樣本或分析的屬性之間沒有想清楚,造成了將機率問題看成因果論那就不好了,公司的方針將被此外顯的結果左右,那可能產生的負面效應可就大了。舉個例子,你發現了不買咖啡的人,比較會買咖啡豆,所以開始要將咖啡豆推廣給不喝先泡咖啡的人。但也許兩者之間沒有因果關係,只是那一陣子是春節假期,大家會買商品送給客戶,所以這樣的看圖說故事去決定公司政策一定會有很多風險存在。探討、分析資料當然是好事,但關聯性跟必要的驗證更是不能省去。

 

Big data世代,其實是統計學家復活的世代。統計學這麼科目在早期算熱門,但也沈寂好久的一點時間了。在Big data中,其實最後的關卡還是要考統計學家來適度導入好的分析模式跟方法,從得出的結果做適度的抽樣、假設、檢定、推估與預測等,這些過程尤其是前面的階段更顯重要,一旦前面做的太過草率,就算後半段在慎重也於事無補,所以在Big data中,所蘊藏了大量的使用者行為的寶藏,但挖掘寶藏的方式錯誤,將給企業重重的一擊。

 

統計後的資料只是analysis raw data,尚須更多專家加以解讀。舉個例子,若是對使用者的資料分析,那或許要結合認知心裡學者加以解讀背後的意涵,才能在由企業顧問洞悉出趨勢,提供業主下一波該準備的市場在哪裡。從上例可知,Big data的整個環節從開始的資訊人員投入建系統、統計人員進來分析資訊、心理學家進來解讀行為模式、企業學者近來預測市場脈絡、企業主進而進行下一步的動作,可知牽扯之廣,這樣的環環相扣的大議題,若草率因應那失敗只是遲早的事情而已。

 

切記!在美的詞總要回歸到『商業模式』,整個Big dataecosystem在哪?怎麼讓Big data幫助到消費者、企業用戶或政府,而所帶來的幫助又是否大到會有人付費,一個良好的生態鏈中必定有人付費,有人使用。真的該仔細想想,分析後能帶來的效益,這些效益是nice to have or must have。當一切搞不清楚時,蠻幹只會帶來另一波投資泡沫。現在大多數的企業雖然也喊著Big data,但其實都是風向球。投入最多的還是資訊業,總是先把架構挖好,另外跟著國外的腳步在走,但有了這些基礎工具跟平台,也不曉得這些東西何來之有?我想不用一年,若找不出Big data整個ecosystem的話,這泡沫勢必會開始蔓延,因為只有投入,但找不出買單的人,這種產品或平台是沒有商業運轉價值的,剩下的只會是政府的open data苦撐著,讓公眾領域資料變成利民化,僅此而已!

 

小心囉~或許Big data這熱門的議題背後...隱藏著Big bubble

創作者介紹
創作者 劉逸 的頭像
劉逸

劉逸的留意世界

劉逸 發表在 痞客邦 留言(0) 人氣()