最近Big data成了市場上無人不談的議題。到底這裡面的玄機是什麼,我想可以從他幾個演化的角度來進一步探討探討。

所謂Big data常稱『巨量資料』或『海量資料』。其實他只的不外乎就是未來會有越來越多系統面臨到資料量極大的問題,在此之下如何儲存?建立索引?快速搜尋?跟做最後的分析工作?這些都是面臨海量資料時的關鍵議題。有興趣的可以往下繼續看看囉~

 

細談前世:

在還沒有Big data口號時,我們可以想想有哪幾個很火熱的口號大家為之瘋狂的再追逐,我想不外乎就是雲端跟IOT吧。

雲世代的來臨。Cloud其實是利用internet把最普及化的功能推出,如此來吸引大眾集結的一種方式在此之下,常又會夾帶著web 2.0的概念:將資料的提供交由使用者自行決定想當然資料必然會以閃電般的速度驟然而上。

端感知的到來。IOT端設備的智能化感知。如果說Cloud是天上飛的internet,那IOT就是地上走的device。端的加值就要靠感知加值了,如同現在的智慧型手機中都會裝著陀螺儀,如此才能偵測你的行動方向,以便提供更貼切的服務給大眾使用。IOT(物聯網)的來臨,道出了未來萬物皆可上網的概念,這概念又比雲端更先進了,當然要有IOT的基礎就是雲端要夠強健,否則這些聯網設備的的資料跟分析要往哪放與處理。物聯網世代的來臨,勢必將掀起資料再度的向上提升。因為,以前所面對的交易資料,是有發生才有紀錄。而現在的IOTanytime anywhere一直在收集資料,以利分析之效,這樣的資訊不斷湧入,當然量的成長將不在話下。

CloudIOT這一對寶,都促著人與設備開始把資料集結,欲集合眾人的行為來探測各類行的行為模式與快速回饋更有價值的資料。無形中big data這口號,就在cloudIOT的環境中催生而出。

 

論斷今生:

“3v”…Big data的三大特色。資料量大小(Volume)、處理完成所需要的時間 (Velocity)、要處理的資料格式種類 (Variety)以下分別說明之:

1.就Volume而言:現在的TB已經無法去處理雲世代當中快速累積的資料,資料動輒來到以PB計算,而1PB = 1000TB,這個數字實在龐大無比。這樣看沒有太大的感覺,所以我常用的例子如下所述:(1)fb一天有32億筆user所按的po、按讚、回覆等資訊,故一個月將近1000億筆的資料,這是RDB無法處理的,所以NoSQL(Not Only SQL)因此誕生。(2)youtube一天的影片上傳量來說,若一個人要全部看完,所需花的時間會來到80年,故窮盡一生若你會長壽的最多看個兩天也很了不起了。這些例子都是要說明,雲端服務的來臨一點一滴的催生了海量資料的成形。

2.就Velocity而言:如果沒有時間的限制,老實說不需做任何的改變其實也沒有關係,畢竟只要是用人力找的出來可以完成那何必勞師動眾去建置一個大型系統。但重點就是現今的社會中無論業主、消費者,每個人所要求的都是要快,資料的需求不只要即時跟要隨時,故如何快速從多面向”(講白了就是多維度分析)進行分析再度受到重視。這開始會回歸到如何在海量資料中做OLAPdata mining等相關議題。另外,要注意的是有些網站是24小時流量跟資料不斷湧入,面對這種情況,我們通常可以把他稱為『data stream』,此時data stream typedata mining將成為一個有趣的議題。因為在此環境下,資料永遠沒有穩態的一天,量隨時再增加,傳統的資料挖掘方式得被迫重新思考其方式。

3.就Variety而言:在海量資料的世界中,記得資料不再只是文字而已,試想生活中更常用到的或許是圖片、影片、聲音檔等資料,如何去妥善描繪圖片、影音檔的內容也成為一大議題。資料的運用不在是下了幾行sql語法就可以全部撈出來,因為更多的資訊藏匿在圖片跟影片之中。常見的手法可分為:(1)meta description mode,在此模式下會將這些影音檔,設定好的描述資料(亦即metadata)來陳述之,之後用一個XML檔來對應一部影片檔,如此才可以從XML去瞭解哪寫圖片想關聯性?哪些影片該如何推薦。(2)behavior analysis mode,在此模式下會去記錄user behavior的關聯,從使用者行為去歸納,下一個使用者點擊某一內容時,跟它的行為模式最相近的群體其接下來最感興趣的會是什麼,就由大眾的力量來勾勒出群體模式。

 

至於Big data的效益,就在下一章談論了

文章標籤

創作者介紹
創作者 劉逸 的頭像
劉逸

劉逸的留意世界

劉逸 發表在 痞客邦 留言(0) 人氣()