2013年4月18日

Big Data 初步介紹和產業淺談


Big Data 初步介紹和產業淺談

Big data並非單純指Database非常龐大,而是指目前企業界能用比以前便宜和快速方式處理大範圍以及深度的DATA並進一步分析,進而做出自動決策模式,幫助企業自動優化創新。事實上,這類型技術以前就存在,只是那時叫Data Mining, Data Analysis或BI (business intelligence)。這樣技術受限於資料庫規模小,整合不同資料庫成本大,分析軟體開發選擇有限以及昂貴。所以往往都是大企業或財務相關公司有能力投資大量硬體設施和訓練專業人員來執行這類型分析。

那為什麼這次Big Data不一樣呢?我認為是整體Big Data產業開始成熟了。觀察目前IT產業界,可以發現有三大趨勢:
  1. 硬體成熟便宜降低資料中心(Data Center)造價運作成本,讓資料可以更為得集中,規格化,規模化 
  2. 資料收集的載體持續增加,例如社群網站或者移動裝置等,幫助消費者將日常生活資料持續數位化。(Data Science: The Numbers of Our Lives
  3. 雲端化的運算資源和分析軟體服務,這讓企業界本身可以四兩撥千金利用雲端資源來跑自已公司演算法
舉例來說,假設台灣一家房地產公司和資訊公司合作,整合利用台灣國家房地產資料庫(歷史買賣紀錄)(假設是open data),配合地方所得資料庫,失業率分布,地方犯罪紀錄分布,通膨率,各地出生率等資料。並且打造出一個演算法,藉此自動運算出任意房屋建議銷售價格區間。這樣能夠快速便宜大範圍提供參考房地產價格服務,絕對是具備顛覆市場的殺手級應用。

當然中間要克服的問題還非常多,例如Data本身取得成本,可利用性和透明性,政府法規結構限制(例如隱私權),是否有強而有力的數學工程師團隊可以支持建造出此類正確的演算法等,資料庫和頻寬使用成本等。這也是為何我不看好大陸這類型產業未來發展,畢竟法規和社會互信薄弱會是Big Data產業發展的阻礙

但隨者這類服務技術越來越便宜,中小企業反而擁有最多機會。畢竟大企業在這方面應用已有一定歷史,反而是中小企業在資料分析應用上還有很大發揮空間。中小企業再投入使用Big Data時,身為資料使用者,在已有資料庫的前提下(不管是內部ERP資料庫或者外部資料庫),可以思考以下幾個步驟:
  1. Transparency 資料庫清晰度
    事實上有在做資料分析的人都知道,最花時間往往是分辨和清理Data noise,並且整合不同資料庫的資料,白話點就是讓資料彼此能夠對話
  2. Expose Variability and enable experimentation 資料變異性和實驗環境養成
    經由第一個步驟,相關分析工程人員應可以過濾出哪類型Data是有價值且低相關性Correlation。並且打造出一個獨立硬體(雲端)空間來支持未來實驗分析Data,可能會藉由不同分析軟體(BI software)來運作。
  3. Decision making process 決策過程改變
    在這步驟時,理論上你應該有個小隊已經有能力將Data人工的過濾出有意義的資訊,企業主如何看待這類型訊息,並且將這類訊息納入決策中,進而改變公司整體策略方爭等。注意,這邊重點在於高層決策邏輯的順序改變。
  4. Algorithms 自動演算法
    在公司嘗到Big Data的甜頭時,團隊該開始思考如何自動資料分析而非人工資料分析,畢竟這樣才能規模化並且和競爭對手拉開一個成本和效率上的差距。並且演算法(自動資料分析)是非常難模仿,可以觀看Google搜尋演算法存在那麼久,還能夠持續進化。
  5. Innovative business model 新型商業模型
    我個人認為,當中小企業主在投資人力和金錢在Big Data應用時,心裡就該有遠見Vision,這Vision應該就是新的商業模型。會放在最後是因為,往往都是在最後一個步驟外人才能知道這新型商業模型是如何運作。









沒有留言:

張貼留言