Big Data大數據的獲利模式》推薦序

Big Data, Big Intelligence:從資料、資訊到情報

文/翟本喬 

   我在2006年任職於Google時,有一次,前往一所大學演講Google的儲存系統GFS。一位教授問我:「那資料要刪除的時候怎麼辦?」我反問:「資料為什麼要刪除?」在場所有人都露出奇怪的表情。

  Google的認知是:資料(data)裡面會有資訊(information),「現在用不到」並不表示「以後用不到」。除非法律規定必須刪除,不然一概保留。今天大家已經聽到了「資料是新石油」(Data is the new oil.)這句話,也開始知道了資料中會有「看不見的價值」。

  《孫子兵法》共有十三篇,最後一篇談〈用間〉,也就是情報戰。情報的價值,遠高於其他戰術或武器。今天所謂的精靈武器,就是能妥善運用地理定位(Geolocation)和圖形識別(Pattern Recognition)等技術所取得的資訊和情報。由最近幾年公布的許多資料可以看出,第二次世界大戰的勝負,其實就是決定在情報。由美軍破解日本海軍密碼而在中途島(Midway Islands)洞燭機先,到英國破解德軍潛艇的Enigma密碼而殲滅狼群以保全橫渡大西洋的生命線,都是任何戰術和武器無法獨自達成的。

 

 

  情報如此重要,許多人把失敗的責任歸責於錯誤的情報,或是缺乏情報。事實上,我們的四周充滿了大量的情報,只是一般人無法有效正確地辨識。例如珍珠港事件(Pearl Harbor Bombing)之前,已有一封緊急電報示警,但是這封電報遭人擱置,直到事件發生之後才譯出。有能力正確並及時辨識這些情報的人,小者被稱為福爾摩斯(Sherlock Holmes)或是柯南(名探偵コナン),大者就被稱為諸葛亮。在商場不見硝煙的戰爭中,情報更突顯出它的重要。今天我們開始擁有了處理這些大量資料的工具,更重要的是讀懂這些資料,把它們轉化成可用情報的智慧。正如我在Facebook上說過的(編按:全文詳見作者網誌〈IoT和Big Data商機的迷思):

 

  想要做Big Data(巨量資料)的人請先認清楚:什麼是Data(資料)?

   •存得起來的,就是storage(儲存)。

   •看得到的,才是data(資料)。

   •看得懂的,叫做information(資訊)。

   •用得出來的,才能稱為intelligence(情報、智慧)。

   Big Data這個名字事實上是有點誤導。真正賺錢的,是從big data中萃取出來的big intelligence。為什麼CIA叫作Central Intelligence Agency(中央情報局),而不是Central Information Agency(中央資訊局)或Central Data Agency(中央資料局)?而萃取information和intelligence的技術並不是現在才有的。隨便問一個有水準的資訊資工系教授,就會告訴你data mining(資料探勘)、neural network(神經網路)、pattern recognition(圖形識別)、statistical machine translation(統計型機器翻譯)、information retrieval(資訊萃取)等等領域的歷史。這些才是困難而需要投資開發的領域,而不是一個簡單的大量儲存和平行運算系統。

   我在2003年進入Google的時候,正是MapReduce初啟用之時。Google原本的Indexer是一套大程式,用了幾百台伺服器,要一個多星期才能完成工作。而中間只要有一台機器當機一次,就要全部重來。Google因此設計了MapReduce這套系統,主要目的在於容錯。將資料切成許多小塊,分到獨立的伺服器上處理。雖然機器數量增加到了兩千台,但中間不管怎麼當機都沒關係了。後來在論文發表後引出了Hadoop這個Open Source的軟體,給了想做大量資料分析的人一個很好的工具,也讓Hadoop在很多人心中變成了Big Data的同義字。但事實上Hadoop只是一個平行分散式資料處理的工具,真正能為資料創造價值的是上層的智慧分析。這些工具是讓資料分析師(以後是叫做「資料科學家」?)能把時間用在真正重要的工作「資訊萃取」上,而不只是打造所需的工具。想要靠Big Data做一番事業的人,絕不是只要學會了這些工具就可以了。

   1994年,商用的Internet開始成型,因為modem的速度和價格開始達到一般人可用的範圍。今天,儲存與處理資料的速度和價格,也開始達到一般公司可以負擔得起初步的Big Data處理的程度。商用Internet起步的初期,業界很多人認為只要架個網站就會有生意上門。今天我們在Big Data這個領域也會有這麼一段混亂期,需要藉著更多好的介紹書籍和文章的引入,可以縮短這段過渡期。很高興看到這本書並未落入坊間許多一窩蜂介紹工具的潮流,而能把主要的篇幅用在許多其他重要的面向。希望讀者在看完本書之後,對於如何萃取周遭的資訊並加以運用,能有更深一層的認識,並從Big Data進步到Big Intelligence的層級。

  共勉之。

(本文作者為和沛科技股份有限公司總經理,曾任台達電子雲端技術中心資深處長、Google Platforms Architect

 

QB1109 Big Data大數據的獲利模式  

 

文章標籤
創作者介紹

經濟新潮社EcoTrend官方部落格

EcoTrend 發表在 痞客邦 PIXNET 留言(0) 人氣()