分析現狀還不夠,預測未來更重要!
與其相信一個人的直覺,不如相信數千萬人的資料——
從圖解、案例,到策略與實戰,一本書,徹底解讀大數據!
Facebook、Google、Amazon,
以及GREE、瑞可利(Recruit)等知名企業都在用的資料淘金術!
懂得找出資料的價值、萃取可用的資訊,就能將大數據轉化為商業智慧(BI);
嗅出趨勢、解決問題、創造商機,進而創造「偶然的幸運」(serendipity),
正是大數據帶領企業持續前進的動力!
連上Facebook頁面,出現推薦「你可能認識的朋友……」的建議,因此而找到失聯已久國中同學。到amazon.com網站購書,看到「買這本書的人也買了這些書……」的清單,也正好是自己想讀的書。只要打一個字,Google就出現「您是不是要查……」的資訊,正確預測到想找的關鍵字。
事實上,這些「偶然的幸運」(Serendipity),都和善用大數據(Big Data,亦稱巨量資料、海量資料)有關。
上述的企業提供需要的資料、精準預測到你的下一步,其實並非魔法、也不是憑空而來。這些企業將大數據轉化為商業智慧(BI,Business Intelligence),不僅分析現狀,更懂得預測未來。
大數據是「二十一世紀的新石油」,也是繼資料挖掘(data mining)、雲端運算、社群網站之後,最受矚目的趨勢。如何將龐雜的巨量資料理出脈絡、找到關聯、發掘價值,找出商機,成為決勝關鍵。
本書作者城田真琴,是野村總合研究所(簡稱野村總研)高級研究員,也是大數據領域的權威專家。在日本,野村總研被稱為最有影響力的民間智庫,作者以野村總研獨家調查的第一手資料為基礎,介紹Zynga、Centrica、Catalina Marketing等歐美企業,以及小松(KOMATSU)、瑞可利(Recruit)、GREE等日本企業如何應用大數據的實際案例。
一本書,讓你認清資料(data)、資訊(information)與情報(intelligence)的不同,不僅要看得到、看得懂,還要能用得出來,進而找到真正的商機所在!
◎作者介紹:
城田真琴(Makoto SHIROTA)
野村總合研究所(NRI,Nomura Research Institute)創新開發部高級研究員、IT分析師,日本政府「智慧雲端運算研究會」智庫成員。負責高端技術趨勢調查研究、供應商戰略分析、國內外企業IT應用調查,專業領域為雲端運算、商務分析、M2M、IoT等。著作包括:《雲端運算的衝擊》、《你不可不知的雲端運算常識與非常識》、《2012年版IT年鑒》等。
◎譯者簡介
鐘慧真(前言、一至四章)
「上輩子」是軟體工程師,國立清華大學電機工程研究所畢業,曾任職於飛利浦半導體與宏達電。目前是從事日翻中筆譯的家庭主婦,定居於日本長野縣。譯作《不執著的生活工作術》(經濟新潮社出版)。部落格:【黛博拉看日本】http://deborahjong.wordpress.com/。
梁世英(五至八章、謝詞)
日本一橋大學商學研究所碩士,專長財務金融,目前為專職日文譯者。譯作包括《這樣圖解就對了!》《鍛鍊你的策略腦》《想像的力量》《Facilitation引導學》(以上均由經濟新潮社出版)等。
◎導讀
台灣野村總研諮詢顧問股份有限公司副總經理 陳志仁
◎各界推薦
美商天睿資訊系統有限公司(Teradata)台灣分公司總經理 吳世鈺
英國開放知識基金會地區大使 徐子涵(Schee)
國立交通大學經營管理研究所教授 楊千
PC HOME網路家庭董事長 詹宏志
和沛科技股份有限公司總經理 翟本喬
臺灣金融分析專業人員協會(CFA Society Taiwan)榮譽理事 劉奕成
資深部落客、獨立媒體人 鄭緯筌(Vista)
◎目次
【導讀】
創造「偶然的幸運」(serendipity),正是巨量資料技術不斷前進的動力 文/陳志仁|台灣野村總研諮詢顧問股份有限公司副總經理 13
【推薦序】
當商業智慧隱藏在雲深不知處 文/楊千|陽明交通大學經營管理研究所兼任教授 19
Big Data, Big Intelligence:從資料、資訊到情報 文/翟本喬|和沛科技股份有限公司總經理 23
當巨量資料與社會脈絡交集 文/徐子涵 Schee|英國開放知識基金會地區大使 27
Data、Data、Data:我們活在廣袤的資料流中 文/鄭緯筌|資深部落客 30
老大哥在看著你:Big Data? Big Brother? 文/劉奕成|臺灣金融分析專業人員協會(CFA Society Taiwan)榮譽理事 33
前言 39
第一章 什麼是巨量資料
資料洪流(The Data deluge) 48
巨量資料的3V特性 49
廣義的巨量資料 54
為什麼到現在巨量資料才受到眾人的矚目?(1)巨量資料的民主化 55
為什麼到現在巨量資料才受到眾人的矚目?(2)硬體性價比的提升與軟體技術的進化 56
為什麼到現在巨量資料才受到眾人的矚目?(3)雲端服務的普及 58
從「過去的可視化」到「預測未來」:商業智慧與巨量資料的交會 65
從點(交易資料)到線(互動資料)的分析 67
巨量資料分析的起源 69
第一章重點整理 71
第二章 支撐巨量資料的技術
人才短缺 74
什麼是Hadoop? 74
與日俱增的套件 78
眾多套件版本並存的原因 82
NoSQL資料庫 83
創投也對Hadoop、NoSQL開發企業投以熱切的目光 88
巨量資料時代的資料處理基礎 90
備受矚目的分析資料庫 91
串流資料(即時資料)處理 94
自行開發串流資料處理技術的網路公司 96
機器學習、統計分析等 97
自然語言處理、其它 101
第二章重點整理 103
第三章 以巨量資料為核心競爭力的企業 歐美企業篇
快速成長之網路公司運用巨量資料的技巧 106
eBay:每天產生50 TB的資料 109
遠超乎想像的巨量資料產生速度/eBay的資料分析基礎
Zynga:披著遊戲開發商的外衣的資料分析公司 114
社群遊戲經濟學的重要指標/提升病毒係數的機制/遊戲其實是資料驅動營運/三次點擊原則
Centrica:引進智慧電表分析能源消耗模式 120
英國電費、瓦斯費收費的實際狀況/引進智慧電表後的影響
卡特琳娜行銷集團:以「收銀台優待券」設計顧客的消費行為 126
儲存了超過一億人份的消費紀錄/預測顧客的消費行為,帶動門市買氣
第三章重點整理 131
第四章 以巨量資料為核心競爭力的企業 日本企業篇
日本國內也開始運用巨量資料 134
小松(KOMATSU):日本運用巨量資料的先驅 134
如何處理原始資料?
瑞可利(RECRUIT):徹底運用Hadoop資料分析,成功改造企業文化 138
幾乎全公司上下都用Hadoop/支撐瑞可利巨量資料分析的Hadoop基礎/成功的祕訣在於組織體制/對於瑞可利而言,Hadoop的「真正價值」究竟是什麼?
GREE:資料驅動型營運方式是快速成長的原動力 147
與其相信一人的判斷,不如相信數千萬人的資料/資料驅動型營運方式的根基來自對於日誌資料的執著/具備多種技能的專業人士齊聚一堂/將溝通不良減至最少的團隊體制
日本麥當勞:在現實世界實現一對一行銷(One-To-One Marketing) 158
劃時代優待券背後的周全準備/把焦點集中在做為集點卡的行動電話與智慧型手機
第四章重點整理 163
第五章 巨量資料的運用模式
巨量資料的運用案例166
精準推薦商品或服務/行為定位廣告/運用地點資訊的行銷/糾出盜刷/顧客流失分析/預測設備故障/驗出異常/改善服務/預測路況/預測電力需求/預測感冒流行/預測股市行情/油資成本的最佳化
巨量資料的運用模式分類171
個別優化 × 批次處理型/個別優化 × 即時資訊型/全體優化 × 批次處理型/全體優化 × 即時資訊型
巨量資料的運用深度182
掌握過去與現狀/發現行為模式/預測/優化
【專欄】動態定價(dynamic pricing)187
巨量資料運用的真正價值189
第五章重點整理192
第六章 巨量資料時代的隱私權問題
隱私權與創新的兩難 194
美國國會也表示關注 196
製作網路個資檔案的是與非 197
請勿追蹤(Do Not Track) 203
《消費者隱私權保護法案》 206
採用選擇性參與方式的歐盟 211
《歐盟資料保護綱領》也進行修正 212
日本的法令架構是《個人資訊保護法》加上分別針對各行業訂定的指導原則 215
向第三方提供資訊上採用選擇性參與方式 218
日本政府的評估狀況 219
經濟產業省以「資訊大航海計畫」為契機開始評估 219
總務省由生活紀錄的角度展開討論 222
線索就在與使用者的「對話」 229
實體世界裡的行為追蹤 230
第六章重點整理 232
第七章 開放資料時代的到來與資料市場的興盛
「活用外部公開資料」的選項 236
風起雲湧的連結開放資料(LOD, Link Open Data)運動 236
影響擴及開放式政府 241
如雨後春筍般不斷出現的新創企業 244
透過比賽促進資料運用 246
落後一步的日本 248
日本國內因三一一大地震而略有進展的開放資料使用 251
資料市場的興盛 254
商業模式各有不同 260
熱絡的資料市場存在著不容忽視的課題 261
第七章重點整理 263
第八章 面對巨量資料時代該有的準備
巨量資料時代的企業IT策略 266
開始邁向資料分享的日本企業 270
擁有原始資料的好處 272
供應商的新商機在提供「資料整合服務」 273
誰能成為資料整合公司 275
美國的支付服務業者朝向資料整合公司發展 277
讓原始資料搖身一變成為「貴重資料」的絕妙資料組合 280
全世界對資料科學家的需求愈來愈高 282
資料科學家需具備的技能 284
資料科學家需具備的資質 289
相關人才嚴重不足 290
相關研究所開始設立 293
鉅額資金流向巨量資料分析企業 297
日本也開始展開資料科學家搶人大戰 299
最後的一道關卡──組織體制與企業文化 301
朝向資料驅動型企業邁進 303
第八章重點整理 305
謝詞 306
參考文獻 308
圖表索引 316
◎圖表索引
【圖表1-1】表示巨量資料特性的三個V 50
【圖表1-2】Suica與PASMO電子貨幣每月使用次數 53
【圖表1-3】廣義的巨量資料 54
【圖表1-4】硬碟每GB價格的變遷 57
【圖表1-5】在decide.com詢問亞馬遜(Amazon)平板閱讀器Kindle Fire最佳購買時機的結果 60
【圖表1-6】在decide.com詢問三星(Samsung)平板電腦Galaxy Tab 1.01最佳購買時機的結果 61
【圖表1-7】在decide.com詢問索尼(SONY)46吋液晶電視BRAVIA(KDL-46BX420)最佳購買時機的結果 62
【圖表1-8】FlightCaster提供航班起降準點預報的案例 63
【圖表1-9】商業智慧(BI)的發展過程 66
【圖表2-1】Google在2004年發表關於MapReduce的論文 75
【圖表2-2】Google與開放原始碼基礎技術的對應關係 76
【圖表2-3】Cloudera公司的Hadoop套件 79
【圖表2-4】Hadoop的商用套件與支援服務 80
【圖表2-5】主要供應商對Apache Hadoop所貢獻出的程式碼行數(截至2011年為止) 81
【圖表2-6】RDBMS與NoSQL資料庫的不同之處 84
【圖表2-7】支持巨量資料的甲骨文(Oracle)軟體群 87
【圖表2-8】Hadoop、NoSQL相關企業接受創投挹注的金額(至2011年底的累計數字) 89
【圖表2-9】網路公司所自行開發的串流資料處理引擎 98
【圖表3-1】eBay資料分析基礎架構概覽 112
【圖表3-2】eBay運用之各種資料分析基礎架構的驗證結果(%) 113
【圖表3-3】Facebook遊戲排行榜(2012年4月28日的統計數字) 115
【圖表3-4】針對智慧電表大量資料進行模式識別的案例 124
【圖表3-5】Centrica提供給用戶之線上服務的案例一 124
【圖表3-6】Centrica提供給用戶之線上服務的案例二 125
【圖表3-7】Centrica所提供之iPhone專用App 126
【圖表4-1】小松的建築機械、車輛事業營業額結構 135
【圖表4-2】小松KOMTRAX概況 136
【圖表4-3】Hadoop運用於Hot Pepper的產品推薦郵件服務 140
【圖表4-4】carsensor.net實現的分群與關聯分析 141
【圖表4-5】瑞可利的組織結構 144
【圖表4-6】引進Hadoop之後的變化 146
【圖表4-7】GREE與DeNA之營收及銷售利潤的趨勢圖 148
【圖表4-8】GREE、DeNA與Zynga之營業額與銷售利潤的趨勢圖 151
【圖表4-9】GREE、DeNA與Zynga之ARPU的趨勢圖 152
【圖表4-10】病毒傳播效應的模式化 153
【圖表4-11】傳統遊戲業一般水平分工型工作組合與GREE追求的垂直整合型工作組合的概念圖 156
【圖表4-12】手機優惠券與門市的讀取機 160
【圖表4-13】日本麥當勞達成一對一行銷的過程 161
【圖表5-1】巨量資料的運用模式 171
【圖表5-2】個別優化×批次處理型模式的概念圖 172
【圖表5-3】美國先進保險公司提供Pay as You Drive方案(依據簽約車主駕駛習慣享有保險費折扣)原理 173
【圖表5-4】個別優化×即時資訊型模式的概念圖 175
【圖表5-5】全體優化×批次處理型模式的概念圖 177
【圖表5-6】Google所提供的reCAPTCHA服務 179
【圖表5-7】reCAPTCHA服務的網站首頁畫面 180
【圖表5-8】全體優化×即時資訊型模式的概念圖 181
【圖表5-9】動態定價的案例 187
【圖表6-1】Amazon Silk使用協議 198
【圖表6-2】Amazon Silk的常見問題(FAQ) 199
【圖表6-3】Firefox5.01的Do Not Track功能 205
【圖表6-4】日本的個人資訊保護相關法律架構概念圖 215
【圖表6-5】針對民間業者的主要個人資訊保護相關指導原則 217
【圖表6-6】將姓名、地址資料庫與消費資訊資料庫分別管理的案例 221
【圖表6-7】六點顧慮原則 227
【圖表6-8】可由使用者控制廣告內容的Hulu Ad Tailor 229
【圖表7-1】LOD(Linked Open Data)的概念圖 237
【圖表7-2】大地震之前海地共和國首都太子港的開放街圖(OpenStreetMap) 240
【圖表7-3】大地震發生後(2010年1月14日時點)海地共和國首都太子港的開放街圖 240
【圖表7-4】Data.gov上公開的美國聯邦政府資料中心整合構想的執行狀況 242
【圖表7-5】由海外連結至Data.gov的訪問量:依照國別造訪數排序前十名 243
【圖表7-6】2009年NYC Big Apps比賽中獲得冠軍的WayFinder 247
【圖表7-7】2010年NYC Big Apps比賽中獲得冠軍的Roadify 248
【圖表7-8】以機器可讀格式公開政府資料的國家和地區 250
【圖表7-9】根據文部科學省公開的「都道府縣別環境輻射能水準調查結果」製成的「全國輻射值地圖」 252
【圖表7-10】Factual所公開的資料集案例 255
【圖表7-11】微軟所營運的Windows Azure Marketplace 256
【圖表7-12】Infochimps公開的資料集案例 258
【圖表7-13】Amazon所營運的Public Data Sets on AWS 260
【圖表8-1】活用巨量資料的策略架構 267
【圖表8-2】活用巨量資料的四種策略 269
【圖表8-3】資料整合者所扮演的功能 274
【圖表8-4】因VISA與Gap的策略合作而實現的Gap Mobile 4U 278
【圖表8-5】資訊圖表的示意圖 286
【圖表8-6】資料科學人才的新供應來源示意圖 292
【圖表8-7】資料科學家參與資料生命周期的所有階段 293
【圖表8-8】商業智慧專家與資料科學家的大學主修科目差異 294
【圖表8-9】商業智慧專家與資料科學家的學歷差異示意圖 295
【圖表8-10】創投基金對巨量資料相關新創企業的投資額(累計) 298
《Big Data大數據的獲利模式:圖解‧案例‧策略‧實戰》
(ビッグデータの衝撃)
城田真琴(Makoto SHIROTA)/著
鐘慧真、梁世英/譯
ISBN:978-986-6031-36-6
經濟新潮社2013年8月出版
留言列表