「資料採礦」(data mining)這個詞的出現,已有相當一段時間。當初引發的熱潮,隨著時間的經過,已經完全溶入人們的日常生活當中。在這過程中,使用資料採礦的目的,也產生了質的變化。

 

  大部分的人在初接觸資料採礦時,都把它當成是行銷的工具。如同「紙尿布和啤酒」(詳見第一章)的傳說所代表的,從中尋找對於促進銷售有效的定律和規則。資料採礦的意義,就被聚焦在這一點上。

 

  然而,資料採礦究竟是什麼呢?

 

  資料採礦在執行上,和傳統統計學並沒有明顯的差異。一般人對資料採礦的認識也模糊不清。在非學術的定義上,介紹資料採礦時,會用到許多統計學的相關用語。從這個角度來看,資料採礦只是位於古典統計學的延長線上。

 

  不過兩者還是被區分開來,這是因為資料採礦和傳統統計學在資料處理的質和量上有著顯著的差異。

 

  根據「摩爾定律」(半導體性能每兩年提升一倍的定律),儲存資料的成本已下降到近乎零,以往昂貴的「資料」,已便宜到如同空氣般到處被儲存下來。

 

  統計分析的學問體系是在資料成本很高的時代被建立的。那是一種嘗試以最少的資料量,來探索世界的學問體系。反觀在資訊爆炸的現在,資訊便宜且唾手可得。以往不能或無法當作分析對象的資料都變得可以處理,也就是擴大了可處理對象的範圍,同時,分析的深度也得以增加。

 

  分析對象無論在質或量上都產生了變化,資料採礦的技術就在這樣的情況下被發展出來。

 

  資料採礦的應用範圍不該被侷限於行銷領域。在現實社會中,資料採礦已被運用在各個層面。

 

  例如大家所熟悉的搜尋引擎,其中也使用了資料採礦的技術。如何讓關鍵字的搜尋結果符合使用者的搜尋需求,箇中的專門技術,就是資料採礦的精華所在。

 

  還有這幾年造成相當話題性的Web 2.0(隨著網路上相互運用、對照性的升高,不特定的多數人可以簡單地提供/享受服務的狀態)。一般而言,Web 2.0被認為是網路技術的進步與變遷。但這就像高樓建築技術的進步,如果缺少了電梯的發明,則不論進步得多神速,都將沒有實用的價值。同樣的道理,在Web 2.0中需要資料採礦技術。

 

  網路的進化增加了資料的相互運用性(interoperability),這使得網路中更加充斥著玉石混淆(水準不一)的資訊。如果挑選「玉」的成本增加,人們將無法享受到網路進化後的便利性。那麼今後資料採礦會以更難理解的型態,滲透到社會上的每個角落。

 

  本書是概要說明在社會體系的運作中,所不可或缺的資料採礦入門知識。

 

  第一章是關於資料採礦的定義,第二章是說明資料採礦被普遍認為的應用場合。第三~九章則是模擬執行資料採礦。第三章是資料採礦模擬方法,第四章是迴歸分析,第五章是決策樹,第六章是群集分析,第七章是自我組織映射圖,第八章是關聯法則,第九章則試著操作類神經網路。第十~十一章是研究至今尚未被注意到的資料採礦使用方式,也討論在管理和監視上,資料採礦的使用方法。

 

  由於完全排除了數學公式,希望能夠吸引患有「數學公式恐懼症」、或是「想要略知一二」的讀者的目光。閱讀這本書,頭腦不會受到數學公式的困擾,卻可以體驗到處理資料採礦的氣氛。

 

  另一方面,如果讀者已經「了解最小平方法」、「已經在工作中使用群集分析」,那麼這本書就太簡單了。推薦這些讀者可以去閱讀麥可‧裴瑞(Michael J. A. Berry)與戈登‧林諾夫(Gordon Linoff)所著的Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management(中譯本《資料採礦理論與實務》數博網資訊出版),或是稍微簡單些的月本洋與松本一教所著的《やさしい確率‧情報‧データマイニング》(森北出版)。至於對最後一章提到的監視社會有興趣的讀者,大衛‧賴恩(David Lyon)所著的《監視社會》(Surveillance Society: Monitoring Everyday Life)則是本值得推薦的好書。

 

  本書中「資料」、「資訊」等詞彙不斷重複出現。雖然有些情況下,這兩個用語需要嚴格區分,但本書為了易於閱讀,採用了習慣用語的標準。因此本書中提及的這兩個詞,基本上是相同的意思。

 

  能夠寫作這本書,要特別感謝光文社三宅貴久先生的鼎力相助。另外,也藉此機會謝謝協助校對原稿的勝田直樹先生。

    全站熱搜

    EcoTrend 發表在 痞客邦 留言(0) 人氣()