作者:薛薇 發表于《統計與精算》2001-3一、資料採礦的概念

 

  隨著資料庫技術的飛速發展以及資料庫管理系統的廣泛應用,各個企業和部門通過自己的資料庫管理系統,經過長年努力,已經積累了越來越多的資料。於是,人們開始渴望通過對這些龐大的資料分析得到更多的有助於決策的資訊。雖然,目前的資料庫系統可以高效率地實現資料的錄入、查詢、統計等功能,但由於資料量龐大以及資料庫系統中分析方法的嚴重缺乏,使得它無法發現資料中隱藏的相互聯繫,更無法根據當前的資料去預測未來的發展趨勢。因此,出現了所謂「資料多,知識少」的現象,造成了嚴重的資源浪費。

 

  建立在資料庫系統之上的電腦決策支援系統出現,為進行高層次的資料決策分析提供了好的思路和方法。但由於決策支援系統在資料的採集、分析方法上的靈活性等方面存在局限性,使得人們不得不尋求更有效的途徑去開拓資料決策分析的思路。電腦人工智慧為此作出了巨大貢獻。人工智慧經歷了博弈、自然語言理解、知識工程等階段,已經進入了機器學習的熱點階段。機器學習能夠類比人類的學習方式,通過對資料物件之間關係的分析,提取出隱含在資料中的模式,即知識。

 

  正是由於實際工作的需要和相關技術的發展,利用資料庫技術來存儲管理資料,利用機器學習的方法來分析資料,從而挖掘出大量的隱藏在資料背後的知識,這種思想的結合形成了現在深受人們關注的非常熱門的研究領域:資料庫中的知識發現(KDD: Knowledge Discovery in Databases)。其中,資料採礦技術便是KDD中的一個最為關鍵的環節。

 

  1995年,在加拿大蒙特利爾召開了第一屆知識發現和資料採礦國際學術會議,資料採礦一詞被很快流傳開來。人們將存儲在資料庫中的資料看作是形成知識的源泉,形象將它們比喻成礦石。資料採礦(DM: Data Mining)就是從大量的、不完全的、有雜訊的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。

 

  資料採礦是一門交叉學科,它會聚了資料庫、人工智慧、統計學、視覺化、平行計算等不同學科和領域,近年來受到各界的廣泛關注。

 

  統計學與資料採礦有著密切的聯繫。資料採礦的出現為統計學提供了一個嶄新的應用領域,也給統計學的理論研究提出了新的課題,它無疑會推動統計學的發展。同時,雖然統計學不可能給出資料採礦所有問題的答案,但它可以為資料採礦提供非常有參考價值的框價,能夠極大地豐富資料採礦的方法。



 

二、資料採礦的主要步驟

 

  資料採礦一般有以下幾個主要步驟:

 

  1、資料收集

 

  大量全面豐富的資料是資料採礦的前提,沒有資料,資料採礦也就無從作起。因此,資料收集是資料採礦的首要步驟。資料可以來自于現有交易處理系統,也可以從資料倉儲中得到。

 

  2、資料整理

 

  資料整理是資料採礦的必要環節。由資料收集階段得到的資料可能有一定的「污染」,表現在資料可能存在自身的不一致性,或者有缺失資料的存在等,因此資料的整理是必須的。同時,通過資料整理,可以對資料做簡單的泛化處理,從而在原始資料的基礎之上得到更為豐富的資料資訊,進而便於下一步資料採礦的順利進行。

 

  3、資料採礦

 

  利用各種資料採礦方法對資料進行分析。

 

  4、資料採礦結果的評估

 

  資料採礦的結果有些是有實際意義的,而有些是沒有實際意義的,或是與實際情況相違背的,這就需要進行評估。評估可以根據使用者多年的經驗,也可以直接用實際資料來驗證模型的正確性,進而調整採礦模型,不斷重複進行資料採礦。

 

  5、分析決策

 

  資料採礦的最終目的是輔助決策。決策者可以根據資料採礦的結果,結合實際情況,調整競爭策略等。

 

  總之,資料採礦過程需要多次的迴圈反復,才有可能達到預期的效果
三、資料採礦的主要任務
 
  資料開採技術的目標是從大量資料中,發現隱藏于其後的規律或資料間的關係,從而服務于決策。資料採礦一般有以下四類主要任務:
 
  1、資料總結
 
  資料總結目的是對資料進行濃縮,給出它的總體綜合描述。通過對資料的總結,資料採礦能夠將資料庫中的有關資料從較低的個體層次抽象總結到較高的總體層次上,從而實現對原始基本資料的總體把握。
 
  傳統的也是最簡單的資料總結方法利用統計學中的方法計算出資料庫的各個資料項目的總和、平均、方差、最大值、最小值等基本描述統計量。或者通過利用統計圖形工具,對資料製作長條圖、餅狀圖等。
 
  利用OLAP技術實現資料的多維查詢也是一種廣泛使用的資料總結的方法。
 
  2、分類
 
  分類的主要功能是學會一個分類函數或分類模型(也常常稱作分類器),該模型能夠根據資料的屬性將資料分派到不同的組中。即:分析資料的各種屬性,並找出資料的屬性模型,確定哪些資料屬於哪些組。這樣我們就可以利用該模型來分析已有資料,並預測新資料將屬於哪一個組。
 
  分類應用的實例很多。例如,我們可以將銀行網點分為好、一般和較差三種類型,並以此分析這三種類型銀行網點的各種屬性,特別是位置、盈利情況等屬性,並決定它們分類的關鍵屬性及相互間關係。此後就可以根據這些關鍵屬性對每一個預期的銀行網點進行分析,以便決定預期銀行網點屬於哪一種類型。
3、關聯分析

 

  資料庫中的資料一般都存在著關聯關係,也就是說,兩個或多個變數的取值之間存在某種規律性。這種關聯關係有簡單關聯和時序關聯兩種。簡單關聯,例如:購買麵包的顧客中有90%的人同時購買牛奶。時序關聯,例如:若AT&T股票連續上漲兩天且DEC股票不下跌,則第三天IBM股票上漲的可能性為75%。它在簡單關聯中增加了時間屬性。

 

  關聯分析的目的是找出資料庫中隱藏的關聯網,描述一組資料項目目的密切度或關係。有時並不知道資料庫中資料的關聯是否存在精確的關聯函數,,即使知道也是不確定的,因此關聯分析生成的規則帶有置信度,置信度級別度量了關聯規則的強度。

 

  關聯模型的一個典型例子是市場菜籃分析(Marketing Basket Analysis),通過挖掘資料派生關聯規則,可以瞭解客戶的行為。

 

  採用關聯模型的成功典型案例是總部位於美國阿肯色州的Wal*Mart零售商的「尿布與啤酒」的故事。Wal*Mart擁有世界上最大的資料倉儲系統,它利用資料採礦工具對資料倉儲中的原始交易資料進行分析,得到了一個意外發現:跟尿布一起購買最多的商品竟然是啤酒。如果不是借助于資料倉儲和資料採礦,商家決不可能發現這個隱藏在背後的事實:在美國,一些年輕的父親下班後經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。有了這個發現後,超市調整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷售額。

 

同樣的,我們還可以根據關聯規則在商品銷售方面做各種促銷活動。

 

  4、聚類

 

  當要分析的資料缺乏描述資訊,或者是無法組織成任何分類模式時,可以採用聚類分析。聚類分析是按照某種相近程度度量方法,將使用者資料分成一系列有意義的子集合。每一個集合中的資料性質相近,不同集合之間的資料性質相差較大。

 

  統計方法中的聚類分析是實現聚類的一種手段,它主要研究基於幾何距離的聚類。人工智慧中的聚類是基於概念描述的。概念描述就是對某類物件的內涵進行描述,並概括這類物件的有關特徵。概念描述分為特徵性描述和區別性描述,前者描述某類物件的共同特徵,後者描述不同類物件之間的區別。



 

四、資料採礦的主要方法

 

  目前,國外有許多研究機構、公司和學術組織在從事資料採礦工具的研究和開發。這些資料採礦工具採用的主要方法包括決策樹、相關規則、神經元網路、遺傳演算法,以及視覺化、OLAP線上分析處理等。另外也採用了傳統的統計方法。

 

  1、決策樹(Decision Tree)

 

  決策樹是建立在資訊理論基礎之上,對資料進行分類的一種方法。首先,通過一批已知的訓練資料建立一棵決策樹。然後,利用建好的決策樹,對資料進行預測。決策樹的建立過程可以看成是資料規則的生成過程,因此可以認為,決策樹實現了資料規則的視覺化,其輸出結果也容易理解。例如:在金融領域中將貸款物件分為低貸款風險與高貸款風險兩類。通過決策樹,我們可以很容易地確定貸款申請者是屬於高風險的還是低風險的。
 
決策樹方法精確度比較高,結果容易理解,效率也比較高,因而比較常用。
 
  2、神經網路(Neural Network)
 
  神經網路建立在自學習的數學模型基礎之上。它可以對大量複雜的資料進行分析,並可以完成對人腦或其他電腦來說極為複雜的模式抽取及趨勢分析。
 
  神經網路系統由一系列類似于人腦神經元一樣的處理單元組成,我們稱之為節點(Node)。這些節點通過網路彼此互連,如果有資料輸入,它們便可以進行確定資料模式的工作。神經網路有相互連接的輸入層、中介層(或隱藏層)、輸出層組成。中介層由多個節點組成,完成大部分網路工作。輸出層輸出資料分析的執行結果。例如:我們可以指定輸入層為代表過去的銷售情況、價格及季節等因素,輸出層便可輸出判斷本季度的銷售情況的資料。
 
  3、相關規則
 
  相關規則是一種簡單卻很實用的關聯分析規則,它描述了一個事物中某些屬性同時出現的規律和模式。例如:超級市場中通過POS系統收集存儲了大量售貨資料,記錄了什麼樣的顧客在什麼時間購買了什麼商品,這些資料中常常隱含著諸如:購買麵包的顧客中有90%的人同時購買牛奶的相關規則。
 
相關規則分析就是依據一定的可信度、支援度、期望可信度、作用度建立相關規則的。
 
  4、K-nearest鄰居
 
  鄰居就是彼此距離很近的資料。依據」Do as your neighbors do」的原則,K-nearest鄰居方法認為:鄰居資料必然有相同的屬性或行為。K表示某個特定資料的K個鄰居,可以通過K個鄰居的平均資料來預測該特定資料的某個屬性或行為。
 
  5、遺傳演算法
 
  遺傳演算法是一種基於生物進化論和分子遺傳學的搜索優化演算法。它首先將問題的可能的解按某種形式進行編碼,編碼後的解稱為染色體;隨機選取N個染色體作為初始種群,再根據預定的評價函數對每個染色體計算適應值,性能較好的染色體有較高的適應值;選擇適應值較高的染色體進行複製,並通過遺傳運算元,產生一群新的更適應環境的染色體,形成新的種群,直至最後收斂到一個最適應環境的個體,得到問題的最優化解。
 
  6、線上分析處理(OLAP)
 
  線上分析處理(OnLine Analytical Processing,OLAP)主要通過多維的方式來對資料進行分析、查詢和報表。它不同于傳統的連線事物處理(Online Transaction Processing,OLTP)應用。OLTP應用主要是用來完成使用者的交易處理,如民航訂票系統、銀行儲蓄系統等等,通常要進行大量的更新操作,同時對回應時間要求比較高。而OLAP應用主要是對使用者當前及歷史資料進行分析,輔助領導決策。其典型的應用有對銀行信用卡風險的分析與預測、公司市場行銷策略的制定等,主要是進行大量的查詢操作,對時間的要求不太嚴格。
 
  7、資料視覺化(Data Visualization)
 
  對大批量資料的展現也是資料採礦的重要方面。就資料視覺化系統本身而言,由於資料量很大,很容易使分析人員面對資料不知所措,資料採礦的視覺化檢視可以通過富有成效的探索起點並按恰當的隱喻來表示資料,為數據分析人員提供很好的説明。
 
  資料視覺化檢視大大擴展了傳統商業圖形的能力,支援多維資料的視覺化,從而提供了多方向同時進行資料分析的圖形方法。有些工具甚至提供動畫能力,使使用者可以「飛越」資料,觀看到資料不同層次的細節
 
五、資料採礦的主要應用
 
  目前,資料採礦的研究和應用非常熱門,應用主要集中在以下幾個領域:
 
  1、金融
 
  資料採礦在金融領域應用廣泛,包括:金融市場分析和預測、帳戶分類、銀行擔保和信用評估等。這些金融業務都需要收集和處理大量資料,很難通過人工或使用一兩個小型軟體進行分析預測。而資料採礦可以通過對已有資料的處理,找到資料物件的特徵和物件之間的關係,並可觀察到金融市場的變化趨勢。然後利用學習到的模式進行合理的分析預測,進而發現某個客戶、消費群體或組織的金融和商業興趣等。
 
  2、市場業
 
  市場業應用是利用資料採礦技術進行市場定位和消費者分析,輔助制定市場策略。
 
  由於管理資訊資訊系統和POS系統在市場業的廣泛普及,人們很容易得到顧客購買情況的資料。利用資料採礦技術,如:相關規則、模糊推理及統計方法等,通過對顧客歷史資料的分析,可以得到關於顧客購買取向和興趣的資訊,無疑為商業決策提供了可靠的依據。
 
  3、工程與科學研究
 
  資料採礦技術可應用於各種工程與科學資料分析。
 
  隨著先進的科學資料收集工具的使用,如觀測衛星、遙感器、DNA分子技術等,面對龐大的資料,傳統的資料分析工具無能為力。資料採礦技術以其強大的智慧性和自動性,在工程和科學研究中得到廣泛應用。
 
  資料採礦在天文學和生物學中都有極為成功的案例。例如:在天文學應用中,Jet Propulsion實驗室利用決策樹方法對上百萬天體進行分類,效果比人工更快、更準確。這個系統還説明發現了10個新的類星體。
 
  4、產品製造業
 
  製造業應用資料採礦技術進行零部件故障診斷、資源優化、生產過程分析等。
 
  例如:HP 公司的工程師使用Angoss Software的Knowledge Seeker來進行HPⅡc彩色掃描器的生產過程分析。他們基於大約200個參數建立了一個自動資料收集系統,產生了難以手工處理的大量資料。
 
  5、司法
 
  資料採礦技術可應用於案件調查、詐騙監測、洗錢認證、犯罪組織分析等,可以給司法工作帶來巨大收益。
 
  例如:美國財政部使用NetMap開發了一個叫FAIS的系統。這個系統對各類金融事務進行監測,識別洗錢、詐騙等。該系統從1993年3月開始運行,每週處理約20萬個事務,針對超過1億美元並可能是洗錢的事務產生了400多個調查報告。


 
六、資料採礦的主要工具
 
  在資料採礦技術發展的同時,許多資料採礦的軟體工具也逐漸問世。
 
  資料採礦工具主要有兩大類:一類是應用於特定領域的專用資料採礦工具,另一類是應用面較廣的通用資料採礦工具。
 
  專用資料採礦工具針對某個特定領域的問題提供解決方案。在演算法設計方面,充分考慮到資料、需求的特殊性,並進行優化。例如:IBM公司的Advanced Scout系統,針對NBA資料,説明教練優化戰術組合、上文提到的各種應用工具等。
 
  通用資料採礦工具處理常見的資料類型,採用通用的資料採礦演算法,提供較為通用的處理模式,如:分類模式、回歸模式、時間序列模式、聚類模式、關聯模式等。例如:IBM公司的QUEST系統、SGI公司的MineSet系統、加拿大Simon Fraser大學的DBMiner、美國Business Objects公司的Business Miner系統、SAS公司的SAS EM(Enterprise Miner)系統等。
 
  SAS EM在SAS資料倉儲和資料採礦方法論的基礎之上,採用圖形化介面、功能表驅動方式,為使用者提供了一個資料採礦的集成環境,集成了資料獲取工具、資料抽樣工具、資料篩選工具、資料變數轉化工具、資料採礦資料庫、資料採礦方法等。SAS EM提供了多種形式的回歸工具(線性回歸、Logistic回歸)、為建立決策樹的資料剖析工具、決策樹流覽工具(決策樹基本內容和統計值的匯總表、決策樹的導航瀏覽器、決策樹的圖形顯示、決策樹的評價圖表)、人工神經元網路(可處理線性模型、多層感知模型MLP、放射型功能RBF)、資料採礦評價工具等。


 
七、資料採礦的發展
 
  資料採礦的研究正方興未艾,其發展前景在已經在國際上得到了確認。目前,國內外很多大學、研究機構和公司都已經在這個方面進行了實質性的研究和產品開發。今後研究的焦點可能有:研究專門用於知識發現的資料採礦語言;研究Internet上的資料採礦方法;對各種非結構化資料,如:文本資料、圖形圖像資料、多媒體資料的挖掘;研究資料採礦與資料倉儲相結合的方式,資料採礦與資料倉儲一體化的研究等。

    全站熱搜

    戮克 發表在 痞客邦 留言(0) 人氣()