數數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統和模式識別等諸多方法來實現上述目標。本文精選幾篇關于數據發掘論文范文供大家學習一下。
數據挖掘論文一:
《數據挖掘中的屬性選擇偏差抑制算法研究》
摘要:決策樹算法廣泛應用于數據挖掘領域之中.屬性選擇是決策樹方法挖掘效率的關鍵,但ID3方法和C4.5方法在選擇屬性時,都會產生一定程度的選擇偏差.據此,該文對信息增益模型進行了改進,將多次對數運算的信息熵求取過程簡化為多值求和,從而規避了屬性選擇出現偏差的可能性,也加快了決策樹構建的執行速度.依托學生情況數據展開的實驗研究表明,與經典的ID3方法相比,該文方法構建的決策樹更加簡潔.同時,隨著數據樣本數量的增大,該文方法的執行時間大為降低.
關鍵詞:數據挖掘;決策樹;屬性選擇;偏差抑制
信息化技術的飛速發展,使得人們獲得信息的渠道日益豐富,來自生產生活各個領域的數據信息讓人們應接不暇.對海量的數據信息進行整理,并從中尋找到對自己有價值的信息至關重要,這就推動了數據發掘技術的不斷進步[1].近年來,數據挖掘技術形成了重要的分支:基于決策樹的挖掘方法、基于貝葉斯分類的挖掘方法、基于遺傳算法的挖掘方法、基于神經網絡的挖掘方法[2-4].
在這幾大類方法中,基于決策樹的挖掘方法應用最為廣泛,這是因為決策樹方法具有抑制噪聲的能力,執行速度快,并且適合于各種規模的數據集合[5].決策樹算法根據不同的屬性對數據對象進行分類或測試,其中ID3型決策樹算法是比較有代表性的挖掘算法之一[6].ID3型決策樹采用了一種分治策略,依托信息熵理論并通過迭代分類器實現數據自動分類[7].
郭亦東等[8]在口令分析中使用了數據挖掘技術,并構建了一種基于剪枝決策樹的挖掘方法,此方法中設計了節點代價的目標函數,并詳細地設計了節點擴展、剪枝規則,從而進一步提升了ID3型決策樹挖掘方法的效率.Kumar等[9]采取二分挖掘策略代替傳統的線性挖掘策略,并對決策判斷的局部閾值進行了分級改進,從而大大提高了決策樹的構建效率.Ramos等[10]將模糊決策理論引入數據挖掘領域中的決策樹構建,并證實模糊決策可以進一步提升決策樹的歸納和推理能力.
基于決策樹的數據挖掘方法依賴于準確的屬性設置和表達,為了進一步提升決策樹挖掘方法的準確率,本文對決策樹挖掘過程中的屬性選擇偏差抑制問題進行探討,以期得到具有更優秀性能的挖掘方法.
1、基于屬性選擇偏差抑制的決策樹挖掘算法
在一個挖掘算法中,決策樹的性能是否理想取決于屬性選擇得是否理想.選擇了合適的屬性,決策樹就可以精煉,其預測能力也會大大提升.選擇合適的屬性、設置最精簡的決策樹是一個典型的NP問題\\(Non-Deterministic Polynomial,非確定多項式問題\\),已有的算法大都采取啟發式策略加以解決.這種做法的最大問題在于啟發式策略選擇的屬性,在數據分類過程中區分能力不能達到最準確,并且啟發式策略執行依靠的計算復雜程度過高.
這里,數據分類的信息量一共有n個,分別用d1,d2,…,dn來表示.可見,公式\\(1\\)的計算過程涉及了多次對數運算,當參與挖掘的數據量過大時,這種算法的計算成本和時間代價非常高.作為決策樹挖掘算法中的兩類代表性方法,ID3挖掘算法依靠信息熵來選擇屬性,選擇結果往往更傾向于取值較多的屬性;C4.5挖掘算法則根據信息熵的增益來選擇屬性,選擇結果往往更傾向于取值不均勻的屬性.本文構建決策樹挖掘算法的思路是在信息熵理論的基礎上進行改進,并對屬性選擇時的偏差進行有效的抑制,同時兼顧屬性選擇的準確性和算法的執行速度.本文算法的首要工作是在信息熵和信息增益的基礎上建立新的屬性選擇標準,抑制決策樹算法在屬性選擇過程中出現的偏差,提高屬性選擇的合理性、準確性.
同時,本文算法試圖構建最精煉的決策樹,提高決策樹的構建速度、提升決策樹分類的準確率和效率.
2、實驗結果與分析
為了驗證本文在數據挖掘算法中提出的決策樹構建方法的有效性,本文接下來的工作將針對具體的數據展開實驗研究.實驗中所用的計算機硬件配置為amd雙核、主頻2.0GHz的CPU,內存大小為8GB,硬盤大小為500GB.實驗中所用的計算機軟件配置為windows 7.0操作系統,matlab程序設計語言及編譯環境.實驗目的確立為驗證本文方法構建決策樹的精煉性和執行速度.實驗的數據對象為某高校的學生情況,數據屬性選擇了獎學金情況、課程成績、性別.
實驗中,總樣本數量為2 000個,從15,30,60,120,240,480,960,1920這樣的順序逐步擴大樣本量,以測試本文提出的方法的性能.如表1所示,包含了30個樣本的學生情況數據.
表1 參與數據挖掘決策樹構建的學生情況數據樣本
為了形成和本文方法執行效果的直觀對照,筆者還選擇了經典的ID3方法作為本文方法的比較算法.根據ID3方法以及表1中的樣本數據,構建的決策樹如圖1所示.
圖1 經典的ID3方法獲得的決策樹
圖2 本文方法獲得的決策樹
對比圖2和圖1的決策樹構建結果,可以明顯看出本文方法有效地避免了屬性選擇的多值傾向,從而有效地精簡了決策樹的結構,優于ID3方法.下面,筆者再從執行時間上比較本文方法和ID3方法的差異.實驗對象的樣本數量從15個樣本開始,逐步翻倍到30,60,120,240,480,960,1920.2種方法構建決策樹的時間對比,如圖3所示.
圖3 2種方法的執行時間對比
從圖3中可知,本文構建的方法因為避免了多次對數運算,而代之以求和運算,執行速度明顯提升,大大優于ID3算法.尤其是隨著數據集合規模不斷擴大,這種優勢更加明顯,這充分說明了本文方法在速度上的優勢。
3、結論
針對數據挖掘問題,本文對基于決策樹的挖掘方法展開了研究.經典的ID3方法和C4.5方法在決策樹構建的過程中存在屬性選擇多值傾向和不均勻傾向,具有一定的選擇偏差.為此,在信息增益模型的基礎上,筆者對信息熵的計算過程進行了進一步的改進處理,用多值求和替代了多次對數運算.這種計算原理上的改變,抑制了屬性選擇的偏差傾向,也提升了決策樹的構建速度.實驗結果表明,本文方法與經典的ID3方法相比,構建的決策樹更加精煉,執行速度的優勢也非常明顯。