藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 計算機論文 > > 數據挖掘論文3000字范文參考
數據挖掘論文3000字范文參考
>2023-06-15 09:00:00

數數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統和模式識別等諸多方法來實現上述目標。本文精選幾篇關于數據發掘論文范文供大家學習一下。

數據挖掘論文一:

《數據挖掘中的屬性選擇偏差抑制算法研究》

摘要:決策樹算法廣泛應用于數據挖掘領域之中.屬性選擇是決策樹方法挖掘效率的關鍵,但ID3方法和C4.5方法在選擇屬性時,都會產生一定程度的選擇偏差.據此,該文對信息增益模型進行了改進,將多次對數運算的信息熵求取過程簡化為多值求和,從而規避了屬性選擇出現偏差的可能性,也加快了決策樹構建的執行速度.依托學生情況數據展開的實驗研究表明,與經典的ID3方法相比,該文方法構建的決策樹更加簡潔.同時,隨著數據樣本數量的增大,該文方法的執行時間大為降低.

關鍵詞:數據挖掘;決策樹;屬性選擇;偏差抑制

信息化技術的飛速發展,使得人們獲得信息的渠道日益豐富,來自生產生活各個領域的數據信息讓人們應接不暇.對海量的數據信息進行整理,并從中尋找到對自己有價值的信息至關重要,這就推動了數據發掘技術的不斷進步[1].近年來,數據挖掘技術形成了重要的分支:基于決策樹的挖掘方法、基于貝葉斯分類的挖掘方法、基于遺傳算法的挖掘方法、基于神經網絡的挖掘方法[2-4].

在這幾大類方法中,基于決策樹的挖掘方法應用最為廣泛,這是因為決策樹方法具有抑制噪聲的能力,執行速度快,并且適合于各種規模的數據集合[5].決策樹算法根據不同的屬性對數據對象進行分類或測試,其中ID3型決策樹算法是比較有代表性的挖掘算法之一[6].ID3型決策樹采用了一種分治策略,依托信息熵理論并通過迭代分類器實現數據自動分類[7].

郭亦東等[8]在口令分析中使用了數據挖掘技術,并構建了一種基于剪枝決策樹的挖掘方法,此方法中設計了節點代價的目標函數,并詳細地設計了節點擴展、剪枝規則,從而進一步提升了ID3型決策樹挖掘方法的效率.Kumar等[9]采取二分挖掘策略代替傳統的線性挖掘策略,并對決策判斷的局部閾值進行了分級改進,從而大大提高了決策樹的構建效率.Ramos等[10]將模糊決策理論引入數據挖掘領域中的決策樹構建,并證實模糊決策可以進一步提升決策樹的歸納和推理能力.

基于決策樹的數據挖掘方法依賴于準確的屬性設置和表達,為了進一步提升決策樹挖掘方法的準確率,本文對決策樹挖掘過程中的屬性選擇偏差抑制問題進行探討,以期得到具有更優秀性能的挖掘方法.

1、基于屬性選擇偏差抑制的決策樹挖掘算法

在一個挖掘算法中,決策樹的性能是否理想取決于屬性選擇得是否理想.選擇了合適的屬性,決策樹就可以精煉,其預測能力也會大大提升.選擇合適的屬性、設置最精簡的決策樹是一個典型的NP問題\\(Non-Deterministic Polynomial,非確定多項式問題\\),已有的算法大都采取啟發式策略加以解決.這種做法的最大問題在于啟發式策略選擇的屬性,在數據分類過程中區分能力不能達到最準確,并且啟發式策略執行依靠的計算復雜程度過高.

這里,數據分類的信息量一共有n個,分別用d1,d2,…,dn來表示.可見,公式\\(1\\)的計算過程涉及了多次對數運算,當參與挖掘的數據量過大時,這種算法的計算成本和時間代價非常高.作為決策樹挖掘算法中的兩類代表性方法,ID3挖掘算法依靠信息熵來選擇屬性,選擇結果往往更傾向于取值較多的屬性;C4.5挖掘算法則根據信息熵的增益來選擇屬性,選擇結果往往更傾向于取值不均勻的屬性.本文構建決策樹挖掘算法的思路是在信息熵理論的基礎上進行改進,并對屬性選擇時的偏差進行有效的抑制,同時兼顧屬性選擇的準確性和算法的執行速度.本文算法的首要工作是在信息熵和信息增益的基礎上建立新的屬性選擇標準,抑制決策樹算法在屬性選擇過程中出現的偏差,提高屬性選擇的合理性、準確性.

同時,本文算法試圖構建最精煉的決策樹,提高決策樹的構建速度、提升決策樹分類的準確率和效率.

2、實驗結果與分析

為了驗證本文在數據挖掘算法中提出的決策樹構建方法的有效性,本文接下來的工作將針對具體的數據展開實驗研究.實驗中所用的計算機硬件配置為amd雙核、主頻2.0GHz的CPU,內存大小為8GB,硬盤大小為500GB.實驗中所用的計算機軟件配置為windows 7.0操作系統,matlab程序設計語言及編譯環境.實驗目的確立為驗證本文方法構建決策樹的精煉性和執行速度.實驗的數據對象為某高校的學生情況,數據屬性選擇了獎學金情況、課程成績、性別.

實驗中,總樣本數量為2 000個,從15,30,60,120,240,480,960,1920這樣的順序逐步擴大樣本量,以測試本文提出的方法的性能.如表1所示,包含了30個樣本的學生情況數據.

表1 參與數據挖掘決策樹構建的學生情況數據樣本

為了形成和本文方法執行效果的直觀對照,筆者還選擇了經典的ID3方法作為本文方法的比較算法.根據ID3方法以及表1中的樣本數據,構建的決策樹如圖1所示.


圖1 經典的ID3方法獲得的決策樹


圖2 本文方法獲得的決策樹

對比圖2和圖1的決策樹構建結果,可以明顯看出本文方法有效地避免了屬性選擇的多值傾向,從而有效地精簡了決策樹的結構,優于ID3方法.下面,筆者再從執行時間上比較本文方法和ID3方法的差異.實驗對象的樣本數量從15個樣本開始,逐步翻倍到30,60,120,240,480,960,1920.2種方法構建決策樹的時間對比,如圖3所示.


圖3 2種方法的執行時間對比

從圖3中可知,本文構建的方法因為避免了多次對數運算,而代之以求和運算,執行速度明顯提升,大大優于ID3算法.尤其是隨著數據集合規模不斷擴大,這種優勢更加明顯,這充分說明了本文方法在速度上的優勢。

3、結論

針對數據挖掘問題,本文對基于決策樹的挖掘方法展開了研究.經典的ID3方法和C4.5方法在決策樹構建的過程中存在屬性選擇多值傾向和不均勻傾向,具有一定的選擇偏差.為此,在信息增益模型的基礎上,筆者對信息熵的計算過程進行了進一步的改進處理,用多值求和替代了多次對數運算.這種計算原理上的改變,抑制了屬性選擇的偏差傾向,也提升了決策樹的構建速度.實驗結果表明,本文方法與經典的ID3方法相比,構建的決策樹更加精煉,執行速度的優勢也非常明顯。

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观