0、引言
我國正處于工業化、城鎮化發展的關鍵階段,資源需求剛性上升,資源環境壓力日益增大,加強生態文明制度建設,把資源消耗、環境損害、生態效益納入經濟社會發展評價體系,建立體現生態文明要求的目標體系、考核辦法、獎懲機制是立足國內提高能源資源保障能力的現實選擇,對我國經濟社會發展具有十分重要的現實意義和深遠的戰略意義。
然而多年來,綠色礦山評價缺乏統一標準,評價主管決策因素太大,有失公平。因此,國土資源部提出創建一個統一的綠色礦山評價標準,而礦山企業的技術創新能力作為重要的評價內容列入其中。在此背景下,本文專門研究礦山企業中煤礦的技術創新能力評價體系,運用數據挖掘技術中的ID3決策樹算法,在很大程度上提高了評價準確度,為評選綠色礦山企業提供了可靠的依據,同時也為煤礦企業在技術創新領域的效果做出分析,便于進一步改進提高。
1、理論與方法
1.1ID3算法模型
ID3算法是Quinlan于1979年提出的一種經典的決策樹算法,此算法將屬性的信息增益作為各級結點的屬性選擇標準。在幾種決策樹算法中,ID3算法可以說是最有影響力的。為了實現達到以最小信息量最大程度對測試數據分類目的,樣本劃分的測試屬性要選擇信息增益最大的屬性。該算法內容概括如下:
樹從訓練樣本的某單個結點開始,若樣本都屬于同一類,那么該結點成為樹葉,分類結束,用該類標號。如果樣本屬性不屬于同一個類,算法使用信息增益度量作為啟發信息,來計算能將樣本最好地分類的屬性。計算出的屬性便是該節點的測試屬性。在此算法中,所有的屬性都是要分類的,即本算法只適用于離散值,如果是連續屬性的話必須進行離散化。對每個已知的測試屬性值都要創建一個分支,以此來劃分樣本。根據以上步驟,遞歸此算法形成樣本判定樹。每個分支上的屬性只會出現一次,一旦使用某屬性對樣本集劃分后,此屬性在這個分支上就不會出現了。
遞歸劃分步驟只要出現下列條件便會停止:所有屬性都以完成對樣本的劃分;所有樣本屬于同一類;某個測試屬性值上已經沒有樣本。測試屬性的取值是樣本集的劃分依據,樣本集將劃分為多少子樣本集取決于測試屬性有多少不同取值。以信息增益度量作為選擇測試屬性的依據,屬性的信息增益越大就越重要,也就更靠近根節點,所以要選擇具有最高信息增益的屬性作為當前結點的測試屬性。由于采用此信息理論方法可以使一個對象分類的期望測試數目最小,以保證能找到一棵簡單的樹。
設S是s個數據樣本的集合,類標號屬性有m個不同值,并定義n個不同類Ci(i=1,2,...,n)。設Si是類中的樣本數,則對一個樣本分類所需的期望信息為:
其中,pi—任意樣本屬于的概率,用Si/S表示。設屬性A具有v個不同值{a1,a2,...av},可以用屬性A將S劃分為v個子集{S1,S2,...,Sv},在屬性A上,Si中的樣本的取值為aj。設子集中類Ci的樣本數為sij,則屬性A的熵可以這樣計算:
集中的樣本數除以S的樣本總數。熵值與劃分純度成反比,即熵值越高,子集劃分的純度越低,反之亦然。對于子集Sj有:
通過上述公式計算每個屬性的信息增益,選擇具有最高信息增益的屬性作為集第一個屬性,即根節點的決策屬性,當創建結點之后,對屬性的每個值分別創建分枝,劃分樣本。引入信息增益的概念是ID3算法的一大特點。該算法應用簡單,基礎理論清晰。該算法的計算時間是結點個數、例子個數和特征個數之積的線性函數。由于目標函數一定在搜索空間中,而搜索空間又是完全的假設空間,所以此算法一定有解。該算法不是像候選剪除算法逐個地考慮訓練例,而是全盤使用訓練數據,這樣的優點是可以抵抗噪音,利用全部訓練例的統計性質進行決策。
總的來說,ID3算法是一種具有實用價值的學習算法,它的學習能力較強,基礎理論清晰,算法較簡單,是機器學習和數據挖掘領域中的一個經典方法。
1.2ID3算法應用
構建煤礦技術創新能力評價數據集。根據煤礦技術創新能力評價指標體系,選擇了11家煤礦的技術創新數據,并將其整理,如表1所示。
由于分類屬性太多,而當前的訓練集數據太少,若按照當前分類建模,準確率會很低,在實驗后得到的準確率為9.0909%,不符合要求。若根據指標權值合并劃分屬性,將原先的22個屬性合并到4個。并用等寬間距法將每個屬性五等分,由高到低劃分為5個級別,對原始數據進行數據處理,得到處理后的數據集如表2所示。
對訓練集進行標準化后,用ID3算法進行分類并計算,得到結果如圖1所示。從圖中可以看到,通過對屬性的合并以及對原始訓練集數據進行相應轉換后,再次運用ID3算法得到的分類模型比之前的分類準確率高出很多,達到63.6364%,這說明對于當前訓練集的劃分屬性改進是比較正確的,也得到了更為理想的結果。根據上圖中的分類規則創建對應的決策樹。如圖2所示。
解析上圖的決策規則為:
以上為最終得到的分類規則,即評價模型,通過此模型可以對其他實例進行劃分,得到相應的分類。
2、結論
本論文運用數據挖掘中ID3算法,通過對煤礦技術創新能力數據研究分析,產生決策規則,通過對決策規則進行驗證,正確率較高,基本能夠反映煤礦的技術創新能力。由于訓練集數據量小,采用了合并指標的辦法來減少劃分屬性,其中引入的專家權值造成了一定的主觀影響。
參考文獻:
[1]陳燕.數據挖掘技術與應用[M].北京:清華大學出版社,2010.
[2]王宏云.基于數據挖掘的煤礦安全監測系統研究[D].遼寧工程技術大學,2009,12.
[3]彭蓬.基于神經網絡的煤礦企業技術創新能力評價及經濟學分析[J].煤礦現代化,2008,87.
[4]馮陳雷.基于決策樹方法的煤炭企業效績評價研究[D].山東科技大學,2007,5.