礦山企業中煤礦的技術創新能力評價體系研究-藏刊網

0、引言

我國正處于工業化、城鎮化發展的關鍵階段，資源需求剛性上升，資源環境壓力日益增大，加強生態文明制度建設，把資源消耗、環境損害、生態效益納入經濟社會發展評價體系，建立體現生態文明要求的目標體系、考核辦法、獎懲機制是立足國內提高能源資源保障能力的現實選擇，對我國經濟社會發展具有十分重要的現實意義和深遠的戰略意義。

然而多年來，綠色礦山評價缺乏統一標準，評價主管決策因素太大，有失公平。因此，國土資源部提出創建一個統一的綠色礦山評價標準，而礦山企業的技術創新能力作為重要的評價內容列入其中。在此背景下，本文專門研究礦山企業中煤礦的技術創新能力評價體系，運用數據挖掘技術中的ID3決策樹算法，在很大程度上提高了評價準確度，為評選綠色礦山企業提供了可靠的依據，同時也為煤礦企業在技術創新領域的效果做出分析，便于進一步改進提高。

1、理論與方法

1.1ID3算法模型

ID3算法是Quinlan于1979年提出的一種經典的決策樹算法，此算法將屬性的信息增益作為各級結點的屬性選擇標準。在幾種決策樹算法中，ID3算法可以說是最有影響力的。為了實現達到以最小信息量最大程度對測試數據分類目的，樣本劃分的測試屬性要選擇信息增益最大的屬性。該算法內容概括如下：

樹從訓練樣本的某單個結點開始，若樣本都屬于同一類，那么該結點成為樹葉，分類結束，用該類標號。如果樣本屬性不屬于同一個類，算法使用信息增益度量作為啟發信息，來計算能將樣本最好地分類的屬性。計算出的屬性便是該節點的測試屬性。在此算法中，所有的屬性都是要分類的，即本算法只適用于離散值，如果是連續屬性的話必須進行離散化。對每個已知的測試屬性值都要創建一個分支，以此來劃分樣本。根據以上步驟，遞歸此算法形成樣本判定樹。每個分支上的屬性只會出現一次，一旦使用某屬性對樣本集劃分后，此屬性在這個分支上就不會出現了。

遞歸劃分步驟只要出現下列條件便會停止：所有屬性都以完成對樣本的劃分；所有樣本屬于同一類；某個測試屬性值上已經沒有樣本。測試屬性的取值是樣本集的劃分依據，樣本集將劃分為多少子樣本集取決于測試屬性有多少不同取值。以信息增益度量作為選擇測試屬性的依據，屬性的信息增益越大就越重要，也就更靠近根節點，所以要選擇具有最高信息增益的屬性作為當前結點的測試屬性。由于采用此信息理論方法可以使一個對象分類的期望測試數目最小，以保證能找到一棵簡單的樹。

設S是s個數據樣本的集合，類標號屬性有m個不同值，并定義n個不同類Ci（i=1,2,...,n）。設Si是類中的樣本數，則對一個樣本分類所需的期望信息為：

其中，pi—任意樣本屬于的概率，用Si/S表示。設屬性A具有v個不同值{a1,a2,...av}，可以用屬性A將S劃分為v個子集{S1,S2,...,Sv}，在屬性A上，Si中的樣本的取值為aj。設子集中類Ci的樣本數為sij，則屬性A的熵可以這樣計算：

集中的樣本數除以S的樣本總數。熵值與劃分純度成反比，即熵值越高，子集劃分的純度越低，反之亦然。對于子集Sj有：

通過上述公式計算每個屬性的信息增益，選擇具有最高信息增益的屬性作為集第一個屬性，即根節點的決策屬性，當創建結點之后，對屬性的每個值分別創建分枝，劃分樣本。引入信息增益的概念是ID3算法的一大特點。該算法應用簡單，基礎理論清晰。該算法的計算時間是結點個數、例子個數和特征個數之積的線性函數。由于目標函數一定在搜索空間中，而搜索空間又是完全的假設空間，所以此算法一定有解。該算法不是像候選剪除算法逐個地考慮訓練例，而是全盤使用訓練數據，這樣的優點是可以抵抗噪音，利用全部訓練例的統計性質進行決策。

總的來說，ID3算法是一種具有實用價值的學習算法，它的學習能力較強，基礎理論清晰，算法較簡單，是機器學習和數據挖掘領域中的一個經典方法。

1.2ID3算法應用

構建煤礦技術創新能力評價數據集。根據煤礦技術創新能力評價指標體系，選擇了11家煤礦的技術創新數據，并將其整理，如表1所示。

由于分類屬性太多，而當前的訓練集數據太少，若按照當前分類建模，準確率會很低，在實驗后得到的準確率為9.0909%，不符合要求。若根據指標權值合并劃分屬性，將原先的22個屬性合并到4個。并用等寬間距法將每個屬性五等分，由高到低劃分為5個級別，對原始數據進行數據處理，得到處理后的數據集如表2所示。

對訓練集進行標準化后，用ID3算法進行分類并計算，得到結果如圖1所示。從圖中可以看到，通過對屬性的合并以及對原始訓練集數據進行相應轉換后，再次運用ID3算法得到的分類模型比之前的分類準確率高出很多，達到63.6364%，這說明對于當前訓練集的劃分屬性改進是比較正確的，也得到了更為理想的結果。根據上圖中的分類規則創建對應的決策樹。如圖2所示。

解析上圖的決策規則為：

以上為最終得到的分類規則，即評價模型，通過此模型可以對其他實例進行劃分，得到相應的分類。

2、結論

本論文運用數據挖掘中ID3算法，通過對煤礦技術創新能力數據研究分析，產生決策規則，通過對決策規則進行驗證，正確率較高，基本能夠反映煤礦的技術創新能力。由于訓練集數據量小，采用了合并指標的辦法來減少劃分屬性，其中引入的專家權值造成了一定的主觀影響。

參考文獻：
[1]陳燕．數據挖掘技術與應用[M]．北京：清華大學出版社，2010.
[2]王宏云．基于數據挖掘的煤礦安全監測系統研究[D]．遼寧工程技術大學，2009，12.
[3]彭蓬．基于神經網絡的煤礦企業技術創新能力評價及經濟學分析[J]．煤礦現代化，2008，87.
[4]馮陳雷．基于決策樹方法的煤炭企業效績評價研究[D]．山東科技大學，2007，5.

上一篇：水利工程企業施工成本、... 下一篇：IPD發展歷程、實踐及...

藏刊網提醒您

藏刊網提醒您