1. 引言
本論文從網頁分類方面對萬維網上的數據處理技術進行了研究。對中文網頁自動分類技術這一具有重要理論意義和廣闊應用前景的課題進行了研究和探索。研究內容主要包括:設計了一種中文網頁自動分類技術模型,應用該模型設計的中文網頁分類器能夠滿足處理大規模中文網頁的要求。
2. 技術模型架構
為了能夠有效地組織和分析海量的Web 信息資源,幫助用戶迅速地獲取其所需要的知識和信息,人們希望能夠按照其內容實現對網頁的自動分類。
每一個網頁分類系統都是建立在一定的文檔分類方法基礎之上。準確、高效的文檔屬性選擇和文檔分類方法通常會不斷出現,因此,一個文檔分類系統應該具備功能和性能上的可擴展性,這就要求文檔分類系統建立在模塊化、可擴展的體系結構基礎之上。圖1所示為我們設計的中文Web網頁自動分類技術的體系結構?!緢D1】
3. 數據庫部件和功能模塊組成
整個技術的主要功能由下列數據庫部件和功能模塊組成:
(1)分類模型庫基于機器學習的分類通常由訓練和分類兩個階段組成,在訓練階段,從訓練文本學習分類知識,建立分類器;在分類階段,根據分類器將輸入文本分到最可能的類別中。根據訓練樣本集中的文本數據和具體的屬性選擇方法與分類方法,計算得到的分類模型數據,都存于該庫中。將屬性選擇方法和分類方法的任何一種組合都作為一個分類模型。
(2)未標記網頁庫保存大量的未標記網頁數據。當訓練集中的樣本數量較少時,可以通過未標記網頁的利用方法從該庫中選取一定的未標記網頁加入到小規模的訓練集中,從而彌補訓練樣本的不足,減少人工標記大量網頁的需要。
(3)特征抽取模塊負責從原始 Web 文檔中提取特征信息。首先對網頁進行頁面分析,提取出其中的文本信息,經過分詞程序分詞后,去除停用詞(如“的”、“和”等虛詞),然后統計單詞在當前網頁中的詞頻(同時考慮單詞出現在網頁中的位置)。構成文本的詞匯數量是相當大的,所以,表示文本的向量空間的維數也相當大,可以達到幾萬維。因此我們需要進行維數壓縮的工作,這樣做的目的主要有兩個:第一,為了提高程序的效率,提高運行速度;第二,所有幾萬個詞匯對文本分類的意義是不同的。某些稀有詞在全部訓練文檔中出現的次數都很少,對于分類的意義不大,應予以濾除。我們設定一個出線次數閾值,如果某個特征項在訓練集中的總出現次數小于該值,則濾除該特征項。
(4)文檔屬性選擇模塊負責實施分類屬性的選擇,提供各種用于文檔屬性選擇的方法,它實際上是一個算法庫。該模塊規定統一的屬性選擇算法接口,以便于文檔分類屬性選擇算法的增加與刪減。一些通用的、各個類別都普遍存在的詞匯對分類的貢獻??;在某特定類中出現比重大而在其它類中出現比重小的詞匯對文本分類的貢獻大。為了提高分類精度,對于每一類,我們應去除那些表現力不強的詞匯,篩選出針對該類的特征項集合,存在多種篩選特征項的算法,如前面介紹的文檔頻率、信息增益、χ2統計、互信息等。
(5)文檔分類方法(模型)模塊和前一個模塊類似,這是一個分類算法庫。目前實現的分類算法有基本 SVM 算法、決策 SVM 算法。根據實際的研究和使用需要,我們可以在該模塊中補充新的分類算法。
(6)分類模型訓練模塊也就是學習模塊,即根據訓練文檔、屬性選擇方法和分類算法推算分類模型。
(7)分類測試模塊對預處理后的 Web 文檔進行分類處理。
(8)輸入預處理模塊對待分類的輸入Web 文檔中進行預處理,從文檔中提取出文本信息,濾掉對分類無用的非文本信息,通過分詞提取出網頁中的有效特征,并進行權值計算。
(9)性能評估模塊通過對測試結果的分析,進而評估分類器的性能。
(10)輸出表現模塊輸出分類結果和指標。
(11)訓練樣本集維護模塊負責增加和刪減訓練樣本集中的文檔。
(12)分類控制模塊對整個分類過程進行控制,包括設置分類訓練和測試的參數、確定文檔屬性的選擇方法、確定分類方法以及設置利用未標記數據的參數等。
(13)人機界面提供一個 Web 網頁分類的交互環境。
(14)未標記網頁利用模塊該模塊可以在少量的訓練樣本條件下,從未標記網頁數據庫中抽取出部分網頁補充到訓練集中,從而提高分類器性能,減少人工標記網頁的數量。
上述體系結構的突出優點是:
a.模塊化的系統結構,使得文檔分類過程中的取詞、選詞等主要步驟相對獨立,各個步產生的中間結果可以重用,從而提高效率。
b.文檔屬性選擇和分類方法的分離,便于屬性選擇方法和分類方法之間的優化組合。
c.文檔屬性選擇方法庫和分類方法庫的使用,有利于分檔分類系統的擴展和完善。
d.未標記網頁利用模塊可以有效地減少人工標記大量的訓練樣本的需要。
4. 結束語
設計中文 Web 網頁自動分類技術,該技術綜合了本文在中文網頁分類技術方面的研究,應用所研究的分類法提高分類器性能方面的工作,根據實際的研究和使用需要做出設計。采用模塊化的結構,使得文檔分類過程中的主要步驟相對獨立,各個步驟產生的中間結果可以重用,從而提高了效率。文檔屬性選擇方法庫和分類方法庫的使用,也有利于文檔分類技術的擴展和完善。
參考文獻:
[1]周水庚,關佶紅,胡運發,周傲英. 一個無需辭典支持和切詞處理的中文文檔分類系統. 計算機研究與發展,2001,38(7);
[2]賀海軍,王建芬,曹元大. 基于決策支持向量機的中文網頁分類器.計算機工程,2003 年 2 期。