1、 引言
近年來,隨著數字化教育浪潮的不斷推進,我國在教育資源建設方面已經取得了巨大的成就,各類教育資源的數量巨大且呈現幾何級數增長。隨著搜索引擎技術的發展, 通用搜索引擎的功能變得日益強大, 取得了很大的成功, 但其仍有局限性, 如搜索的深度不夠, 且查準率低、時效性差。尤其是現有的通用搜索引擎的搜索方式是采用關鍵字的形式實現, 沒有根據用戶的個體差異滿足用戶的個性化需求, 其返回結果往往不令人滿意。
基于語義的搜索引擎是指搜索引擎的工作不再拘泥于用戶輸入的關鍵詞,而是能夠對這些關鍵詞進行語義推理。通過在語義的層面上把文檔中關鍵詞和其映射的概念進行關聯, 可以部分解決文檔語義理解的問題。語義搜索對網頁文檔信息所蘊含的語義信息進行充分挖掘, 同時把用戶的檢索要求轉換成相應的語義表示, 基于領域本體對其進行辨別和推理, 從語義層面理解用戶查詢, 并將基于本體推理的結果返回給用戶。
本文從基礎教育網絡資源搜索的需求考慮,在開源技術Hadoop 和 Nutch 的基礎上設計了面向基礎教育領域的語義垂直搜索引擎,并對如何實現語義搜索的關鍵技術進行了重點研究。
2、 系統框架設計
利用搭建在Hadoop 分布式系統上的 Nutch 開源軟件進行面向基礎教育的網絡資源爬行,過濾掉與基礎教育無關的信息,將爬行的內容進行解析、去重后存入分布式數據庫Hbase 中,接著利用人工構建及自動抽取技術實現教育資源本體庫,再基于領域本體庫實現對用戶查詢內容的語義檢索,從而使得搜集信息具有“專、精、深”的特點,檢索內容準確、可靠、快速且更新及時。該系統框架設計如圖1所示:
3 關鍵技術研究
①種子網站的選取和過濾因為該搜索引擎是針對基礎教育這一特定主題,為了是搜索站點的范圍更具有代表性,只爬取和主題相關的URL,需要根據一定的策略算法對“網絡蜘蛛”程序的初次爬行網址做一些過濾。這一過程借助Web- Harvest 開源軟件對 intute、DMOZ 等開放式分類目錄中的特定領域站點列表進行抽取, 形成站點描述XML 文件。為了獲得更多的種子站點, 可以使用能夠代表領域特征的語詞, 通過 Yahoo! Search API 進行檢索來獲得更多的候選站點URL。經過上述途徑獲得的候選站點, 需要根據 PageRank 值、連通情況指標及主題相關度預測算法進行初步過濾, 將影響力不大、難以訪問及相關度不高的站點排除, 最后再通過人工方式進一步核查和分類, 最終獲得高質量的站點種子。
②網頁自動去噪和去重通過 Nutch 抓取的網頁, 除含有有效的正文內容外, 還攜帶有廣告信息、客戶端運行代碼、版權聲明、欄目設置等噪音信息。為了給后續的信息抽取、分析步驟提供高質量語料,減少噪音信息的干擾。設計在網頁抓取階段根據噪音信息的一般特征設置網頁去噪模塊,對網頁內容進行過濾。網頁去重功能保證了抓取內容數據庫中存儲的網頁是不重復的,也可以識別新發布的頁面。
③搭建分布式系統基于開源云平臺Hadoop搭建分布式系統,利用分布式平臺提高信息抓取和信息檢索的效率。充分利用Nutch面向接口的插件技術,對關鍵模塊進行封裝,使系統具有高度重用性,從而為今后該系統的擴展打下良好基礎。
④教育資源本體的構建隨著語義網\\(Semantic Web\\)研究的不斷深入和實踐的 不斷發展,特別是XML 和 RDF 技術的日趨成熟,以及 W3C 認定 OWL 語言后,基于語義網的本體論為有效地開發、管理和使用教育資源提供了解決方法。
目前還不存在一種被公認的本體構建的標準框架, 當前被廣泛接受的是 Gruber 于 1995 年提出的本體構建五項原則,分別是:明確性、一致性、可擴展性、最少約束性和完整性。上述五項原則給出了構造領域本體的基本思路, 但不足之處是它們反映的內容較抽象,在具體實踐中難以把握,為此研究人員從不同的角度提出了眾多本體構建方法。
首先,根據教育領域的各種權威性的詞表來構建領域本體, 既可以根據詞表中概念間存在的簡單語義關系構建輕量級的本體, 這種本體語義簡單但優點是容易通過編寫程序實現大批量的自動轉化??梢赃x擇《教育資源建設技術規范》\\(CELTS-41\\) 作為元數據方案,基于此定義出教育資源本體的核心類。具體實現可使用Protégé 軟件進行本體的構造, 使用 Protégé 提供的OWLvizTal 插件, 這個插件可以通過圖形的形式顯示構建的教育資源本體中各子類的層次關系。在建立了教育領域本體的核心類之后, 要確定本體概念間的屬性關系。Protégé 中到的屬性關系包括兩種屬性:
關系屬性與數值屬性。關系屬性表示概念間的邏輯關系,如前驅關系\\(hasPrecursor\\)、后繼關系\\(hasSuccessor\\)、包含關系\\(is_part_of\\)等,關系屬性有定義域與值域,即指明這一關系的方向。本體的類、關系屬性和數字屬性設計完成后, 教育資源領域本體的總體架構設計就完成了,之后要錄入教育資源信息,即實例信息數據。
在已有的本體庫基礎上,設計了基于本體的自適應 Web 信息抽取平臺的模型視圖,該模型視圖如圖 2所示:
其中,Web領域資源發現模塊:該模塊的功能是實現面向不同網頁類型的網絡爬蟲,定向獲取與教育領域相關的資源,通過機器學習技術,對所獲得的網頁數據進行過濾, 將獲得到的教育相關數據提交給基于本體的自適應信息抽取模塊?;诒倔w的自適應 Web 信息抽取模塊:接收來自Web 領域資源發現模塊的信息, 結合相應的抽取任務描述信息,調用相應的抽取方法,完成不同類型數據的抽取工作。輸出模塊:對經過驗證后的輸出結果進行輸出,寫入特定的數據庫或知識庫中, 同時建立將抽取結果與相應的本體之間的關系,實現本體的擴充。本體知識模塊: 該模塊包含與待抽取目標相關的本體知識, 涉及不同的教育領域本體、數據庫描述本體、交互關系本體以及各種知識庫資源等。
⑤本體數據及實例數據存儲模型RDF Schema 可視為一種簡單的本體語言,但是它過于簡單,描述能力較弱,難以表示復雜的領域知識,因此需要對其進行擴展,Web 本體描述語言 OWL 是對RDF Schema 的一種擴展。
現有的OWL 數據管理系統大都采用 XML 文件或傳統的關系型數據庫來存儲OWL 數據, 這種方式已難以高效地管理海量OWL 數據。本文結合關系型OWL數據存儲模式以及分布式系統平臺,提出一種基于分布式數據庫 HBase 的 OWL 數據存儲模型構思,進一步設計該存儲模型上的基于 MapReduce 的SPARQL查詢算法。
4、 結束語
本文還只是初步設計了一個的教育資源語義搜索引擎框架,在很多關鍵技術方面還有待進一步探究和改進。相信在不久的將來,特別是隨著本體構建技術的不斷健全,語義檢索的應用范圍會愈來愈廣。
參考文獻:
[1]王曉偉. 垂直搜索引擎若干關鍵技術的研究[D]. 杭州:[學位論文],浙江大學, 2007.
[2]馮桂爾. 基于本體的教育資源探究[J]. 上海: 計算機教育,2007.1.
[3]周純. 垂直搜索引擎技術進展[J]. 天津: 知識經濟,2011 年 09 期.
[4]呂 昊. 面向垂直搜索的聚焦爬蟲研究及應用[D]. 杭州:浙江大學, 2012 .
[5]胡宜敏. 農業垂直搜索引擎語義化若干問題的研究與實現[D]. 合肥:[學位論文],中國科學技術大學, 2012 .
[6]李傳席. 基于本體的自動 Web 信息抽取方法研究[D]. 合肥:[學位論文]中國科技技術大學,2012.5[7]郭仲毅. 基于本體的教育資源個性化語義檢索研究[D]. 內蒙古:[學位論文],內蒙古大學, 2012 .
[8]莫 倩, 張 樹, 王 芳. 面向領域的智能搜索引擎設計與實現[J]. 北京:計算機工程與應用, 2012.
[9]張 靜,唐杰. 下一代搜索引擎的焦點:知識圖譜[J]. 北京: 中國計算機學會通訊, 第 9 卷第 4 期,2013 年 4 月.
[10]鄭文良. 基于簡單本體的農業 P2P 搜索引擎關鍵技術研究[D]. 沈陽:[學位論文], 沈陽農業大學, 2013.6.
[11]朱敏. 基于 HBase 的 RDF 數據存儲與查詢研究[D]. 南京:[學位論文]南京大學, 2013.5.