1 引言
技術創新服務平臺的建設需要智能搜索引擎技術,雖然現階段在互聯網領域搜索引擎眾多,但都是大而全,不是小而精,適用雖然廣泛,但針對性不強,很難提供個性化的、精準的搜索結果。技術創新服務平臺上對搜索引擎的要求,與大眾的搜索引擎的需求還是不同的,處理的對象主要是專業領域的文本,重點在于解決自動語義標注的問題。面對數字資源的有效組織,筆者提出面向知識密集型片段的文本特征獲取和面向網絡的文本內容獲取總體框架和技術,以有效地從結構化的領域專業文本和網絡中的非結構化文本中提取出所需要的知識片段[1 -2].但是,雖然通過文獻[1 -2]中所介紹的技術方法提取出的文本片段能夠反映文本知識的領域特征( 面向知識密集型文本的特征獲?。?和反映最新的描述專業領域知識的情況( 面向網絡的文本內容獲取技術) ,對知識的描述粒度卻過于粗糙,沒有對領域文本的內容進行精細的加工處理,對于知識內容的表現形式也過于簡單,沒有反映文本片段語義信息[3 -4].
為了達到對數字資源進行內容層面理解的目的,需要利用自然語言處理技術對文本片段語料進行深入加工,實施對數字資源的內容語義化,從而支持智能搜索引擎服務。數字資源的內容語義化依賴于組織語義化,即實際上利用自然語言處理相關技術將數字資源標注成語義標簽的形式,達到對資源進行內容語義化的目的[5 -7].
2 問題定義
語義標注是對一組文檔資源進行組織語義化的過程,是利用一個語義概念資源對數字資源上的文本片段進行標引,根據概念實體出現頻次、位置和關系等因素抽取一組語義概念集合用以表現該文本片段的內容語義。語義標注的性能主要依賴于概念知識庫知識是否完備和標注算法的性能是否優良。
問 題 定 義: 依 據 一 組 語 義 概 念 資 源,S ={ P→Q; P∈語義概念集合,Q∈語義概念之間的關系},對文本片段 T = D1,D2,D3{ ,…,D}n進行語義標注,得到用以表現文本片段內容的一組語義索引 R ={ P→T; P∈語義概念集合,T為被標注的文檔 }.
3 技術框架與思路
3. 1 技術總體框架
語義標注所利用的資源是領域的本體知識庫,本體知識庫中提供了概念之間網狀結構的關聯關系,而標注的對象是結構化半結構化的領域文本或者無結構的網絡文本。通過對這些語料的初步預處理和加工,將文本切分成不同大小的領域文本片段,利用本體知識庫中提供的本體知識關系,對切分后的文本資源進行標注,標注后構成的資源作為語義索引,語義索引結構為本體中出現的概念,索引到的內容就是標注的領域資源,語義標注總體框架如圖 1 所示:
3. 2 具體標注思路
語義標注的基本思路是不按照整篇文檔的內容對資源進行索引,一方面是因為整篇文檔對于概念的描述過于寬泛,涉及到概念的很多方面; 另一方面,整篇文檔的語義內容可能涉及到多個概念,不容易將其概括到基本的語義內容上。本文按照段落和句子兩個維度進行語義標注,對段落進行標注時注重整段內容語義的索引,對句子進行標注時主要注重相關概念的提取。
在對數字資源進行標注時,首先要考慮數字資料的來源,一般來說,領域文檔的來源大部分來自經過人工校對過的領域文本,這些文本有著結構化半結構化的特征,標注的信息比較準確; 另一部分數字資源來自網絡領域文本,這部分資源的結構特征并不明顯,標注的語料一般作為參考。然后,對數字資源進行語料加工和處理,形成用以標注的語料。在標注時,使用文本向量空間模型( VSM) 作為領域語料分析的基本模型,其中文檔片段中的相關概念和概念的屬性會被賦予較高的標注權重。標注后的規模領域語料形成語義索引結構,索引的鍵是領域概念及概念的屬性,索引的值是領域文檔的位置、文檔的內容、文檔的語義信息。語義標注一般是一個離線計算的過程,標注后應將領域文本的索引結構以一定的形式保存起來,以供知識檢索。
4 語義標注流程及算法
4. 1 領域標注語料準備
領域語料的來源主要分為知識密集型文本片段和網絡領域文本。其中,知識密集型文本片段在組織上呈現結構化半結構化的特征,內容上對于知識的表述比較專業和規范,對領域內的知識內容闡述準確、全面。知識密集型文本片段的行文組織和內容闡述是有緊密關聯的。文檔結構的特征,如分段、標題、行文結構順序等都和知識的本質表述,如概念之間的包含關系、概念之間的分類關系和概念之間的內在聯系等有著對應的關系。對于網絡領域文本而言,在結構組織上可能比較集中或稀疏,內容上對于知識的表述或者過于集中,未對知識作整體描述; 或者過于概括,對于知識的描述并不準確和規范。其結構上的特征也會反映出對于知識內容描述的結構,比如,在一個領域對于某個概念集中的段落描述,反映的是對這個概念的深入表述,并不側重于對全面知識結構的把握。兩種來源的文本資料結構上各有特點,在內容描述上也是根據結構的不同而有所側重。
知識密集型文本片段的來源主要是領域內的專業內容文本。常見的文本來源是領域知識教材、專業文獻、學術論文等。網絡領域文本的主要來源是網絡上與領域內容相關的文本資源。常見的文本來源有領域專業網站、領域知識綜合性數據庫等。
4. 2 領域標注語料加工
語義標注的文本粒度是按照段落、句子劃分的,因此,要對領域文檔作切分處理,形成對應的段落和句子結構。切分段落的依據是段首的空格、段尾的空白和段與段之間的空行。切分成段落后,以漢字 GBK 編碼中半角或全角格式的句號作為分隔符,將段落切分成句子。
對領域標注語料的加工需要針對領域文本所定制的一些工具,常見的資源有《領域專業概念詞典》、《領域專業切分詞典》和領域本體知識庫等。對于文本資源,首先通過《領域專業切分詞典》對語料內容進行切詞和詞性標注。依據各個領域的不同需求,制定領域內的停用詞表,對切分、標注后的文本做過濾停用詞等相關處理。