藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 基于句法結構分析的同義詞識別方法研究
基于句法結構分析的同義詞識別方法研究
>2023-10-14 09:00:00

【摘要】針對同義詞識別方法中因重心后移造成的語義相似度計算偏差問題,提出一種基于句法結構分析的同義詞識別方法。首先采用句法結構分析方法處理需要做同義詞識別的詞(或短語) ,然后基于同義詞詞林來計算詞(或短語) 間的相似度。該方法等價地分析詞(或短語) 中的各個原子詞,從而消除重心后移方法所造成的識別偏差。實驗證明,該同義詞識別方法性能良好,具有較高的可行性,可以為文本挖掘和語義檢索領域提供新思路。

【關鍵詞】同義詞識別 句法結構分析 文本挖掘。

1 引 言

當前的知識經濟時代下,利用計算機提高組織的知識管理水平,必須有高效的文本挖掘方法和算法。文本挖掘在知識管理領域有廣闊的應用前景,是管理學界的研究熱點之一。同義詞識別是進行文本挖掘的基礎技術之一,其主要任務是: 對于給定的兩個詞(或短語) ,自動計算兩者的語義相似度。

本文在分析中文同義詞識別方法研究現狀的基礎之上,提出了一種新的同義詞識別方法,引入句法結構分析方法,解決因語義相似度計算的重心后移所造成的同義詞識別偏差問題。需要說明的是,本文的同義詞識別均指中文同義詞的語義相似度識別,包括中文詞和短語的識別。

2 研究現狀

中文同義詞識別方法大體上可以分為兩類: 基于漢語構詞的識別方法和基于語義的識別方法。

(1) 基于漢語構詞的識別方法的基礎假設和主要思想是: 漢語構詞的特征是意義相同或相近的詞語大多包含相同的字; 且復合詞的中心詞一般在后面,中心詞由復合詞中的其他詞素層層限定。國內對此方法的研究比較成熟,如文獻[1,2]等?;跐h語構詞的識別方法操作簡便、識別效率尚可,是一種較為經濟的方法。但是,這類方法往往強調構詞的重心后移規律,限定了方法的適用范圍,不能用來識別短句之間的語義相似度。

(2) 基于語義的識別方法比較成熟,應用也較廣泛。劉群等[3]提出了一種基于 HowNet 的詞匯語義相似度計算方法; 朱毅華等[4]基于語義計算詞匯間的相似度,用來提高搜索引擎的檢索效率; 王蘭成等[5]和余剛等[6]改進了基于語義的識別方法,修改了詞表結構,強調語義相同或相近的詞或短語即可視為同義詞; 穗志方等[7]利用同義詞詞林來計算詞語間的語義相似度,主要解決表示主題概念的非規范詞語向主題詞轉化過程中的詞匯轉化問題; 田久樂等[8]分析并利用同義詞詞林的編碼結構特點,考慮詞語的相似性和相關性,設計了一種改進的語義相似度識別方法; 于娟等[9]先把領域術語切分為原子詞詞素,然后利用同義詞詞林判斷來自兩個術語的詞素是否都同義,從而判斷領域術語是否同義等。以上文獻分析詞相關性或相近性特點,往往局限于同義詞典的性能,且沒有對基于語義的識別方法中因重心后移規律帶來的同義詞識別偏差問題進行改進研究。

為解決上述問題,對基于語義的同義詞識別方法加以改進: 首先采用句法結構分析方法處理需要做同義詞識別的詞(或短語) ,然后基于同義詞詞林來計算詞(或短語) 間的相似度。該方法等價地分析詞(或短語) 中的各個原子詞,從而消除了重心后移方法所造成的識別偏差。

3 方法描述

本文提出的基于句法結構分析的同義詞識別方法,主要步驟是:

(1) 將要做同義詞識別的詞(或短語) 預處理為標準化文本,分別進行詞語切分和詞性標注處理,即依據詞性和《哈工大停用詞表》[10]去除那些不可能構詞的詞素(如"啊"、"哎呀"、"需要"等) ,生成標準化的文本;(2) 對標準化文本進行句法結構分析,建立文本依存關系集合,形成含信息結構的文本;(3) 對同義詞詞林做無用行刪除處理,生成標準詞林;(4) 把含信息結構的文本和標準詞林作為輸入,計算兩個文本的相似度,并生成相似度集合。

該方法的框架如圖 1 所示:

(1) 詞語切分與詞性標注處理模塊遍歷每一個文本,將其切分為單個詞語,并在相應位置標注詞性;(2) 句法結構分析處理模塊對經過詞性標注后的文本進行句法結構分析,生成含依存關系信息的文本;(3) 同義詞詞林清理模塊首先遍歷同義詞詞林,刪除對同義詞識別意義不大的行,然后尋找單個詞語對應在同義詞詞林中的編碼;(4) 語義相似度計算模塊對經過句法結構分析的文本進行相似度計算。

4 方法實現

4.1 預處理。

該模塊將初始輸入的詞(或短語) 標準化成統一的文本對,主要是去除圖片、公式、數字等無法自動處理的元素,以及空行、換行符等無意義的符號,輸出的標準文本中僅保留漢語字和標點符號。

本文對標準化文本的格式要求是半角標點符號統一改為全角符號,例 1 是初始輸入的文本對,例 2 是經過預處理后的標準文本對,該文本對不具有特殊性。

例 1 "中國 1 進口@ 設備"與"國家引 進技術設備".

例 2 "中國進口設備"與"國家引進技術設備".

4.2 詞語切分與詞性標注。

該模塊主要將文本進行詞語切分,并標注每個詞的一級詞性,根據詞性和《哈工大停用詞表》[10]對文本進行過濾處理。詞語切分是先掃描文本,將其切分為詞語的自然語言處理技術。本文使用的是中國科學院計算技術研究所研發的 ICTCLAS 系統[11,12],該系統的分詞正確率高達 97%.

經過分詞與詞性標注后,過濾處理分兩步刪除那些一般不參與組合成詞的詞素,輸出結果為由構成詞的詞語組成的一組詞串的集合對:

(1) 首先根據詞語詞性刪除無法構詞的詞語,即將標注為特定詞性的詞刪除。本文設定的特定詞性包含量詞、嘆詞等,具體參考文獻[9],依據文獻[9]中表 2 的特定詞性,可以對例1 和例2 的文本對進行刪除處理。

(2) 過濾處理,即將第(1) 步處理的文本對再依據《哈工大停用詞表》,刪除那些一般不構成詞的詞素,由此生成新的詞素串的文本對。其中,《哈工大停用詞表》中的詞含有第(1) 步特定詞性的詞,也含有其他詞性的詞,如,作為(v) 、照(v) 、有關(v) 等。例 2 標準文本對經過該模塊處理后生成標準純文本對,如下所示:

例 3 "中國/n 進口/v 設備/n"與"國家/n 引進/v 技術/n 設備/n".

4.3 句法結構分析。

句法結構分析模塊基于文法依存原理,根據文本詞性來分析文本語言單位內成分之間的依存關系,揭示出其句法結構。本文認為: 句子中核心的詞性是動詞,動詞是支配其他詞性成分的中心成分,而它本身卻不受其他任何詞性成分的支配,并且與上下文環境無關,所有受支配成分都以某種依存關系從屬于動詞詞性成分[13,14].

在這一模塊,使用了哈爾濱工業大學社會計算與信息檢索研究中心的中文依存句法分析方法[15],該方法能夠深入分析語言的內部結構,并根據詞性標注信息,從大規模依存樹庫中獲取詞匯依存信息,建立一個詞匯化的概率分析模型,進而生成句子中的依存結構信息。利用該方法研究有標記依存弧的準確率為75% 左右,無標記依存弧的準確率為 80% 左右。

例 3 經過依存句法分析后,生成的依存結構分析結果如圖 2 所示:
由圖 2,加上關系集合為 DGL (D) ,< EOS > 為空頂點,則可以得出句法結構關系分別如下所示:

DGL (D) = { (引進,國家) ,(< EOS > ,引進) ,(引進,技術) ,(技術,設備) }

DGL (D) = { (進口,中國) (< EOS > ,進口) ,(進口,設備) }

4.4 同義詞詞林清理。

同義詞詞林是一部對漢語詞匯按語義全面分類的詞典,收錄近 7 萬詞語。該部詞典主要根據漢語的特點和使用原則,確定了詞分類原則: 以詞義為主,兼顧詞類,并充分注意題材的集中,將詞義分為大類、中類和小類三級,共 12 個大類。

同義詞詞林清理模塊,從頭到尾遍歷同義詞詞林,并分兩步刪除無用行: 刪除行編碼含有"@ "的字符,表示這一行沒有同義詞存在; 刪除行編碼的第一個字母含有"J"、"K"和"L"的行,在同義詞詞林中,行編碼的第一個字母含有"J"、"K"和"L"分別代表關聯類、助語類和敬語類,這三類詞一般不構成關鍵詞。該模塊將同義詞詞林生成為標準詞林,具體舉例描述如表1 所示:

將例 3 生成的關系集合 DGL(D) 中的每個詞語在標準詞林中找到對應的語義編碼,如下所示:

DGL (D ) = { (Hi16B01,Di02A27 ) ,(< EOS > ,Hi16B01) ,(Hi16B01,De04B07) ,(De04B07,Ba05B01) }

DGL (D ) = { (Cb20D01,Di02A03 ) (< EOS > ,Cb20D01) ,(Cb20D01,Ba05B01) }

4.5 語義相似度計算。

上述模塊將初始輸入的文本對處理為含有語義編碼的關系集合。本模塊主要是根據語義編碼來計算文本對的相似度。該計算方法的設計基于語義編碼距離,計算公式如下:

該算法對于搭配對匹配的總權數有如下定義:

(1) 假設有兩個有效搭配對: ① W1_ W2和② W1'_ W2',且兩者語義距離最相近,有效搭配對語義距離計算過程主要是: 先選定主參照的一個搭配對,然后遍歷參照文本塊中的每一個搭配對,分別根據標準詞林計算它們的評價語義距離值,選擇值最小的作為這個搭配對的有效搭配對;(2) 如果 W1= W1'且 W2= W2'則搭配對①和搭配對②的匹配權重為 1,這里"= "表示意義相近和相關; 如果 W1、W1'和 W2、W2'意義都不相近也不相關,則取兩者的語義距離之和的平均數作為匹配權重;(3) 如果 W1≠ W1'且 W2= W2'或者 W1= W1'但W2≠ W2',則搭配對①和搭配對②的匹配權重為 1 與另一對語義距離兩者之和的平均數,否則原理同上。

同理,上述幾點也適用于搭配對 ① W1_ W2_ W3和② W1'_ W2'_ W3',需要注意的是: 當其中對應一個位置意義等價,其余不等價時,兩者的匹配權重為 1 與其余兩對語義距離這三者之和的平均數; 當其中對應兩個位置意義等價,其余不等價時,兩者的匹配權重為2 與其余一對語義距離這三者之和的平均數,本文重點研究的是類似 W1_ W2和 W1'_ W2'這樣搭配對的計算,出現三個詞的情況比較少,對這種情況不做研究。

例 1 所示文本對的語義相似度利用本文的方法計算結果如下:
觀察公式計算過程,可以看出本文提出的計算方法未引入重心后移規律的計算規則,而是在計算文本對相似度時,平等賦予各個詞語權重。如此,能有效克服基于語義的同義詞識別方法中的重心后移規律帶來的同義詞識別偏差問題。

5 實驗結果及分析

目前國內尚未出現測評同義詞識別方法的金標準。為驗證本文提出的新方法的可行性和合理性,基于網絡檢索技術設計了一種同義詞識別方法的實驗系統,比較了基于漢語構詞的識別方法[1](簡稱"漢語構詞法") 、基于語義的識別方法[7](簡稱"語義方法") 和本文提出的基于句法結構分析的同義詞識別方法(簡稱"本文方法") .該實驗系統運行步驟為:

(1) 根據輸入的主題句,通過網絡檢索系統(如Baidu、SOSO 等) 獲取相關主題和對應的主題摘要;(2) 采用三種同義詞識別方法分別計算主題及主題摘要與主題句的相似度值,并按值的降序顯示;(3) 人工對顯示出來的每條檢索信息進行滿意度評價,給出評價值,本文滿意度評價分 4 個等級: 1 表示不相關,2 表示相關但不相近,3 表示相近,4 表示等價;(4) 綜合平均相似度值和平均滿意度值判斷方法的性能。

其中,主題句與某一檢索詞條的相似度由主題句與主題的相似度、主題句與主題摘要的相似度兩部分組成。假設主題語句與一檢索詞條的相似度值為SiMM,則: SiMM = aA1 + bA2,其中 A1 表示檢索主題與主題文本的相似度值,A2 表示檢索主題與主題摘要文本的相似度值,a 和 b 分別代表各部分的權重,本文設a 為 6,b 為 4.

隨機選取 4 組實驗數據進行測試,分別是主題"國家技術設備引進,這一舉措將會大大促進國內經濟的發展"、"在當代,愛因斯坦是一個才華出眾的人"、"2012 年 9 月 6 日星期四倫敦奧運會,劉翔摔倒退賽,代言上市公司或受影響"和"大密度立體化軍演排山倒海,解放軍四大軍區加緊備戰"作為測試數據。利用SOSO 檢索引擎工具進行檢索,并分別選擇檢索結果的前 100 條數據進行同義識別和性能分析,實驗系統如圖 3 所示,實驗結果如表 2 所示。

從表 2 可以看出,總體上,本文方法比已有的基于漢語構詞的識別方法和基于語義的識別方法在網絡檢索系統的同義詞識別方面的效果更優良。不管是從平均 SiMM,還是從人工平均滿意度值來看,本文提出的基于句法結構分析的同義詞識別方法均表現更令人滿意。

6 結 語

針對基于語義的同義詞識別方法中重心后移造成的識別偏差問題,提出了一種基于句法結構分析的同義詞識別方法。采用句法結構分析方法對詞和短語中的原子詞進行等價分析,不存在計算權重問題,從而克服了因重心后移帶來的同義詞識別偏差問題,使得本文提出的方法具有較好的同義詞識別效果。實驗證明該方法更符合人的主觀判斷、更有效。

未來研究將繼續完善句法結構分析方法,改進方法的流程,進一步提高同義詞識別效果,使同義詞識別自動化程度更高。

參考文獻:

[1]宋明亮。 漢語詞匯字面相似度性原理與后控制詞表動態維護研究[J].情報學報,1996,15(4) : 261 -271.(Song Mingliang.Research on Principle of Literal Similarity Among Chinese Wordsand Maintaining Post - controlled Vocabulary[J].Journal of theChina Society for Scientific and Technical Information,1996,15(4) : 261 -271.)。
[2]王源,吳曉濱,涂從文,等。 后控規范的計算機處理[J].現代圖書情報技術,1993(2) : 4 - 7.(Wang Yuan,Wu Xiaobin,TuCongwen,et al.Computer Processing of Post - control Indexing[J].New Technology of Library and Information Service,1993(2) : 4 -7.)。
[3]劉群,李素建。 基于《知網》的詞匯語義相似度計算[EB/OL].
[2013 -08 - 22].(Liu Qun,Li Sujian.Word Similarity Computing Based on How-Net [EB / OL].[2013 - 08 - 22].)。
[4]朱毅華,侯漢清,沙印亭。 計算機識別漢語同義詞的兩種算法比較和測評[J].中國圖書館學報,2002,28(4) : 82 - 85. (Zhu Yihua,Hou Hanqing,Sha Yinting.A Comparison of TwoAlgorithms for Computer Recognition of Chinese Synonyms[J].Journal of Library Science in China,2002,28(4) : 82 - 85.)。
[5]王蘭成,李超。 改進的中文同義詞相似匹配方法[J].中國圖書館學報,2005,31(3) : 61 - 64.(Wang Lancheng,Li Chao.An Improved Chinese Synonym Similarity Matching Method[J].Journal of Library Science in China,2005,31(3) : 61 - 64.)。
[6]余剛,裴仰軍,朱征宇,等。 基于詞匯語義計算的文本相似度研究[J].計算機工程與設計,2006,27(2) : 241 - 244.(YuGang,Pei Yangjun,Zhu Zhengyu,et al.Research of Text Simi-larity Based on Word Similarity Computing[J].Computer Engi-neering and Design,2006,27(2) : 241 - 244.)。
[7]穗志方,俞士汶。 主題概念規范化研究中的自然語言處理策略[EB/OL].[2013 -08 -22].(Sui Zhi-fang,Yu Shiwen.Natural Language Processing Strategy in theStandardization of Theme Concepts[EB / OL].[2013 - 08 - 22].)。
[8]田久樂,趙蔚。 基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報: 信息科學版,2010,28(6) : 602 -608.(Tian Ji-ule,Zhao Wei.Words Similarity Algorithm Based on Tongyici Ci-lin in Semantic Web Adaptive Learning System[J].Journal of Ji-lin University: Information Science Edition,2010,28 (6 ) : 602 -608.)。
[9]于娟,黨延忠。 結合詞性分析與串頻統計的詞語提取方法[J].系統工程理論與實踐,2010,30 (1) : 105 - 111.(YuJuan,Dang Yanzhong.Chinese Term Extraction Based on POSAnalysis & String Frequency [J].Systems Engineering-Theory &Practice,2010,30(1) : 105 - 111.)。
[10]哈爾濱工業大學社會計算與信息檢索研究中心。 哈工大停用詞表 [EB/OL].[2013 - 05 - 30].(Research Center for Social Computing and Information Retrieval,Harbin Institute of Technology.StopWords List[EB / OL].[2013- 05 - 30]. )。
[11]張華平,劉群。 基于 N - 最短路徑方法的中文詞語粗分模型[J].中文信息學報,2002,16(5) : 1 - 7.(Zhang Huaping,Liu Qun.Model of Chinese Words Rough Segmentation Based onN - Shortest - Paths Method[J].Journal of Chinese InformationProcessing,2002,16(5) : 1 - 7.)。
[12]劉群,張華平,俞鴻魁,等。 基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展,2004,41(8) : 1421 - 1429.(LiuQun,Zhang Huaping,Yu Hongkui,et al.Chinese Lexical Analy-sis Using Cascaded Hidden Markov Model[J].Journal of Comput-er Research and Development,2004,41(8) : 1421 - 1429.)。
[13]張艷。 漢語句法分析的理論方法的研究及其應用[D].北京:中國科學院自動化研究所,2003.(Zhang Yan.Research andIts Application of Chinese Syntactic Analysis Theoretical Methods[D].Beijing: Institute of Automation,Chinese Academy of Sci-ences,2003.)。
[14]Liu T,Ma J,Li S.Building a Dependency Treebank for ImprovingChinese Parser[J].Journal of Chinese Language and Computing,2006,16(4) : 207 - 224.
[15]哈爾濱工業大學社會計算與信息檢索研究中心。 中文依存句法分析[EB/OL].[2013 - 01 - 16].(Research Center for Social Computing and Information Retrieval,Harbin Institute of Technology.Chinese Dependency Parser[EB /OL].[2013 - 01 - 16].

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观