藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 新型搜索引擎相似度計算方法的可行性與有效性
新型搜索引擎相似度計算方法的可行性與有效性
>2024-04-01 09:00:00



1引言

作為最重要的互聯網應用之一,搜索引擎是時代的產物,它的出現部分解決了互聯網上信息泛濫所導致的信息檢索困難問題。搜索引擎的類別也由傳統的搜索引擎逐漸衍生出元搜索引擎、垂直搜索引擎、語義搜索引擎及智能搜索引擎等。
近年來,以WalformAlpha、Freebase及DBpedia等新一代搜索引擎為代表的智能搜索引擎引起了人們的極大關注,知識引擎呼之欲出。相似度計算是計算語言學領域的重要研究內容,在信息檢索、文本分類、信息抽取和機器翻譯等領域都得到了廣泛的應用?,F階段對相似度的研究在語句相似度、語義相似度和文本分類等不同的領域均有較為成熟且有效的理論與方法,有力地推進了自然語言理解研究的進展。但不同的相似度計算方法對相似度的側重點不同,難以形成統一的度量標準而不能全面反映對象之間的相似性,很多方面需要人的主觀介入而欠缺客觀性。為克服其不足,本文擬通過對搜索引擎結果的分析研 究探討 基于搜索引擎的相似度計算方法。

2研究現狀

2.1搜索引擎研究現狀

搜索引擎于1990年由Archie推出以來,因其隱含著巨大的商業價值而得到迅猛發展?,F階段的搜索引擎有上千種之多,但人們對搜索引擎的研究往往集中在其商業價值及應用層面上,對其背后的科研價值卻關注不足。搜索結果排序及搜索引擎評測是搜索引擎研究的兩個主要方面。作為搜索引擎評測的重要內容,搜索結果排序算法是搜索引擎的核心。
PageRank作為標識網頁等級的重要方法成就了Google在搜索市場的地位。元搜索引擎的核心也是排序算法?,F階段,互聯網信息的爆炸式增長使得搜索引擎優化、搜索引擎營銷等基于搜索引擎的研究與應用逐漸興起并日趨顯性化。
在搜索引擎結果排序方面,傳統的排序算法如PageR-ank、HITS(Hypertext-InducedTopicSearch)、超鏈分析等已得到比較廣泛的應用,對上述排序算法的改進是搜索引擎排序算法研究的重點,同時也是各大搜索引擎運營商的核心機密?,F有文獻中已有的對搜索引擎排序算法的研究主要是對元搜索引擎排序算法的研究,如謝興生等提出的粒子群算法在元搜索引擎結果優化中的應用、董樂等對元搜索引擎排序融合算法的改進。我們也對元搜索引擎排序建模與算法進行了研究,提出了將成員搜索引擎的市場份額引入元搜索引擎的結果排序中。
在搜索引擎評測方面,彭波等針對搜索引擎檢索系統的質量評估對傳統信息檢索系統評估帶來的新的研究問題,利用Tianwang搜索引擎查詢日志,按類別構造評估查詢集,用人工判別相關性的方法對3個搜索引擎進行了檢索質量評估;Jansen等分析論述了9項對美國和歐洲5個搜索引擎的研究結果,其對搜索引擎的開發及網頁的設計有一定的借鑒;張偉哲等針對分布式搜索引擎系統效能建模與評估問題,通過對當前分布式搜索引擎系統的建模與分類,擴展了能耗與網絡開銷的成本模型,并對5種構建搜索引擎系統的設計方案,從系統成本、系統規模和查詢響應時間等角度進行了詳盡的理論分析與評價。
作為首屈一指的搜索引擎,Google自推出以來受到越來越大的關注。人們已逐漸認識到其巨大商業價值背后隱含的科研價值。Rudi等利用詞匯在Google中的搜索結果,提出了度量兩 個 概 念 間 語 義 距 離 的 新 方 法,命 名 為Google距離。Google距離在語義標注、概念相關度等其他方面已得到了廣泛的應用。搜索引擎的發展極大地改變了人們的觀念,有力地推進了社會變革。在充分挖掘搜索引擎商業潛力的同時,人們也逐漸認識到搜索引擎的科研價值。深入挖掘搜索引擎的商業價值及科研價值,推動科技與經濟的協同發展是當前搜索引擎研究的重要方向之一。

2.2相似度研究現狀

度量相似性最典型的工具是距離,如傳統的歐氏距離、曼氏距離、閔式距離、切氏距離等,包括Google距離在內,上述距離的取值范圍均為[0,∞],不便于直接用于信息檢索領域。
在信息檢索領域,常用的距離度量指標有余弦相似度、Jaccard系數、Dice系數、相關系數等,上述距離的取值范圍均為[0,1]。
此外,漢明距離、馬氏距離、編輯距離等其他距離及各種改進也在實際中得到應用。
在計算語言學中,相似度的研究主要集中在詞法分析及句法分析方面。在詞法分析方面,現有的詞語相似度計算方法主要有基于語義網的方法、基于知網的方法、基于同義詞詞林的方法、基于大規模語料庫的方法、基于本體的方法、基于百度百科的方法以及其他方法。在句法分析方面,現有的語句相似度計算方法主要有基于詞形詞序匹配的方法、使用語義依存的方法、基于模式的方法、多特征融合的方法、基于動態規劃的方法、頻率增強的方法等。對文本相似度的研究由于其固有的復雜性,尚無成熟且公認的理論與方法,是相似度研究的重點與難點。
詞語相似度的計算是語句、文本相似度計算的基礎?!吨W》采用新的數據組織方法處理詞語之間的關聯,符合人們的思維方式,其在詞語相似度中的研究與應用近年來受到人們極大的關注。但與同義詞詞林類似,其詞語是有限的,即只能用于分析處理詞庫中已有詞語之間的相似度,對未登錄詞的處理還有待完善。
從詞語相似度、語句相似度到文本相似度的計算來看,抽象層次越來越高,邏輯關系越來越復雜,相似度的度量也越來越困難。由于搜索引擎是現階段最大的信息源,完全可以考慮在搜索引擎領域研究詞語、語句乃至文本的相似度,這是本文研究的主要動機。

2.3搜索引擎在相似度中的研究現狀

搜索引擎是當下信息檢索的高級形式,搜索引擎的實現從某些方面來說也是基于相似度的,可以將搜索引擎應用于相似性度量中。但自Rudi等提出Google距離而首次將搜索引擎應用于相似性度量以來,對搜索引擎在相似度中的研究與應用還有待深入。
式中,f(Qi)表示在Google中搜索Qi時返回的匹配記錄數;f(Qj)表示在Google中搜索Qj時返回的匹配記錄數;f(Qi,Qj)表示在Google中搜索詞組(Qi,Qj)時返回的匹配記錄數;N表示Google索引的Web頁面數。
NGD(Qi,Qj)是詞條Qi和Qj共現的對稱的條件概率,即假設給定一個頁面含有Qi(或Qj),那么NGD(Qi,Qj)就表示這個頁面同時含有Qj(或Qi)的概率。
顯然,NGD滿足非負性、同一性、對稱性,且與相似度負相關。
NGD對將搜索引擎應用于信息檢索做了有益的探索,它的提出極大地推進了對搜索引擎及自然語言理解等其他領域的研究,但其也存在不足,即不能直接用于度量不同概念之間的相關性及不同概念相對于同一概念相關性的差異等。

3基于搜索引擎的相似度研究與應用

3.1傳統相似度計算方法的缺陷與不足

相似度是個數值,一般取值范圍在[0,1]之間。以最受關注的詞語相似度為例,傳統的詞語相似度計算方法主要有兩類:一類是通過統計語料上下文中詞語之間的相關性來得到其相似性,另一類是基于某種世界知識或者分類體系的方法來得到其相似性。前者主要關注詞語共現,側重于物理相似,后者主要關注詞語語義,側重于邏輯相似。隨著詞語相似度研究的深入,后者得到了越來越多的關注。
基于《知網》的相似度計算方法是根據整體相似度可由部分相似度合成而來的思想,通過尋找兩個詞語義原集合間的最相似元素來進行一一匹配,詞語的相似度就等于各匹配對的加權均值,由于較多的加權值和參數,使得最終的結果或多或少地會帶有一些主觀因素?;谕x詞詞林的相似度計算方法從詞語的語義出發,同時考慮了詞語的相似性和詞語的相關性,并根據詞語的義項在同義詞詞林的位置和編碼計算出詞語的相似度,準確率較基于《知網》的相似度有一定程度的提高。本體、百度百科等其他工具的使用使得相似度的計算日臻完善。
由于《知網》及同義詞詞林均是人工編制的,規模有限,如《知網》僅 包 含96744個 中 文 詞 語,同 義 詞 詞 林 僅 包 含77343個詞語,這相對于海量的詞語來說還是太少,必須在更大的范疇內分析計算相似度,尤其是詞語的相似度。作為最大的信息源及最重要的信息檢索工作,借助搜索引擎基于互聯網信息計算相似度成為相似度計算的另一種選擇。在此方面,Google搜索引擎的使用及百度百科的使用為基于搜索引擎的相似度研究與應用做了有益的嘗試,下面給出基于搜索引擎的相似度計算方案。

3.2一種新的基于搜索引擎的相似度———搜索引擎相似度

鑒于不同搜索市場的實際情況,若直接將NGD用于度量中文、俄文及其他語種詞語之間的相似度顯然不適,需要結合具體情況進行擴展與改進。借鑒集合論中集合相似度的思想,我們定義一種新的基于搜索引擎的相似度計算方法,命名為搜索引擎相似度SES(SearchEngineSimilarity),表述如下:
式中,Qi及Qj意義同上,fSE(Qi∧Qj)表示在搜索引擎SE中含有Qi及Qj的匹配記錄數,fSE(Qi∨Qj)表示在搜索引擎SE中含有Qi或Qj的匹配記錄數。依此類推,可以定義不同搜索引擎的SES。
fSE(Qi∧Qj)及fSE(Qi∨Qj)可以通過搜索引擎的高級應用較為方便地獲取。
顯然SES滿足非負性、同一性、對稱性,且取值范圍為[0,1]。與NGD相比,SES的主要優勢在于計算簡潔,切合常理,可直接用于相似性度量與相似性比較。
我們在文獻[4]中提出將成員搜索引擎的市場份額引入元搜索引擎的結果排序中,這里同樣將搜索引擎的市場份額引入搜索引擎相似度計算中,于是得到搜索引擎相似度SES的具體表達式如下:
式中,n為搜索引擎數目,λk為搜索引擎SEk的市場份額,顯然。由于搜索引擎數量較多,在實際計算中,可以選取有代表性的適當數量的搜索引擎用于計算SES,以降低復雜性。

3.3基于搜索引擎的相似度實驗評測

利用上述相似度計算方法,可以較為簡單地計算出詞語、語句乃至文本的相似性。在上述定義的搜索引擎相似度SES的基礎上,下面給出SES的簡單應用。國內及國外的分析結構與評測機構如Hitwise、SearchEngineWatch等會定期或不定期地發布研究報告,公布各個搜索引擎的市場份額?,F階段全球搜索市場份 額為:谷歌65.2%,百度8.2%,雅虎4.9%,Yandex2.8%,必應2.5%1);全國搜索市場份額為:百度65.7%,360綜合搜索8.7%,搜狗6.2%,谷歌香港4.2%,百度圖片3.9%,搜搜3.3%,谷歌(英文)1.7%,必應1.2%,谷歌中國0.5%,有道搜索0.5%2)??梢葬槍嶋H情況采用不同的搜索引擎相似度計算方案,如在全球范圍內選用所列舉的5個搜索引擎或在全國范圍內選用所。
列舉的全部或部分搜索引擎計算搜索引擎相似度等。在全國范圍內,選用足夠數量的搜索引擎固然可以得到較好的結果,綜合考慮實際情況及其他因素,此處選用的搜索引擎及對應的市場份額為:百度69.6%(包括百度圖片),360綜合搜索8.7%,搜狗6.2%,谷歌香港6.4%(包括谷歌(英文)及谷歌中國),搜搜3.3%,必應1.2%,有道搜索0.5%,共7個。
由于語句及文本尚無公認的測試集且缺乏統一的評測標準,這里選用一些公開發表的且具有代表性的基于《知網》的詞語相似度研究成果進行對比。
表1是本文提出的相似度計算方法與文獻[12]等其他文獻中的相似度計算結果對比表。從表中可以看出,選用的測試詞語對的相似度計算結果符合常理,精度高,可信度高,能較全面地反映詞語之間的相似性,與參與對比的其他方法相比有一定的優勢,可以直接或改進后應用于詞語的相似性度量中。
需要說明的是,大部分搜索引擎幾乎實現了實時更新,搜索引擎結果隨之也在動態變化,采用上述方法在不同時刻相似度計算的結果會略有不同,但差別不大。
另外,本文提出的相似性度量方法的主要不足在于未考慮到各搜索引擎結果的重要性差別。由于各個搜索引擎結果的重要性并不對等,且作為搜索引擎基礎數據的分詞庫及相應的算法并不完全相同,單純地采用搜索結果交集基數的對數值與并集基數的對數值的比值作為對象相似度的評價標準還有待后續改進,而且對一些敏感詞匯的處理也需要進一步完善。盡管如此,本文所提出的方法能夠充分利用搜索引擎信息豐富、與時俱進的優勢,采用簡潔但合理的方法度量對象之間的相似性,對研究詞語、語句和文本等概念及對象之間的關聯有一定的借鑒意義。
結束語針對現有相似性度量方法的局限即不能全面反映詞語、語句乃至文本之間的相似性,基于搜索引擎提出了一種新的相似性度量方法,其計算方便、簡單,能夠較為客觀、合理地度量概念之間的相似性,可以應用于詞語、語句及文本的相似性度量中。實驗結果表明,該相似度計算方法與其他方法相比有一定的優勢。由于語句并是詞語的簡單堆砌,文本并不是語句的簡單羅列,對該方法在語句及文本相似性度量中的應用與推廣尚需進一步深入研究。

參 考 文 獻
[1]BizeraC,LehmannbJ,KobilarovaG,etal.DBpedia-ACrystalli-zationPointfortheWebofData[C]∥ProceedingsofWebSe-mantics:Science,ServicesandAgentsontheWorldWideWeb.2009:154-165
[2] 謝興生,張國梁,李斌.利用粒子群算法優化多源檢索融合結果的方法[J].模式識別與人工智能,2012,25(3):527-533
[3] 董樂,謝紅薇.元搜索引擎中排序融合算法的優化研究[J].計算機應用與軟件,2012,29(10):188-190
[4] 劉勝久,李天瑞,賈真,等.元搜索引擎排序方法建模與算法研究[J].計算機科學,2012,39(11A):197-199
[5] 彭波,閆宏飛.搜索引擎檢索系統質量評估[J].計算機研究與發展,2005,42(10):1706-1711
[6]JansenBJ,SpinkA.HowareWeSearchingtheWorldWideWeb?AComparisonofNineSearchEngineTransactionLogs[J].InformationProcessingandManagement,2006,42(1):248-263
[7] 張偉哲,張宏莉,許笑,等.分布式搜索引擎系統效能建模與評價[J].軟件學報,2012,23(2):253-265
[8]RudiL,PaulMB.TheGooglesimilaritydistance[J].IEEETransactionsonKnowledgeandDataEngineering,2007,19(3):370-383
[9] 張玉芳,艾東梅,黃濤,等.結合編輯距離和Google距離的語義標注方法[J].計算機應用研究,2010,27(2):555-557
[10]連宇,彭進業,謝紅梅,等.基于Google與KL距離的概念相關度算法[J].計算機工程,2011,37(19):291-292
[11]劉群,李素建.基于《知網》的詞匯語義相似度的計算[C]∥第三屆漢語詞匯語義學研討會.中國臺北。2002
[12]李峰,李芳.中文詞語語義相似度計算———基于《知網》2000[J].中文信息學報,2007,21(3):99-105
[13]荀恩東,顏偉.基于語義網計算英語詞語相似度[J].情報學報,2006,25(1):43-48
[14]劉青磊,顧小豐.基于《知網》的詞語相似度算法研究[J].中文信息學報,2010,24(6):31-36
[15]田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報:信息科學版,2010,28(6):602-608
[16]石靜,吳云芳,邱立坤,等.基于大規模語料庫的漢語詞義相似度計算方法[J].中文信息學報,2013,27(1):1-6
[17]劉宏哲.一種基于本體的句子相似度計算方法[J].計算機科學,2013,40(1):251-256
[18]詹志建,梁麗娜,楊小平.基于百度百科的詞語相似度計算[J].計算機科學,2013,40(6):199-202
[19]魯松,白碩.詞距離的計算方法[M].北京:清華大學出版社,2001
[20]呂學強,任飛亮,黃志丹,等.句子相似模型和最相似句子查找算法[J].東北大學學報:自然科學版,2003,24(6):531-534
[21]李彬,劉挺,秦兵,等.基于語義依存的漢語句子相似度計算[J].計算機應用研究,2003,20(12):15-17
[22]王榮波,池哲儒.基于詞類串的漢語句子結構相似度計算方法[J].中文信息學報,2004,19(1):21-29
[23]張培穎.多特征融合的語句相似度計算模型[J].計算機工程與應用,2010,46(26):136-137
[24]馮凱,王小華,諶志群.基于動態規劃的漢語句子相似度算法[J].計算機工程,2013,39(2):220-224
[25]廖志芳,邱麗霞,謝岳山,等.一種頻率增強的語句語義相似度計算[J].湖南大學學報:自然科學版,2013,40(2):82-88
[26]金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學學報,2005,45(2):291-297[27]董振東,董強.《知網》[P].

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观