新型搜索引擎相似度計算方法的可行性與有效性-藏刊網

１引言

作為最重要的互聯網應用之一，搜索引擎是時代的產物，它的出現部分解決了互聯網上信息泛濫所導致的信息檢索困難問題。搜索引擎的類別也由傳統的搜索引擎逐漸衍生出元搜索引擎、垂直搜索引擎、語義搜索引擎及智能搜索引擎等。
近年來，以ＷａｌｆｏｒｍＡｌｐｈａ、Ｆｒｅｅｂａｓｅ及ＤＢｐｅｄｉａ等新一代搜索引擎為代表的智能搜索引擎引起了人們的極大關注，知識引擎呼之欲出。相似度計算是計算語言學領域的重要研究內容，在信息檢索、文本分類、信息抽取和機器翻譯等領域都得到了廣泛的應用?，F階段對相似度的研究在語句相似度、語義相似度和文本分類等不同的領域均有較為成熟且有效的理論與方法，有力地推進了自然語言理解研究的進展。但不同的相似度計算方法對相似度的側重點不同，難以形成統一的度量標準而不能全面反映對象之間的相似性，很多方面需要人的主觀介入而欠缺客觀性。為克服其不足，本文擬通過對搜索引擎結果的分析研究探討基于搜索引擎的相似度計算方法。

２研究現狀

２．１搜索引擎研究現狀

搜索引擎于１９９０年由Ａｒｃｈｉｅ推出以來，因其隱含著巨大的商業價值而得到迅猛發展?，F階段的搜索引擎有上千種之多，但人們對搜索引擎的研究往往集中在其商業價值及應用層面上，對其背后的科研價值卻關注不足。搜索結果排序及搜索引擎評測是搜索引擎研究的兩個主要方面。作為搜索引擎評測的重要內容，搜索結果排序算法是搜索引擎的核心。
ＰａｇｅＲａｎｋ作為標識網頁等級的重要方法成就了Ｇｏｏｇｌｅ在搜索市場的地位。元搜索引擎的核心也是排序算法?，F階段，互聯網信息的爆炸式增長使得搜索引擎優化、搜索引擎營銷等基于搜索引擎的研究與應用逐漸興起并日趨顯性化。
在搜索引擎結果排序方面，傳統的排序算法如ＰａｇｅＲ－ａｎｋ、ＨＩＴＳ（Ｈｙｐｅｒｔｅｘｔ－ＩｎｄｕｃｅｄＴｏｐｉｃＳｅａｒｃｈ）、超鏈分析等已得到比較廣泛的應用，對上述排序算法的改進是搜索引擎排序算法研究的重點，同時也是各大搜索引擎運營商的核心機密?，F有文獻中已有的對搜索引擎排序算法的研究主要是對元搜索引擎排序算法的研究，如謝興生等提出的粒子群算法在元搜索引擎結果優化中的應用、董樂等對元搜索引擎排序融合算法的改進。我們也對元搜索引擎排序建模與算法進行了研究，提出了將成員搜索引擎的市場份額引入元搜索引擎的結果排序中。
在搜索引擎評測方面，彭波等針對搜索引擎檢索系統的質量評估對傳統信息檢索系統評估帶來的新的研究問題，利用Ｔｉａｎｗａｎｇ搜索引擎查詢日志，按類別構造評估查詢集，用人工判別相關性的方法對３個搜索引擎進行了檢索質量評估；Ｊａｎｓｅｎ等分析論述了９項對美國和歐洲５個搜索引擎的研究結果，其對搜索引擎的開發及網頁的設計有一定的借鑒；張偉哲等針對分布式搜索引擎系統效能建模與評估問題，通過對當前分布式搜索引擎系統的建模與分類，擴展了能耗與網絡開銷的成本模型，并對５種構建搜索引擎系統的設計方案，從系統成本、系統規模和查詢響應時間等角度進行了詳盡的理論分析與評價。
作為首屈一指的搜索引擎，Ｇｏｏｇｌｅ自推出以來受到越來越大的關注。人們已逐漸認識到其巨大商業價值背后隱含的科研價值。Ｒｕｄｉ等利用詞匯在Ｇｏｏｇｌｅ中的搜索結果，提出了度量兩個概念間語義距離的新方法，命名為Ｇｏｏｇｌｅ距離。Ｇｏｏｇｌｅ距離在語義標注、概念相關度等其他方面已得到了廣泛的應用。搜索引擎的發展極大地改變了人們的觀念，有力地推進了社會變革。在充分挖掘搜索引擎商業潛力的同時，人們也逐漸認識到搜索引擎的科研價值。深入挖掘搜索引擎的商業價值及科研價值，推動科技與經濟的協同發展是當前搜索引擎研究的重要方向之一。

２．２相似度研究現狀

度量相似性最典型的工具是距離，如傳統的歐氏距離、曼氏距離、閔式距離、切氏距離等，包括Ｇｏｏｇｌｅ距離在內，上述距離的取值范圍均為［０，∞］，不便于直接用于信息檢索領域。
在信息檢索領域，常用的距離度量指標有余弦相似度、Ｊａｃｃａｒｄ系數、Ｄｉｃｅ系數、相關系數等，上述距離的取值范圍均為［０，１］。
此外，漢明距離、馬氏距離、編輯距離等其他距離及各種改進也在實際中得到應用。
在計算語言學中，相似度的研究主要集中在詞法分析及句法分析方面。在詞法分析方面，現有的詞語相似度計算方法主要有基于語義網的方法、基于知網的方法、基于同義詞詞林的方法、基于大規模語料庫的方法、基于本體的方法、基于百度百科的方法以及其他方法。在句法分析方面，現有的語句相似度計算方法主要有基于詞形詞序匹配的方法、使用語義依存的方法、基于模式的方法、多特征融合的方法、基于動態規劃的方法、頻率增強的方法等。對文本相似度的研究由于其固有的復雜性，尚無成熟且公認的理論與方法，是相似度研究的重點與難點。
詞語相似度的計算是語句、文本相似度計算的基礎?！吨W》采用新的數據組織方法處理詞語之間的關聯，符合人們的思維方式，其在詞語相似度中的研究與應用近年來受到人們極大的關注。但與同義詞詞林類似，其詞語是有限的，即只能用于分析處理詞庫中已有詞語之間的相似度，對未登錄詞的處理還有待完善。
從詞語相似度、語句相似度到文本相似度的計算來看，抽象層次越來越高，邏輯關系越來越復雜，相似度的度量也越來越困難。由于搜索引擎是現階段最大的信息源，完全可以考慮在搜索引擎領域研究詞語、語句乃至文本的相似度，這是本文研究的主要動機。

２．３搜索引擎在相似度中的研究現狀

搜索引擎是當下信息檢索的高級形式，搜索引擎的實現從某些方面來說也是基于相似度的，可以將搜索引擎應用于相似性度量中。但自Ｒｕｄｉ等提出Ｇｏｏｇｌｅ距離而首次將搜索引擎應用于相似性度量以來，對搜索引擎在相似度中的研究與應用還有待深入。

式中，ｆ（Ｑｉ）表示在Ｇｏｏｇｌｅ中搜索Ｑｉ時返回的匹配記錄數；ｆ（Ｑｊ）表示在Ｇｏｏｇｌｅ中搜索Ｑｊ時返回的匹配記錄數；ｆ（Ｑｉ，Ｑｊ）表示在Ｇｏｏｇｌｅ中搜索詞組（Ｑｉ，Ｑｊ）時返回的匹配記錄數；Ｎ表示Ｇｏｏｇｌｅ索引的Ｗｅｂ頁面數。
ＮＧＤ（Ｑｉ，Ｑｊ）是詞條Ｑｉ和Ｑｊ共現的對稱的條件概率，即假設給定一個頁面含有Ｑｉ（或Ｑｊ），那么ＮＧＤ（Ｑｉ，Ｑｊ）就表示這個頁面同時含有Ｑｊ（或Ｑｉ）的概率。
顯然，ＮＧＤ滿足非負性、同一性、對稱性，且與相似度負相關。
ＮＧＤ對將搜索引擎應用于信息檢索做了有益的探索，它的提出極大地推進了對搜索引擎及自然語言理解等其他領域的研究，但其也存在不足，即不能直接用于度量不同概念之間的相關性及不同概念相對于同一概念相關性的差異等。

３基于搜索引擎的相似度研究與應用

３．１傳統相似度計算方法的缺陷與不足

相似度是個數值，一般取值范圍在［０，１］之間。以最受關注的詞語相似度為例，傳統的詞語相似度計算方法主要有兩類：一類是通過統計語料上下文中詞語之間的相關性來得到其相似性，另一類是基于某種世界知識或者分類體系的方法來得到其相似性。前者主要關注詞語共現，側重于物理相似，后者主要關注詞語語義，側重于邏輯相似。隨著詞語相似度研究的深入，后者得到了越來越多的關注。
基于《知網》的相似度計算方法是根據整體相似度可由部分相似度合成而來的思想，通過尋找兩個詞語義原集合間的最相似元素來進行一一匹配，詞語的相似度就等于各匹配對的加權均值，由于較多的加權值和參數，使得最終的結果或多或少地會帶有一些主觀因素?；谕x詞詞林的相似度計算方法從詞語的語義出發，同時考慮了詞語的相似性和詞語的相關性，并根據詞語的義項在同義詞詞林的位置和編碼計算出詞語的相似度，準確率較基于《知網》的相似度有一定程度的提高。本體、百度百科等其他工具的使用使得相似度的計算日臻完善。
由于《知網》及同義詞詞林均是人工編制的，規模有限，如《知網》僅包含９６７４４個中文詞語，同義詞詞林僅包含７７３４３個詞語，這相對于海量的詞語來說還是太少，必須在更大的范疇內分析計算相似度，尤其是詞語的相似度。作為最大的信息源及最重要的信息檢索工作，借助搜索引擎基于互聯網信息計算相似度成為相似度計算的另一種選擇。在此方面，Ｇｏｏｇｌｅ搜索引擎的使用及百度百科的使用為基于搜索引擎的相似度研究與應用做了有益的嘗試，下面給出基于搜索引擎的相似度計算方案。

３．２一種新的基于搜索引擎的相似度———搜索引擎相似度

鑒于不同搜索市場的實際情況，若直接將ＮＧＤ用于度量中文、俄文及其他語種詞語之間的相似度顯然不適，需要結合具體情況進行擴展與改進。借鑒集合論中集合相似度的思想，我們定義一種新的基于搜索引擎的相似度計算方法，命名為搜索引擎相似度ＳＥＳ（ＳｅａｒｃｈＥｎｇｉｎｅＳｉｍｉｌａｒｉｔｙ），表述如下：

式中，Ｑｉ及Ｑｊ意義同上，ｆＳＥ（Ｑｉ∧Ｑｊ）表示在搜索引擎ＳＥ中含有Ｑｉ及Ｑｊ的匹配記錄數，ｆＳＥ（Ｑｉ∨Ｑｊ）表示在搜索引擎ＳＥ中含有Ｑｉ或Ｑｊ的匹配記錄數。依此類推，可以定義不同搜索引擎的ＳＥＳ。
ｆＳＥ（Ｑｉ∧Ｑｊ）及ｆＳＥ（Ｑｉ∨Ｑｊ）可以通過搜索引擎的高級應用較為方便地獲取。
顯然ＳＥＳ滿足非負性、同一性、對稱性，且取值范圍為［０，１］。與ＮＧＤ相比，ＳＥＳ的主要優勢在于計算簡潔，切合常理，可直接用于相似性度量與相似性比較。
我們在文獻［４］中提出將成員搜索引擎的市場份額引入元搜索引擎的結果排序中，這里同樣將搜索引擎的市場份額引入搜索引擎相似度計算中，于是得到搜索引擎相似度ＳＥＳ的具體表達式如下：

式中，ｎ為搜索引擎數目，λｋ為搜索引擎ＳＥｋ的市場份額，顯然。由于搜索引擎數量較多，在實際計算中，可以選取有代表性的適當數量的搜索引擎用于計算ＳＥＳ，以降低復雜性。

３．３基于搜索引擎的相似度實驗評測

利用上述相似度計算方法，可以較為簡單地計算出詞語、語句乃至文本的相似性。在上述定義的搜索引擎相似度ＳＥＳ的基礎上，下面給出ＳＥＳ的簡單應用。國內及國外的分析結構與評測機構如Ｈｉｔｗｉｓｅ、ＳｅａｒｃｈＥｎｇｉｎｅＷａｔｃｈ等會定期或不定期地發布研究報告，公布各個搜索引擎的市場份額?，F階段全球搜索市場份額為：谷歌６５．２％，百度８．２％，雅虎４．９％，Ｙａｎｄｅｘ２．８％，必應２．５％１）；全國搜索市場份額為：百度６５．７％，３６０綜合搜索８．７％，搜狗６．２％，谷歌香港４．２％，百度圖片３．９％，搜搜３．３％，谷歌（英文）１．７％，必應１．２％，谷歌中國０．５％，有道搜索０．５％２）?？梢葬槍嶋H情況采用不同的搜索引擎相似度計算方案，如在全球范圍內選用所列舉的５個搜索引擎或在全國范圍內選用所。
列舉的全部或部分搜索引擎計算搜索引擎相似度等。在全國范圍內，選用足夠數量的搜索引擎固然可以得到較好的結果，綜合考慮實際情況及其他因素，此處選用的搜索引擎及對應的市場份額為：百度６９．６％（包括百度圖片），３６０綜合搜索８．７％，搜狗６．２％，谷歌香港６．４％（包括谷歌（英文）及谷歌中國），搜搜３．３％，必應１．２％，有道搜索０．５％，共７個。
由于語句及文本尚無公認的測試集且缺乏統一的評測標準，這里選用一些公開發表的且具有代表性的基于《知網》的詞語相似度研究成果進行對比。
表１是本文提出的相似度計算方法與文獻［１２］等其他文獻中的相似度計算結果對比表。從表中可以看出，選用的測試詞語對的相似度計算結果符合常理，精度高，可信度高，能較全面地反映詞語之間的相似性，與參與對比的其他方法相比有一定的優勢，可以直接或改進后應用于詞語的相似性度量中。

需要說明的是，大部分搜索引擎幾乎實現了實時更新，搜索引擎結果隨之也在動態變化，采用上述方法在不同時刻相似度計算的結果會略有不同，但差別不大。
另外，本文提出的相似性度量方法的主要不足在于未考慮到各搜索引擎結果的重要性差別。由于各個搜索引擎結果的重要性并不對等，且作為搜索引擎基礎數據的分詞庫及相應的算法并不完全相同，單純地采用搜索結果交集基數的對數值與并集基數的對數值的比值作為對象相似度的評價標準還有待后續改進，而且對一些敏感詞匯的處理也需要進一步完善。盡管如此，本文所提出的方法能夠充分利用搜索引擎信息豐富、與時俱進的優勢，采用簡潔但合理的方法度量對象之間的相似性，對研究詞語、語句和文本等概念及對象之間的關聯有一定的借鑒意義。
結束語針對現有相似性度量方法的局限即不能全面反映詞語、語句乃至文本之間的相似性，基于搜索引擎提出了一種新的相似性度量方法，其計算方便、簡單，能夠較為客觀、合理地度量概念之間的相似性，可以應用于詞語、語句及文本的相似性度量中。實驗結果表明，該相似度計算方法與其他方法相比有一定的優勢。由于語句并是詞語的簡單堆砌，文本并不是語句的簡單羅列，對該方法在語句及文本相似性度量中的應用與推廣尚需進一步深入研究。

參考文獻
［１］ＢｉｚｅｒａＣ，ＬｅｈｍａｎｎｂＪ，ＫｏｂｉｌａｒｏｖａＧ，ｅｔａｌ．ＤＢｐｅｄｉａ－ＡＣｒｙｓｔａｌｌｉ－ｚａｔｉｏｎＰｏｉｎｔｆｏｒｔｈｅＷｅｂｏｆＤａｔａ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆＷｅｂＳｅ－ｍａｎｔｉｃｓ：Ｓｃｉｅｎｃｅ，ＳｅｒｖｉｃｅｓａｎｄＡｇｅｎｔｓｏｎｔｈｅＷｏｒｌｄＷｉｄｅＷｅｂ．２００９：１５４－１６５
［２］謝興生，張國梁，李斌．利用粒子群算法優化多源檢索融合結果的方法［Ｊ］．模式識別與人工智能，２０１２，２５（３）：５２７－５３３
［３］董樂，謝紅薇．元搜索引擎中排序融合算法的優化研究［Ｊ］．計算機應用與軟件，２０１２，２９（１０）：１８８－１９０
［４］劉勝久，李天瑞，賈真，等．元搜索引擎排序方法建模與算法研究［Ｊ］．計算機科學，２０１２，３９（１１Ａ）：１９７－１９９
［５］彭波，閆宏飛．搜索引擎檢索系統質量評估［Ｊ］．計算機研究與發展，２００５，４２（１０）：１７０６－１７１１
［６］ＪａｎｓｅｎＢＪ，ＳｐｉｎｋＡ．ＨｏｗａｒｅＷｅＳｅａｒｃｈｉｎｇｔｈｅＷｏｒｌｄＷｉｄｅＷｅｂ？ＡＣｏｍｐａｒｉｓｏｎｏｆＮｉｎｅＳｅａｒｃｈＥｎｇｉｎｅＴｒａｎｓａｃｔｉｏｎＬｏｇｓ［Ｊ］．ＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇａｎｄＭａｎａｇｅｍｅｎｔ，２００６，４２（１）：２４８－２６３
［７］張偉哲，張宏莉，許笑，等．分布式搜索引擎系統效能建模與評價［Ｊ］．軟件學報，２０１２，２３（２）：２５３－２６５
［８］ＲｕｄｉＬ，ＰａｕｌＭＢ．ＴｈｅＧｏｏｇｌｅｓｉｍｉｌａｒｉｔｙｄｉｓｔａｎｃｅ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２００７，１９（３）：３７０－３８３
［９］張玉芳，艾東梅，黃濤，等．結合編輯距離和Ｇｏｏｇｌｅ距離的語義標注方法［Ｊ］．計算機應用研究，２０１０，２７（２）：５５５－５５７
［１０］連宇，彭進業，謝紅梅，等．基于Ｇｏｏｇｌｅ與ＫＬ距離的概念相關度算法［Ｊ］．計算機工程，２０１１，３７（１９）：２９１－２９２
［１１］劉群，李素建．基于《知網》的詞匯語義相似度的計算［Ｃ］∥第三屆漢語詞匯語義學研討會．中國臺北。２００２
［１２］李峰，李芳．中文詞語語義相似度計算———基于《知網》２０００［Ｊ］．中文信息學報，２００７，２１（３）：９９－１０５
［１３］荀恩東，顏偉．基于語義網計算英語詞語相似度［Ｊ］．情報學報，２００６，２５（１）：４３－４８
［１４］劉青磊，顧小豐．基于《知網》的詞語相似度算法研究［Ｊ］．中文信息學報，２０１０，２４（６）：３１－３６
［１５］田久樂，趙蔚．基于同義詞詞林的詞語相似度計算方法［Ｊ］．吉林大學學報：信息科學版，２０１０，２８（６）：６０２－６０８
［１６］石靜，吳云芳，邱立坤，等．基于大規模語料庫的漢語詞義相似度計算方法［Ｊ］．中文信息學報，２０１３，２７（１）：１－６
［１７］劉宏哲．一種基于本體的句子相似度計算方法［Ｊ］．計算機科學，２０１３，４０（１）：２５１－２５６
［１８］詹志建，梁麗娜，楊小平．基于百度百科的詞語相似度計算［Ｊ］．計算機科學，２０１３，４０（６）：１９９－２０２
［１９］魯松，白碩．詞距離的計算方法［Ｍ］．北京：清華大學出版社，２００１
［２０］呂學強，任飛亮，黃志丹，等．句子相似模型和最相似句子查找算法［Ｊ］．東北大學學報：自然科學版，２００３，２４（６）：５３１－５３４
［２１］李彬，劉挺，秦兵，等．基于語義依存的漢語句子相似度計算［Ｊ］．計算機應用研究，２００３，２０（１２）：１５－１７
［２２］王榮波，池哲儒．基于詞類串的漢語句子結構相似度計算方法［Ｊ］．中文信息學報，２００４，１９（１）：２１－２９
［２３］張培穎．多特征融合的語句相似度計算模型［Ｊ］．計算機工程與應用，２０１０，４６（２６）：１３６－１３７
［２４］馮凱，王小華，諶志群．基于動態規劃的漢語句子相似度算法［Ｊ］．計算機工程，２０１３，３９（２）：２２０－２２４
［２５］廖志芳，邱麗霞，謝岳山，等．一種頻率增強的語句語義相似度計算［Ｊ］．湖南大學學報：自然科學版，２０１３，４０（２）：８２－８８
［２６］金博，史彥軍，滕弘飛．基于語義理解的文本相似度算法［Ｊ］．大連理工大學學報，２００５，４５（２）：２９１－２９７［２７］董振東，董強．《知網》［Ｐ］．

上一篇：關鍵詞搜索對翻譯實踐和... 下一篇：常用學術搜索引擎及其帶...

藏刊網提醒您

藏刊網提醒您