隨著互聯網的快速發展,人們已經離不開從互聯網上獲取信息。但是這些信息浩如煙海,同事又夾雜著大量的有害信息。搜索引擎技術就是完美利用這些資源的有效手段。搜索引擎可以說是一個網站,這些網站通過網絡搜索軟件( 也稱網絡搜索機器人) 或網站登錄等方式,將互聯網上大量網站收集到本地,經過一定的處理后放入自己的資料庫。用戶對其進行各種查詢,搜索引擎給出響應,提供用戶所需的信息。有調查顯示,搜索是繼電子郵件之后的第二大互聯網應用。 因此,建立搜索引擎綜合評價體系,完整、客觀地對搜索引擎進行綜合評價,具有較大的社會意義和研究前景。而針對這個問題目前已經有很多學者做出一些卓有成效的研究,統計了大量數據,運用了大量分析研究方法,信息技術的逐漸發展,客觀有效地評價搜索引擎,得出有意義排名,并且設計個性化搜索引擎,對于提高工作效率,實現時間價值最大化,具有重要意義。
為了確定搜索引擎的性能,我們要根據搜索引擎和用戶之間的相互關系,以第三方身份確定評價搜索引擎性能優劣的關鍵因素,通過建立權重子模型,確定每個環節的權重大小。再進一步實際試驗,統計數據,采用多目標決策法,統計搜索引擎的最終得分,進行排名。
1 模型假設
1)假設所參與評價的搜索引擎性能穩定,服務器無故障,且短時間內不會升級,狀態保持。
2)假設模型衡量的因素就是參與評價的關鍵因素,其 他變量設為無關變量,它們的變化不影響評價最后評價結果的準確度。
3)假設網絡速度的狀況的變化與不影響結果。
4)假設參與評價的因素之間相互獨立。
2 符號說明
Mij:第i個搜索引擎在第j項的得分;éx ù:大于等于x的最小整數;Mij:第i個搜索引擎在第j項的平均得分;Wj:第j項的權重;
2 模型建立與求解
2.1 對現有的搜索引擎進行分析
在對互聯網搜索引擎的優劣進行評價時,所建立的數學模型中涉及許多決策變量。這些變量有繁多、結構復雜、不確定性等特點。為了解決這一問題,我們有必要對描述目標的相對重要度做出正確的估價。而各因素的重要程度是不一樣的,為了反映因素的重要程度,需要對各因素相對重要性進行估測(即權數),由各因素權數組成的集合就是權重集。權重是指標本身的物理屬性的客觀反映,是主客觀綜合量度的結果。
系統工程理論中的層次分析法(Analytic Hierarchy Process,簡稱AHP)是一種較好的權重確定方法。它是把復雜問題中的各因素劃分成相關聯的有序層次,使之條理化的多目標、多準則的決策方法,是一種定量分析與定性分析相結合的有效方法。而本模型將使用層次分析法對問題的決策變量確定其權重。給出問題的層次結構模型:
搜索引擎b;準確性b1、安全性b2、完整性b3;非歧義b11、去重復b12、優先度b13、無毒b21、社會影響b22、內容原創b31、更新頻率b32.
下面闡述AHP確定權重的基本過程。
1)分層。首先將搜索引擎的評價方式分層,第一層包括3個因素,即U ={b1,b2,b3};第二層包括7個因素,即b1 = {b11,b12,b13},b2 = {b21,b22},b3 = {b31,b32}.各層因素的實際意義和關系如上述所示。定義第一層次權重集 A =(a1,a2,a3),第二層次權重集A1 =(a11,a12,a13);A2 =(a21,a22);A3 =(a31,a32)
2)確定各層次判斷矩陣P.構造第一層次的判斷矩陣P,如表1所示。構造第二層次的判斷矩陣,如表2、表3、表4所示。(注:表格)
表1:T b1 b2 b3;b1 1 0.5 0.33;b2 2 1 0.5;b3 3 2 1;
5)計算第二層次的權重集。按照上述方法,可以計算出第二層次權重集:
A1 =(0.3255,0.6044,0.0701),A2 =(0.6135,0.3865),A3=(0.7159,0.2841)
6)確定各項權重。由以上數據可得權重分布圖:搜索引擎b;準確性(0.1634)、安全性(0.2970)、完整性(0.5396);非歧義(0.0532)、去重復(0.0988)、優先度(0.0115)、無毒(0.1822)、社會影響(0.1148)、內容原創(0.3863)、更新頻率(0.1533)。
7)得到各決策變量的權重分布后,建立數學模型來分析一個搜索引擎的優劣。將各個搜索引擎的檢驗結果進行計分。
由表1得,檢測項目有7項,分別對百度、搜狗、谷歌、愛問、雅虎、搜搜等6個搜索引擎進行檢測。記Mij表示第i個搜索引擎在第j項的得分?,F對分數的得出建模,令每項分數最高分為10分。為非歧義、去重復、優先度、無病毒、社會影響、內容原創、更新頻率(記為n1~7)給定得分函數,如表1.
8)從政治、財經、科技、教育、娛樂等5個方面選取50個關鍵詞在6個搜索引擎上進行搜索,統計出50次搜索的平均得分。得出各個搜索引擎的各項平均分Mij(Mij表示第i個搜索引擎在第j項的平均得分),分別乘以權重W(jWj表示第j項的權重),得出最后得分,排序,得出搜索引擎的優劣。這里只給出最終得分。
百度 搜狗 谷歌 愛問 雅虎 搜搜;n1 10/e 10/e 10 10 10/e^310/e;n2 10 10 10 10 8 10;n3 9 10 9 5 3 10;n4 10 10 10 10 1010 ;n5 7 10 8 6 5 10;n6 8 9 7 8 5 9;n7 10/e^3 10/e 10 10/e^2 10/e^5 10/e;總分 47.1767 56.3576 64 50.3534 31.5624 56.3576.
根據以上分數可求出前五名的搜索引擎排序為:谷歌、搜狗、搜搜、愛問、百度。
4 結束語
本文使用層次分析法比較全面的研究了關于搜索引擎的評價問題,利用多目標決策理論建立搜索引擎性能的綜合評價數學模型,得出最終評分。但各大搜索引擎都在迅速發展,各自的搜索引擎的性能也在進一步提升,這些都會影響到本文所確定的評價指標的適用性。并且層次分析法存在其天然的缺點,比如其定量數據較少,定性成分多。所以,如何建立一個合理的評價模型仍需進一步研究。
參考文獻:
[1] 劉正春。 搜索引擎綜合評價模型研究[J]. 數學的實踐與認識, 2004,34(9)。
[2] 徐俊, 劉娜。 層次分析法的基本思想與實際應用[J]. 情報探索, 2008(12)。
[3] 郭金玉, 張忠彬, 孫慶云。 層次分析法在安全科學研究中的應用[J]. 中國安全生產科學技術, 2008(2)。