當今社會計算機技術迅猛發展,信息資源越發豐富,網絡信息受眾量龐大。根據中國互聯網信息中心 CNNIC 發布第34 次調查報告最新數據顯示,截止到 2014 年 6 月我國網民數目達到 6.32 億。對于眾多網民來說,搜索引擎是從海量網絡數據中獲取信息的最有效工具,同時也是互聯網應用領域必不可少的基礎組成部分之一。
1 網絡搜索引擎的工作原理
搜索引擎屬于一類 Web 上應用的軟件系統,它通過一定途徑在網絡上搜集發現信息,然后處理和組織這些被選擇的信息,進而幫助用戶查詢 Web 信息。搜索引擎系統遵循相關搜集策略,預先將一批網頁搜集并存放在系統中。然后通過文本分析、鏈接分析等方式對已有的網頁信息進行分析,同時建立索引。最后給用戶提供人性化的接口,供用戶查詢,同時將最終結果返回給網站。
2 網絡搜索引擎關鍵技術
2.1 網頁搜集技術
搜索引擎利用一種自動的程序網絡蜘蛛(Spider)或網絡爬蟲來訪問互聯網上的 Html 網頁,并建立索引數據庫。我們可以將 Web 上的網頁集合看作一個理論上的有向圖,Web 圖的頂點由頁面構成,圖的邊是頁面間的超鏈接。搜集過程始于給定的起始 URL 集合 S,抓取 Web 頁面并且存到本地,并將網頁中新超鏈接的 URL 解析出來并添加到集合 S 中。通過不停重復該過程,一個Spider程序可以訪問整個Web頁面。
與此同時,還需設定一些重要的鏈接和相關的掃描策略用以保證搜集的廣度和深度。另外,定期更新 Web 搜索引擎以保證及時發現新鏈接并刪除過時鏈接。
2.2 網頁內容和鏈接分析技術
經過網頁搜集得到的 Web 頁面是一種非結構化的文檔,包含 html、圖片、多媒體、動態網頁等各種不同格式。為了從中提取出典型的主要特征,網頁內容分析的主要任務是對獲取到的網頁進行文本分析。一般按順序完成網頁清洗、分詞、消除停止詞等處理,并借助于其他中英文信息處理技術提取網頁主要的文本特征,進而組成網頁摘要。一般而言,當搜索引擎系統查詢返回時,用戶可以通過網頁快照的形式獲得網頁摘要。另一方面,Web 搜索引擎系統還會分析對網頁間的鏈接關系,網頁之間存在某種"推薦"關系,鏈接就可以反映出這種關系,一般鏈接分為導入鏈接和導出鏈接。通過一個合理地假設可以深入理解,若一篇網頁被其他網頁建立了較多鏈接,就能說明其包含有較重要或者較有用的內容。
2.3 索引技術
目前多數 Web 搜索引擎系統所采用的是倒排索引技術,它是一種簡單高效的文檔數據索引組織方式。所謂倒排文件(inverted file),是描述某個詞項集合(TREMS)元素和一個文檔集合(DOCS)中相應元素對應關系的數據結構,記作DOCS={d1,d2,…,dN},TREMS={t1,t2,…,tM}.倒排索引的基本組織方式是把每個索引詞的倒排表按文檔編號增序排列,并壓縮保存為整塊數據。
2.4 檢索技術
搜索引擎返回給用戶的結果是一個和用戶查詢相關的搜索列表。統計結果表明,以每個頁面含有 10 個鏈接計算,大多數用戶瀏覽的頁面不多于兩頁。因此,正確的檢索技術對于整個搜索引擎的應用十分重要。一個信息檢索模型是將文檔表示、查詢以及模擬它們之間關系的框架,它由三元體 F[D,Q,R(qi,dj)]表示。其中,D 是文檔表示;Q 是用戶信息需求的邏輯視圖(表示),這種視圖(表示)稱為查詢;R(qi,dj)是排序函數,該函數輸出一個與查詢 qi∈Q 和文檔表示 dj∈D 有關的實數。信息檢索有四個傳統模型分別是是布爾模型、向量空間模型、概率模型和邏輯模型。近些年來隨著研究的不斷深入,眾多改進模型也基于原有的傳統的模型被提出發展。
3 評價搜索引擎性能的主要指標
在傳統的信息檢索中,一般基于相關性的準則,以檢索系統的查全率(Recall)和查準率(Precision)為主要的衡量標準。查全率用來評價信息檢索系統檢出相關文檔能力,是指檢出的相關文檔與相關文檔總數的比值。查準率用來評價檢索的準確度,是指檢索出的相關文檔與檢索出文檔總數的比值。
網絡搜索引擎要滿足用戶對信息查詢的需求,進一步提高用戶搜索滿意度,可以參照以下幾個重要的評價指標。①網頁覆蓋率,指Web搜索引擎索引的網頁數量,提高覆蓋率要求盡量提高查全率,以保證基本查準率;②相關性,指搜索引擎返回的搜索結果與之前用戶輸入的查詢請求之間的契合程度,這個特性關系到搜索效率和用戶的滿意度;③結果重復率,搜索引擎系統中存儲大量重復網頁會浪費存儲資源,同時也影響檢索效率。因此,搜索引擎返回的查詢結果應該盡量減少或消除重復類似結果的出現;④網頁作弊率,指網頁為了提升自己在搜索引擎中的排名,非法借助程序或人工手段,提高自身的點擊率等非法獲益行為;⑤網頁更新速度,該標準要求引擎及時發現新網頁的同時及時刪除死鏈。死鏈是指搜索結果失去原有效應的鏈接,一般是那些指向已不存在或無法訪問資源的鏈接;⑥搜索服務的響應時間,指用戶提交查詢請求后等待返回結果的時間;⑦搜索服務的系統穩定性。
4 結語
隨著用戶數目的迅速增多,如何提供更好的個性化搜索服務,如何實現面向特定主題的有效搜索,如何做到用戶與網站共贏已經成為搜索引擎發展的新方向。
參考文獻:
[1] 梁偉賢。 網絡搜索引擎發展現狀的探討[A]. 中國科協、湖北省人民政府。