0 引言
面對著海洋似地互聯網數據,用戶要查詢到自己所需要的信息,如同在大海里撈針,而搜索引擎技術的出現恰好解決了這一難題。搜索引擎技術目前已經成為研究開發的熱點領域。一個成功的優秀的搜索引擎能夠對互聯網上的信息經過特定的檢索策略,對各類信息進行搜集、挖掘和歸類整理,并能夠分析用戶的要求,按照用戶的要求和個人習慣進行組織安排,從而達到用戶快速檢索信息的目的。
1 搜索引擎的分類
搜索引擎按工作方式一般可分為三種 :全文搜索引擎、目錄索引搜索引擎和原搜索引擎 。
1.1 全文搜索引擎 :全文搜索引擎是目前廣泛應用的名副其實的主流搜索引擎,國外最具代表性的是國內著名的百度(Google)。它的工作原理是索引程序通過對文章中的每一個詞進行掃描,對每一個詞建立相應的索引,并指明出現的位置和頻率,一旦檢索,它就類似于通過新華字典中的檢索表來查字的過程,根據事先建立的索引進行查找。從搜索過程又可細分為兩種,一種是擁有檢索程序,俗稱“機器人(Robot)”或“蜘蛛(Spider)”程序,能自行建立網頁數據庫,其搜索結果直接從自己的數據庫中調用 ;另一種則租用其他搜索引擎的數據庫,然后按自定的格式排列搜索的結果。
1.2 目錄索引 :目錄索引中最具代表性的雅虎,它是將網站分門別類地存放在相應的目錄中,是按目錄分級列表鏈接。查詢時,按分類目錄找到需要的信息。
1.3 元搜索引擎 :元搜索引擎就是通過專門的檢索界面,在多個搜索引擎中選擇和利用合適的搜索引擎來實現檢索操作,其過程是 :通過先對請求進行預先處理,轉換為底層可以處理的格式,然后再向上遞交,最后匯總各搜索引擎的檢索結果,將其進行各種處理后,將結果返回。其優點是返回結果的信息量全面,充實 ;缺點是不能夠充分利用所選用搜索引擎的功能,使用戶需要做更多的篩選。
幾種非主流形式 :
集合式搜索引擎 :是由用戶從提供的數量有限的引擎中進行篩選。它可以集合一些搜索引擎的特點,容易準確的找到目標內容。免費鏈接列表(Free For All inks, 簡稱FFA\\) :一般只簡單地滾動鏈接條目,只有少部分有簡單的目錄,不過規模和 Yahoo等目錄索引來比起來要小得多。
2 搜索引擎技術的發展動態
2.1 不斷融合的發展方向
目前,各類搜索引擎不是并行發展,而是一個逐步融合,完善的過程。元搜索引擎就是一個典型的例子。機器人搜索引擎的優點是具有非常大的信息量,人力資源耗費的很小,但是精確度卻不高,而目錄式搜索引擎的優點恰恰相反,具有有效準確的信息,而唯一的缺點是信息量比較小,維護目錄耗費巨大的人力資源,但是元搜索引擎卻綜合了上述兩者的優點。
2.2 文本信息挖掘技術
它是將數據挖掘的思想運用到文本信息處理中的一項技術。它涉及到文本各方面的技術,包括文本的分類、索引、聚類、查詢匹配等各項技術,現在引入了人工智能的處理方式、數據挖掘技術等新的思路,在 Web 個人瀏覽工具中存在著更廣泛的應用。而基于 Web 的文本信息挖掘技術大大提高了用戶查詢匹配的精度,文本分類的準確度以及文本索引對文本描述的全面性。
2.3 Robot 技術
Robot 技術大大可以代人長時間工作,可以為人更好的工作,但它的盲目性也給網絡帶來了困擾,靈活性也不高,降低了搜索信息的難度,隨著分布式處理技術的出現和發展,Robot 技術現在向分布式發展,改變了以往的集中性,也就是各個 Robot 之間協同合作共同工作,1個 Robot 只采集特定區域的信息,這樣Robot 采集信息速度提高了。同時也可以對 Robot 的路徑選擇、運行周期等實施控制,也降低了盲目性。另外,隨著網絡應用的增多,現在出現了搜索 FTP、Use Net 的 Robot,搜索的范圍更寬了。
2.4 移動代理技術
在現有的 WWW 和客戶機 / 服務器(C/S)環境下,搜索引擎面臨 2 個瓶頸。第一是在 C/S 的計算模式下,系統需要將檢索的信息下載到本地存儲并進行處理,從而造成了網絡資源的擁堵和浪費。而Robot 也并不是實時跟蹤目標變化情況,因為要到達降低網絡負載,只能進行定期檢測。出現了信息更新慢,搜索結果過期。
另外互聯網又是一個超大規模異構的分布式數據庫系統,所包含的數據是半結構化。搜索引擎的文本信息處理的就是將這些不規范的數據信息進行結構化處理。為了解決這一問題,此時就需要建立半結構化數據模型來描述互聯網上的數據和使用結構化數據抽取技術。
移動代理技術是一種分布式計算技術,是一種指在異構互聯網環境中的主機之間具有移動能力的、能夠自主運行的、按照要求完成指定任務的計算機程序。在該模式下,客戶端機向服務器提交的不是簡單請求,而與服務器緊密聯系,進行數據(包含代碼)的預取,實現自適應調整機制、管理作用域范圍內的等。移動對象可以代表用戶,按“程序圍繞數據”的原則,在服務器間自主移動,完成數據處理的任務。該模式的應用程序可以大大節省網絡,提高服務速度,并能智能化地自主異步執行,能夠模擬人類行為和關系。
3 總結
本文介紹了搜索引擎的一些基本知識,包括搜索引擎的分類和發展情況。但是伴隨了互聯網的信息內容不斷充實,用戶對在互聯網檢索的結果要求也逐漸提高,使得搜索引擎飛速發展。在搜索引擎系統研究已經取得的基礎之上,以下方向成為研究的主要方向,包括 :對檢索結果的高精準的相關度和準確性 ;能夠檢索完整的互聯網 ;支持用戶個性化和多媒體類的搜索(包括自然語言檢索);檢索界面的友好程度的增強等等。
【參考文獻】
[1] 勾智楠 . 垂直搜索引擎的研究與實現 [D]. 河北科技大學 , 2012.
[2] 高凱 , 郭立煒 , 許云峰 . 網絡信息檢索技術及搜索引擎系統開發[M]. 北京 : 科學出版社 ,2010.
[3] 勾智楠 , 趙丁 . 基于 .NET 搜索引擎的研究與應用[J] .數字化用戶,2014, \\(1\\).