1 搜索引擎概述
隨著互聯網技術的不斷發展,網上的信息也迅速增長,搜索引擎已經成為網上檢索信息的非常重要的工具,是互聯網上最重要的應用之一.搜索引擎主要以網頁的形式與用戶交互,根據用戶提出的請求對網絡節點遍歷查找以找到匹配的信息.國內主流搜索引擎有百度、谷歌、雅虎及搜狐等,其側重點有所不同.
2 搜索引擎的分類
搜索引擎按照其工作方式主要分為三類,分別是全文搜索引擎、目錄索引類搜索引擎、元搜索引擎.全文搜索引擎,如百度、谷歌等,從互聯網上提取網站信息而建立數據庫,根據用戶給出的查詢要求檢索數據庫,找到匹配的記錄,然后將排序后的結果返回給用戶.目錄索引類搜索引擎,如雅虎、搜狐等,僅僅是按目錄分類的網站鏈接列表,用戶通過逐級點擊訪問.元搜索引擎沒有自身數據庫,在接受用戶搜索請求后,通過其他搜索引擎查詢信息并將結果返回給用戶.
搜索引擎的種類還有通用搜索引擎、垂直搜索引擎等.百度、谷歌、雅虎及搜狐等搜索引擎都屬于通用搜索引擎.通用搜索引擎的目標是盡可能大的網絡覆蓋率,它已經成為了人們在互聯網上搜索信息必不可少的工具.然而,盡管搜索引擎能夠搜索出大量的信息,但是在這些搜索結果中既有精華也有無效信息、重復信息.
核心問題在于:搜索引擎僅僅是做關鍵字匹配,而忽視了用戶請求所代表的含義,不能提供基于語義的檢索.
基于自然語言的智能搜索,搜索過程是內容概念相互關聯的匹配,為用戶提供更加全面、個性化和精準的搜索結果.人們對搜索引擎的專業性要求的不斷提高使傳統搜索引擎已經無法滿足用戶的多樣化需求,垂直搜索引擎的誕生彌補了這一不足.垂直搜索引擎是搜索引擎的一個分支,搜索的信息更加行業化、專業化,是對每類專門信息的整合.垂直搜索引擎的搜索范圍不同于通用搜索引擎,通用搜索引擎適合于各類信息的搜索,而垂直搜索引擎是對某行業信息的專業搜索.通用搜索引擎的搜索結果往往需要用戶在搜索之后對信息進行進一步篩選,而垂直搜索引擎則能為用戶提供有效的信息.
3 搜索引擎的工作原理
搜索引擎的工作可以分為四個階段:抓取網頁、建立索引數據庫、搜索匹配的網頁及結果排序.網絡爬蟲是搜索引擎中的一個重要程序,為搜索引擎從萬維網上下載網頁存放于數據庫中.它利用網頁中的超文本鏈接,通過 URL 從一個網頁爬行到另一個網頁,在下載時利用廣度優先搜索\\(BFS\\)和深度優先搜索\\(DFS\\)來遍歷網頁,用 Hash 表記錄下載頁面的 URL,以免重復下載.搜索引擎為下載的網頁建立索引數據庫,進行一系列的預處理工作,待用戶輸入查詢關鍵詞后,在索引數據庫中查找匹配的網頁,對查詢結果排序后反饋給用戶.
4 搜索引擎的發展趨勢
隨著網絡信息量的迅猛增長和用戶需求的日益復雜,僅僅依靠傳統搜索引擎已經無法滿足人們的需求,搜索引擎正朝著智能化、移動搜索等方面發展.
4.1 基于大數據分析的智能搜索引擎大數據時代,數據規?;?、數據類型多樣化,不僅要求搜索引擎能快速響應,而且也對其具備大數據處理和分析能力提出了要求.用戶使用傳統搜索引擎的過程中往往要與之進行多次交互,使結果更加逼近用戶的最終目標,效率較低.智慧搜索將搜索技術和人工智能相結合,能夠通過大數據分析洞察其含義,對查詢表達式做語義擴展,從而更加準確地獲得搜索結果,提高搜索效率[1].同時,大數據環境下的搜索引擎是對跨領域、跨學科的海量信息資源的搜索,需要將用戶的查詢問題轉換成獨立搜索引擎可接受的形式,并向它們發送請求,然后對各獨立搜索引擎反饋的結果進行去重、合并、排序等處理,最后將結果提交給用戶.
4.2 移動搜索引擎移動搜索是傳統搜索引擎在移動終端的延伸,是搜索引擎新的發展趨勢.隨著智能手機的普及,移動網絡的流量迅速增長,需要在搜索能力上不斷提高.移動搜索引擎主要分為基于瀏覽器的、基于短信的和基于手機應用程序的[2].移動搜索的優勢主要體現在:不受時間和地點的限制,從而更加便捷;多采用垂直搜索技術,因而搜索結果更加精準.
5 結 語
隨著人們對網絡信息資源檢索需求的不斷增加,對搜索引擎提出了高精度、個性化、交互性及智能化等功能需求,搜索引擎技術隨之不斷改進,有效地提高了互聯網信息資源的利用率,充分發揮了資源共享的作用.
參考文獻
[1] 顧君忠 , 陳民 . 基于大數據分析的智能搜索引擎[J]. 軟件產業與工程 ,2015\\(1\\).
[2] 于博 . 淺談移動搜索引擎 [J]. 技術與市場 ,2014\\(4\\).