目前,人們把搜索引擎分成三代。第一代是Yahoo的人工整理的目錄方式,第二代是Google開創的由“爬蟲”采集海量數據,用戶通過關鍵字檢索的機器搜索。第三代是所謂的通過自然語言檢索。筆者認為真正意義上的搜索引擎,只有第一代和第二代,第三代搜索只是在技術上的提升?,F有的搜索引擎經過十幾年的發展,雖說已貼近人們的需求,但也逐漸暴露出一些問題和不足。在此,筆者對搜索引擎存在的缺陷及未來發展的趨勢談點個人體會,希望能為搜索引擎的開發提供一點幫助。
1現有搜索引擎的缺陷
缺陷一:首先,搜索引擎的選擇需根據經驗來初步選定,目前尚未形成一套固定的選擇原則和方法。
缺陷二:搜索引擎的信息覆蓋率、查全率偏低。美國科學期刊Nature上的一篇文章曾這樣報道:即使最大的搜索引擎也只能覆蓋現在網頁資源16%,據美國NEC研究所兩位博士的研究,目前的搜索引擎漏掉了84%左右的網頁信息。尤其是中文搜索引擎在信息規模、收錄內容、標引深度等方面更是相距甚遠。中文信息資源以文化娛樂、商業信息為主體,學術信息匱乏。目前,中文信息資源與西文相比只占5%左右。因特網上有100多億個網頁,有著最大搜索量google目前也只能搜索33億網頁。所以說,再大的搜索引擎都不可能有100%查全率,因此對用戶來講更多要求的是查準率。的確是這樣,當你沒有選擇到合適的引擎來查找你需要的內容時,你確實找不到。
缺陷三:專題性搜索引擎太少 目前,大多搜索引擎都是綜合型、通用的,使用者在搜索時不相關信息太多,找不到更深入的內容。而可用的面向主題的引擎甚少,這對專業人士來說是非常不利的。
缺陷四:目錄式搜索速度太慢,而機器人搜索的可用性又不盡如人意,相信每人都會有這樣的感受,為了得到想要的結果,從搜索引擎返回的頁面中細細檢索,還常常需要更換關鍵字,最后也不一定能得到想要的答案。
缺陷五:用戶界面簡單且不夠友好,不能準確地表達用戶的搜索意圖。雖然有成千上萬的鏈接,但可供用戶選擇搜索條件和搜索結果的功能卻不多。多數搜索引擎沒有類型、范圍的限定,不是面向用戶搜索而是面向主題搜索,不能重復利用檢索的歷史信息,更不能進行定題跟蹤服務,對自然語言理解也有限,由于各搜索引擎關鍵詞檢索所采用的符號及含義,分類檢索所建立的類目體系及使用規則不盡相同,因此給用戶構造檢索式帶來了困難。網站簡介不規范,經常誤導用戶進入廣告世界,網頁的幫助系統缺乏透明度,等同虛設。
缺陷六:現有搜索引擎在檢索功能上存在的問題:①運用布爾邏輯符組合數量受限;②僅能使用關鍵詞提問,而關鍵詞搜索最大的缺陷就是信息過載,并且無用信息多,關鍵詞搜索不能把文檔的標題、關鍵詞、內容等多方面的內容融為一體,不能自動過濾提取最有價值的內容,不能自動過濾掉不相關的內容,但當你使用多個關鍵詞來限定時,又必定存在信息漏檢的問題,不能完全滿足用戶的需求;③結果表示方法簡單,使得用戶感到頭疼找不到頭緒;④不能重復利用檢索的歷史信息;⑤受單個引擎的限制。
缺陷七:由于各搜索引擎收集信息的方式、索引方式、檢索算法以及結果排序方法各不相同,加之網絡資源紛繁復雜,零亂分散,使得信息的組織與標引沒有統一規范。由于每種搜索引擎都有自己的信息收集方法及范圍,導致不同的搜索引擎在檢索結果的數量和質量上產生明顯的差異;又由于各自不同的標引方式,使得相同的搜索請求在不同的搜索引擎中搜索而卻得到差異很大的搜索結果。再者,由于網頁編寫的自發性、隨意性較強,網頁制作者為了將最有“價值”網頁提供給用戶,搜索引擎一般都按查詢的相關程度對檢索結果進行排序。最相關的文獻通常排在最前面。但由于不同的搜索引擎對相關度的判定原則不同,確定相關性的方法不同,加之排序方式單一,關鍵詞檢索輸出的結果不能根據用戶需要來選擇排序方式;一些網頁制作者為了提高其網頁的命中率及相關度,將一些與網頁主題不相關的熱門詞匯以隱含的方式放在頁面上,并多次重復,或放在Meta Tag中,造成查準率低。
缺陷八:檢索語言不夠規范。具體體現在:分類不夠科學,自然語言不夠規范,分類主題不夠深入,主題標引不夠準確。
缺陷九:檢索出現信息過載,無用信息多。主要體現在:分類主題檢索輸出的往往是網站,而不是網頁信息,用戶進入網站又找不到需要的內容,而無論是關鍵詞或是主題分類檢索,由于信息輸出格式簡單,不能向用戶提供更好的途徑和信息。網站、網頁是處于動態變化的,如不及時維護更新刎舊數據庫,就會出現無效鏈接,甚至是錯誤鏈接或死鏈接,并且輸出重復信息、無用信息多,據統計,網頁的重復率平均為4,也就是說當你通過一URL在網上看到一個網頁的時候,平均還有另外3個不同的URL也給出相同或者基本相似的內容,這對于搜索引擎來說,不僅在搜索網頁時要消耗機器時間網絡帶寬資源,而且如果在查詢結果中出現,無意義地消耗了計算機顯示屏資源。就是目前一些著名的搜索引擎其返回的相關結果也不足45%.就拿百度來說吧,當你輸入一個關鍵詞搜索時,返回結果中就有70%~80%無用信息,甚至是100%無用。
缺陷十:查詢方式單一。搜索引擎大都提供分類查詢和關鍵詞查詢方式。而不能實現概念檢索,不能從信息的多方面進行檢索提問,只能就某一關鍵詞或概念進行籠統的檢索。關鍵詞檢索采用機械的關鍵詞匹配來實現,缺乏知識處理能力和理解能力,也就是說搜索引擎無法處理在用戶看來是非常普通的常識性知識,更不能處理隨用戶不同而變化的個性化知識、隨地域不同而變化的區域性知識以及隨領域不同而變化的專業性知識等等;缺陷十一:檢索方式與數據收集(即索引數據庫)不匹配 檢索方式是指搜索引擎允許用戶提交查詢的形式。不同的用戶對信息需求有所不同,不可能有一種普適方式。通常對于普通網絡用戶,最自然的檢索方式就是“要什么就輸什么”,但這種方式相當模糊。當用戶需要一些間接信息,如,用戶想查找“喜馬拉雅山的高度”,8 848m應該是他想要的,但這個數據不可能包含在這個檢索詞中。
缺陷十二:網絡檢索效果沒有統一的評價標準。
缺陷十三:在網上收集資料受設備條件、網速以及經濟條件的限制,用戶需花時間等待,影響效率。
2搜索引擎未來的發展趨勢
趨勢一:應向智能化方向發展。結合人工智能技術的智能搜索引擎能把信息搜索從目前基于關鍵詞層面提高到基于知識(或概念)層面,智能搜索引擎可以將自然語言與用戶交互,自然語言搜索符合人們的語言習慣,像人與人之間的交流一樣輕松、直接、方便,不必再拘泥于分類、關鍵詞等傳統搜索方法,這無疑給用戶提供了巨大的便利。把“語言計算”、云搜索服務技術和人工智能融合,讓計算機返回的結果富有針對性,將準確信息顯示在前兩三項的搜索結果之中。讓計算機具有人的智能和邏輯分析能力,能夠理解自然語言表達的語義,使搜索結果與用戶需求實現更精準的匹配。
趨勢二:實現搜索引擎和網絡資源目錄的同步支持。網絡資源目錄是目錄型網絡檢索工具,通常叫網絡目錄,也叫專題目錄或主題指南、站點導航系統等。它是由網絡開發者開發者搜集網絡資源后,以某種分類法進行組織整理,并與檢索法集成在一起的查詢方式。從使用的角度講,網絡目錄的最大特點就是網絡用戶在查詢信息時,事先可以沒有特定的信息檢索目錄(關鍵詞)。用戶可以按照模糊的主題概念,在查詢中分步驟地組織自己的問題,通過分析和匹配自己的思維邏輯和概念的組織過程獲取所需信息,逐步明確檢索概念的范圍和檢索需求。這一特點正好彌補了搜索引擎的不足。
趨勢三:向個性化、特色化方向發展。個性化是指各網絡檢索工具注重內容的特色化和服務的個性化。個性化的核心是跟蹤與分析用戶的搜索行為,使得個性化搜索更符合用戶的需求。搜索引擎還應有各自的特色化檢索體系以便滿足用戶對不同領域信息的需求。
趨勢四:向多媒體化方向發展,隨著視頻、音頻等多媒體信息的檢索數量高速增長,多媒體搜索引擎的檢索結果形式應多樣化、生動化、更好地滿足用戶的需求。
趨勢五:向功能多元化方向發展 ,雖然現有多數搜索引擎功能已經很全,但還不能滿足用戶越來越多的需求。①表現在可以檢索的信息形態多樣化;②表現在搜索引擎要向其他服務范疇擴展,要以多種形式滿足用戶的需要。
趨勢六:向商業化方向發展,隨著用戶基數的不斷增長,為電子信息的增值服務提供了廣闊的空間。網絡檢索系統已成為新的投資熱點,搜索引擎已經不僅僅是一門技術,也是一門服務形態,而且成為一項產業,它的商業利益成為推動系統完善和擴展的主要動力,網絡信息的檢索與利用由公用性轉向商業化。
趨勢七:向專業化方向發展。由于用戶千差萬別,對信息搜索要求不同,綜合性的搜索引擎收錄的范圍太廣、太大,無法滿足某一特定的需求。專業搜索引擎只面向某一特定的領域專注于自己的特長和核心技術。具有針對性強、實用性強的特點,如,提供FTP等類信息的檢索。
趨勢八:向可視化信息檢索方向發展。即把文獻信息、用戶提問、各類檢索模型以及利用檢索模型進行信息檢索的過程,展示在一個可視化空間中,同時向用戶提供信息檢索服務。這樣能使用戶更直接、方便、快速、高效地獲取信息和知識。相信隨著網絡技術的不斷發展,以及XML、RDF、GRID在信息中的應用,可視化檢索定能成為搜索引擎新的發展方向。
趨勢九:提高搜索引擎對自然語言答詢功能的運用。使用戶可以輸入簡單的疑問句,比如“互聯網是什么?”,搜索引擎在對提問進行結構和內容的分析之后,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇,使得查詢變得更加方便、直接、有效,從而提高檢索效率。
趨勢十:應將搜索引擎的技術開發重點放在對檢索結果的處理上,提供更優化的檢索結果。通常我們在檢索過程中會出現過多的附加信息,為了去掉這些過多的附加信息,希望采用用戶定制、內容過濾等檢索技術過濾掉多余信息。同時,大力開發元搜索引擎。因為每個搜索引擎收集資源平均只能占到整個Web的資源的30%~50%,導致同一個搜索請求在不同的搜索引擎中獲得查詢結果的重復率不足34%,而每個搜索引擎的查準率又不到45%.元搜索引擎是將用戶提交的檢索請求發送到多個獨立的搜索引擎上去搜索,并將檢索結果集中統一處理,以統一的格式提供給用戶,因此,有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性化搜索功能的設置和用戶檢索界面的友好性上,查全率和查準率都比較高。
趨勢十一:一站式搜索。是將圖片、新聞、股票等各種相關的信息整合在同一界面,使用戶一次查詢就能得到全部滿足,它能使用戶搜索時只需輸入一次查詢目標,就可在同一界面得到各種相關的搜索結果。
趨勢十二:綜合情景式搜索引擎是一個集成了個性化、地區定位、社區相關性搜索技術的一個引擎。相對其他搜索引擎除了強調搜索結果與用戶的需求的相關性,還增加了一個維度,就是搜索結果的可依賴性。這種社區相關搜索能為用戶提供更準確、更值得信任的搜索結果;它的地區定位系統可以為用戶提供準確的地理位置服務。根據用戶服務的使用習慣建立用戶的模組信息。這種技術通過捕捉和提高用戶信息來學習用戶的興趣行為,從而實現主動推薦的目的。它的個性化體現在:①檢索。根據用戶的行為和習慣模式,建立模組興趣特征庫,并根據這些特征排序搜索結果。②個性化推薦。通過在相同模組數據內的使用者的資料,提供給正在查詢的用戶。
趨勢十三:提高查全率、查準率。要提高查全率,必須從搜索引擎的組織機制、標引深度和規范化程度、檢索功能、用戶界面等各個方面進行改進??砷_發分布式系統、將Web信息資源與非Web信息資源結合起來,就會大大提高查全率。要提高查誰率,必須從信息過濾、信息標引、信息檢索三大方面進行改進,應采用效率更高的算法和智能化更高的程序來改進。
趨勢十四:提高P2P對等網絡搜索技術。P2P搜索技術是指互聯網用戶共享所有用戶硬盤上文件、目錄甚至整個硬盤。它可以使用戶能夠深度搜索文檔、而且不用通過服務器,也可以不受信息文檔格式和宿主的設備的限制。
3結束語
在技術創新突飛猛進的今天,搜索技術也應跟上時代前進的步伐,“智能化”無疑是我們的方向。希望在未來搜索引擎的發展進程中,能夠看到更加“人性化”的引擎工具,讓搜索更快、更優、更強,使搜索引擎成為我們最貼心的朋友和伙伴!
[參考文獻]
[1]李卓君。搜索引擎問題分析及發展趨勢研究[EB/OL].
[2]徐建華。網絡搜索引擎原理、特性分析及未來發 展 趨 勢 [EB/OL].
[3]許劍穎。搜索引擎發展趨勢研究[EB/OL].
[4]宋婷婷。WEB搜索引擎設計原理與發展方向探 究 [EB/OL].
[5]中國學術期刊網。未來搜索引擎發展趨勢分析 與 設 想 [EB/OL].