隨著網絡信息資源的不斷豐富和發展,網絡資源越來越呈現出紛擾雜亂的面貌。面對海量的信息資源,為了讓用戶及時準確地獲取所需要的信息,網絡檢索工具應運而生。經過十幾年的發展,搜索引擎已經成為人們獲取網絡信息資源不可或缺的工具之一。然而,網絡信息資源的數量正以幾何級數級增長,且廣大用戶的需求呈現多樣化的趨勢,簡單的網頁檢索已經遠遠不能滿足要求。CNNIC《第 26 次中國互聯網絡發展狀況統計報告》指出: 從 2009年開始,搜索引擎進入新一輪的快速發展時期,為了滿足用戶的多元需求,進一步提升搜索引擎作為互聯網入口的地位,國內各搜索引擎廠商服務呈現更加多元化趨勢,文檔搜索引擎正是為滿足用戶多元化需求的重要網絡應用之一。
1、 文檔搜索引擎的界定
網絡信息資源以各種形式分布式存儲在網絡中的各個分布式數據庫中,不僅存儲的信息量龐大,而且存儲格式也多種多樣。網絡中的文檔信息資源是指以特定的文檔格式分布存儲在網絡中的特定信息資源,這些資源涉及學術論文、會議報告、商業文檔模板、公文模板、教育類資料、法律文件、文學小說等多個領域,格式上包括 pdf、doc、xls、ppt、txt 等十數種。
文檔搜索引擎是指根據一定的策略,運用計算機程序搜取網絡上存在的文檔資源,對文檔信息進行組織和處理并將處理的信息顯示給用戶,是一種專門為用戶提供文檔檢索服務的網絡系統。雖然文檔搜索引擎發展時間不長,但是國內外已有很多專門用于文檔檢索的引擎,見表 1。
文檔搜索引擎檢索的對象為網絡中廣泛存在的、大量的文檔資源,和學術搜索引擎的不同表現在: 這些文檔資源大部分來自網絡用戶的上傳,在網絡中可以開放獲取,存儲文檔的格式更加豐富多樣;從文檔內容上看,文檔搜索引擎是為了滿足用戶的實際需要,它不僅包括部分學術資源,還包括如商業模板、公文模板以及文學作品等實用性很強的文檔資源。文檔搜索引擎和商業數據庫相比,它的優勢表現在其大部分文檔資源都可以免費獲取。文檔搜索引擎不需要獨立開發網絡資源,只是提供一個供用戶共享資源的網絡平臺,這個平臺的資源來自用戶,最終受益的也是廣大的網絡用戶。
2、 國內外典型文檔搜索引擎解決方案
在眾多的文檔搜索引擎中,可以根據系統模式的不同劃分為兩種解決方案: 一是獨立的網絡文檔存儲和檢索平臺,如百度文庫、豆丁和 Docstoc等;二是強化傳統搜索引擎的文檔檢索功能,為用戶提供專用的文檔檢索接口,如 DcoJax、Brupt等。
2. 1 獨立的網絡文檔存儲和檢索平臺
獨立的文檔檢索系統的優點是不依賴傳統搜索引擎,作為一個獨立的網絡檢索平臺可以很好地融合 Web 2. 0 的相關技術,實現搜索引擎的多種個性化功能。缺點主要是: 文檔資源主要來源于網絡用戶的貢獻,文檔的質量良莠不齊,而且存在大量的重復。為方便用戶檢索,文檔搜索引擎要做的主要是對這些文檔進行組織和分類。這類文檔搜索引擎的發展主要依靠吸引網絡用戶的數量,利用網絡效應來實現其價值,所以網絡用戶的數量成為其發展的重要決定因素。為了解決這一問題,很多文檔搜索引擎通過模仿電子商務嵌入文檔營銷模式來吸引網絡用戶的關注。因此,獨立的網絡文檔搜索引擎可以分為兩類: 共享理念的文檔搜索引擎和嵌入營銷模式的文檔搜索引擎。
2. 1. 1 共享理念的文檔搜索引擎。免費的搜索引擎和傳統的搜索引擎一樣,普通用戶使用它不需要任何費用。其特點就是為網絡用戶提供免費文檔共享的平臺,用戶通過匿名訪問或注冊用戶登錄的方式檢索和獲取平臺中的文檔資源。這類文檔搜索引擎的典型是百度文庫。
百度文庫是一個開放的共享平臺,用戶通過注冊一個百度文庫的賬戶,登錄系統后就可以在線瀏覽、上傳和下載文檔。用戶通過上傳文檔可以獲得平臺虛擬積分獎勵,用于下載自己需要的文檔。免費文檔可以登錄后下載,對于上傳用戶已標價的文檔,下載時需要付出虛擬積分。百度文庫的文檔主要來自用戶上傳,百度本身不參與編輯或修改用戶上傳文檔的內容,但是對用戶上傳的文檔需要通過系統的審核。
2. 1. 2 嵌入營銷模式的文檔搜索引擎。一些文檔搜索引擎模仿電子商務網站的模式,通過嵌入營銷模式來吸引更多用戶。用戶利用這個網絡平臺來出售自己的文檔而獲得銷售收入。這類型文檔搜索引擎的典型是豆丁網和 Docstoc。
\\(1\\) 豆丁網是全球優秀的 C2C 文檔銷售與分享社區。和典型的搜索引擎不同,豆丁網更像一個Web 2. 0 下的網絡社區,在這個社區里可以搜索教育資料、論文課件、學術報告、財經分析、原創文學等相關資料。豆丁網的特點是引入了網絡營銷的概念,首次在文檔分享社區中融入了基于 C2C 理念的文檔銷售模式。借助豆丁可以對自己的文檔進行定價,交易成功后,豆丁網收取固定比例的傭金。
\\(2\\) Docstoc 是一款優秀的社會性文檔分享以及閱讀的網絡服務系統,為用戶提供了在線存儲、分享以及交流文檔的互聯網服務。Docstoc 包括有法律、商業、財經、技術、教育等各式各樣的文檔資源。Doc-stoc 通過 DocCash 功能來實現對網絡文檔的銷售和管理。DocCash 是國外一家可以讓用戶通過分享各類文檔資源并結合 Goolge Adsense 賬號賺錢的服務機構,它支持無限的存儲空間和代碼調用,是 Adsense第三方合作機構,可以通過它申請賬號。用戶每上傳一個文檔,都會有一個獨立的包含此文檔的頁面,在這個文檔的上面與下面會顯示 Adsense 的廣告,如果有人點擊所產生廣告費,DocCash 會收取50%作為傭金。
2. 2 傳統搜索引擎提供的文檔檢索工具
傳統搜索引擎經過許多年的發展,已經積累了極其豐富的網絡資源,為了滿足用戶對網絡中文檔資源的檢索需求,很多綜合性搜索引擎推出了對文檔資源檢索的專用檢索工具。通常情況下,綜合性搜索引擎會提供一個簡潔的搜索入口或獨立的檢索界面,用來區別傳統的搜索引擎。這類型的文檔搜索引擎主要有 DocJax 和 Brupt。
\\(1\\) DocJax 并不是真正獨立的搜索引擎,它的搜索結果大多數都是來自 Google、Yahoo 和 Bing 等。DocJax 是以英文為主要語言的網站,DocJax 除了支持英文,也支持多國語系,包括簡體中文、繁體中文或日文都可以正確檢索。它采用 Web2. 0 服務形式,支持搜索結果格式過濾,用戶可以從搜索結果中挑選自己想要的文件格式,并且搜索的文件可以免費下載。
\\(2\\) Brupt 是 Google 的一個自定義搜索引擎,和通過 Google 高級搜索的結果是一致的,可以搜索 pdf、doc、ppt、xls 等格式的文檔,支持中文搜索。搜索的結果除了顯示相關文檔的摘要,還支持HTML瀏覽。
3、 文檔搜索引擎的檢索功能比較分析
文檔搜索引擎具有 Web 2. 0 應用系統的典型特點,這些特點表現在文檔搜索引擎能夠提供給用戶更加多樣的檢索功能,這些新的檢索功能給用戶檢索帶來了新的體驗。以下選取百度文庫、豆丁網、Docstoc、Scribd、Brupt 和 DocJax 六個典型的文檔搜索引擎,對主要檢索功能做比較,并分析所提供個性化功能的差異,見表 2。
3. 1 文檔搜索引擎的檢索功能比較
通過表2 可以看到,為了滿足用戶的檢索需求,各個文檔搜索引擎提供了豐富多樣的檢索功能。相對于綜合性搜索引擎開發的文檔檢索工具相比,獨立的文檔搜索引擎提供了更加豐富多樣的檢索功能。
\\(1\\) 在檢索模式上,所有搜索引擎均支持關鍵字檢索,獨立的文檔搜索引擎還支持目錄式檢索模式,網絡文檔檢索工具來源于綜合性搜索引擎,主要給用戶帶來對其自身文檔資源檢索的便利性,例如DocJax 是谷歌和雅虎合作而開發的一種檢索應用系統,主要體現在應用簡潔方面,只支持關鍵字檢索模式,而不具備一系列的個性化設置功能。獨立的文檔搜索引擎還支持二次檢索和精確匹配檢索。例如百度文庫支持二次檢索,在初次檢索之后,用戶可以根據文檔的“相關性”“最多下載”和“最新上傳”對檢索結果進行二次排序,從而使用戶獲得更加符合需求的結果; 同樣 Docstoc 也支持二次檢索,在初次檢索后,用戶可以根據文檔格式、分類、語言等限制條件進行二次檢索,而且 Docstoc 還支持精確匹配檢索,例如用戶可以只檢索文檔的標題和精確匹配用戶輸入的檢索關鍵字進行精確檢索。
\\(2\\) 在檢索內容上,各個文檔搜索引擎都支持對標題和具體格式的檢索。文檔搜索引擎根據各自開發的文檔閱讀器,可以在閱讀的時候擺脫具體文檔格式的限制,不管是 pdf 還是 Office 軟件中的各種格式都可以通過這一通用的閱讀平臺來展現給用戶。而且獨立的閱讀器還可以提供縮放、文檔內檢索、全屏閱讀等功能,給用戶帶來了新的閱讀體驗。
\\(3\\) 在檢索的文件格式上,所有的文檔搜索引擎基本上都支持 pdf、doc、xls 和 ppt 等主流文檔存儲的格式,并全部支持全文在線瀏覽。
\\(4\\) 在支持的語言上,由于文檔搜索引擎處于初步發展階段,國內的主要支持中文,而國外的也主要支持英文,對中文的支持程度還有一定的欠缺。這一點在獨立的文檔搜索引擎中表現尤為明顯。在國外的文檔搜索引擎中,只有 Docstoc 可以很好地支持多國語言,除了對英文和中文的支持,還支持德語、俄語等多種語言。而由綜合性搜索引擎發展而來的文檔檢索工具,對多國語言的支持度比獨立的搜索引擎要好得多。例如 DocJax 能夠支持多國語言,其文檔來自全球各地,對各國語言的支持也就順其自然了。
3. 2 個性化檢索功能比較
通過表 3 可以看到,獨立的文檔搜索引擎能夠提供更加多樣的個性化檢索功能。這些個性化的檢索功能主要通過加入 RSS、標簽、API 和 Digg 等技術來實現。書簽和 RSS 是 Web2. 0 環境下重要的應用,大部分文檔搜索引擎均支持書簽功能,用戶通過書簽可以在線編輯和管理各種文檔,從而有利于對文檔的二次檢索。API 是指應用程序編程接口,通過這個應用用戶可以把從文檔搜索引擎中檢索的文檔鏈接到自己的博客或者網頁中,利用該項設置用戶可以及時分享和保存自己感興趣的文檔,為二次檢索帶來了極大的方便。
在共享和傳播方面,獨立的文檔搜索引擎擁有廣泛的用戶基礎和合作網站,用戶可以很方便地把相關文檔分享到自己的個性化空間中。例如豆丁網則可以將自己滿意的文檔隨時共享到人人網等 SNS 網絡中,Scribd 的用戶可以及時將文檔發布到 Twitter 或者 Fa-cebook 上,而 Docstoc 利用其 API 技術還可以將文檔嵌套到個人博客或網站中。由綜合性搜索引擎提供的文檔檢索工具則不具備這一系列的個性化功能。
4、 文檔搜索引擎發展的趨勢
隨著網絡新技術的不斷發展,技術的革新是搜索引擎發展的主要推動力之一。搜索引擎越來越貼近人們的具體需求,文檔搜索引擎正是結合 Web 2.0 技術新的互聯網應用系統之一。由于網絡新技術和文檔搜索引擎的兼容和融合,文檔搜索引擎發展的呈現出檢索功能多樣化、個性化、運營商業化和系統社會化等趨勢。
4. 1 檢索功能多樣化、個性化
Web 2. 0 技術在文檔搜索引擎中廣泛應用,書簽、API、RSS 等技術在文檔搜索引擎中得到應用,體現了 Web 2. 0 時代網絡交互性的特點,為真正意義上的數字圖書館的發展帶來了新的活力,個性化的檢索服務使得文檔搜索引擎更能滿足普通用戶的個性化的需求。
4. 2 商業化趨勢
從網絡文檔的來源來看,大多數文檔來自網絡用戶的上傳,由于文檔涉及版權問題,商業化是文檔搜索引擎發展必然的趨勢。既有熱心網絡用戶貢獻的文檔,也有商業機構等提供的文檔,勢必會出現共享和商業共存的模式。在這樣的商業模式中收入主要有兩個來源: 植入廣告獲得收益和出售文檔帶來的收益。
4. 3 社會化趨勢
文檔搜索引擎的融合性,勢必會使更多的人參與到文檔共享平臺中來。根據 Alexa 排名,文檔搜索引擎的訪問量正在逐步上升,已經成為網絡社會化的一個重要的組成部分,吸引了大量的用戶。在網絡時代里,用戶才是網絡存在的根本出發點和落腳點,文檔搜索引擎的社會化趨勢將會越來越明顯。
5、 結 語
將來搜索引擎的發展趨勢就是向著精確性、專業化、智能化、個性化以及交叉語言檢索方向發展,文檔搜索引擎尚處于發展的初級階段,很多文檔搜索引擎僅僅是綜合性搜索引擎某些功能的強化,專用的文檔搜索引擎能夠提供更加多樣化的檢索功能,但是對多國語言的支持和如何吸引更多的用戶參與是其發展所面臨的困難。面對日益復雜的數字版權保護問題,也是文檔搜索引擎發展過程中不得不考慮的問題,如何規避風險又確保人類文化知識的共享和傳播,需要找到一種切實可行的辦法。盡管問題不少,但是專用的文檔搜索引擎必然會給用戶帶來全新的體驗。