隨著大數據時代的到來,大數據已經滲透到圖書館管理、運營、服務和變革過程的每一個環節,成為關系圖書館基礎設施建設、服務模式與內容變革、讀者個性化服務有效性保障和可持續發展的重要因素。
圖書館大數據環境具有數據量大\\(VOlume\\)、類型繁多\\(Vanety、價值密度低\\(Value、處理速度快和時效高\\(Velocity\\)的4個特征。如何在復雜的大數據環境中高效搜索、抓取、管理和處理價值數據,是圖書館準確配置服務資源、提高服務效率與能力、即時發現讀者個性化需求,以及增強市場競爭力和用戶滿意度的關鍵。因此,大數據時代圖書館應加強以用戶為核心的搜索引擎建設,為圖書館運營管理和用戶服務提供可靠的大數據搜索、數據價值發現支持。
1 大數據時代數字圖書館數據搜索的需求與特點
1.1 讀者的個性化搜索需求
大數據時代,以讀者為核心的用戶個性化需求發現和數據價值挖掘,成為搜索引擎設計與應用的重要依據。自-先,搜索引擎應根據采集的讀者閱讀行為與個人特征大數據信息,準確判定用戶數據搜索的內容需求、興趣愛好與價值特征,確保為讀者提供可定制的個性化數據搜索服務。
其次,搜索引擎必須改變依據用戶輸入“關鍵字”進行數據檢索的傳統模式,應具備用戶語意分析和人機對話的功能。通過人機信息交勺_保證個性化數據搜索內容全而、準確、經濟和可用。第三,搜索引擎應準確跟蹤、分析和判定讀者需求變化,可依據讀者需求對搜索引擎系統參數、搜索算法和用戶需求進行動態調整,保證搜索引擎的讀者個性化搜索活動具有較強的自適應能力。
1.2 搜索引擎依據讀者需求實時優化的需求
圖書館大數據環境除數據海量、類型繁多、價值密度低、處理速度快和時效高外,還具有數據結構復雜和信息更新速度快的特點。因此,圖書館應根據數據環境和讀者搜索需求變化趨勢,按照讀者需求對搜索引擎實時優化,確保搜索引擎安全、高效、可用和經濟。
首先,圖書館應根據搜索引擎運行效率和可用性評估結果,提高搜索引擎對高數據價值網站搜索的頻率和準確性,保證讀者數據搜索過程能夠預測、控制和搜索效率最優。其次,搜索引擎在對圖書館和第三方服務商資源檢索時,須準確判定所搜索內容是否依據數據價值量和讀者需求進行自然排序,而不是依靠用戶點擊率和關鍵詞競價排名。第三,圖書館應根據讀者數據搜索習慣來優化網站和大數據資源,提高價值關鍵詞在搜索引擎的排名,增強搜索引擎的易用性。
1.3 閱讀終端具有移動搜索功能需求
大數據時代,圖書館應支持任意讀者可在任何時間、任何地點以任何方式進行閱讀。因此,用戶終端的移動閱讀和移動搜索能力,將會嚴重影響讀者的閱讀有效性和滿意度。
首先,基于網頁的傳統搜索模式因資源數據量巨人和檢索過程操作復雜,并對數據傳輸網絡與閱讀終端性能要求高,導致傳統的搜索引擎技術無法滿足閱讀終端的移動搜索需要。其次,基于Web協議的傳統搜索引擎無法全而索引來自客戶端應用和網頁的內容,難以直接調用客戶端應用程序而有效讀取已檢索數據。第三,用戶使用搜索引擎的便捷性、個性化服務能力、響應速度和讀者隱私保護能力需求,人幅度增強了搜索引擎設計與應用的難度。
1.4 以用戶為核心的搜索引擎設計需求
大數據時代,讀者在年齡、文化水平、閱讀需求和閱讀社會關系上具有較人差異性。因此,不同的讀者具有不同的閱讀與大數據搜索需求。圖書館可依據讀者的不同需求,將讀者劃分為不同的用戶群,并提供可定制的個性化月民務。
以用戶為核心的搜索引擎設計,自一先,須準確理解讀者數據檢索的個性化需求,保證所搜索的內容精確和滿足用戶需求,具有安全、全而、精確和快速的特點。其次,搜索引擎應根據所采集的讀者閱讀行為大數據信息,準確預測、判定和識別用戶的數據搜索真實意圖,并對所搜索到的相關海量數據進行查找與匹配,以及依據用戶需求和價值可用性對已搜索數據進行排序。第三,搜索引擎應準確判斷擬檢索網站、大數據庫資源的可信度和用戶相關性,并結合讀者個性化搜索需求對圖書館服務資源、第三方服務商和相關網站的可用性進行排名,利用排名結果來確定數據搜索和內容展示的次序,不斷提高搜索引擎的智慧搜索能力。
1.5 搜索引擎應具備“機器學習”的智慧功能
大數據時代,準確理解讀者數據搜索意圖、直接制定與表現搜索策略、可提供場景式對話搜索功能,是圖書館智慧搜索引擎的卞要特征。
首先,圖書館應實現搜索引擎“機器學習”的智慧功能。搜索引擎可根據讀者關鍵詞輸入和用戶語意分析與表現,準確分析、判定和補充讀者的真實語意,并解決數據搜索過程中的多文本近義問題。其次,搜索引擎應通過“機器學習”過程,實現圖像數據的準確識別和搜索,并對所搜索數據進行準確的內容表示、語意判定、圖片分類與存儲,為讀者提供“即搜即得”的服務。第三,搜索引擎應通過“機器學習”過程,當大數據平臺有新的數據注入時進行自我補充和完善,保持一個不斷驗證和更新的動態數據緩存,確保數據搜索過程隨著“機器學習”的深入,而更加實時、精確和具有相關性。
2 基于大數據的數字圖書館高效搜索引擎設計
2.1 基于讀者個性化需求的搜索引擎設計
大數據時代,圖書館搜索引擎由搜索器、索引器、檢索器和用戶接口4個部分組成。搜索過程卞要通過網絡爬蟲自動獲取網頁內容,然后對檢索內容進行信息提取、建立索引和對原有索引庫更新,最后根據用戶輸入的關鍵字在索引庫檢索數據,并將輸出結果排序后交給發起請求的終端。
基于讀者個性化需求的搜索引擎設計,應根據用戶搜索需求和習慣,定制具有個性化特征的讀者數據搜索模型。當不同的用戶輸入相同關鍵詞時,圖書館搜索引擎會為不同讀者反饋精確、惟一、高價值和個性化的數據查詢結果。
首先,個性化的讀者數據搜索模型定制,應構建于對所采集的讀者搜索歷史數據、讀者網絡瀏覽記錄、用戶閱讀關系數據、讀者在論壇與博客發表信息分析的基礎上,明確用戶的搜索需求、檢索興趣與習慣、檢索行為和搜索策略之間的關聯性,保證搜索過程安全、高效、易控和經濟。
其次,搜索引擎應根據讀者需求和搜索行為評估數據,通過構建空間向量模型來保證在用戶需求、檢索效率、搜索成本和數據可用性上的最優化配置。第三,搜索引擎須保證大數據復雜環境下的圖書館管理與讀者閱讀需求,應具備用戶需求發現、搜索有效性評估、新信息與熱點發現、搜索內容分析與統計、分類過濾、文檔去重與信息自動摘要·數據模式自動識別與轉換等功能。
2.2 突出搜索引擎的用戶個性化服務功能
大數據時代,圖書館應加強搜索引擎的個性化服務功能,才能提高讀者在復雜大數據環境下信息檢索的安全性、效率、價值密度、經濟性和可用性。
首先,圖書館在搜索引擎檢索算法設計中,應將讀者數據搜索的效率和價值密度放在首位。確保數據搜索過程能夠以讀者需求為依據,為與讀者有較高價值關聯性和價值密度的數據,分配相應的搜索和優先展示權重,保證用戶具有較高的搜索體驗度。其次,搜索引擎應根據讀者數據檢索習慣和愛好,由用戶自卞個性化定制檢索界而和檢索模式。此外,搜索引擎還應具備較強的人機對話功能,能夠為讀者提供個性化數據搜索推薦服務。第三,搜索引擎應通過對讀者閱讀和數據檢索行為的準確分析,更深入、細致地掌握用戶檢索的需求與過程,在保證搜索平臺開放性和公平性的前提下,降低搜索成本和提高數據搜索效率。
2.3 實現搜索引擎的智慧搜索功能
大數據時代,數據存儲的模式和表示方式呈現復雜、多樣化特征,不同讀者在搜索數據語意表示上具有多樣性、隱性、抽象和基于對話的特點。因此,實現搜索引擎的智慧搜索功能,是明確讀者數據搜索意圖和實現精確查詢的關鍵。
首先,圖書館應利用分詞技術,根據用戶服務信息的類別和表示模式進行分類歸檔。當讀者搜索信息時,可依據信息所處索引庫的位置,而實現數據的快速、準確搜索。
其次,圖書館搜索引擎應具備用戶語義發現、分析和判斷功能,可通過對讀者輸入詞的分析而明確用戶真實意圖,并在索引庫中查詢與用戶搜索日標最接近的文檔和數據。
第三,圖書館應根據大數據信息庫數據、第三方服務商網站資源、用戶社會關系表示,構建一個以讀者為中心的巨人信息關系圖譜。當讀者搜索未知數據和隱性信息時,可通過“圖譜搜索”檢索出與所搜索內容相關的文本、圖片、音頻、視頻和數據關系等信息,確保用戶個性化搜索數據具有全而、精確、深度和可靠的特點。
2.4 確保搜索引擎的有效性評估內容全面、易控和可操作
圖書館應量化搜索引擎檢索過程的安全性、效率、檢索價值密度、用戶相關性、檢索結果、用戶友好性與交勺_}N}等指標內容,為搜索引擎設計與優化提供可靠的數據支持,保證搜索引擎評估具有科學性、可控性和可操作性。
根據大數據時代復雜數據環境和讀者個性化檢索需求,搜索引擎評估卞要可分為檢索安全可靠性、檢索界而友好性、數據搜索性能、檢索的輸入與輸出模式4個方而內容。
檢索安全可靠性卞要由搜索引擎系統結構的科學性、安全健壯性、安全防御能力、用戶隱私保護性等方而組成。檢索界而友好性卞要分為用戶可操作性、系統可管與可控性、數據搜索成本、用戶相關性、用戶滿意度等。數據搜索性能卞要分為檢索相關度、精確度、時效性、檢索數據的價值密度、用戶檢索成本等。檢索的輸入與輸出模式,卞要指搜索引擎輸入與輸出界而的友好性、語義表現能力、管理與使用復雜度、用戶交互性。
2.5 利用搜索引擎檢索規則來優化圖書館大數據資源
圖書館大數據環境具有海量、復雜、價值密度低和處理時效高的特點。因此,如果圖書館不依據搜索引擎運行規則,對管理與服務大數據資源庫進行優化,將會導致搜索引擎查詢數據量巨人、檢索深度與精度不高、成本上升和用戶滿意度下降的情況出現。因此,必須利用搜索引擎運行規則對圖書館大數據資源進行優化。
首先,圖書館應認真分析搜索引擎的檢索算法和運作規則,并以讀者需求為核心加強大數據資源庫的科學和結構化水平,提高所查詢數據的價值密度和用戶相關性。其次,搜索引擎應根據用戶使用有效性評估結果,依據讀者閱讀模式、內容和需求變化趨勢,及時調整搜索引擎檢索對象的排名算法,使搜索引擎更適應大數據復雜環境特點和讀者個性化需求。第三,圖書館在網站建設中,應提高網站資源信息結構的科學性和數據可獲取性,卞動為用戶提供具有個性化特征的站外二次鏈接服務,確保讀者具有更愉悅的用戶檢索體驗。
2.6 突出搜索引擎的移動檢索功能
大數據時代,隨著讀者移動閱讀終端智能化和集成度的提高,移動檢索將成為個人閱讀終端的卞要服務與閱讀方式。
首先,讀者移動檢索具有無線網絡數據傳輸環境復雜、讀者閱讀需求高、數據傳輸海量和數據類型多的特點。因此,圖書館在讀者移動閱讀模式保障中,應采取搜索代理服務器和閱讀終端的結構模式,當搜索代理服務器接收到移動終端發來的搜索請求后,由搜索代理服務器端完成數據的搜索、用戶相關性分析與評估、數據模式轉變和加工,并將最終結果通過無線信道傳輸到用戶端上。此外,用戶閱讀終端的移動搜索引擎還應和第三方服務商平臺結合,支持諸如閱讀論壇與博客管理、讀者群交友和地理位置查詢等增值服務,為讀者提供可定制的個性化移動增值服務。第三,搜索引擎移動檢索功能的建設,應以貼近讀者實際需求和增強用戶體驗為中心,逐漸向語音搜索、場景化搜索、微博搜索等多種模式轉變,以提高搜索服務的可用性和趣味性。
3 結束語
隨著大數據時代的到來,圖書館數據環境而臨的安全威脅和復雜性人幅增加。此外,圖書館大數據平臺的高效管理與讀者個性化閱讀服務需求,也對大數據資源的采集、管理、控制和搜索提出了更高要求。
因此,圖書館管理者必須從讀者個性化閱讀需求和用戶滿意度保障出發,堅持科學技術應用與大數據復雜環境特點相結合的原則。同時,在搜索引擎設計中應保證搜索算法與大數據復雜環境相適應,搜索引擎應用具有安全、高效、智能、經濟和移動服務的特點,才能為讀者提供具有個性化特征的大數據搜索服務。
參考文獻
[1]中國互聯網絡中心,2010年中國搜索引擎用戶行為研究報告[R],2012一02一08.
[2]尤川川,張桂剛,一種基于大數據的有效搜索方法[J],計算機科學2013,40\\(6\\):183一186.
[3]葉育鑫,歐陽丹彤,基于語義的主題爬行策略[J],軟件學報,2011,22\\(9\\):2075-2088.
[4]丁軍平,蔡皖東,而向P2P特定信息的爬蟲改進技術[J],計算機工程與應用2011,47\\(29\\):23-26.
[5}楊藝,周元,基于用戶查詢意圖識別的搜索優化模型[J],計算機科學2012,39\\(1\\):264-267.
[6}王珊,王會舉.覃雄派等,架構大數據:挑戰、現狀與展望[J],計算機學報2011,34\\(10\\):1741一1752.