紹興圖書館數字化工程經過 10 余年的建設,目前已擁有較為完善的軟、硬件設施,積累了一定規模的數字資源,在特色數據庫建設以及公共圖書館數字資源整合門戶建設方面已具雛形,相繼開通了多項數字化服務項目. 2011 年紹興圖書館數字資源訪問、下載量突破了 80 萬篇\\( 冊\\) 次. 但同時,紹興圖書館這些數字資源本身是零散的、孤立的,不利于讀者的利用,而且紹興地區各個圖書館之間資源因缺少有效的整合統籌途徑,各自獨立為營,資源重復建設的情況比較突出. 因此,實現具有實用性、整合性、統一認證、可擴展、可配置的數字資源門戶\\( 共享\\) 平臺,從而為讀者提供統一服務入口,從各類資源與應用中獲取個性化信息是很有必要的. 提高數字圖書館的查準率、查全率是實現智能化知識服務的基礎. 在圖書檢索中,用戶的查詢請求一般用一個或幾個關鍵詞來表示,而這往往很難忠實表達用戶的檢索請求,導致用戶真正需要的文檔因關鍵詞的選擇不當而無法檢索出來. 通用搜索引擎采集信息的速度跟不上網絡資源的增長速度,檢索詞的命中率不到 75%. 紹興市圖書館數字圖書館于 2012 年建成,為紹興市圖書館量身定制一個垂直搜索引擎,提供個性化知識服務,對其數字圖書館建設是有意義和必要的.
1 國內外研究現狀
目前,國內基于垂直搜索引擎方面的研究大都集中在原理、算法等方面. 鄒嵩等通過研究最大長度匹配算法,提出了改進后的最大長度匹配算法以提高檢索效率. 夏斌等以用戶對農業信息搜索需求為研究背景,采用向量空間模型對農業主題進行識別,并采用網頁內容和鏈接分析相結合的方法,設計實現了一個中文農業信息垂直搜索引擎. 汲業等根據生活服務領域網頁信息的特點,提出了一種面向生活服務領域的垂直搜索引擎模型,給出了該模型在信息采集、信息抽取、索引建立和信息檢索等 4 個功能模塊的具體算法及實現方式. 劉博卿從軍事工程兵的角度出發,對垂直搜索引擎進行系統研究,研究表明垂直搜索引擎具有很強的針對性、智能性和實時性.而基于用戶行為分析方面的研究,國內主要集中在算法研究階段. 王微微等針對現有的用戶模型不能及時根據用戶自身興趣偏移進行更新的問題,提出了一種基于用戶行為反饋的興趣度模型更新算法,實現用戶興趣的自動更新,得到針對新用戶興趣的推薦商品列表以及推薦商品的個性化排序,從而向用戶進行個性化推薦. 于升峰等從全面分析用戶上網行為入手,構建網絡行為數據庫,采取區別不同用戶的個性化主動 RSS 推送服務方式,提出了一種基于用戶行為數據庫的主動式知識服務模式. 王存睿等結合用戶行為時間序列和操作頻次,融合 FP - GROWTH 算法設計了用戶特征挖掘算法,建立網絡形式的用戶行為特征表達方法,并設計了相應的用戶行為采集系統. 張宇紅介紹地方文獻作為特色館藏進行主題標引的案例,其目的在于資源的共建共享.
2 垂直搜索引擎相關技術
2. 1 知識組織系統
知識組織系統\\( Knowledge Organization Systems,KOS\\) ,是隨著數字信息組織技術及人們對信息組織需求的發展,由信息組織向知識組織變革而產生的各種語義工具的統稱. 知識組織系統的類型最早期是分類法,其后出現了敘詞表、概念地圖、語義網絡以及本體等. 利用知識組織方式對圖書等資源進行重新標引,能夠揭示其語義特征從而支持相關推理. 利用領域知識對資源進行二次加工和整合,能夠賦予資源專業化、語義化特征,因而克服了通用搜索引擎基于關鍵詞匹配查全率不足的問題.特色數據庫正是利用知識組織系統進行再加工而形成的能夠滿足用戶個性化需求的文獻資源庫,它依托圖書館館藏文獻資源,針對特定讀者的信息需求,對某一學科領域或某一專題中有利用和收藏價值的文獻信息進行收集、整理、分析、評價、處理、存儲等,并按照某一標準數據格式和規范將其數字化.
2. 2 垂直搜索引擎
垂直搜索引擎又稱專業或主題搜索引擎,是專門針對普通搜索引擎查詢的信息量大而且查詢不準確、深度不夠等特點提出的新查詢服務工具. 垂直搜索引擎具有濃郁的行業和領域特色,是專為檢索某一學科或主題的信息而產生的查詢工具,專門收錄某一方面、某一行業或某一主題的信息,對解決實際查詢問題要比搜索引擎門戶有效得多,其特點就是“專、精、深”. 相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入. 垂直搜索引擎憑借明確的檢索目標定位,對網頁進行選擇性收集,信息采集量小,更新及時,因而能有效解決通用搜索引擎的弊端. 垂直搜索引擎正在以其日趨精準化、人性化的信息檢索服務,提升人們對搜索引擎的使用率和認同度,助推了搜索引擎的快速發展.垂直檢索引擎主要由內容抓取、建立索引以及檢索系統組成. 內容抓取———主要是通過蜘蛛程序從信息源抓取數據. 內容抓取涉及的關鍵技術點有爬行路徑分析、增量抓取與全抓取、信息構造完整性、信息唯一性識別、多網頁信息整合、自動標引等. 建立索引———是指把抓來的信息建立類似書目的數據文件,以實現高速檢索. 檢索系統———就是提供搜索功能的網站,網站的具體表現形式大不相同,但是都提供全文搜索功能. 垂直搜索是對行業信息進行深度的加工,有效的整合. 本文重點研究利用知識組織系統,對其圖書檢索內容進行分析,提供網頁搜索無法做到的專業性、功能性,為用戶提供深一步的服務和完整的體驗.
3 系統設計與實現
本系統以紹興市圖書館為應用環境,利用知識組織方式對圖書資源進行標引形成特色數據庫,同時通過用戶畫像的建立,實現用戶個性化垂直搜索服務. 紹興圖書館圖書檢索垂直引擎系統的原理如圖 1 所示,本系統主要由 3 個功能模塊組成: 用戶建模模塊、知識加工模塊以及垂直搜索服務模塊.
用戶建模模塊,是指通用對用戶瀏覽網站等行為和用戶相關的日志進行分析從而形成用戶模板庫等.IP 地址是系統用戶最主要的特征,瀏覽器 Cookie 能夠將相同 IP 地址下的用戶進一步細分. 紹興圖書館圖書檢索垂直引擎系統正式采用兩者結合進行用戶識別. 用戶的行為可以通過如下方式表示: userInfor =< IP,Cookie,url,rfUrl,pageTitle,stamp,status > . 其中 url 是訪問的網址,rfUrl 是前一個 url,pageTitle 是頁面標題,stamp 表示當前時間,status 表示狀態. 用戶識別以及行為定義之后,系統可以還原用戶在網站上的瀏覽行為并進行跟蹤.紹興圖書館圖書檢索垂直引擎系統通過用戶識別、頁面行為跟蹤,以及建立用戶畫像三個過程實現用戶行為分析.
3. 2 知識加工模塊
知識加工模塊用于系統對資源進行加工,資源的加工精度決定了對外服務的質量,主要包括元數據管理以及知識加工等內容. 系統各類用戶各負其責,知識專家和領域專家對元數據進行管理,知識編輯人員通過知識組織庫對圖書資源進行標引等知識加工,從而形成特色數據庫. 本文中的特色數據庫,可以采用順序文件、索引文件、倒排文件等形式來組織. 經過知識加工后,能夠揭示隱含的有價值的信息.元數據管理包括元數據更新以及發布. 元數據存儲在專用的數據庫中,分為索引目錄和關系映射數據庫. 索引目錄用于檢索,關系數據庫用于元數據與原文的關聯記錄. 元數據倉儲提供 OAI - DP 服務,供其它應用系統調用,并返回 XML 格式的結果.在紹興圖書館圖書檢索垂直引擎系統中知識組織庫采用本體來描述. 本體可以使用資源表\\( t_re-source\\) 將類和屬性等信息組織起來. 本體中的資源采用 URI 進行唯一標識,而 URI 是由 namespace 和 lo-calname 組成的. 字段 type 記錄資源的類型: 類、實例、屬性. 紹興圖書館圖書檢索垂直引擎系統存儲表結構信息如表 1 所示.
圖書檢索服務主要涉及到的類包括書籍\\( Book\\) 、作者\\( Author\\) 、出版社\\( Publisher\\) 和讀者\\( Reader\\) .圖書檢索涉及到的圖書類的主要關系有 hasPublisher,hasPublishTime,hasCategory,hasKeyWords,hasPrice,hasWords,hasLanguage,hasAuthor,hasBorrowedTimes 等,主要包括書籍的中文名稱、語種、行業、出版時間、字數、價格、作者和借閱次數等信息. 系統通過關系的連接,來達到添加信息語義的目的,例如“中文”與類“圖書名”相關聯形成“中文圖書”,“出借次數”與“行業”相關聯形成“行業熱門書籍”.實例的基本信息存儲在單獨的實例表 t_ instance 中,實例存儲的主要字段有 instanceID 和 instance-Name,以及每個實例的屬性及屬性值. 系統采用基于三元組的存儲思想,將 instanceID,propertyID 和 value視為一個三元組,直接存儲在表中.
3. 3 垂直搜索服務模塊
垂直搜索服務模塊是紹興圖書館圖書檢索垂直引擎系統對外服務的模塊,面對用戶輸入的響應,盡可能提供給用戶滿意的結果,提供垂直搜索和個性化資源推薦等服務.相對傳統搜索引擎,垂直搜索引擎由于覆蓋整個行業,搜索相關性更高,更符合用戶意圖. 同時,紹興圖書館圖書檢索垂直引擎系統由于知識組織系統的介入,數據結構化的因素,檢索結果更是少而精. 垂直搜索流程如圖 2 所示. 用戶輸入檢索詞后,系統提取用戶畫像確定其關注的領域信息,然后對用戶輸入的檢索詞進行擴展等推理,并將推理結果交給檢索模塊進行檢索,最后向用戶返回檢索結果.個性化推薦是以用戶滿意為中心的主動推送服務,是根據用戶的不同興趣和特點,提供有針對性的服務. 系統根據不同時間用戶行為的變化不斷調整、豐富用戶畫像,尋找用戶最相近興趣和特點的人的最近情況,直接推送用戶感興趣的圖書等信息.4 結束語。
參考文獻:
[1]張敏. 基于本體的垂直搜索引擎的研究[J]. 軟件導刊,2010,9\\( 2\\) :13 -15.
[2]鄒嵩,趙詩陽,周新志. 垂直搜索引擎中分詞技術的算法研究[J]. 計算機技術與發展,2012,22\\( 2\\) :131 -137.
[3]夏斌,丁立,喬紅波,等. 中文農業信息垂直搜索引擎的設計與實現[J]. 河南農業大學學報,2010,44\\( 6\\) :715 -717.
[4]汲業,陳燕,楊健,等. 生活服務領域垂直搜索引擎的設計與實現[J]. 計算機工程,2010,36\\( 24\\) : 24 -26.
[5]劉博卿. 基于軍事工程兵的垂直搜索引擎研究[J]. 科技創新導報,2011\\( 18\\) :6.
[6]王微微,夏秀峰,李曉明. 一種基于用戶行為反饋的興趣度模型更新算法[J]. 遼寧大學學報\\( 自然科學版\\) ,2011,38\\( 1\\) :40 -45.
[7]于升峰,藍潔. 基于用戶行為挖掘和 RSS 技術的知識服務模式研究[J]. 情報探索,2011\\( 8\\) :93 -95.
[8]王存睿,王元剛,陳婧,等. 基于行為采集系統的用戶特征挖掘及分析[J]. 大連民族學院學報,2011,13\\( 3\\) :296 -300.
[9]張宇紅. 地方文獻的主題標引. 圖書館研究與工作,2004\\( 2\\) :67 -68.
[10]趙德平,王延臣,李鵬,等. 面向高校信息的垂直搜索引擎的研究與實現[J]. 沈陽建筑大學學報\\( 自然科學版\\) ,2012,28\\( 3\\) :555 -562.
[11]張敏,杜華. 垂直搜索引擎系統的設計與實現[J]. 情報科學,2011\\( 3\\) :421 -424,439.