藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 基于WEB的垂直搜索引擎構建
基于WEB的垂直搜索引擎構建
>2024-05-12 09:00:00


1引言

在這個信息爆炸的時代,搜索引擎已經成為一個新興而重要的計算機應用領域,更是成為全球資本關注的一個亮點.搜索引擎克服了數據庫中存在的不足,為數據的檢索提供了更為方便快捷的方式.

搜索引擎是以一定的策略在指定的搜索空間上收集和查找信息,對信息進行處理和組織后為用戶提供信息查詢服務。按照工作原理的不同,可以把它分為兩個基本類別:全文搜索引擎和分類目錄。全文搜索引擎的數據庫是依靠一個叫"網絡機器人(Spider)"或者"網絡蜘蛛(crawlers)"的軟件,通過網絡上的各種鏈接自動獲取大量的網頁信息,并按一定的規則分析整理形成的.分類目錄則是通過人工的方式收集整理網站資料形成數據庫的,比如雅虎中國以及國內的搜狐、新浪、網易分類目錄。

一個好的搜索引擎,不僅數據庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著數據庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料.垂直搜索引擎所提供的數據庫資源對用戶來說更有針對性和適用性,能夠更好的滿足用戶對信息需求的準確性.由于提高了信息的質量,因此搜索的效果會更好.

本文在基于垂直搜索引擎的工作原理下,選擇以Heritrix為引擎的網絡爬蟲,通過擴展自己的組件來完成抓取任務,利用Lucene對抓取的信息以一定的規則進行過濾,排序,分頁并建立索引.最終構建一個WEB平臺通過Lucene的分析器實現與用戶的智能交互過程,完成搜索功能。

2面向垂直的搜索引擎的設計

2.1需求分析

本搜索引擎是一個基于網絡爬蟲程序為數據來源支持,為用戶提供信息查詢服務的平臺.

網絡爬蟲通過自己的策略實現從互聯網網站抓取信息,然后經過組織整理,構建信息數據庫,同時為各種內容建立索引,以供用戶檢索。用戶可以通過信息檢察界面,搜索他們所需要的信息,并能在搜索結果中打開一個有關詳細信息的頁面瀏覽.

2.2總體設計

此引擎分為搜索和查詢兩部分.搜索部分具有自動信息搜集功能,引擎主動派出"蜘蛛"程序,對一定IP地址范圍的互朕網站進行信息檢索,一旦發現有自己需要的產品信息,進而分析,建立索引,并將數據加入到自己的數據庫中;查詢部分具有簡單的查詢功能,用戶在進入查詢頁面中通過輸入關鍵字來查詢相關信息.

2.3詳細設計

網絡爬蟲部分從指定的種子URL地址開始,每次動態分析出包含待查信息且不重復的待抓取URL,從待抓URL中提取出完整的信息,包括其原始鏈接URL等,部分數據還需要深加工處理,如詳細頁的關鍵信息描述文本的提取.支持有條件地保存抓取來的信息,含控制臺程序,可控制、監視系統運行,運行結束反饋總結報告信息.

索引部分,為了使檢索功能的性能更高,速度更快的系統要求,采用建立Lucene索引機制的方式。

Lucene作為一個優秀的全文檢索引擎,其系統結構具有強烈的面向對象特征.首先是定義了一個與平臺無關的索引文件格式,其次通過抽象將系統的核心組成部分設計為抽象類,具體的平臺實現部分設計為抽象類的實現,此外與具體平臺相關的部分比如文件存儲也封裝為類,經過層層的面向對象式的處理,最終達成了一個低耦合高效率,容易二次開發的檢索引擎系統。

2.4系統實現

本文在詳細設計的基礎上完成系統各功能的開發,建立各功能界面,實現系統的各個功能.通過對框架的整合和功能模塊的單元測試表現,系統的基本功能已經完成,達到預期想要的結果.運行網絡爬蟲后會在硬盤目錄上生成鏡像目錄存儲結構,以及通過索引操作生成的索引文件,如圖2-1和圖2-2.

3結論

本系統采用B/S模式架構,用RIA方式減少了服務器上不必要的積壓,從而保證系統的健康穩定運行。在系統的維護上,由于系統的工作性質是具有強大的后臺數據源支持的,所以維護人員除了基本的日常維護外,還需要進行數據庫的數據備份和數據庫的災后恢復工作.

另外,由于網絡爬蟲需要經常性的對某個網站進行信息抓取,這樣網站容易改版,維護成本高;在服務器端運行,容易封IP,這樣維護起來相對較難,需要維護人員經常對網站信息進行跟蹤處理,可維護性有待加強.

參考文獻:
[1]曾偉輝。深層網絡爬蟲研究綜述[J].計算機系統應用,2008.5:122-126.
[2]范軒苗,鄭寧,范淵。一種基于Ajax的爬蟲模型的設計與實現[J].計算機應用與軟件,2010.1:102-105.
[3]王曉偉。垂直搜索引擎若干關鍵技術的研究[D].浙江大學,2007.6.
[4]劉琦。垂直搜索引擎的設計開發[D].中山大學,2010.6[5]垂直搜索引擎[OL].

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观