藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 三種開源網絡爬蟲性能比較
三種開源網絡爬蟲性能比較
>2024-05-05 09:00:00



0 引 言

在信息化時代,針對通用搜索引擎信息量大、查詢準度和深度兼差等缺點,垂直搜索引擎已進入了用戶認可和使用周期。垂直搜索是針對某一個行業的專業搜索引擎,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶[1].相比通用搜索引擎則顯得更加專注、具體和深入。目前,垂直搜索引擎多用于行業信息獲取和特色語料庫建設等方面,且已卓見現實深遠成效。

網絡爬蟲是一個自動提取和自動下載網頁的程序,可為搜索引擎從互聯網上下載網頁,并根據既定的抓取目標,有選擇地訪問互聯網上的網頁與相關的鏈接,獲取所需要的信息。按照功能用途,網絡爬蟲分為通用爬蟲和聚焦爬蟲,這是搜索引擎一個核心組成部分。

1 聚焦爬蟲的工作原理及關鍵技術分析

1. 1 聚焦爬蟲的工作原理

聚焦爬蟲是專門為查詢某一主題而設計的網頁采集工具,并不追求大范圍覆蓋,而是將目標預定為抓取與某一特定主題內容相關的網頁,如此即為面向主題的用戶查詢準備數據資源。垂直搜索引擎可利用其實現對網頁主題信息的挖掘以及發現,聚焦爬蟲的工作原理是:

( 1) 爬蟲從一個或若干起始網頁 URL 鏈接開始工作;( 2) 通過特定的主題相關性算法判斷并過濾掉與主題無關的鏈接;( 3) 將有用鏈接加入待抓取的 URL 隊列;( 4) 根據一定的搜索策略從待抓取 URL 隊列中選擇下一步要抓取的網頁 URL.重復以上步驟,直至滿足退出條件時停止[2].

1. 2 聚焦爬蟲的幾個關鍵技術

根據聚焦爬蟲的工作原理,在設計聚焦爬蟲時,需要考慮問題可做如下論述。

1. 2. 1 待抓取網站目標的定義與描述的問題

開發聚焦爬蟲時,應考慮對于抓取目標的定義與描述,究竟是帶有目標網頁特征的網頁級信息,還是針對目標網頁上的結構化數據。前者因其具有結構化的數據信息特征,在爬蟲抓取信息后,還需從結構化的網頁中抽取相關信息; 而對于后者,爬蟲則直接解析 Web 頁面,提取并加工相關的結構化數據信息,該類爬蟲便于定制自適應于特定網頁模板的結果網站。

1. 2. 2 爬蟲的 URL 搜索策略問題

開發聚焦爬蟲時,常見的 URL 搜索策略主要包括深度優先搜索策略、廣度優先搜索策略、最佳優先搜索策略等[3].在此給出對應策略的規則分析如下。

( 1) 深度優先搜索策略

該搜索策略采用了后進先出的隊列方式,從起始 URL出發,不停搜索網頁的下一級頁面直至最后無 URL 鏈接的網頁頁面結束; 爬蟲再回到起始 URL 地址,繼續探尋 URL的其它 URL 鏈接,直到不再有 URL 可搜索為止,當所有頁面都結束時,URL 列表即按照倒敘的方式將搜索的 URL 隊列送入爬蟲待抓取隊列。

( 2) 廣度優先搜索策略

該搜索策略采用了先進先出的隊列方式,從起始 URL出發,在搜索了初始 Web 的所有 URL 鏈接后,再繼續搜索下一層 URL 鏈接,直至所有 URL 搜索完畢。URL 列表將按照其進入隊列的順序送入爬蟲待抓取隊列。

( 3) 最佳優先搜索策略

該搜索策略采用了一種局部優先搜索算法,從起始 URL出發,按照一定的分析算法,對頁面候選的 URL 進行預測,預測目標網頁的相似度或主題相關性,當相關性達到一定的閾值后,URL 列表則按照相關數值高低順序送入爬蟲待抓取隊列。

1. 2. 3 爬蟲對網頁頁面的分析和主題相關性判斷算法

聚焦爬蟲在對網頁 Web 的 URL 進行擴展時,還需要對網頁內容進行分析和信息的提取,用以確定該獲取 URL 頁面是否與采集的主題相關。目前常用的網頁的分析算法包括: 基于網絡拓撲、基于網頁內容和基于領域概念的分析算法[4].下面給出這三類算法的原理實現。

( 1) 基于網絡拓撲關系的分析算法

基于網絡拓撲關系的分析算法就是可以通過已知的網頁頁面或數據,對與其有直接或間接鏈接關系的對象作出評價的實現過程。該算法又分為網頁粒度、網站粒度和網頁塊粒度三種。著名的 PageRank 和 HITS 算法就是基于網絡拓撲關系的典型代表。

( 2) 基于網頁內容的分析算法

基于網頁內容的分析算法指的是利用網頁內容( 文本、數據等資源) 特征進行的網頁評價。該方法已從最初的文本檢索方法,向網頁數據抽取、數據挖掘和自然語言等多領域方向發展。

( 3) 基于領域概念的分析算法

基于領域概念的分析算法則是將領域本體分解為由不同的概念、實體及其之間的關系,包括與之對應的詞匯項組成。網頁中的關鍵詞在通過與領域本體對應的詞典分別轉換之后,將進行計數和加權,由此得出與所選領域的相關度。

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观