藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 科技論文 > > 基于Hadoop的分布式搜索引擎研究與實現探討
基于Hadoop的分布式搜索引擎研究與實現探討
>2023-06-22 09:00:00

摘 要:Hadoop平臺,是一種具備擴展性,可靠性,高效性,低成本的軟件框架,是一種分布式處理的軟件平臺,可以處理與運行海量數據?,F今,互聯網的信息已經融入了人們的生活與學習中,傳統的集中式搜索引擎,已經不能適應現今網絡的發展,開發出一種可以快速處理信息,準確獲取資源的搜索引擎,是現今網絡研究的熱點。本文從Hadoop 平臺概述、基于Hadoop 的分布式搜索引擎的原理及優勢、搜索引擎系統的設計、實現,對分布式搜素引擎進行一定的探討,期望可以為網絡系統的長遠發展提供借鑒。

關鍵詞:Hadoop平臺;分布式搜索引擎;系統實現
現今,互聯網的信息已經融入了人們的生活與學習中,人們越來越重視信息獲取的能力。傳統的集中式搜索引擎,存在覆蓋范圍窄,更新時間長,返回結果多,存在查詢歧義等問題,已經不能適應現今網絡的發展,開發出一種可以快速處理信息,準確獲取資源的搜索引擎,是現今網絡研究的熱點[1]。因此,分布式搜索引擎應運而生。該搜索引擎具備分布式處理信息的作用,可以對系統規模進行擴展,進而提高系統處理信息的能力。本文從幾方面,對在Hadoop平臺下,分布式搜素引擎進行一定的探討,期望可以為網絡系統的長遠發展提供借鑒。
一、Hadoop 平臺概述
Hadoop平臺,是一種具備擴展性、可靠性、高效性、低成本的軟件框架,是分布式處理的軟件平臺,常被用來處理與運行海量數據。Hadoop的擴展性,體現在可以處理PB 級數據;Hadoop的可靠性,體現在可以保護多個工作數據副本,可以對失敗的節點進行重新分布操作。Hadoop的高效性,體現在經由并行處理的模式,可以顯著提高處理速度。Hadoop的低成本,體現在它的服務器較為低端,甚至普通的PC機就能作為集群的一員,實現的成本可以得到有效控制[2]?,F今,伴隨多個版本的進展,Hadoop已經發展成為搜索引擎中的理想平臺。分布式文件系統(HDFS)、分布式計算 MapReduce,是Hadoop平臺的兩大核心。除了核心內容外,還包括Hbase;Hvie;Chukwa;Avro;Common諸多子項目。子項目之間,可以進行服務的互助操作,或者是依據核心層,為更高級別提供服務[3]。
二、基于Hadoop 的分布式搜索引擎的原理及優勢
1.分布式搜索引擎的原理
分布式搜索引擎,其依據的標準為地域、IP 地址、主題等,將全網分為多個區域,進而形成網絡區域的自行管理。任何自治區,都是通過檢索服務器完成相應的工作。具體講,一個基本的分布式搜索引擎包括分布式信息采集器、分布式索引器以及分布式檢索器三部分。分布式信息采集器,可以在運行過程中要求多臺機器實行具體的分工合作。為了提高信息的更新速度、信息發現的效率,多臺機器都應在各自的區域內,進行相應信息的搜索,同時建立索引,并儲存在索引數據庫中[4]。分布式索引器,可以在不同的機器上同時進行執行操作,降低索引對于機器的特殊要求,進而實現檢索服務器之間的信息交流。分布式檢索器,可以為用戶提供查詢接口。分布式檢索器在實際應用中,還具有一個特殊優勢,具體講就是當用戶的查詢要求增多時,分布式檢索器可以實現調配查詢請求,可以將查詢信息在其余檢索服務器上進行查詢。實現諸多檢索服務器中,文檔的同時檢索功能,進而提高檢索的性能與速度。
2.分布式搜索引擎優勢
分布式搜索引擎,與傳統的集中式搜索引擎進行比較,具有顯著的優勢。首先,各個檢索服務器都是獨立的,當有檢索服務器出現故障的問題,并不會影響其它檢索服務器的工作。其次,在每臺服務器存儲中,其索引數據庫數據較少,在進行查詢時可以降低查詢反應時間,大大提高了管理的方便性。第三,分布式搜索引擎具備較好的可擴展性,同網絡資源的分布式特點相符合,便于新機器的添加,同時也提高了維護的便捷性。第四,經由檢索服務器之間的合作,各個服務器僅在自身區域中,進行信息資源的檢索操作,最終只提供搜索結果信息的傳遞。因此,分布式搜索引擎可以顯著的降低各個服務器的壓力,緩解網絡擁堵,提高檢索速度[5]。
三、搜索引擎系統的設計與實現
1.基于Hadoop的搜索引擎系統總體設計
整個搜索引擎系統,是基于Hadoop 集群框架之上。分別由三個子系統進行搜索引擎的設計與實現[6]。具體的系統功能如圖1所示。
基于 Hadoop 的搜索引擎包括分布式爬行子系統、分布式索引子系統以及分布式檢索子系統三個部分,每個系統都可采取MapReduce 的并行模式加以實現,各自可以獨立工作,經由接口實現分布式搜索的目的。
爬行子系統,對網頁的采集過程,都是經由Http 協議進行的,包括6大模塊,分別為數據庫更新;解析;抓??;抓取列表生成;URL集注入;URL集生成。
索引子系統,主要的目的就是對抓取的網頁,建立索引同時進行有效解析。主要包括5個模塊,分別為索引存儲;索引生成;內容評分排序;中文分詞處理;非結構化文檔解析。
檢索子系統,主要用于形成前臺搜索界面,對于用戶的查詢請求進行有效接收,同時進行處理,實現內容查詢功能。最后將查詢的結果,返回到用戶界面??傮w包括2 個模塊,分別為前臺用戶界面、后臺數據處理。系統總體架構圖,具體如圖2所示。
2.搜索引擎系統的實現
首先,爬行子系統在因特網上進行文件的下載,通過解析、去重抓取的網頁,并將頁面數據、提取的鏈接,分別保存在URL 信息庫 CrawlDb 與互聯關系庫 LinkDb中。同時,通知索引子系統,進行相應的索引。其次,索引子系統,可以對爬行子系統取得的網頁數據,進行網頁評分;分詞處理;文檔解析;倒排索引處理。同時運用倒排索引庫,進行等待檢索操作。最后,用戶經由前臺界面,進行檢索請求,檢索子系統運用分詞處理模塊,進行輸入字符串的分析,并運用倒排索引庫中進行檢索,把結果進行排序后回饋給客戶[7]。整個搜索程序,包括4 個數據庫。分別為Index數據庫;Segments 數據庫;LinkDb 數據庫;CrawlDb 數據庫。
四、結語
現今,分布式搜索引擎,其技術性較強,可以包括查詢結果優化;分布式計算;中文分詞;全文檢索等功能。面對這一新興領域,基于Map/Reduce 的編程模型,其在分布式計算方面的潛力不可估量,我們應進行積極的研究,進而為Hadoop分布式計算平臺的發展,提供更為廣闊的發展空間。任何技術與平臺,在使用的過程中都會存在一定的缺陷,Hadoop 平臺中在調度算法與任務分割方面,也存在一定程度的問題。諸如會出現部分Slave 節點滿載,而部分節點空閑的狀況。在未來的發展之中,我們應引進智能的動態均衡機制,有效利用節點計算功能,在網頁評分策略、中文分詞方面進行有效的改革,進而建構出搜索準確率高、性能更好的分布式搜索引擎[8]。
參考文獻:
[1]胡 ??,封俊.Hadoop下的分布式搜索引擎[J].計算機系統應用,2010,19(7):224-228.
[2]封俊.基于Hadoop的分布式搜索引擎研究與實現[D].太原理工大學碩士學位論文,2010.
[3]解耀偉.基于Hadoop的分布式垂直搜索引擎研究與設計[D].河北工業大學碩士學位論文,2012.
[4]葉海. 分布式主題搜索引擎的研究與實現[D].華南理工大學,2011.
[5]陸嘉恒. Hadoop實戰[M]. 北京: 機械工業出版社出版社, 2011
[6]范晨熙.基于Hadoop的搜索引擎的研究與應用[D].浙江理工大學碩士專業學位論文,2013.
[7]錢建學.一種基于Hadoop的分布式網絡爬蟲的研宄與設計[D].北京:北京郵電大學,2014
[8]謝超. 大數據下的數據分析平臺架構[J]. 程序員, 2011, (8): 3-5

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观