藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 目錄式搜索引擎的體系架構研究
目錄式搜索引擎的體系架構研究
>2023-09-17 09:00:00



0引言

信息檢索系統主要為互聯網用戶提供對資源的檢索服務,用戶通過輸入自己想要尋找的資源信息(諸如資源的部分名稱,資源內容中相關關鍵詞等),信息檢索系統根據用戶提供的檢索需求進行資源匹配和資源定位,并按照一定的順序將匹配的資源反饋給用戶。搜索引擎是在信息檢索系統的基礎上發展而來,目前的搜索引擎可以大致分為:目錄式搜索引擎,元搜索引擎,語義搜索引擎等。目錄式搜索引擎以當前主流的百度搜索引擎(基于中文的搜索)和谷歌搜索引擎(基于多種語言的搜索)為代表,本文也主要以目錄式搜索引擎為例,展開對搜索引擎體系架構的研究。

1搜索引擎體系架構

相比于信息檢索系統,搜索引擎在檢索詞輸入時更加靈活,對資源的預處理方面,搜索引擎系統優化了更多的細節,在對資源的相似度匹配方面,搜索引擎需要考慮更多的因素在綜合定量用戶檢索詞和資源之間的相似度,最后的排序輸出更是衍生出很多優秀的排序算法??傮w來說,搜索引擎主要分為:索引子系統,內容管理子系統,鏈接分析子系統和結果排序子系統,搜索引擎的體系架構如圖1所示。

1.1爬蟲子系統

爬蟲子系統是搜索引擎獲取資源的主要方式,爬蟲子系統通過在互聯網環境下運行爬蟲子程序,定期的對互聯網資源進行檢查,判斷指定URL鏈接的內容是否發生變更并適時的對數據進行更新,并將更新后的數據反饋給數據庫系統。爬蟲子系統目前主要采用兩種方式進行資源爬?。涸隽渴脚廊『屠鄯e式爬取。增量式爬取表示爬蟲子系統根據當前URL鏈接遞增的去遍歷下一條網頁;累積式爬取表示根據當前URL鏈接遍歷所有與之相連的網頁,并將新得到的URL鏈接加入到隊列,完成遍歷后從隊列中取新的URL繼續遍歷。爬蟲子系統性能的優良直接決定了最終搜索引擎結果的輸出質量,因為在數據的篩選階段主要也是依賴爬蟲子系統進行數據過濾,篩選出有價值的資源信息。

1.2索引子系統

索引子系統則是承接了爬蟲子系統的數據資源,互聯網數據呈現的是一種無規則或者半結構的數據,面對如此不規整的數據格式,搜索引擎難以完成對資源的篩選和排序工作,因此索引子系統主要針對這種情況,通過對網絡爬蟲爬取的數據資源進行梳理,按照規則對數據進行規則化。倒排索引堪稱是在信息檢索領域對數據規則化最為有效的方式,我們通常對數據的認知是從正排索引開始,即根據資源名稱,聯想到資源的內容相關信息;倒排索引則與此相反,倒排索引根據關鍵詞和概念特征去反推具體的資源名稱。諸如我們在討論武俠時,會先想到“孤獨求敗”、“喬峰”等,根據這些關鍵詞和概念特征,我們會繼續反推得到對應的金庸先生相關武俠著作的書名:“神雕俠侶”和“天龍八部”等。這種推理的方式和我們的搜索引擎系統是何其相似,用戶通過輸入相關關鍵詞和概念來獲得對應的資源信息。

基于倒排索引的理論基礎,我們對搜索引擎的數據資源進行結構重組。首先需要對數據進行數據分詞和關鍵詞提取,對中文的分詞是一項非常復雜的工作,中文不像英文那樣,天然的以空格進行分割,中文分詞需要將中文字符序列按照詞義進行分割,分割后的每個單元都是一個關鍵詞,進行對中文進行分詞需要符合中文的語言規范和特點,需要保證分詞之后,每個單元都是一個完整的語義部分,同時還需要考慮分割之后語義的最大完整性,另一方面,在分詞過程中要考慮對停用詞(對整個語義表達沒有實際含義的詞,如“的”)的去重工作。分詞和停用詞操作相當于對數據的初始化處理,經過初始化之后,則完成了數據的初始化工作,索引子系統的構建是建立在數據初始化之后,文檔經過分詞之后,文檔都由一系列關鍵詞組成,此時可以建立文檔和關鍵詞之間的二維矩陣,二維矩陣中對應的權值信息表示關鍵詞在文檔中的權值信息,關鍵詞在文檔中的權值可以通過多種方式加以計算,目前主要由:TF方法,DF方法,TF-IDF方法,CHI方法,IG方法和MI方法。

1.3鏈接分析子系統

鏈接分析子系統曾是谷歌的發家算法,并且在數據挖掘和搜索引擎享有極高的評價,鏈接分析子系統通過對互聯網中數據進行建模分析,發現互聯網網頁之間通過URL鏈接建立彼此之間的聯系,網頁之間通過超鏈接關系進行頁面跳轉。通過對互聯網鏈接關系的深度分析,網頁質量越高的網頁,其被其它網頁所鏈向的可能性越大,反之亦然,通過對這一規律進行深度分析并構建模型,得出互聯網網頁的質量評價模型:即網頁的質量由鏈向其網頁的數量所決定。網頁的質量用PageRank值(PR值)表示,如公式1所示。

PageRank(PR)值=重新訪問概率+迭代訪問概率(公式1)。

假設互聯網用戶采用兩種方式進行網頁:其一、通過一個網頁目錄,隨機的選擇其中一個網頁進行瀏覽,瀏覽結束之后,重新回到網頁目錄,再次選取新的URL進行訪問;其二、隨機選擇一個網頁URL進行訪問,從該網頁中提取URL鏈接列表,從URL鏈接列表中隨機選擇一個網頁URL繼續訪問。我們定義為該訪問模式和隨機游走模型,并得出網頁質量的量化評價公式,如公式2所示。

在公式2中,p表示采用重新訪問的方式進行頁面瀏覽的概率,相應地采用迭代訪問的概率為(1-p),迭代訪問時用戶選擇下一個頁面進行訪問的概率取決于下一個頁面的PR值,從某個頁面鏈出的網頁可能有多個,表示的是對每一個鏈出網頁都采取平均分配權值的方式。

1.4結果排序子系統

結果排序子系統是用戶直接與搜索引擎進行交互的部分,結果排序子系統通過對符合用戶篩選條件的數據庫中資源進行排序并輸出。排序子系統需要綜合考慮多種因素,諸如網頁自身的PR值,用戶檢索詞和數據資源之間的相似度值等多個方面。同時,排序子系統需要考慮如何保證用戶需要的資源排在靠前的位置。相關研究發現,用戶通常只會對前幾頁的搜索引擎結果進行點擊,因此排序子系統不僅要保證結構輸出的準確性,即既要保證準確率和召回率,同時非常重要的因素是首頁命中率。

2總結

本文通過對當前主流的目錄式搜索引擎的體系架構進行研究,主要就爬蟲子系統、索引子系統、鏈接分析子系統和結果排序子系統四部分進行論述,并就每種子系統中關鍵詞技術進行了介紹。

參考文獻:
[1]羊晶璟,鞠時光,王秀紅?;赪eb的個性化搜索引擎的研究[J].計算機工程與設計,2008,20:5206-5208.
[2]李廣麗,劉覺夫。垂直搜索引擎系統的研究與實現[J].情報雜志,2009,10:144-147+169.
[3]文必龍,張璇,趙晶浩,趙滿。企業搜索引擎個性化排序方法[J].計算機系統應用,2013,04:199-203.
[4]佟曉筠,王翥。一種特定領域智能搜索引擎技術的研究[J].計算機應用研究,2004,05:49-51.

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观