藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 網絡搜索引擎關鍵技術及其性能評價指標
網絡搜索引擎關鍵技術及其性能評價指標
>2023-05-30 09:00:00


當今社會計算機技術迅猛發展,信息資源越發豐富,網絡信息受眾量龐大。根據中國互聯網信息中心 CNNIC 發布第34 次調查報告最新數據顯示,截止到 2014 年 6 月我國網民數目達到 6.32 億。對于眾多網民來說,搜索引擎是從海量網絡數據中獲取信息的最有效工具,同時也是互聯網應用領域必不可少的基礎組成部分之一。

1 網絡搜索引擎的工作原理

搜索引擎屬于一類 Web 上應用的軟件系統,它通過一定途徑在網絡上搜集發現信息,然后處理和組織這些被選擇的信息,進而幫助用戶查詢 Web 信息。搜索引擎系統遵循相關搜集策略,預先將一批網頁搜集并存放在系統中。然后通過文本分析、鏈接分析等方式對已有的網頁信息進行分析,同時建立索引。最后給用戶提供人性化的接口,供用戶查詢,同時將最終結果返回給網站。

2 網絡搜索引擎關鍵技術

2.1 網頁搜集技術

搜索引擎利用一種自動的程序網絡蜘蛛(Spider)或網絡爬蟲來訪問互聯網上的 Html 網頁,并建立索引數據庫。我們可以將 Web 上的網頁集合看作一個理論上的有向圖,Web 圖的頂點由頁面構成,圖的邊是頁面間的超鏈接。搜集過程始于給定的起始 URL 集合 S,抓取 Web 頁面并且存到本地,并將網頁中新超鏈接的 URL 解析出來并添加到集合 S 中。通過不停重復該過程,一個Spider程序可以訪問整個Web頁面。

與此同時,還需設定一些重要的鏈接和相關的掃描策略用以保證搜集的廣度和深度。另外,定期更新 Web 搜索引擎以保證及時發現新鏈接并刪除過時鏈接。

2.2 網頁內容和鏈接分析技術

經過網頁搜集得到的 Web 頁面是一種非結構化的文檔,包含 html、圖片、多媒體、動態網頁等各種不同格式。為了從中提取出典型的主要特征,網頁內容分析的主要任務是對獲取到的網頁進行文本分析。一般按順序完成網頁清洗、分詞、消除停止詞等處理,并借助于其他中英文信息處理技術提取網頁主要的文本特征,進而組成網頁摘要。一般而言,當搜索引擎系統查詢返回時,用戶可以通過網頁快照的形式獲得網頁摘要。另一方面,Web 搜索引擎系統還會分析對網頁間的鏈接關系,網頁之間存在某種"推薦"關系,鏈接就可以反映出這種關系,一般鏈接分為導入鏈接和導出鏈接。通過一個合理地假設可以深入理解,若一篇網頁被其他網頁建立了較多鏈接,就能說明其包含有較重要或者較有用的內容。

2.3 索引技術

目前多數 Web 搜索引擎系統所采用的是倒排索引技術,它是一種簡單高效的文檔數據索引組織方式。所謂倒排文件(inverted file),是描述某個詞項集合(TREMS)元素和一個文檔集合(DOCS)中相應元素對應關系的數據結構,記作DOCS={d1,d2,…,dN},TREMS={t1,t2,…,tM}.倒排索引的基本組織方式是把每個索引詞的倒排表按文檔編號增序排列,并壓縮保存為整塊數據。

2.4 檢索技術

搜索引擎返回給用戶的結果是一個和用戶查詢相關的搜索列表。統計結果表明,以每個頁面含有 10 個鏈接計算,大多數用戶瀏覽的頁面不多于兩頁。因此,正確的檢索技術對于整個搜索引擎的應用十分重要。一個信息檢索模型是將文檔表示、查詢以及模擬它們之間關系的框架,它由三元體 F[D,Q,R(qi,dj)]表示。其中,D 是文檔表示;Q 是用戶信息需求的邏輯視圖(表示),這種視圖(表示)稱為查詢;R(qi,dj)是排序函數,該函數輸出一個與查詢 qi∈Q 和文檔表示 dj∈D 有關的實數。信息檢索有四個傳統模型分別是是布爾模型、向量空間模型、概率模型和邏輯模型。近些年來隨著研究的不斷深入,眾多改進模型也基于原有的傳統的模型被提出發展。

3 評價搜索引擎性能的主要指標

在傳統的信息檢索中,一般基于相關性的準則,以檢索系統的查全率(Recall)和查準率(Precision)為主要的衡量標準。查全率用來評價信息檢索系統檢出相關文檔能力,是指檢出的相關文檔與相關文檔總數的比值。查準率用來評價檢索的準確度,是指檢索出的相關文檔與檢索出文檔總數的比值。

網絡搜索引擎要滿足用戶對信息查詢的需求,進一步提高用戶搜索滿意度,可以參照以下幾個重要的評價指標。①網頁覆蓋率,指Web搜索引擎索引的網頁數量,提高覆蓋率要求盡量提高查全率,以保證基本查準率;②相關性,指搜索引擎返回的搜索結果與之前用戶輸入的查詢請求之間的契合程度,這個特性關系到搜索效率和用戶的滿意度;③結果重復率,搜索引擎系統中存儲大量重復網頁會浪費存儲資源,同時也影響檢索效率。因此,搜索引擎返回的查詢結果應該盡量減少或消除重復類似結果的出現;④網頁作弊率,指網頁為了提升自己在搜索引擎中的排名,非法借助程序或人工手段,提高自身的點擊率等非法獲益行為;⑤網頁更新速度,該標準要求引擎及時發現新網頁的同時及時刪除死鏈。死鏈是指搜索結果失去原有效應的鏈接,一般是那些指向已不存在或無法訪問資源的鏈接;⑥搜索服務的響應時間,指用戶提交查詢請求后等待返回結果的時間;⑦搜索服務的系統穩定性。

4 結語

隨著用戶數目的迅速增多,如何提供更好的個性化搜索服務,如何實現面向特定主題的有效搜索,如何做到用戶與網站共贏已經成為搜索引擎發展的新方向。

參考文獻:
[1] 梁偉賢。 網絡搜索引擎發展現狀的探討[A]. 中國科協、湖北省人民政府。

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观