藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 搜索引擎分類及其技術發展情況
搜索引擎分類及其技術發展情況
>2024-06-10 09:00:00



0 引言

面對著海洋似地互聯網數據,用戶要查詢到自己所需要的信息,如同在大海里撈針,而搜索引擎技術的出現恰好解決了這一難題。搜索引擎技術目前已經成為研究開發的熱點領域。一個成功的優秀的搜索引擎能夠對互聯網上的信息經過特定的檢索策略,對各類信息進行搜集、挖掘和歸類整理,并能夠分析用戶的要求,按照用戶的要求和個人習慣進行組織安排,從而達到用戶快速檢索信息的目的。

1 搜索引擎的分類

搜索引擎按工作方式一般可分為三種 :全文搜索引擎、目錄索引搜索引擎和原搜索引擎 。
1.1 全文搜索引擎 :全文搜索引擎是目前廣泛應用的名副其實的主流搜索引擎,國外最具代表性的是國內著名的百度(Google)。它的工作原理是索引程序通過對文章中的每一個詞進行掃描,對每一個詞建立相應的索引,并指明出現的位置和頻率,一旦檢索,它就類似于通過新華字典中的檢索表來查字的過程,根據事先建立的索引進行查找。從搜索過程又可細分為兩種,一種是擁有檢索程序,俗稱“機器人(Robot)”或“蜘蛛(Spider)”程序,能自行建立網頁數據庫,其搜索結果直接從自己的數據庫中調用 ;另一種則租用其他搜索引擎的數據庫,然后按自定的格式排列搜索的結果。
1.2 目錄索引 :目錄索引中最具代表性的雅虎,它是將網站分門別類地存放在相應的目錄中,是按目錄分級列表鏈接。查詢時,按分類目錄找到需要的信息。
1.3 元搜索引擎 :元搜索引擎就是通過專門的檢索界面,在多個搜索引擎中選擇和利用合適的搜索引擎來實現檢索操作,其過程是 :通過先對請求進行預先處理,轉換為底層可以處理的格式,然后再向上遞交,最后匯總各搜索引擎的檢索結果,將其進行各種處理后,將結果返回。其優點是返回結果的信息量全面,充實 ;缺點是不能夠充分利用所選用搜索引擎的功能,使用戶需要做更多的篩選。
幾種非主流形式 :
集合式搜索引擎 :是由用戶從提供的數量有限的引擎中進行篩選。它可以集合一些搜索引擎的特點,容易準確的找到目標內容。免費鏈接列表(Free For All inks, 簡稱FFA\\) :一般只簡單地滾動鏈接條目,只有少部分有簡單的目錄,不過規模和 Yahoo等目錄索引來比起來要小得多。

2 搜索引擎技術的發展動態

2.1 不斷融合的發展方向

目前,各類搜索引擎不是并行發展,而是一個逐步融合,完善的過程。元搜索引擎就是一個典型的例子。機器人搜索引擎的優點是具有非常大的信息量,人力資源耗費的很小,但是精確度卻不高,而目錄式搜索引擎的優點恰恰相反,具有有效準確的信息,而唯一的缺點是信息量比較小,維護目錄耗費巨大的人力資源,但是元搜索引擎卻綜合了上述兩者的優點。

2.2 文本信息挖掘技術

它是將數據挖掘的思想運用到文本信息處理中的一項技術。它涉及到文本各方面的技術,包括文本的分類、索引、聚類、查詢匹配等各項技術,現在引入了人工智能的處理方式、數據挖掘技術等新的思路,在 Web 個人瀏覽工具中存在著更廣泛的應用。而基于 Web 的文本信息挖掘技術大大提高了用戶查詢匹配的精度,文本分類的準確度以及文本索引對文本描述的全面性。

2.3 Robot 技術

Robot 技術大大可以代人長時間工作,可以為人更好的工作,但它的盲目性也給網絡帶來了困擾,靈活性也不高,降低了搜索信息的難度,隨著分布式處理技術的出現和發展,Robot 技術現在向分布式發展,改變了以往的集中性,也就是各個 Robot 之間協同合作共同工作,1個 Robot 只采集特定區域的信息,這樣Robot 采集信息速度提高了。同時也可以對 Robot 的路徑選擇、運行周期等實施控制,也降低了盲目性。另外,隨著網絡應用的增多,現在出現了搜索 FTP、Use Net 的 Robot,搜索的范圍更寬了。

2.4 移動代理技術

在現有的 WWW 和客戶機 / 服務器(C/S)環境下,搜索引擎面臨 2 個瓶頸。第一是在 C/S 的計算模式下,系統需要將檢索的信息下載到本地存儲并進行處理,從而造成了網絡資源的擁堵和浪費。而Robot 也并不是實時跟蹤目標變化情況,因為要到達降低網絡負載,只能進行定期檢測。出現了信息更新慢,搜索結果過期。
另外互聯網又是一個超大規模異構的分布式數據庫系統,所包含的數據是半結構化。搜索引擎的文本信息處理的就是將這些不規范的數據信息進行結構化處理。為了解決這一問題,此時就需要建立半結構化數據模型來描述互聯網上的數據和使用結構化數據抽取技術。
移動代理技術是一種分布式計算技術,是一種指在異構互聯網環境中的主機之間具有移動能力的、能夠自主運行的、按照要求完成指定任務的計算機程序。在該模式下,客戶端機向服務器提交的不是簡單請求,而與服務器緊密聯系,進行數據(包含代碼)的預取,實現自適應調整機制、管理作用域范圍內的等。移動對象可以代表用戶,按“程序圍繞數據”的原則,在服務器間自主移動,完成數據處理的任務。該模式的應用程序可以大大節省網絡,提高服務速度,并能智能化地自主異步執行,能夠模擬人類行為和關系。

3 總結

本文介紹了搜索引擎的一些基本知識,包括搜索引擎的分類和發展情況。但是伴隨了互聯網的信息內容不斷充實,用戶對在互聯網檢索的結果要求也逐漸提高,使得搜索引擎飛速發展。在搜索引擎系統研究已經取得的基礎之上,以下方向成為研究的主要方向,包括 :對檢索結果的高精準的相關度和準確性 ;能夠檢索完整的互聯網 ;支持用戶個性化和多媒體類的搜索(包括自然語言檢索);檢索界面的友好程度的增強等等。

【參考文獻】
[1] 勾智楠 . 垂直搜索引擎的研究與實現 [D]. 河北科技大學 , 2012.
[2] 高凱 , 郭立煒 , 許云峰 . 網絡信息檢索技術及搜索引擎系統開發[M]. 北京 : 科學出版社 ,2010.
[3] 勾智楠 , 趙丁 . 基于 .NET 搜索引擎的研究與應用[J] .數字化用戶,2014, \\(1\\).

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观