藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 數據挖掘技術在搜索引擎中的運用
數據挖掘技術在搜索引擎中的運用
>2024-04-09 09:00:01



在搜索引擎技術的發展之下,智能檢索作為一個新型的檢索方式已經滲透到了網絡數據的設計中,該種檢測方式能夠幫助人們檢測出高質量的信息,是檢索方式發展的一種必然需求,將數據挖掘技術應用在網絡資源可以實現智能檢索的發展,也能夠為人們提供出更加具有針對性的信息,一般情況下,智能檢索包括三種形式:即個性化信息檢索、知識檢索以及內容檢索,后兩者是建立在網絡信息基礎之上的,為了提升信息檢索的深度,可以將數據挖掘知識應用在其中。

1 數據挖掘技術的闡述

數據挖掘就是在大量模糊、隨機、不完全、存在噪聲的數據中,找尋出有用的、潛在的信息與知識的一種過程。數據挖掘包括幾個核心內容,首先是數據源一定是大量、真實、存在噪聲的信息和知識,在這些數億萬計的信息中針對用戶所需要的信息展開搜尋,還要保證尋找出的知識要具備價值,最終可以為用戶接受,這三點缺一不可,成為數據挖掘的重要組成因素。
數據挖掘從本質上而言是一種有效的數據分析方法,該種分析方法在世界范圍內已經有多年的歷史,在以往,數據挖掘主要應用的數據的收集上,也多用在科研領域中。此外,在計算機水平的限制下,對于復雜數據的分析也受到了極大的限制。在商業的發展下,大量的數據產生,商業運作意義的數據挖掘應用而生,對于這些數據的分析與收集用處十分廣泛,已經不僅僅是為了迎合某種特定的需求,而是為決策人員提供更多的具有價值的信息,從而滿足更加多樣化的商業需求。

2 數據挖掘技術的應用范圍及其發展

數據挖掘知識對象多為大型數據庫,強調使用計算統計與數據描述的方式來表達變量,常見的方式有均方差與平均值,采取該種方式能夠有效尋找出數據之間的關聯,目前,數據挖掘知識已經在商業數據庫、醫療保險、電信等領域之中得到了廣泛的應用,網絡技術的發展有為數據挖掘知識的普及提供了更加廣闊的道路。將數據挖掘知識應用在網絡數據中能夠有效實現網絡信息檢索技術的智能化發展。
數據挖掘技術是建立在人們對于數據庫技術開發的基礎之上,最初開始,計算機數據都是儲存在計算機自身的硬件系統中,在網絡技術的發展下,數據庫網絡得到了普及型的應用,數據庫也開始能夠實現實時聯網查詢,在網絡技術的進一步推動之下,數據挖掘技術又開始步入到新的發展歷程中,這不僅可以實現對數據的查詢,還可以幫助人們找尋出數據之間存在的種種聯系,繼而實現信息的有效傳遞。

3 數據挖掘技術在搜索引擎中的應用

3.1 數據挖掘技術可以使Web搜索更權威

用戶要搜索Web頁面,不僅想要得到相關的信息,更重視的是信息的質量與話題的權威性,Web中不僅包括了頁面,還包含大量的超鏈接,這種超鏈接在本質上是一種注釋,在建立好頁面指針后,就說明了作者對于這一頁面的認可,數據挖掘技術將大量的注釋收集起來,不僅能夠反映出頁面重要性,也很好的豐富了頁面的結構信息與內容相關性,但是,Wed頁面的鏈接也有一些局限性,因此,人們也提出了hub,hub實質上是Web的一種集合,能夠針對某些話題來列出最突出的鏈接。一般情況下,hub就是一些權威頁面的幾何,這就有效提升了Web的質量。

3.2 數據挖掘技術的重要算法HITS

算法HITS是一種基于hub基礎上發展而來的算法,包括以下幾個內容:
第一,HITS可以通過查詢詞來得到初始結果,搜索出的結果共同組成了根集,由于此類頁面中的內容與搜索和假定內容相關,因此,這些搜索出的根集都是權威頁面,這些根集可以擴展成為基本集,基本集中包含了指向根集頁與根集頁,為了控制擴展尺度,可以設置好基本集上限。
第二,在結果出來后,就能夠進入到開始權重傳播階段,這一階段是一種典型的遞歸過程,可以決定權威權重與與hub值,考慮到相同Web域會起到導航作用,不具有權威性,因此,可以將這類鏈接剔除。為此,可以在基本集的每一個頁面中確定好權威權重與非負權重,將權威權重與非負權重值定義于常數,并將所有權重平方定為1,根據相應的公式來計算出具體的權威與權重。在定義完成之后,就可以根據線性代數的相關要求進行矩陣化處理,分析頁面本質特征,得出具有大hub權重頁面。目前,算法HITS已經得到了非常廣泛的應用,該種算法對于很多查詢都有著良好的效果。

3.3 HITS算法在搜索引擎中的使用分析

雖然傳統的鏈接算法能夠達到理想的效果,但是該種算法常常會忽略文本內容,在實際應用的過程中也會出現一些困難。舉例來說,在hub頁面中有大量的話題內容時,若采用HITS算法,就可能會出現偏差,對于這一問題,可以通過改變算法的方式進行解決,但是就會導致程度人員的工作量大幅的增加。在遇到該種情況時,可以適當的優化HITS算法,基于HITS算法系統就有著很好的使用價值,這一系統中有Clever,著名的Google就是采用了該種算法。由于系統中增加了大量的文本內容與Web鏈接,這就可以有效的優化查詢效果。

4 結語

總而言之,將數據挖掘技術應用在網絡資源可以實現智能檢索的發展,其數據挖掘結果是建立在傳統智能檢索的基礎上,檢索結果又可以為數據挖掘提供一定的線索,就現階段來看,數據挖掘技術已經得到了大范圍的推廣與應用,這能夠為人們個性化的需求奠定基礎。但是,數據挖掘技術在網絡資源中的應用也出現一些問題,在未來階段下,需要結合模式識別、機器學習等新型智能技術,相信在不久的將來,數據挖掘技術可以得到更好的推廣和應用。

參考文獻
[1]凌志泉.搜索引擎中的網絡數據挖掘技術[J].計算機工程與設計,2013 年09 期.
[2]趙朋.基于Web的用戶訪問信息挖掘研究[D].東華大學,2006 年.
[3]邱均平,余以勝.基于知識庫系統的智能搜索引擎研究[J].情報科學,2009年03 期.
[4]張成崗,周奇.智能化的網絡信息搜索引擎——數據檢索及分析系統\\(DRANS\\)[A].第九次全國生物物理大會學術會議論文摘要集[C],2012年.

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观