在搜索引擎技術的發展之下,智能檢索作為一個新型的檢索方式已經滲透到了網絡數據的設計中,該種檢測方式能夠幫助人們檢測出高質量的信息,是檢索方式發展的一種必然需求,將數據挖掘技術應用在網絡資源可以實現智能檢索的發展,也能夠為人們提供出更加具有針對性的信息,一般情況下,智能檢索包括三種形式:即個性化信息檢索、知識檢索以及內容檢索,后兩者是建立在網絡信息基礎之上的,為了提升信息檢索的深度,可以將數據挖掘知識應用在其中。
1 數據挖掘技術的闡述
數據挖掘就是在大量模糊、隨機、不完全、存在噪聲的數據中,找尋出有用的、潛在的信息與知識的一種過程。數據挖掘包括幾個核心內容,首先是數據源一定是大量、真實、存在噪聲的信息和知識,在這些數億萬計的信息中針對用戶所需要的信息展開搜尋,還要保證尋找出的知識要具備價值,最終可以為用戶接受,這三點缺一不可,成為數據挖掘的重要組成因素。
數據挖掘從本質上而言是一種有效的數據分析方法,該種分析方法在世界范圍內已經有多年的歷史,在以往,數據挖掘主要應用的數據的收集上,也多用在科研領域中。此外,在計算機水平的限制下,對于復雜數據的分析也受到了極大的限制。在商業的發展下,大量的數據產生,商業運作意義的數據挖掘應用而生,對于這些數據的分析與收集用處十分廣泛,已經不僅僅是為了迎合某種特定的需求,而是為決策人員提供更多的具有價值的信息,從而滿足更加多樣化的商業需求。
2 數據挖掘技術的應用范圍及其發展
數據挖掘知識對象多為大型數據庫,強調使用計算統計與數據描述的方式來表達變量,常見的方式有均方差與平均值,采取該種方式能夠有效尋找出數據之間的關聯,目前,數據挖掘知識已經在商業數據庫、醫療保險、電信等領域之中得到了廣泛的應用,網絡技術的發展有為數據挖掘知識的普及提供了更加廣闊的道路。將數據挖掘知識應用在網絡數據中能夠有效實現網絡信息檢索技術的智能化發展。
數據挖掘技術是建立在人們對于數據庫技術開發的基礎之上,最初開始,計算機數據都是儲存在計算機自身的硬件系統中,在網絡技術的發展下,數據庫網絡得到了普及型的應用,數據庫也開始能夠實現實時聯網查詢,在網絡技術的進一步推動之下,數據挖掘技術又開始步入到新的發展歷程中,這不僅可以實現對數據的查詢,還可以幫助人們找尋出數據之間存在的種種聯系,繼而實現信息的有效傳遞。
3 數據挖掘技術在搜索引擎中的應用
3.1 數據挖掘技術可以使Web搜索更權威
用戶要搜索Web頁面,不僅想要得到相關的信息,更重視的是信息的質量與話題的權威性,Web中不僅包括了頁面,還包含大量的超鏈接,這種超鏈接在本質上是一種注釋,在建立好頁面指針后,就說明了作者對于這一頁面的認可,數據挖掘技術將大量的注釋收集起來,不僅能夠反映出頁面重要性,也很好的豐富了頁面的結構信息與內容相關性,但是,Wed頁面的鏈接也有一些局限性,因此,人們也提出了hub,hub實質上是Web的一種集合,能夠針對某些話題來列出最突出的鏈接。一般情況下,hub就是一些權威頁面的幾何,這就有效提升了Web的質量。
3.2 數據挖掘技術的重要算法HITS
算法HITS是一種基于hub基礎上發展而來的算法,包括以下幾個內容:
第一,HITS可以通過查詢詞來得到初始結果,搜索出的結果共同組成了根集,由于此類頁面中的內容與搜索和假定內容相關,因此,這些搜索出的根集都是權威頁面,這些根集可以擴展成為基本集,基本集中包含了指向根集頁與根集頁,為了控制擴展尺度,可以設置好基本集上限。
第二,在結果出來后,就能夠進入到開始權重傳播階段,這一階段是一種典型的遞歸過程,可以決定權威權重與與hub值,考慮到相同Web域會起到導航作用,不具有權威性,因此,可以將這類鏈接剔除。為此,可以在基本集的每一個頁面中確定好權威權重與非負權重,將權威權重與非負權重值定義于常數,并將所有權重平方定為1,根據相應的公式來計算出具體的權威與權重。在定義完成之后,就可以根據線性代數的相關要求進行矩陣化處理,分析頁面本質特征,得出具有大hub權重頁面。目前,算法HITS已經得到了非常廣泛的應用,該種算法對于很多查詢都有著良好的效果。
3.3 HITS算法在搜索引擎中的使用分析
雖然傳統的鏈接算法能夠達到理想的效果,但是該種算法常常會忽略文本內容,在實際應用的過程中也會出現一些困難。舉例來說,在hub頁面中有大量的話題內容時,若采用HITS算法,就可能會出現偏差,對于這一問題,可以通過改變算法的方式進行解決,但是就會導致程度人員的工作量大幅的增加。在遇到該種情況時,可以適當的優化HITS算法,基于HITS算法系統就有著很好的使用價值,這一系統中有Clever,著名的Google就是采用了該種算法。由于系統中增加了大量的文本內容與Web鏈接,這就可以有效的優化查詢效果。
4 結語
總而言之,將數據挖掘技術應用在網絡資源可以實現智能檢索的發展,其數據挖掘結果是建立在傳統智能檢索的基礎上,檢索結果又可以為數據挖掘提供一定的線索,就現階段來看,數據挖掘技術已經得到了大范圍的推廣與應用,這能夠為人們個性化的需求奠定基礎。但是,數據挖掘技術在網絡資源中的應用也出現一些問題,在未來階段下,需要結合模式識別、機器學習等新型智能技術,相信在不久的將來,數據挖掘技術可以得到更好的推廣和應用。
參考文獻
[1]凌志泉.搜索引擎中的網絡數據挖掘技術[J].計算機工程與設計,2013 年09 期.
[2]趙朋.基于Web的用戶訪問信息挖掘研究[D].東華大學,2006 年.
[3]邱均平,余以勝.基于知識庫系統的智能搜索引擎研究[J].情報科學,2009年03 期.
[4]張成崗,周奇.智能化的網絡信息搜索引擎——數據檢索及分析系統\\(DRANS\\)[A].第九次全國生物物理大會學術會議論文摘要集[C],2012年.