藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 基于企業深度挖掘型的新型垂直搜索引擎設計
基于企業深度挖掘型的新型垂直搜索引擎設計
>2023-06-28 09:00:00



1 傳統搜索引擎存在問題

\\(1\\) 目錄式搜索的缺陷是速度慢

目錄式搜索的用戶界面基本上都是分級結構, 提供幾個大類入口, 用戶一級一級地向下查詢, 經過若干人工搜索后找到需要查詢的結果. 它雖然可以找到需要的信息, 但是其死鏈接較多, 要依賴手工操作, 按照分類逐層的搜索才能找到, 檢索速度非常慢, 有失搜索的功能. 搜索引擎是一種信息檢索工具, 要極大縮短人們查找信息的時間, 來最大化地提升了人們的工作效率.

\\(2\\) 全文搜索引擎的缺陷是檢索功能有限

全文搜索引擎它擁有詞命中率不高, 范疇檢索功能有限,沒有截詞檢索功能. 它的效率好不好得根據各站的技術判定.

\\(3\\) 關鍵詞搜索的缺陷是信息量大, 良莠不齊

關鍵詞搜索返回的信息過多, 需要用戶明確知道自己要找什么, 然后理出一個清晰的關鍵詞進行搜索, 否則會搜索出很多無關信息, 這些信息良莠不齊, 魚龍混雜, 需要用戶必須從結果中逐一進行篩選辨別后才能使用. 如果輸入多個關鍵詞進行查找, 那么搜出的信息才可能相對減少, 這樣就使得人們感到浪費時間很是不方便. 同時關鍵詞搜索不能把多方面的內容融為一體自動過濾提取最有價值的內容.

\\(4\\) 模糊搜索的缺陷是準確率低

模糊搜索是建立在關鍵詞搜索理論基礎上的同義詞搜索,只要輸入關鍵詞, 該關鍵詞的所有同義詞信息都被搜索出來,留給用戶的就是成千上萬的信息. 因為輸入的搜索請求是模糊的, 所以也無法在最短的時間內, 幫助用戶最快地找到所需要的準確信息. 用戶如果要找到準確的信息就得一次次地輸入多個關鍵詞才可能找到, 這樣就顯得比較麻煩了.

2 基于企業深度挖掘型的新型垂直搜索引擎

2.1 深度挖掘型搜索的優點

通過對元數據信息進入深度加工, 提供用戶專業性、 功能性、 關聯性、 用戶信息管理以及信息發布互動等功能的網頁搜索, 能很好地滿足用戶高要求的搜索信息的需求. 專業的元數據屬性構造背后需要一個強大專業人士組成的團隊.

這些專業人士對該領域的元數據模型進行專業的分析、 關聯整合, 再通過搜索技術按這些元數據模型把這些信息組織呈現給用戶.

2.2 垂直搜索引擎的體系結構

搜索引擎[1]系統一般由網頁抓取模塊、 信息抽取和索引模塊、 界面及檢索模塊 3 大模塊組成, 其中網頁抓取模塊包括網頁信息采集和網頁預處理; 信息抽取和索引模塊包括 Web信息抽取和建立倒排索引; 界面及檢索模塊包括查詢界面.搜索引擎的體系結構如圖 1 所示.

網絡信息采集: 主要是指通過 Web 頁面之間的鏈接關系,從 Web 上自動地獲取頁面信息, 并且隨著鏈接不斷向所需要的 Web 頁面擴展的過程. 實現這一過程主要是由 Web 信息采集器 \\(Web Crawler\\) 來完成的.

網頁預處理: 在數據進入數據倉庫之前, 對數據進行抽取、 轉化和清理. 從外圍系統或源系統中把數據導入, 轉化一般指對數據的進行統一 \\(包括數據格式和數據編碼的統一\\), 然后把一些垃圾數據清理掉, 保留有用數據.Web 信 息抽取 : 是設計 Wrapper 包裝器和抽取規則抽取主題相關信息.建立倒排索引: 利用垂直搜索的相關技術如中文分詞技術、 索引排序技術等技術建立索引規則.

界面及檢索模塊: 界面提供用戶接口接收用戶查詢請求、反饋查詢結果. 搜索引擎為用戶提供通過輸入關鍵詞來得到結果的輸入輸出的可視化界面. 用戶在關鍵詞輸入界面中,輸入檢索關鍵語句、 關鍵詞以及各種檢索的關鍵條件; 在查詢結果輸出界面, 搜索引擎將檢索到的結果按一定規則輸出顯示.

2.3 構建良好深度挖掘型垂直搜索引擎的要求

\\(1\\) 高效的可擴展的信息檢索器作為垂直搜索引擎的最基本環節, 信息檢索器 \\(Crawler\\)為了滿足垂直搜索的后續要求, 信息檢索器必須能夠智能地獲取制定網絡數據, 并且返回詳細報告, 作為后續分析提供參數, 另外檢索器必須實現良好的擴展性, 提供各種規則過濾接口, 以便于滿足垂直搜索針對特定域的檢索要求.

\\(2\\) 模板智能生成匹配, 元數據抽取做為垂直搜索引擎的一個重要環節, 利用現有的智能學習方法和算法, 進行改進, 研究智能模板生成, 以及人工訓練方法, 研究網頁元數據抽取, 實現分散的元數據還原、 聚集.

\\(3\\) 基于語義網, 超鏈接的文本分類, 定向采集對于巨大信息量的網頁庫, 即便是指定域的網頁, 仍然存在大量的不關聯和極少關聯的網頁, 利用現有的超鏈接識別, 信息提取判斷, 結合對網頁文本特征提取, 獲取文本的權重, 主體相關性, 實現快速定向采集, 過濾掉不相關的超鏈和文檔, 為檢索器實現快速定向采集提供支持.

\\(4\\) 數據的后期分析提取, 提供查詢在大量結構化數據提取后, 面對這些原始的數據集, 如何通過研究一些智能方法, 進行數據重組過濾提取, 獲取原來不存在, 但是卻對用戶很有意義用途的數據信息, 并且智能化建立相關索引提供給用戶查詢.

3 核心技術

3.1 信息采集

每天互聯網上傳輸的信息內容相當于 3 億頁的文本[3], 要從中針對定制的目標數據源, 通過人工設定網址和網頁分析url 方式進行數據采集 . 垂直搜索對信息源的穩定 、 抓 取的成本問題及對用戶體驗改善程度有著很高的要求.

3.2 網頁信息抽取

整個過程中, 數據由非結構化數據抽取成結構化數據,好比網頁搜索是以網頁為最小單位, 基于視覺的網頁塊分析是以網頁塊為最小單位, 而垂直搜索是以結構化數據為最小單位, 然后將這些數據存儲到數據庫, 經過深度加工處理后以非結構化的方式和結構化的方式返回給用戶.

3.3 信息處理

信息處理的范圍主要包括去重、 聚類、 分析……, 在此簡要說說聚類技術和中文分詞技術. 聚類技術指根據 "物以類聚" 原理, 對之前無任何類別標注的樣本信息, 不需要人工標注和預先訓練分類器, 利用樣本間的相似性和差異性等各種相關性, 類別在聚類過程中自動生成的一種無指導的計算機學習過程叫做聚類[4]\\(Clustering\\). 簡單來說, 聚類是指事先沒有 "標簽" 而通過某種成團分析找出事物之間存在聚集性原因的過程. 聚類不同于分類, 聚類劃分的類是未知的,且聚類中的分類在過程中自動生成. 而分類是事先定義好類別 , 類別數不變的. 搜索引擎中利用聚類思想對用戶輸入的關鍵詞檢索結果進行分類, 可想而知聚類思想的應用給搜索引擎的用戶帶來很好的鋪墊. 對于中文信息處理中各種分詞方法目前有很多, 大致可以分為: 機械分詞法、 基于理解的分詞以及基于統計的分詞 3 類, 而其中文分詞[5]\\(Chinese WordSegmentation\\) 技術是一個重要的基礎 , 中文分詞應用廣泛 ,且是中文搜索引擎的核心技術之一.

3.4 元數據管理

元數據管理是數據中心信息資源標準管理, 通過該系統來規范管理數據資源的規范定義、 命名、 分類等, 同時也將幫助從技術的角度梳理所有的信息系統, 理解每一個數據的來龍去脈.

元數據管理功能包含元模型管理、 元數據的維護及查詢、元數據批量加載、 元數據自動獲取、 元數據的分析及應用、元數據版本管理以及元數據的同步檢查等.

3.5 索引排序

索引排序是按照索引的關鍵字的順序建立一個新的、 與原索引文件同樣大小、 結構相同的物理文件, 改變了物理順序. 目前常用的排序算法有兩種, PageRank 算法和 HITS 算法[6].

4 企業垂直搜索引擎系統設計

4.1 需求分析

由于企業信息的不斷發展和累積, 一直以來好多企業領導對企業的運營情況只能通過各個部門的人工報表進行了解分析, 這樣運營指標缺乏統一、 直觀、 準確、 快速的展現方式, 同時對經營存在的問題也缺乏深層次的了解[8]. 因此, 需要搭建一個能夠對企業數據進行搜索挖掘, 進而可以對過濾出的數據進行高效分析, 從多個角度以多種方式掌握和展現企業的經營情況, 深層次地搜索發掘數據信息從而進行數據服務的系統.

4.2 總體架構

基于企業深度挖掘型垂直搜索引擎的數據服務的系統架構如圖 2 所示, 包括 4 個部分: 數據采集、 數據挖掘、 元數據管理和數據服務.

\\(1\\) 數據采集

數據源是整個系統的運行的根本, 其包括企業的內部數據和外部數據及一號工程數據等, 該模塊是采集數據任何爬蟲都不可或缺的通用模塊, 該模塊負責協調超鏈接分析模塊和頁面相關度分析模塊的工作. 首先, 爬蟲采集模塊從待爬行 URL 隊列中取出鏈接相關度較高的 URL, 將該 URL 相應的網頁采集到本地, 然后, 將該頁面交由頁面相關度分析模塊處理. 在整個爬行過程中, 爬行的次序和爬行策略都有鏈接分析模塊提供.

\\(2\\) 數據挖掘

Web 數據挖掘建立在對大量的網絡數據進行分析的基礎上, 采用相應的數據挖掘算法, 在具體的應用模型上進行數據的提取、 數據篩選、 數據轉換、 數據挖掘和模式分析, 通過存儲數據字典、 按照一定的數據轉換規則、 對數據進行自動加載頻率等組織相應的元數據, 對那些需要重點分析的元數據進行有效整理統計分析, 進而根據所獲得的相關數據進行應用.

\\(3\\) 元數據管理

系統根據煙草數據中心元數據管理規范對元數據進行定義, 支持煙草元數據的分類管理. 系統提供包括獲取層元數據維護、 存儲層元數據維護、 訪問層元數據維護、 交換層元數據維護以及元數據的檢索、 瀏覽、 打印等功能.

\\(4\\) 數據服務

數據服務讓使用者無需去訪問或者更新多個數據源, 更重要的是, 當使用者需要操作多個數據源時, 數據服務有助于維持數據的完整性. 此外, 它們還能夠幫助構建可被多個項目和創新利用的可重用數據服務. 數據服務還能夠執行關鍵的治理職能---它們有助于度量指標的集中化、 監視、 版本管理、 數據類型的重用, 以及執行數據可視化和訪問規則.

數據服務的范圍包括: 數據實體上的各種操作, 聚合多個不同數據源的數據, 使用多種協議簡化使用多個平臺的數據接口, 邏輯接口和物理提供者接口之間的映射.

4.3 系統架構

基于企業垂直搜索引擎的數據服務的系統是建立挖掘型垂直搜索引擎進行元數據分析整理, 改變一般搜索引擎只將網頁為最小單位存儲到數據庫中, 此系統將網頁的非結構化數據抽取成特定的結構化信息數據, 對行業領域內的信息模型和用戶模型結構化的搜集或再組織, 提供更多、 更專業、個性化的行業相關服務.

數據源層主要包括: 互聯網、 企業內部報送、 一號工程等; 數據采集層主要包括: 行業專題爬蟲、 企業應用開發接口等; 數據加工層主要包括網頁解析、 索引建立、 數據過濾等; 數據存儲中心主要包括: 關系數據庫、 網頁索引庫、 本體庫等; 信息檢索層、 展現層實現不再累述.

4.4 人機交互界面

\\(1\\) 不同工作分工的人員有不同的權限訪問系統進行相應的操作.

\\(2\\) 能同時顯示不同種類的信息 , 用戶可在幾個工作環境中切換而不丟失幾個工作之間的聯系.

\\(3\\) 引用圖標、 下拉式菜單、 按鈕等技術使那些不太精于打字的用戶和系統之間有很高的交互.

\\(4\\) 系統提供自動通知, 用戶可以及時知道需要處理哪些工作.

\\(5\\) 系統為方便用戶了解分析數據提供了報表和圖形的方式.

\\(6\\) 系統提供良好的人機交互.

\\(7\\) 提供一定的幫助系統.

參考文獻

[1] 趙 杰. 搜 索引擎技術 [M] . 哈 爾濱 : 哈爾濱工程大學出版社, 2007.

[2] 盧 亮 , 張博文 . 搜索引擎原理實踐 與應用 [M] . 北 京 :電子工業出版社, 2010.

[3] 陳 菊紅. 搜索引擎返回結 果聚類技術的研究與實現 [D] .成都: 西南交通大學, 2009.

[4] 沈岳. 搜索引擎技術綜述 [J] . 北京城市學院學報 , 2007,13 \\(4\\).

[5] 朱 焱. 基于數據中心的煙草決策分析系統的構建 [J] . 計算機與現代, 2009, \\(9\\).

[6] 趙大明. 基于本體的專業搜素引擎的研究與設計 [D] . 陜西: 西北大學, 2009.

[7] 楊 堅爭 , 李朝平. 垂直搜索引擎及其應用. 電 子商務 [J],2006, \\(10\\): 24-25

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观