藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 知識圖譜的數據來源、挖掘及更新維護
知識圖譜的數據來源、挖掘及更新維護
>2024-05-23 09:00:00



2001 年維基媒體基金創建了維基百科,訪問量排名世界第六,2012 年 12 月到 2013 年 12 月期間,它損傷了近 10%即20 億的頁面訪問量,其中英文版、德語版和日語版的瀏覽量分別下降了 12%、17%和 9%.雖然維基百科的管理員認為這其中可能存在統計錯誤,但是其他專家認為是去年 Google推出的知識圖譜功能導致了維基百科訪問量下降。如果問題能在搜索頁解決,那么就沒必要去維基百科查找了。

隨著近兩年,Linking Open Data 等項目的全面展開,數量激增的語義 Web 數據源,大量 RDF 數據發布,互聯網從僅包含網頁和網頁之間超鏈接的文檔萬維網轉變成包含大量描述各種實體和實體之間豐富關系的數據萬維網。谷歌、百度、搜狗搜索引擎公司以此為基礎構建知識圖譜,改進搜索質量,語義搜索的序幕就此拉開。什么是知識圖譜? 知識圖譜的表示在搜索中的展現形式,知識圖譜如何構建,如何在搜索中應用?知識圖譜是谷歌在 2010 年收購的開放式數據庫公司Metaweb 率先提出來的。知識圖譜也被稱為科學知識圖譜,它是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。知識圖譜把復雜的知識領域通過數據挖掘、信息處理、知識計量和圖形繪制展示出來,揭示知識領域的動態發展規律,為學科研究提供切實的、有價值的參考。

搜索引擎中的知識圖譜技術是以知識卡片( KnowledgeCard) 的形式展現出來的。在搜索關鍵詞時,知識卡片會為用戶提供更多與關鍵詞相關的結構化內容信息,也就是說可以將搜索結果進行知識系統化,任何一個關鍵詞都能獲得完整的知識體系。比如搜索“帕金森綜合癥”是一種什么病,傳統的搜索結果里面會有一些諸如“XX 最近得了帕金森綜合癥”的新聞,或者是網友發帖提問“帕金森綜合癥到底是什么”帖子,又或者是一些治療帕金森醫院的信息或廣告,其實你一一瀏覽這些網站對了解這個疾病幫助不大,這就大大降低了你獲得知識的效率。知識圖譜技術應用到搜索引擎中后,當搜索“帕金森綜合癥”后,點擊下方出現的知識圖譜,圖譜上面會呈現有關“帕金森綜合癥”的權威信息,例如“帕金森綜合癥”的癥狀、易感人群、治療方法,這就保證了獲得知識的效率。雖然各大搜索引擎在知識卡片的排版和內容展現上略有不同,但都能羅列出“帕金森綜合癥”的定義、疾病介紹、診斷要點、癥狀表現等。此外,各大搜索引擎還將搜索關鍵字其他用戶還搜索了什么或其他與搜索關鍵字相關的信息展現出來,這樣用戶就可以方便快捷的查詢到自己想要了解的信息。各搜索引擎在其知識卡片中展示相關圖片,還展示了搜索關鍵詞特有的專題搜索,百科、新聞、圖片、貼吧、視頻等,基本包涵了用戶基本需求。有的搜索引擎還會羅列出其他可能相關的查詢目標對象。

一、知識圖譜的構建

韓劇《來自星星的你》日前火遍整個網絡,該劇相關關鍵詞一度雄霸各大搜索榜、話題榜。用百度搜索“都教授”,在搜索結果頁面的右側會出現金秀賢、都敏俊、全智賢,甚至李敏鎬等相關度極高的搜索對象。這就是知識圖譜技術應用到搜索引擎預知判斷用戶最有可能的信息需求。簡單來說,知識圖譜技術就是一個不斷完善計算機知識庫的過程,從而幫助計算機能夠理解人類的語言交流模式。目前,知識圖譜技術主要在百度搜索頁面的右側有所體現,在用戶點擊搜索鍵之后,百度會在呈現關鍵詞搜索頁面的同時,于右側欄目向用戶推薦與關鍵詞相關的詞條。同時,百度還會通過分析海量的搜索數據發現用戶搜索習慣,并據此對搜索結果進行持續優化。知識圖譜是面向全球的,相對于百度和搜狗主要針對中文搜索推出知識圖譜,其知識庫中的知識也主要以中文來描述,其規模略小于谷歌的。

二、知識圖譜的數據來源

知識圖譜為了提高搜索質量,提供例如對話搜索或復雜的問答搜索等新的搜索體驗,不僅要包含大量高質量的常識性知識,還要能及時發現并添加新的知識。這樣一來知識圖譜通過收集來自百科類站點和各種垂直站點的結構化數據覆蓋大部分常識性知識。百科類站點比較有名的是維基百科,中文有百度百科。另一方面知識圖譜通過從各種半結構化數據中抽取相關實體的屬性來豐富實體的描述。通過搜索日志發現新的實體或新的實體屬性,從而不斷擴展知識圖譜的覆蓋率。前者收集來的數據質量高但更新速度慢,后者質量較差但更新速度快。后者通過互聯網的冗余性在后續的挖掘中通過投票或其他聚合算法來評估其置信度,并通過人工審核加入到知識圖譜中。

這里不得不提到 Freebase,它是另一個重要的百科類數據源。它的開發公司是在 2010 年被谷歌收購的 MetaWeb 公司。Freebase 作為開放的知識管理平臺獨立運行,所以百度和是搜狗也將 Freebase 加入到其知識圖譜中。Freebase 不同于維基百科編輯各種詞條,以文章的形式展現,需要通過事先制定的規則來抽取知識。Freebase 直接編輯知識,包括實體及其包含的屬性和關系,以及實體所屬的類型等結構化信息,因此,不需要通過任何抽取規則即可獲得高質量的知識。

三、知識圖譜的挖掘

挖掘知識圖譜是為了增加圖譜的知識覆蓋率?;谥R圖譜的重要挖掘技術有推理( Reasoning 或 Inference) 、實體重要性排序、相關實體挖掘。知識圖譜上的規則一般涉及兩大類,一是針對屬性的,也就是通過數值計算來獲取其屬性值。另一類是針對關系的,也就是通過鏈式規則發現實體間的隱含關系。推理功能就是通過這些可擴展的規則引擎來完成的。實體重要性排序可以理解為用戶查詢中提到的實體被搜索引擎識別,然后通過知識卡片展現該實體的結構化摘要。當查詢涉及多個實體時,搜索引擎將選擇與查詢更相關并且更重要的實體來展示。實體的重要性是通過 Pag-eRank 算法計算出來的,由于不同的實體和語義關系的流行程度以及抽取的置信度均不同,而這些因素將影響實體重要性的最終計算結果,因此,各大搜索引擎公司嵌入這些因素來刻畫實體和語義關系的初始重要性。相關實體是在相同查詢中共現的實體或在同一個查詢會話中被提到的其他實體稱為相關實體。一個常用的做法是將這些查詢或會話看做是虛擬文檔,將其中出現的實體看作是文檔中的詞條,使用主題模型發現虛擬文檔集中的主題分布。一個或多個實體構成一個主題,同一主題中的實體互為相關實體。搜索引擎分析用戶輸入的查詢主題分布,選出相關主題,并將“其他人還搜了”也就是與該主題相關的其他知識卡片所展現的實體展現出來。

四、知識圖譜的更新和維護

知識圖譜的更新與維護是由專業團隊來操作的。搜索引擎公司通過自動化算法,從各種數據源中抽取新的類型信息,這些信息能夠被長期保留的,發展到一定程度就由專業人員進行決策和命名并最終成為一種新的類型( Type) ,有的可能今天保留第二天就被刪除了。加入到知識圖譜中的數據也不是一成不變的,搜索引擎公司利用其強大的計算通常保證圖譜每天的更新都能在 3 小時內完成,時事熱點、重大事件在發生 6 小時內在搜索結果中反應出來。

知識圖譜的更新和維護除了搜索引擎公司的專業團隊,還可以依賴用戶來幫忙改善圖譜。比較有名“PX 詞條被篡改為”劇毒“清華化工系學生反擊”事件就是用戶修改圖譜的典型案例。具體來說就是用戶對搜索結果中展現的知識卡片所列出的實體相關的事實進行糾錯,當一定數量的用戶都指出某一錯誤時,搜索引擎將采納并修正。

總之,知識圖譜的構建是多學科的結合,需要知識庫、自然語言理解,機器學習和數據挖掘等多方面知識的融合。目前,知識圖譜技術還處于初期階段,很多開放性的問題還需要學術界和業界一起解決,相信隨著結構化數據的發展更新,更復雜的自然語言查詢的嶄露頭角,各方的努力將會極大地促進知識圖譜的發展。

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观