1引言
在線社交網絡是一種在信息網絡上由社會個體集合及個體之間的連接關系構成的社會性結構。
在線社交網絡可分為 4 類:1)即時消息類應用,是一種提供在線實時通信的平臺,如 QQ、微信等;2)在線社交類應用,是一種提供在線社交關系的平臺,如 Facebook、人人網等;3)微博類應用,是一種提供雙向發布短信息的平臺,如 Twitter、新浪微博等;4)共享空間等其他類應用,是其他可以相互溝通但結合不緊密的 Web2.0 應用,如論壇、博客等。當前,在線社交網絡應用正處在蓬勃發展期,Facebook 已擁有超過 14 億的用戶,成為第一大"人口國",新浪微博用戶數已達到 5.36 億,騰訊微博用戶數已達到 5.7 億。在線社交網絡應用正深刻地影響著人們生活的各個方面。
在線社交網絡數據具有豐富價值,并蘊含著大量智慧。主要體現在:1)蘊含了大量用戶情感、立場和觀點,進而可發掘人類的思想和行為;2)包含了各類具有時空特性的話題、事件信息,進而可對它們的起源、傳播和發展規律進行揭示和挖掘;3)記錄了用戶和話題間豐富的關系數據,進而可發現朋友關系、社交圈子、用戶與話題、話題與話題等之間關系;4)充滿了針對專業問題的豐富討論,進而可匯聚群體智慧,服務于人們的工作和生活。
傳統的搜索引擎技術,主要是面向 Web1.0 靜態網頁,是基于關鍵詞的"存在性搜索",不能支持面向 Web2.0/3.0 應用,具有 5V 特性的大數據,及其滿足用戶需求智慧解答的搜索。因此不能發掘豐富的在線社交網絡智慧,且服務于用戶。本文研究在線社交網絡智慧搜索技術,定義如下。
在線社交網絡智慧搜索是在正確理解用戶意圖的基礎上,基于社交網絡數據進行加工、推演處理發掘知識,進而給出智慧解答。在線社交網絡大搜索具有"4S"特點:1)意圖感知(sensingthe context),結合用戶請求的上下文、時空特性、場景感知等方式,支持在語義級別上對用戶搜索意圖進行準確理解;2)多源綜合(synthesis frommultiple channels),綜合、關聯多通道、多來源(不同社交網絡)的社交網絡數據和信息,進行統一的知識發掘和推演;3)安全可信(securityprivacy and trust),在線社交網絡搜索結果的安全可信的,并且支持隱私保護;4)智慧解答(intelligent solution),搜索的結果是基于在線社交網絡數據和信息,經過發掘、推理和計算而得到的一組有序智慧解答。
2相關工作
在線社交網絡智慧搜索涉及的相關理論和技術包括:搜索引擎技術、在線社交網絡分析、復雜對象關系建模、意圖理解與匹配及知識構建與推演等。
當前的搜索引擎技術主要包括互聯網搜索引擎和在線社交網絡搜索。主要的互聯網搜索引擎包括全文搜索、元搜索引擎和垂直搜索引擎等。在互聯網搜索引擎中,為優化搜索結果,通常采用倒排索引技術對網頁信息進行索引,并采用排序算法對搜索結果進行等級排名 , 典型的算法包括PageRank[1]和 HITS[2]等;為提高搜索結果的關聯性,Google、百度、搜狗等引入知識圖譜技術;為實現搜索信息的高效存儲管理,各互聯網廠商紛紛提出了解決方案,如 Google 的 Bigtable[3],Amazon的 Dynamo[4]、Yahoo 的 PNUTS[5]等。在在線社交網絡搜索方面,360 推出的 "我的搜索",引入微博、微信等社交因素的影響,并在搜索結果中進行展示。Facebook 推出的社會搜索引擎 GraphSearch,用戶可在社交網絡中對好友、照片、地點等進行搜索。微軟推出的人立方關系搜索,自動地計算每一個人名與關鍵詞的距離,并可展示人的社會化關系。
在線社交網絡分析為社交網絡中知識的獲取和推演提供了相應的方法。主要的社交網絡分析包括話題發現與演化、虛擬社區發現與演化、信息傳播以及影響力分析等。話題發現與演化能有效支撐網絡時代的信息決策。代表性工作包括:Blei[6]
提出的隱含狄利克雷分布的 LDA 模型、Lin 等[7]提出的潛在擴散路徑方法、美國馬里蘭大學研究的詞項間共現頻率反映語義關聯原理的方法[8].虛擬社區發現與演化有助于發現社交網絡中的拓撲結構信息。代表性工作包括:Newman 等[9]提出的模塊性方法、Chakrabarti 等[10]提出的社區演化模型、Mucha等[11]提出的多層網絡社區發現、Tang 等[12]研究的多模態網絡社區發現等。社交信息傳播機制有助于對社會網絡的認識。代表性工作包括:Gruhl 等[13]基于 SIRS 傳染病模型、Han 等提出的高斯條件隨機場模型、Antulov-Fantulin 等[14]提出的統計推理框架溯源方法。影響力分析能發現社交網絡中高影響力用戶和影響強度。代表性工作包括:Ellison 等[15]研究了在線社交關系對現實社交關系的群體互動影響;Woolley 等[16]分析了心理因素、認知空間對群體聚集的影響;Wen 等[17]根據關注網絡和用戶興趣相似性計算個體在每個話題上的影響力;Romero等[18]綜合考慮了影響力與冷漠性,提出了類 HITS的算法。
對象關系模型是構建在線社交網絡搜索知識倉庫的基礎。當前復雜對象關系的建模通常用圖結構來表示,常用圖模型包括 Property Graph[19]、RDF[20]、MultiGraph 模型[21]等。Property Graph 在節點和邊上可以存在任意數量的鍵值對表示屬性或標簽,因而其表達能力很強。RDF 用三元組 SPO(subject, property, object)來描述實體之間的關系,是當前表示實體以及其關系的一種常見模式。
MultiGraph 模型可在 2 個實體之間保留多條邊以表示多種關系。近來年,許多研究將時空信息融入到復雜對象關系的建模中。微軟亞洲研究院分別從用戶、地理位置和事件 3 個層面對基于位置的地理社交網絡進行了研究,發現單純社會網絡中個體之間無法表現的關系[22].Shekhar[23]將時空因素考慮到在線社交網絡數據分析中,提出一種時間聚集的圖模型。
用戶意圖理解與匹配是搜索中的關鍵技術。在用戶意圖理解方面,Wolframalpha 通過從公眾的和獲得授權的資源中發掘、構建的數據庫,能夠理解用戶問題并直接給出答案。搜狗的"知立方"通過引入"語義理解"技術,試圖理解用戶的搜索意圖,對搜索結果進行重新優化計算。Etzioni 等提出了基于規則模板抽取實體/概念之間的關系來描述和理解搜索意圖。Madhu 等[24]利用語義網工具和技術提供分層模塊的方法解決搜索引擎對語義內容的理解。在意圖匹配方面,主要包括文本模型和圖模型?;谖谋灸P偷囊鈭D匹配通過將以關鍵詞查詢檢索的方式來把用戶的意圖進行語義轉換和目標文檔的匹配,并獲取相關度排序?;趫D模型的意圖匹配通過圖搜索來實現搜索意圖與搜索空間中目標項的查找和匹配,主要包括[25]:關鍵詞圖搜索技術、子圖匹配技術和近似圖匹配技術等。
知識是實現智慧搜索的關鍵。當前,知識構建較多地從知識圖譜構建角度加以展開,以互聯網網頁為來源的典型知識圖譜包括 KnowItAll[26]、TextRunner[27]和 Probase[28],以在線百科為數據來源的知識圖譜包括 YAGO[29]和 DBPedia[30]等。知識推演是在給定目標的情況下,在知識庫或網絡空間中進行推演求解,以獲得答案并產生新的知識。當前知識推演的操作過程包括利用統計、知識推理和眾包等方法。其中,主要的推理方法包括:正向推理、逆向推理、雙向推理、非精確推理、基于語義的推理和基于案例的推理等。
上述技術的發展為在線社交網絡智慧搜索的研究奠定了研究基礎,在理論、方法和技術方面存在諸多挑戰,主要包括:在線社交網絡中智慧與知識的發掘與推演、用戶真實搜索意圖的理解與表示、滿足用戶真實意圖的智慧解答在線響應。
3研究進展及技術要點
目前,社交網絡智慧搜索與當前的社交網絡搜索的區別主要體現在智慧的能力,而智慧處理過程是以知識圖譜為基礎,主要研究內容可劃分為在線社交網絡知識發掘與推演、知識聚合與組織管理、用戶搜索意圖理解、用戶意圖的搜索與匹配等部分,各研究點間交互形成總體框架如圖 1 所示。
社交網絡知識發掘與推演??芍С謱υ诰€社交網絡空間中的數據獲取和推理,包括微博、博客、論壇、維基、共享網站等空間中采集文本、圖片、語音、視頻等各種類型的多模態數據,以及各類已存在的對象知識和關系知識。數據獲取與采集過程不間斷進行,采集后的數據和知識是后續推理和搜索的基礎。
知識聚合與組織管理。面向在線社交網絡空間的海量對象知識及關系知識進行建模;在此模型實例化的基礎上通過知識聚合,構建知識倉庫空間,并通過索引、關聯和演算等聚合操作預先形成知識聚合體。知識倉庫中的知識是不斷經過二次加工的,經過用戶的查詢、修改、反饋和自演化的過程,逐步完善,根據應用建立各類索引,同時滿足用戶搜索時的準確性需求和實時性需求。
用戶搜索意圖理解。面向意圖理解的準確性和歧義消除的基本需求。結合用戶的上下文和語義知識等方法,迅速、準確地理解用戶的真實意圖,并轉變成與知識倉庫可匹配推演的表示方式。用戶意圖的搜索與匹配?;谝鈭D理解表示和知識倉庫,經過匹配、推理、計算、乃至眾包等技術和方法的處理,形成若干個滿足用戶真正意圖的智慧綜合的解決方案,并通過結果評價排序方式給出其優先級,為用戶提供智慧的解答方案。
3.1在線社交網絡知識表示模型
在線社交網絡中的對象知識具有多樣化特性,可通過文本解析、實體抽取、關系抽取、元數據分析、指代消解等技術來獲得在線社交網絡中的不同側面對象知識,并以特征關聯的形式對其進行描述,建立針對個體對象的內容語義描述模型。
在線社交網絡中的內在多層次、演化的關系型知識需要進一步提取和挖掘,一般可采用支持語義關系的語義圖模型表達;綜合對象知識和關系型知識,可借鑒目前時態地理信息系統以及數據分析領域中的資源描述框架(RDF)、屬性圖(property graph)、多圖(multi-graph)等模型方法,通過模型的組合以及擴展等方法,并通過整合現有語義庫(包括 Freebase 和 Probase 等)來統一表示語義信息。
3.2在線社交網絡知識的發掘與推演
在線社交網絡知識獲取與推演具有多樣化、關系復雜與演化等需求,可從個體行為及立場分析、群體社區發現及極化規律、話題的緣起與發展和信息傳播規律等在線社交網絡的角度出發,進行發掘和推演。研究主要針對社交實體的對象交互特性、時空特性、規模特性、多源特性等方面。
在線社交網絡中的對象具有豐富的交互關系進行推理挖掘,可采用基于時序語義圖的關聯算法。支持時空特性是社交網絡知識的主要特性,可基于相似性計算與多尺度空間匹配等方法,以及面向在線社交網絡的時態邏輯推理算法,利用關系傳遞和協同過濾等技術,對在線社交網絡知識推理。在線社交網絡中的對象屬性具有個數規模大的特點,可通過目標驅動的基于屬性依賴關系的可伸縮的模態推理技術,實現基于刻面的社交網絡大規模屬性推理。社交網絡中的知識含有大量多源異構交互信息,可通過離線眾包推理與反饋相結合的多源知識融合方法,實現社交網絡交互信息的眾包推理與多專家信息的智慧解答的有機融合。
3.3面向在線社交網絡知識聚合與組織管理
發掘和推演生成的知識是粗糙、低層次的,可通過知識聚合來生成精煉、物化和泛化的知識來滿足用戶搜索的需求,并形成知識倉庫。
知識預先聚合、組織并生成知識聚合體過程應具有效性、準確性和順序性,在社交網絡知識表示模型基礎上,可參考 Wikipedia/DBpedia/ Freebase等多種語義概念層次,參考聯機分析處理的聚合計算機理,建立在線社交網絡中面向領域的對象知識、關系知識間的聚類方法,以及各概念層次間的聚合函數。在此基礎上,基于特征空間的降維分解方法研究高維空間中各維度的可聚合性及相應的聚合函數。其中,對于時空屬性的聚合計算,將采用多時間粒度聚合、基于地理位置的空間聚合等方法,研究時空聚合計算函數和有效計算方法;在聚合計算的基礎上,采用基于時空相似度散列的知識聚合體模型表示和存儲方法,將時、空上相似或相近的對象和關系就近存儲并建立高效索引;在概率Skyline 和概率 Top-k 算法框架下,可研究時變、不確定環境下的知識聚合體的動態排序與更新演化算法。
3.4用戶搜索意圖理解
用戶搜索意圖主要體現在用戶的歷史行為、場景環境、語言表達等方面,其研究也基于各個方面的綜合感知和理解。用戶搜索歷史行為,可按照由個體到群體,從點到軌跡的思路,采用頻繁模式挖掘相關技術,挖掘用戶的行為模式和搜索模式,建立用戶搜索時空場景知識庫,用以識別用戶的行為、情感、意圖、經驗和生活模式。
用戶場景環境,是用戶所處的時間上下文、空間上下文、歷史行為上下文、社交關系上下文等環境,一般采用基于內容以及協同過濾等推薦方法和機器學習相結合的方法,增強用戶意圖理解的準確性,并結合用戶偏好和當前位置,按照用戶的滿意度、興趣度選擇與用戶當前需求相關的信息,進行空間信息的語義搜索,并建立基于語義的信息聚合模型,將個性化需求的信息進行整合。
用戶語言表達,是用戶的自然語言文字或語音表述,在此方面有大量研究成果??紤]搜索過程的特殊性,應針對用戶的搜索意圖的一些不定和模糊表達等特征,在稀疏的搜索空間中,通過一些數據降維嵌入和相近分析等方法來進行有效的推理演算,更好地支持用戶意圖的理解和匹配,并通過交互、反饋等方式對理解有偏差的意圖進行糾正。
3.5在線知識匹配求解
在線知識匹配求解是知識倉庫中知識的查詢匹配、推理求解以及搜索答案生成過程。
知識聚合體中的文本類知識的快速匹配算法,可基于深度學習思想,研究不同關鍵詞間的深度語義關聯,并在語義空間中研究基于時空相似的快速匹配算法,實現知識聚合體能快速準確滿足搜索用戶需求。針對知識聚合體中的關系類知識的快速匹配算法,可基于圖的分布式處理方法,研究大圖和巨圖并行匹配的分解算法及優化方法,支持大圖和巨圖的高效查詢。對于混合屬性查詢請求,可采用地理信息等時空特性的知識快速匹配為重點,處理地理信息、時空特性的快速知識匹配算法。針對用戶意圖的解答排序與評估反饋,可采用半監督增強學習方法和自反饋理論,突破在學習因素和反饋特征因子數量大、維度高的情況下高效反饋學習算法,實現搜索過程的自我演化與更新需求。
4研究發展趨勢
社交網絡智慧搜索發展研究,將聚焦于 3 個主要問題,包括社交網絡中智慧與知識的挖掘與發現、用戶真實搜索意圖的理解與表示、快速給出滿足用戶需求的智慧解答。在應用方面,重點考慮滿足政府決策的民意調查、輿情分析,以及企業市場的社會化營銷等各行業領域現實需求。為滿足以上3 個問題,主要關鍵技術發展將包括以下 5 個方面內容,如圖 2 所示。
4.1支持時空特性的在線社交網絡知識表示模型
針對在線社交網絡中的人物情感立場、事件緣起發展、群體互動與聚集等巨規模、復雜、演化的對象和關系,需要研究支持時空特性的社交網絡知識表示模型,實現對社交網絡知識的建模。關鍵技術發展將包括以下幾方面。
1) 在線社交網絡中的對象知識表示方法。針對在線社交網絡中的對象知識多樣化特性,包括人物、話題、信息等各種各樣的社交網絡對象,且每個對象屬性多樣,深層挖掘對象的各種屬性的特點及其隨時間演化的規律,研究統一的對象建模與知識表示模型。
2) 在線社交網絡巨復雜關系型知識表示方法。針對在線社交網絡中各種關系規模巨大、種類繁多,粒度不同、時間演化的特點,包括用戶、社區、話題之間的各種關系,需要分析關系的不同特點及演化規律,建立適合社交網絡對象關系的統一語義表示模型。
3) 在線社交網絡對象與關系統一融合的表示計算模型。針對不同來源、跨通道的在線社交網絡中的復雜對象與關系,需要研究能夠統一融合表示的在線社交網絡知識歸一化表示模型,實現對巨規模、復雜、演化的在線社交網絡知識建模。
4.2在線社交網絡知識的發掘與推演
針對在線社交網絡中知識多樣化,關系復雜及時空演化等特點,包括個體行為及立場分析、群體社區發現及極化規律、話題的緣起與發展和信息傳播規律等,研究以復雜社會計算為基礎的在線社交網絡知識的發掘和推演。關鍵技術發展如下所示。
1) 面向在線社交網絡關系的新型關聯推理機制。針對在線社交網絡中的對象具有豐富的交互關系,以及知識之間具有關聯關系的特點,需要研究適合于在線社交網絡知識的表性、隱性、虛實結合的關聯關系挖掘與發現推理方法。
2) 面向在線社交網絡知識時空屬性的推演機制。針對在線社交網絡知識具有豐富的時空屬性的特點,需要研究時空相似性計算和時空推理技術,及面向社交網絡的時態邏輯推理技術,實現多尺度的時空數據融合推理。
3) 基于刻面的在線社交網絡大規模屬性推理機制。針對在線社交網絡中的對象屬性個數規模眾多的特點,需要研究目標驅動的基于屬性依賴關系的可伸縮的模態推理模型,以及面向多屬性刻面的沖突消解方法。
4) 面向在線社交網絡交互信息的眾包推理與融合。針對在線社交網絡中的知識含有大量交互信息的特點,需要研究基于離線眾包推理的智能知識的挖掘框架,以及基于標注與反饋相結合的多源知識融合機理。
4.3面向在線社交網絡知識聚合與組織管理
針對在線社交網絡知識具有層次性和多粒度特點,以及用戶不可預測的在線知識查詢需求,需要對知識進行預先聚合與組織,生成在線社交網絡知識聚合體,并進行有效排序,從而支持實時多維度的搜索請求。關鍵技術發展將包括以下幾方面。
1) 高維特征空間的知識聚合計算。針對在線社交網絡知識跨時空、多層次、多維度的特點,基于發掘與推演技術,需要研究在線社交網絡知識聚合計算方法,及各知識聚合計算的相關性與計算策略技術。
2) 社交知識聚合體的表示與存儲模型。針對在線社交網絡聚合體歸一化表示問題和存儲空間隨維度增加呈指數增長的維災難特點,需要研究面向在線社交網絡搜索的社交知識聚合體的模型表示和存儲管理方法。
3) 社交知識聚合體的排序與更新演化模式。針對用戶搜索需求不斷變化和無法預測的特點,需要研究在線社交網絡知識聚合體的索引排序,以及獲取的數據不斷更新過程中,知識聚合體的自我演化與更新模型。
4.4基于場景感知的用戶意圖理解
面向用戶查詢輸入的關鍵詞、語音、手勢等內容,結合用戶手機終端、所處運動軌跡的時空場景以及歷史記錄和個人偏好等信息,準確理解用戶的意圖,并采用支持高效查詢推演的統一模型進行表示。關鍵技術發展將包括以下幾方面。
1) 支持時空屬性的用戶搜索意圖建模。針對在線社交網絡的各種時空軌跡數據,體現了用戶當前在真實世界中的場景的特點,需要研究基于時空信息的用戶行為模式分析技術,實現對用戶真實搜索意圖的建模。
2) 支持上下文的語義級用戶意圖理解方法。針對用戶搜索意圖與上下文緊密相關的特點,需要研究基于上下文感知的用戶意圖理解方法,及基于情感分析的用戶意圖理解方法,實現語義級用戶意圖的理解。
3) 基于交互式的用戶搜索意圖理解方法。針對用戶搜索意圖單次表述具有二義性等特點,需要研究基于交互式的用戶意圖理解方法,實現交互步驟最小優化模型,以最少交互開銷了解用戶潛在搜索意圖。
4.5支持時空特性的在線知識匹配求解
知識匹配求解是獲取匹配用戶需求搜索結果的關鍵技術。針對用戶的在線社交網絡搜索請求復雜多樣和要求在線響應的特點,需研究在社交網絡知識聚合體中的快速匹配求解推演算法,以及相應的實驗驗證系統。關鍵技術發展將包括以下幾方面。
1) 基于文本的快速在線匹配與解答排序。針對用戶搜索需求多以關鍵詞等文本進行表示的特點,需研究基于文本進行的在線社交網絡搜索快速在線匹配與排序方法,實現社交網絡知識聚合體中快速準確滿足搜索用戶需求的方法。
2) 基于子圖的面向用戶意圖的快速匹配求解。
針對在線社交網絡知識多以圖結構表示的特點,需要研究面向大圖結構的特性分析技術,基于大圖的高效查詢及其優化技術,以及基于大圖的用戶意圖高效推演等技術。
3) 支持時空特性的社交網絡知識快速匹配。針對在線社交網絡知識的時空特性,研究基于語義圖模型和協同過濾等方法,以及支持時空特性的社交網絡知識匹配算法,高效完成對用戶搜索意圖的快速準確匹配。
4) 面向用戶意圖的解答排序與評估反饋。針對在線社交網絡搜索自我演化與更新的需求,研究異構信息聚合搜索評價技術,評價返回的各種類型的信息之間的相互作用與評估體系,實現不同搜索解答的評估與反饋優化。
5結束語
在 Web2.0 蓬勃發展的環境,在線社交網絡智慧搜索具有迫切的需求,本文采用理論研究和實證研究相結合的方法對當前研究進展及未來發展趨勢進行了歸納和預測。主要探索用戶搜索真實意圖的理解與表示機理;解決社交網絡中復雜海量的知識以及知識之間關系的模型構建與知識發現以及推演機制描述方法;研究用戶意圖在搜索空間的快速匹配模型和方法,以構建面向社交網絡大搜索的運行支撐平臺及環境。
長期發展將以面向政府決策的民意調查、輿情分析和社會化營銷等重大需求為目標,構建在線社交網絡大搜索的示范驗證系統,從而提升我國在社交網絡大搜索的原始創新能力和國際影響力,推動信息技術發展,搶占 IT 技術的戰略高地。