藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 其他論文 > > 推薦引擎原理、發展挑戰與發展方向
推薦引擎原理、發展挑戰與發展方向
>2023-12-19 09:00:00


引言

隨著信息技術和互聯網(特別是Web2.0和移動互聯網)的發展,各種圖片、微博、視頻等大量信息的創建與分享變得越來越容易,人們進入到了一個信息過載的時代。在這個時代,由于信息極度爆炸,使得信息生產者和信息消費者都面臨了一個困境:對于生產者而言,想要使自己的信息受到廣泛關注已經不是一件容易的事情;同樣對于消費者而言,想要找到自己需要的信息也變得越來越難。針對信息過載的問題,傳統的解決辦法是建立如雅虎、2345導航網站的分類目錄,或類似谷歌、百度的搜索引擎,但是這兩種方法都存在一定的局限性。分類目錄只能覆蓋很少一部分信息,很難覆蓋處于長尾部分的物品。搜索引擎只適用于當用戶有明確的需求,并且該需求可以用關鍵字描述的這類場景。因此,推薦引擎正是為了滿足用戶在沒有明確的需求時,如何從海量的信息中找到自己感興趣的物品而研發的,所以推薦引擎也被稱為第二代搜索引擎。

推薦引擎的作用就是幫助人們從海量的信息中發現自己潛在感興趣的事物。不需要用戶提供明確的需求(如搜索引擎的關鍵字),通過收集用戶的歷史行為并結合其他相關信息為用戶的興趣建立模型,從而找出用戶可能會喜歡的物品并推薦給用戶。推薦引擎能夠較好地解決信息過載帶來的長尾效應,即少量的熱門事物會受到大眾的廣泛關注,而絕大部分處于長尾的物品卻無人問津。推薦引擎的典型應用領域就是電子商務,如亞馬遜、京東、淘寶等電商巨頭,正是充分借助于推薦引擎,挖掘用戶的個性需求,為用戶推薦處于長尾部分的商品,進而提高銷售額。因此,推薦引擎作為一種解決信息過載的重要方法,被應用在越來越多的領域中。

推薦引擎原理綜述當前主流的推薦引擎有兩大類:基于內容的推薦和基于協同過濾的推薦。

(1)基于內容的推薦

這類推薦引擎的原理是為用戶推薦與用戶畫像最匹配的物品。用戶畫像可以從用戶以往的歷史記錄(如瀏覽、打分、購買等能夠反映出用戶喜好的行為)中找到用戶喜愛的物品,搜集該物品的元數據或相關信息,如物品的描述文檔、用戶評論等,然后從中提取物品特征,最終得到用戶畫像。

大多數基于內容的推薦引擎,物品特征是從文本中提取得到的,如與該物品相關的網頁、新聞、產品說明書、電子郵件等。常用的技術是使用基于關鍵字的向量空間模型,在這個模型中,每個文本文件和用戶畫像都可以被映射為一個n維的空間向量,然后通過計算向量的余弦相似度找出用戶最有可能喜歡的物品。

除了VSM模型之外,基于內容的推薦引擎還可以使用有監督的機器學習算法。如在新聞推薦領域,Billsus等人提出了對有大量歷史記錄的老用戶,使用基于樸素貝葉斯分類器的機器學習算法來找出用戶感興趣的新聞。K近鄰、支持向量機等文本分類算法被廣泛應用在音樂、新聞、電子商務、電影等領域的個性化推薦引擎中。

(2)基于協同過濾的推薦

這類推薦引擎的原理是,若用戶u、v在相同的物品的評分相近,那么用戶u對物品i的打分也非常有可能與v的打分相似?;趨f同過濾的推薦可細分為兩類,一類是基于鄰域的方法,一類是基于模型的方法。

在基于鄰域的方法中,已有的用戶對物品的評分被用來直接預測用戶對新物品的評分,常見的兩種推薦方法是基于用戶的推薦和基于物品的推薦?;谀P偷姆椒ㄊ峭ㄟ^對已有的評分進行學習,得到一個模型來預測用戶對新物品的評分,常用的方法有隱狄利克雷分布、最大熵、奇異值分解等。

(3)基于內容的推薦引擎

基于內容的推薦是當前主流的推薦方法之一,其基本原理是通過分析用戶曾經打過分的物品信息(如物品說明、物品介紹等文本信息),通過提取物品特征然后構建用戶畫像。用戶畫像是對用戶興趣、愛好的一種結構化表示方法?;趦热莸耐扑]方法就是通過將用戶畫像同物品特征進行匹配,得出的結果就是用戶和物品之間的相似度,相似度越高,說明該物品越符合用戶的興趣愛好,即用戶越有可能喜歡該物品。

基于內容的推薦引擎基本結構如圖1所示??梢钥吹交趦热莸耐扑]最重要的三個步驟:物品特征分析與提取,用戶畫像學習,相似度計算。

基于內容的推薦引擎主要存在以下幾點不足。

一是,某些領域的相關知識難以獲得。例如音樂領域和新聞、網頁等文本信息不同,音樂屬于音頻數據,與之相關的領域知識獲取較為困難。在線音樂網站潘多拉就是通過人工的方法為音樂進行標注。對于當前龐大數量并不斷快速增加的音樂數據,這種方法需要消耗大量的人力和時間成本。

二是,專家(人工)標注的方法往往不能代表用戶的各種意見,同時由于專家的水平不一,不同的專家對于同一首歌曲經常會有不同見解,難以保證標注質量的一致性。

三是,基于內容的推薦結果過于專一、單調?;趦热莸耐扑]是推薦與用戶喜愛的物品相似的物品,這樣推薦缺乏驚喜度,因為基于內容的推薦無法推薦內容、特征不同的物品。

(4)基于協同過濾的推薦引擎協同過濾主要可分為兩類:基于鄰域的方法和基于模型的方法。在基于鄰域的方法中,已有的評分信息直接用于預測用戶對新物品的評分;基于模型的方法則是通過評分信息學習一個預測模型。

相比于基于內容的推薦,使用用戶行為數據的協同過濾算法最大的優勢在于不需要領域知識,并且能夠提供不同類型的推薦,然而這類算法在某些情況下也存在不足之處。

數據的稀疏性問題。以當前大型電商網站為例,在網站中往往存有上千萬個物品,相對于龐大的物品數據庫,用戶瀏覽、購買的物品僅僅是很小的一部分,與可能存在的用戶與物品之間的聯系相比,數據存在嚴重的稀疏性問題。數據的稀疏性會導致基于協同過濾的推薦算法的推薦質量下降,因為這類算法需要數據之間的關聯關系。

新物品的冷啟動問題。新的物品,由于被用戶選擇或購買的次數很少(最壞的情況是沒有任何用戶評價、購買該物品),基于協同過濾的推薦算法很難計算這類物品與其他物品之間的相似度,這就是冷啟動問題。長尾物品的推薦能力不足。長尾物品是指冷門的物品?;趨f同過濾的推薦算法傾向于推薦當前流行的、熱門的物品。

當前推薦引擎面臨的主要挑戰。

經過10多年的發展,推薦引擎已經廣泛應用在電子商務網站、在線音樂視頻網站、社交網站等領域。但快速發展的背后,推薦引擎也面臨著越來越多的困難與挑戰,有些是歷史遺留問題,有些則是隨著科技進步帶來的新的挑戰。

挑戰一:數據稀疏性問題

數據的稀疏性是指隨著推薦引擎需要處理的問題規模越來越大,如音樂庫、電商商品庫等,不同的兩個用戶數據重疊非常少。以淘寶為例,數據稀疏度估算在百萬分之一。這對于需要分析數據關聯信息的推薦算法來說,推薦效果不佳。

挑戰二:冷啟動問題

推薦引擎的根本任務就是聯系人和物,但對于新加入系統的人和物來說,由于缺少歷史數據,很難為新用戶推薦物品,同樣的,新的物品也很難推薦給用戶。

挑戰三:大數據處理與增量計算的問題

個性化推薦算法,特別是對于較為先進的推薦算法,其算法的時間、空間復雜度較高,如何將這些算法充分地并行化,例如可以運行在Hadoop集群上的推薦算法,是一個較為迫切的問題。同時,有些算法不支持增量計算,如何改進這類算法也是當前研究的熱點之一。

挑戰四:多樣性與精確性兩難的問題

推薦是一個較為復雜的問題,同時涉及到自然科學和社會科學兩大學科。因此,推薦引擎的評測標準有時是矛盾的。例如,增加推薦的多樣性往往會導致精確性降低,而盲目地提高精確性,會降低推薦結果的多樣性,并損害用戶體驗。

挑戰五:推薦引擎的脆弱性問題

任何一個能帶來利益的算法系統都會受到攻擊。和針對搜索引擎的排名作弊一樣,當前也有很多針對推薦引擎的攻擊技術,如行為注入攻擊,當前還缺乏對這類問題系統性研究。

挑戰六:推薦引擎的評測

正確、全面地評測一個推薦引擎也是一個難點。一般來說,推薦引擎的評價有三個層次。第一個層次是針對推薦算法的評測;第二個層次是商業應用上的關鍵指標,如受推薦影響的轉化率、購買率等;第三個層次是用戶的真實體驗。當前的研究主要側重于第一個層次,通過數據去分析性能,如何建立第一個層次和第二個層次指標之間的關系,也是當前研究的熱點之一。

挑戰七:用戶界面與用戶體驗

這個問題更多的不是一個學術性質的問題,而是現實應用中需要考慮的問題。例如,有學者研究指出,推薦結果的可解釋性對于用戶體驗有著至關重要的影響:用戶往往希望知道這個推薦是怎么來的;此外,如何更好地呈現推薦結果,雖然是一個很難建立理論模型和進行量化分析的問題,但在現實應用中往往起到很大的影響。

挑戰八:多維數據的交叉應用

現實中,用戶的行為往往分散在各個不同的系統中,例如人們往往參與了多個大型的社會網絡,或從多個電商網站中購買商品。如果僅從一個來源分析用戶興趣愛好,難免會有一葉障目的問題,如果能夠將多種數據(多維)聯合挖掘分析,就可以從根本上解決新用戶的冷啟動問題。

挑戰九:社會化推薦問題

很早以前,研究人員就發現用戶更傾向于來自朋友的推薦而不是被系統"計算出來的推薦".然而,當前的社會化推薦也存在幾個問題:一是人們的社交是一個復雜的問題,如何將社會信任關系引入到推薦引擎中;二是如何更好地利用社會關系提高推薦的準確度。

挑戰十:用戶行為模式的挖掘和應用

不同的用戶有不同的行為模式,如在圖書類的電商網站中,新用戶傾向于熱門的數據,而老用戶更關注處于長尾部分的商品。深入挖掘用戶的行為模式可以提高推薦效果,或在更復雜的場景下進行推薦。

推薦引擎的未來發展方向

4.1 混合推薦

推薦技術至今已經歷了10余年,在這期間眾多的算法被提出并在業界應用。人們發現單一的推薦算法各有優劣,其中某些算法可互補,如果能夠通過系統性的方法組合各種推薦算法,可以產生1+1>2的效果。在2009年結束的Netflix百萬美元推薦競賽中,獲得冠軍的就是基于加權的混合推薦模型。

當前主要的混合技術有:多段組合混合推薦、加權型混合推薦、分級型混合推薦和瀑布型混合推薦。

多段組合混合推薦流行的方法是采用三段式混合系統,即Online-Nearline-Offline Recommendation(在線-近線-離線)三層混合機制。這是因為推薦引擎一方面要處理海量的用戶、物品的數據,另一方面要實時響應線上用戶的請求,迅速地生成結果并返回。離線數據挖掘(例如常見的Hadoop系統)雖然擅長處理大量數據,但運算周期長(小時級或天級),實時推薦能力差,而在線系統由于要迅速(例如幾十毫秒)計算出推薦結果,無法承擔過于消耗資源的算法。

從算法的角度來看,最常用的是采用加權型的混合推薦技術,即將來自不同推薦算法生成的候選結果及結果的分數進一步進行組合加權,生成最終的推薦排序結果。加權混合的模型有很多,除了簡單的線性模型外,常用的還有回歸模型(Logistic Regression)、RBM(Restricted BoltzmannMachines)、GBDT(Gradient Boosted Decision Trees)等。

加權組合型混合推薦技術有非常高的精度,但系統復雜度和運算負載都較高。在工業界實際系統中,往往采用一些相對簡單的方案,其中分級型混合推薦技術就是一類思想簡單但效果較好的方法。這種混合推薦技術根據不同的推薦場景,將不同的推薦算法按照效果優劣進行層次性劃分。在對應的推薦場景下,優先采用高可信度的推薦算法生成結果,然后依次采用后續方法生成結果。

瀑布型的混合方法采用了過濾的設計思想,將不同的推薦算法視為不同粒度的過濾器,尤其是面對待推薦對象和所需的推薦結果數量相差極為懸殊時,往往非常適用。在瀑布型混合技術中,前一個推薦方法過濾的結果,將輸出給后一個推薦方法,層層遞進,候選結果在此過程中會被逐步遴選,最終得到一個高精確的結果。瀑布型混合系統設計時,通常會將運算速度快、區分度低的算法排在前列,逐步過渡為重量級的算法,優點是充分運用不同算法的區分度,讓寶貴的運算資源集中在少量較高候選結果的運算上。

4.2 基于上下文的推薦

之前論述的推薦引擎算法主要集中研究了如何聯系用戶興趣和物品,將最符合用戶興趣的物品推薦給用戶,但這些算法都忽略了一點,就是用戶所處的上下文(Context)。

這些上下文包括用戶訪問推薦引擎的時間、地點、心情等,對于好的推薦引擎是非常重要的。例如,一個賣衣服的推薦引擎在冬天和夏天應該給用戶推薦不同種類的服裝。推薦引擎不能因為用戶在夏天喜歡過某件T恤,就在冬天也給該用戶推薦類似的T恤。所以,準確了解用戶的上下文信息,并將該信息應用于推薦算法是設計推薦引擎時的關鍵步驟。

在用戶所處的上下文環境中,最重要的兩個因素就是時間和地點。時間是一種重要的上下文信息,對用戶興趣有著深入而廣泛的影響。一般認為,時間信息對用戶興趣的影響表現在以下幾個方面。用戶的興趣是時變的。隨著年齡的增長、職業的變化,用戶的興趣也在不斷變化。如果要準確預測用戶現在的興趣,就應該關注用戶最近的行為,因為用戶最近的行為最能體現他現在的興趣。

物品的時間周期。一部電影剛上映的時候可能被很多人關注,但是經久不衰的電影很少,很多電影上映后不久就被人們淡忘了。此外,物品也可能受新聞事件的影響,例如一部已經被淡忘的電影會突然因為涉及某個新聞事件而重新回到熱門。不同系統的物品具有不同的生命周期,例如新聞的生命周期很短暫,而電影的生命周期相對較長。

季節效應。季節效應主要反映了時間本身對用戶興趣的影響,例如人們夏天吃冰淇淋,冬天吃火鍋,夏天穿T恤,冬天穿棉衣。

除了時間,地點作為一種重要的空間特征,也是一種重要的上下文信息。不同地區的用戶興趣有所不同,用戶到了不同的地方,興趣也會有所變化。在某處逛街逛累了,希望尋找美食時,用戶可能會考慮幾個因素,包括距離、價位、口味和口碑,而在這些因素里,最重要的因素可能是距離。因此,很多基于位置的服務軟件都提供了推薦附近餐館和商店的功能。

研究發現,用戶興趣和地點呈現出以下兩點相關的特征。

興趣本地化。不同地方的用戶興趣存在著很大的差別。

不同國家和地區用戶的興趣存在著一定的差異性。

活動本地化。一個用戶往往在附近的地區活動,研究人員發現45%的用戶活動范圍半徑不超過10英里,而75%的用戶活動半徑不超過50英里。因此,在基于位置的推薦中需要考慮推薦地點和用戶當前地點的距離,不能給用戶推薦太遠的地方。

4.3 利用社交網絡進行推薦

基于社交網絡的推薦可以很好地模擬現實社會。在現實社會中,很多時候我們都是通過朋友獲得推薦。美國著名的第三方調查機構尼爾森調查了影響用戶相信某個推薦的因素。調查結果顯示,90%的用戶相信朋友對他們的推薦,70%的用戶相信網上其他用戶對廣告商品的評論。從該調查可以看到,好友的推薦對于增加用戶對推薦結果的信任度非常重要。

為了進一步證實好友推薦對用戶的影響,尼爾森和Facebook合作進行了一次個性化廣告實驗。尼爾森測試了同一個品牌的三種不同形式的廣告。第一種廣告和第二種廣告都是圖片廣告,但兩者的推薦理由不同。第一種廣告的推薦理由沒有社會化信息,僅僅表示該品牌受到了51930個用戶的關注,而第二種廣告的推薦理由是用戶的某些好友關注了這個廣告。第三種廣告比較特別,它是在用戶的好友關注該品牌時,就在用戶的信息流中加入一條信息,告訴用戶他的某個好友關注了一個品牌。通過在線AB測試,尼爾森發現第三種廣告的效果明顯好于第二種,而第二種廣告的效果明顯好于第一種,從而證明了社會化推薦對于增加用戶對廣告的印象和購買意愿具有非常強烈的作用。同時,該實驗也從側面說明社交網絡在推薦引擎中可能具有重要的作用。

結束語

自從亞馬遜推出商品推薦之后,各種類型的網站都在跟進和不斷完善各自的推薦引擎。典型的如Hulu和淘寶都大量應用了智能推薦,但智能推薦仍然處于輔助路徑上。一是因為傳統的PC由于屏幕足夠大,一屏可以顯示足夠多的內容和鏈接讓用戶去選擇,這種版式閱讀來自于報紙閱讀習慣的延伸;二是由于單臺計算機計算能力有限,可獲取的用戶數據也有限,推薦算法大都是在實驗室環境下進行學術研究,真正商用還有比較大的風險。然而在移動互聯網時代,智能推薦已經開始從輔助路徑轉變到主路徑上,例如手機淘寶,其首頁的商品推薦已經個性化,極大地提升首頁的分發能力。其次,基于大數據的相關技術,如Hadoop、Spark分布式計算框架,可以支持高時間復雜度和空間復雜度的推薦計算,因此,在移動互聯網時代和大數據時代,推薦引擎將迎來新的發展。

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观