關鍵詞:搜索引擎;關鍵詞推薦;個性化;專利分析。
引言。
隨著互聯網的普及,搜索引擎已經成為人們獲取信息的主要手段之一。搜索引擎采用的主要交互方式為用戶自主輸入關鍵詞,檢索系統根據輸入的關鍵詞提供檢索結果。然而,由于用戶輸入的關鍵詞通常較短,且可能存在歧義、意圖模糊等情況,使其不能精確地表達其搜索意圖。為了幫助用戶更好地構造關鍵詞,通常搜索引擎會使用個性化關鍵詞推薦技術。其通過分析文檔結構、用戶瀏覽行為及用戶對文檔的評價等信息,建立用戶的興趣模型,推薦出用戶實際所需的關鍵詞,提高搜索準確性,改善用戶智能、便捷的搜索體驗。
1 個性化關鍵詞推薦技術概述。
早在上世紀 90 年代,學者就開展了一些關鍵詞推薦相關研究,如今已成為搜索引擎的必備技術之一。個性化關鍵詞推薦根據所依賴的數據源不同大體可分為三類:基于文檔詞典、基于搜索日志和其他相關技術,如圖 1 所示。
(1)基于文檔詞典的關鍵詞推薦技術是以當前關鍵詞返回的文檔內容為對象,對文檔進行概括來提取關鍵詞,并將關鍵詞按類別進行聚類,最后將關鍵詞反饋給用戶。該技術不考慮用戶的歷史記錄,根據文檔內容之間的相似度來提取用戶興趣,并基于各種詞庫(如分類詞庫、同義詞庫、關聯詞庫、外語詞庫、糾錯詞庫和分詞詞庫等)來推薦關鍵詞。
(2)基于用戶搜索日志的關鍵詞推薦技術是從用戶角度出發,以用戶搜索日志中的歷史記錄作為對象,采用聚類技術計算關鍵詞之間的相似度,并返回相關度較高的關鍵詞。該技術通常會從搜索日志中分析用戶操作行為,提取用戶標識和群體特征。
(3)對于個性化關鍵詞推薦中的其他相關技術,其主要包含了能夠使用戶更加便捷地使用搜索引擎所采用的一些其它技術。例如,與用戶之間進行語音交互、結合用戶當前位置信息等手段來提供關鍵詞。
2 個性化關鍵詞推薦相關專利申請分析。
本文在 CNABS 和 DWPI 數據庫中,通過“搜索”、“關鍵詞”、“推薦”及其中英文擴展詞匯作為主要關鍵詞,并排除 IPC 分類號為G06Q 的噪聲文獻,檢索得到的 2016 年 5 月以前公布的 300 余篇專利文獻作為樣本,對全球的專利申請量的趨勢、申請區域分布以及重要申請人分布進行分析,從中得到技術發展趨勢,以及各階段專利申請人所屬的國家分布和主要申請人分布。其中,以每個同族中最早優先權日期視為該申請的申請日,一系列同族申請視為一件申請。
2.1 國際專利申請量趨勢分析。
圖 2 給出了個性化關鍵詞推薦技術的全球專利申請趨勢,大致可以分為四個時期,各時期劃分以申請量增長率的變化為標準。
2.1.1 萌芽階段(2003 年之前)。
搜索引擎起源于 1990 年,經歷近 10 年的發展后,開始向個性化趨勢邁進。1998-2003 年是個性化搜索引擎中的關鍵詞推薦技術從無到有的萌芽階段,該階段申請量極少。具有代表性的申請人是國際商業機器(IBM)公司以及皇家飛利浦(KONINK PHILIPS)電子股份有限公司。
2.1.2 平穩增長階段(2004 年-2007 年)。
從 2004 年開始,關于個性化關鍵詞推薦技術的專利每年的申請量明顯比 2003 年之前的申請量多,申請量和申請人的發展總體趨勢趨于平穩增長。在此階段,申請量前三位的國別分布如圖 3 所示。美國申請的專利量占 67%,其中,前四位的申請人分別是微軟公司、谷歌公司、雅虎公司、IBM 公司。另外,韓國和中國分別占 25%和5%,這也從側面說明這個時期內,中國和韓國在搜索引擎所涉及的IT 技術領域發展迅猛。
2.1.3 快速增長階段(2008 年-2011 年)。
在 2008 年-2011 年之間,除了 2009 年出現了下滑趨勢(經濟環境背景的影響)以外,該技術的申請量和申請人數量呈現跨越式增長。這是由于在此期間 IT 產業的迅猛發展,使得企業對于個性化關鍵詞推薦技術的關注度急劇提升,因此出現了申請量的快速增長。在此階段,申請量占前四位的國別分布如圖 4 所示??梢钥闯?,中國在這一時期內的申請保持著較快的發展,并且申請量超過起步較早的韓國和日本,這與中國在 2008 年之后各種 IT 類型企業迅猛發展息息相關。而美國的申請量趨于穩定,技術發展成熟度也較高,保持著絕對的領先地位。