近幾年,隨著網上信息容量的增加和類型的多樣化,作為網上信息檢索系統的通用搜索引擎,已不能滿足特殊領域、特殊人群的精準化信息需求服務,加之市場需求多元化也決定了搜索引擎的服務模式必將出現細分,出現針對不同行業提供更加精確的垂直搜索服務。然而,據統計,利用垂直搜索次數只是利用 Web 搜索次數的1.56%。面對這種狀況,各搜索引擎公司為了滿足用戶的需求,開展了同時對多個信息源進行垂直搜索,并把從各信息源搜集到的搜索結果進行聚合,再利用 Web 提供給用戶的聚合搜索服務。
最早開展聚合搜索業務的是韓國的 Naver,2000 年,Naver 開始了聚合搜索的商業化服務,到 2011 年 6 月,已占韓國國內搜索市場77%的份額,是韓國利用率最高的搜索引擎。目前,Google、Yahoo!、Bing、Baidu 等世界知名的搜索引擎公司也都開展了聚合搜索業務。
但是,這些公司的 Web 搜索引擎公司不是經常性地開展聚合搜索業務。是否實施聚合搜索,除了依據用戶的問題需求外,還要根據最新的新聞報道、博客報道的動向來判斷。Naver 的特點是不僅提供 Web 上的信息,還提供來自各垂直搜索的相關信息,對各垂直搜索問題分開顯示。如當輸入“大學”進行搜索時,在頁面上分別顯示來自詞典、知識 iN、知識百科、圖像等垂直搜索引擎有關“大學”的結果。與 Naver 不同,Google、Yahoo!、Bing、Baidu 等是把 Web 搜索的結果和垂直搜索的結果混合顯示。Google、Yahoo、Bing 等的聚合搜索,是在 Web 搜索結果前 10 位以追加形式插入垂直搜索結果。
從上述可見,聚合搜索結果的顯示方法有兩種:一個是各垂直搜索分開顯示的方法;另一個是與 Web 搜索結果混合顯示的方法。
有報告稱這兩種搜索結果顯示方法對用戶的點擊次數沒有太大的影響。但是以混合形式顯示時,不管哪種垂直搜索,排在搜索結果上位的更容易被點擊,所以把垂直搜索的結果插入哪個位置很重要。
也就是說,以混合形式顯示 Web 搜索結果和垂直搜索結果時,最好把認為重要的垂直搜索結果排在前面。
一“、聚合搜索”的技術
為了實現聚合搜索,重要的是對輸入到 Web 搜索引擎的問題混入了哪種垂直搜索的搜索結果,因此,下面重點介紹垂直搜索選擇方法及其評價方法。
1.垂直搜索的選擇方法。垂直搜索的選擇判斷使用三個要素,即問題、垂直搜索文集、問題日志。聚合搜索時,或用其中的一個要素選擇垂直搜索,或用邏輯回歸法組合幾個要素選擇垂直搜索。
(1)問題。使用問題選擇垂直搜索的方法,是把問題中是否包含特定的關鍵詞作為判斷材料。具體說,在 Ad Hoc 網指定垂直搜索名和相關的“picture”“、movie”“、product”“、shopping”等單詞,以及地名、觀光地名等,以關鍵詞作為選擇垂直搜索的使用。例如,搜索“digital camera shopping”這一問題時,就以“購物”為關鍵詞把購物垂直搜索作為選擇對象,搜索“Dayan Pagoda”問題時,就以“塔”為關鍵詞把圖像垂直搜索作為選擇對象。
(2)垂直搜索的文集。使用垂直搜索的文集選擇垂直搜索的方法,是把輸入 Web 搜索的問題同時輸入垂直搜索,選擇更多與問題相符的檢索結果的垂直搜索。由于本方式是把輸入 Web 搜索的問題全都送入垂直搜索,所以計算成本較大。因此進行垂直搜索時,不使用含各類垂直搜索的完整索引,而是使用每種垂直搜索獨設的簡化索引,簡化索引是從完整索引節選而成的。
(3)問題日志。使用問題日志選擇垂直搜索的方法,是通過問題與垂直搜索的相關度選擇垂直搜索。通過直接輸入垂直搜索的問題,能反映出用戶對該垂直搜索感興趣的主題,以及每類垂直搜索的問題的傾向性。例如,在垂直搜索 A 中問題 X 的頻度高時,判斷問題 X 與垂直搜索 A 的關聯度高,給問題 X 混入垂直搜索 A 的搜索結果。因為一個問題一般是由幾個單詞組成,所以把問題分割成若干單詞,找出被分割的單詞與垂直搜索之間的關聯度。另外,被分割的單詞,不僅在一個垂直搜索,有時也在多個垂直搜索中頻繁出現,此時,為了查全可以選擇多個垂直搜索進行查找。
2.聚合搜索的評價。在聚合搜索中為了實現更好的信息聚合,需要熟悉聚合搜索的評價方法。
(1)評價對象和評價條件。聚合搜索的評價,分為由評價者的評價和依據有無點擊的評價。由評價者的評價又分為評價對象的不同和有無問題意圖兩種。①評價對象的不同。這種評價是評價者以何為依據判斷適合、不適合的問題。即,對給出的問題,有不看搜索結果,判斷問題與垂直搜索的關聯度;或是看了來自各垂直搜索的結果,判斷問題與垂直搜索的關聯度兩種。前者的方法是由評價者給出的評價,只是以問題為對象得出的評價;而后一種方法,是以各垂直搜索的搜索結果為對象得出的評價。②問題意圖的有無。此評價觀點有兩個,一是有意圖,即事先把問題背后的意圖告知評價者讓其評價;二是無意圖,即不告知評價者問題背后的意圖,讓評價者自己思考問題背后的意圖再行評價。前一個評價方法是被信息檢索領域競賽式會議 TREC 和 NTCIR 上采用的,目前,在信息檢索評估中被普遍使用。但是在聚合搜索評價方面至今尚無統一的評價方法。
(2)評價方法的不同對評價的影響。圖盧茲大學的 Kopliku 等人對評價方法不同對評價的影響進行調查,本調查以視頻、圖像、新聞、地圖、Wiki、商品、A&Q、字典等八個垂直搜索為對象,利用 2007年 TREC 會議上使用的 300 個問題,由 33 個評價者參與評價。
從調查結果看,評價者用實際看到的搜索結果,得出的判斷更確切、全面。以視頻類垂直搜索為例,只從問題判斷,所有問題中有12%適合視頻垂直搜索。但在看完檢索結果后再判斷,所有問題中有 24%適合視頻垂直搜索。其次是把問題背后的意圖告知評價者的評價和不告知評價者的評價,表示出告知問題背后意圖時的評價較局限,不靈活。例如,當問題為“海南島”時,告知檢索意圖是想知道海南島的地理位置,給出正確解釋的垂直搜索是地圖、Wiki。但是不告知搜索意圖時,也可從圖像垂直搜索和動畫垂直搜索獲得正確解釋,由此可見,不告知搜索意圖時,評價者的視野更寬泛,使用正確解釋的垂直搜索的種類也增多。
(3)搜索結果的多樣性。圖盧茲大學的 Kopliku 等人還對聚合搜索結果的多樣性進行調查。調查顯示:只適合 Web 搜索的問題占19%,只適合垂直搜索的問題占 16%,超過 80%的問題適合垂直搜索,而且 65%的問題適合多個垂直搜索。進一步,對于適合多個垂直搜索的問題最適合的垂直搜索進行調查,依次是 50%問題適合Web 搜索、23%問題適合 Wiki、10%問題適合 Q&A、6%問題適合動畫。結論是:進行一個垂直搜索,不能有多樣性的搜索結果;若進行聚合搜索能夠實現一個垂直搜索不能實現的多樣性。
二、聚合搜索的課題與未來
關于聚合搜索的研究,近年來比較盛行,涉及的課題也是多方面的,其中作為新的方向性的研究,有新聞搜索的選擇方法,以及用戶屬性推斷的應用。
1.新聞搜索的選擇方法。為了把隨時變化的信息源混入聚合搜索中,利用者必須知道“現在正在查找什么?”Yahoo!的 Diaz 提出有效聚合新聞搜索結果的方法。例如,輸入“Yahoo!”這一問題,以關于Yahoo!的事件為起點,不是搜索導航性的問題,而是搜索新聞事件方面的問題,在這種情況下不能用 2.1 講述的方法選擇新聞搜索。
Diaz 提出了把“問題是否突然發生的?“”用該問題進行新聞搜索,排在頂端的新聞報道是數分鐘之前登錄的新的報道嗎?”作為判斷基準。進一步,從被聚合的新聞搜索結果的點擊率,對是否繼續聚合做動態性補充。與 Diaz 方法相同,微軟也提出了針對最新新聞報道選擇新聞搜索的方法。這個方法是利用在最近 7 日內的新聞報道和博客報道中出現的關鍵詞選擇新聞搜索。
Yahoo!的 Diaz 們進一步提出,不是把新聞報道和博客報道,而是把 Twitter 的微博報道作為選擇的方法。假定記述微博的 URL 是最近關注的新聞和 Web 頁面,把 URL 上的報道內容排在上位以表示其重要性。具體說,以 Twitter 為對象進行試驗,把 URL 上報道發送者的 Tweet 數、Retweet 數、Follow 數等各類信息輸入學習器,抽出有用的 URL。以上這些可以作為選擇新聞搜索的指標使用。
2.用戶屬性推斷的應用。如果能夠推斷 Web 搜索用戶的專業性,即可實現包括垂直搜索的各種應用。根據微軟的 White 等人的調查,提出從輸入 Web 搜索的問題中,可以判斷出用戶是計算機專家、金融專家、醫學專家、法律專家的方法。具體說,就是用輸入 Web搜索的問題長度、問題中專業術語的含有度、一次搜索提出的問題數、訪問 Web 頁面數、對話時間等進行等級分類。有實驗報告稱對計算機專家的判斷,再現率 50%時能達到 80%的精準度。而其余三類專家再現率 50%時精準度為 60%以下。如果判斷專家的精準度提高,可以作為選擇垂直搜索的一個要素使用。
參考文獻
[1]Liu,N.;Yan,J.;ChenZ.Aprobabilistic model based approach for blendedsearch,Proceedings of 18th International World Wide Web Conference.2009.
[2]Murdok,V.;Lalmas,M.Workshop on Aggregated search ACM SIGIRForum.2008,42(2).