什么是搜索引擎?就是那個在搜索框里輸入幾個文字,然后就會返回一堆鏈接的家伙嗎?實際上,搜索引擎本身也在不斷進化,從最早的文本內容,到現在圖片、視頻無所不包,貌似比上帝知道得還多。雖然當它出現在我們面前的時候,仍然是初出道時的白底藍鏈接的清純模樣,但是其實它內部的運作算法,早已經歷了無數次變化,并且隨著社交網絡和大數據的興起,搜索引擎也有了新的野望。
Google:精準和快速的蜂鳥算法。
對于常規查詢,就算沒有數百萬,也有數千個包含相關實用信息的網頁。算法是一種接受用戶問題并返回相應答案的計算過程。一般而言,Google 的算法會根據 200 多種獨特信號或“線索”進行計算,從而推測出用戶真正的搜索意圖。這些信號包括網站上的字詞、內容的新鮮程度、用戶所在的地區以及網頁的 PageRank。
從 2011 年起,Google 的算法經歷了“熊貓”、“企鵝”等階段,從 2013 年下半年開始,代表著精準和快速的“蜂鳥”應運而生?!胺澍B”是截至目前 Google 最大的一次算法更新,之前 Google的搜索結果排名關注索引和抓取,而“蜂鳥”更注重相關性。
“對話式搜索”是其中最重要的一個改變。比如用戶輸入“What’s the closestplace to buy theiPhone 5s to my home?”,傳統搜索引擎對這一句子的分析,可能會集中在“buy”和“iphone 5s”關鍵字,然后給你找尋最吻合這些關鍵字的網頁。而蜂鳥卻能更好地集中理解各關鍵字的意思。
例如它會了解你家的位置,明白“place”可能是指商店的意思,而“iphone5s”可能是指你需要知道售賣電子產品的商店。當明白這些意思后才會給你找尋最吻合的網頁。
促成蜂鳥這一改變的重要一個推力,來自于人們搜索習慣的變化。越來越多的人在手機上使用語音方式搜尋,因此 Google 面對的不再是鍵盤輸入的不具語意的關鍵字,而是更復雜、真實的人類語言。在 2013 年 5 月的 Google I/O 大會上,Google 的阿米特·辛格爾提出了未來搜索引擎的設想:搜索引擎的三個主要功能將需要改進,搜索將需要:1.答案,2.對話,3.預測。
微軟必應:“實體引擎”要變開放平臺在搜索引擎領域,微軟 Bing 一直苦苦追趕 Google。微軟在 2009 年就開始開發名為 Satori 的知識分類數據庫,并在 2013 年做了重大升級,用來對抗 Google 知識圖譜。從整體思路上來看,Bing 與 Google 在技術上的趨同性遠遠大于兩家公司之間的“仇恨”。比如,用谷歌和 Bing 搜索阿爾伯特·愛因斯坦,搜索頁面右側邊欄都會向你提供有關愛因斯坦的大量信息。很明顯,兩家公司都試圖在一個頁面內,就解決用戶的搜索問題。
在 Satori 的基礎之上,微軟將新的搜索技術稱為“實體搜索”(Entityengine),微軟必應副總裁德里克·康奈爾這樣看待“實體搜索”:“實體搜索”就是讓用戶做的更多。剛開始的時候,搜索只是幫助用戶搜索更多的東西,現在搜索正在由“搜索信息”向“理解搜索”轉變,除了能提供一個答案外,搜索也需要能夠去“執行”結果。
因此 Bing 的大計劃向第三方開放,就是增加更多的“結果”。就在最近,Bing 又新增了 1.5億筆搜索資料,新增的信息包括房地產物件列表,及律師、醫生、牙醫等專業人士的資料。這些資料來自商務交友 LindeIn、醫療資料服務 Vitals、美國房地產資料服務 Zillow 等網站。當用戶搜索某個人名時,Bing 會在搜尋結果頁右方以卡片顯示包含學經歷、專長領域、地址,及電話及相關信息等。
不過,假如同時出現兩家相互競爭的餐廳網站,Bing 應該突出顯示那一家呢?這是個有意思的話題,也考驗 Bing 的公正性。
面對 Google 和 Bing 的改變,百度不禁微微一笑:你們現在做的,不正是 Robin 前年提的“框計算”嗎?,百度在今年就已經陸續推出搜索頁右側知識庫應用、極速搜索、時間圖譜等新的搜索產品,并且申請了專利。應該說,百度在搜索技術上,與 Google 等巨頭并沒有明顯的落后。
甚至不久前的愚人節,百度推出的“筷搜”,不但成功地賣了萌,也體現出百度技術上的自信。
大數據技術,當很多公司還停留在概念階段的時候,百度卻已經基于大數據開發出不少產品。
比如在剛過去不久的清明節假期中,百度預測準確地預測了全國各地景區舒適度的情況;今年315,百度又發布了“網絡消費安全圖譜”,這份圖譜挖掘了近 400TB 的網絡搜索數據,,以可視化大數據的形式直觀展現網絡消費十大陷阱行業。
百度基于框計算研發的新一代搜索引擎,已先后在超大規模數據存儲、新一代搜索引擎富媒體數據處理、語音識別、面向新一代搜索的用戶建模和意圖識別、跨語言信息處理與搜索等多項核心技術領域取得不少突破,百度正沿著“即搜即得”的思路,走出了自己的特色之路。
從一開始,傳統搜索中單調的 10 個藍色鏈接(關鍵詞搜索)就統治著在線搜索。其實人們不光希望尋找更多的東西,也希望能夠進一步去挖掘信息背后的信息。關鍵詞搜索還將存在,但是隨著時間的推移,搜索領域將會出現新的體驗,它們將顛覆現有的產品。