近幾年來,隨著互聯網技術的迅猛發展,網絡信息也幾乎以幾何數級的增長速度不斷地充斥著網絡有限的空間,面對如此浩繁、雜亂無序的信息,如何保障網絡用戶獲取信息的準確性、及時性成為了現在搜索引擎行業需要注意的問題。搜索引擎的靈魂在于它包含各個組件中所運用的算法和模型。好的算法和模型可以直接影響用戶使用滿意度。
因此,搜索引擎中所運用到的模型、算法成為了與計算機領域相關的行業里研究以及開發的重點。不僅如此,搜索引擎未來的發展都是圍繞用戶為中心,用戶的使用建議是促進搜索引擎改變的最直接原因。本文從理論層面以及應用層面對搜索引擎中涉及的部分算法和模型進行闡述,并且圍繞用戶滿意度為中心研究對搜索引擎具有積極促進作用的應用類因素。
1 三大主流搜索引擎
1.1 Google 搜索引擎
1.1.1 Google 的功能
(1)網頁快照。Google 是網頁快照功能的先驅者。網頁快照的原理是在進行網頁遍歷的時候,會將遍歷到的網頁進行搜集并且形成一個索引快照,將這些索引存儲在Google服務器中,以防止網頁中部分被刪除后,用戶想訪問這些網頁卻找不到資源,使得用戶能夠迅速讀取歷史網頁。網頁快照和備份的原理相似,不同之處在于網頁快照所需要的存儲空間更少,在查詢的時候讀取速度更快。
(2)Google半智能化的翻譯功能。Google的網頁翻譯功能在一定程度上突破了以往純粹式的機器翻譯功能。這種半智能化的翻譯功能不僅考慮了翻譯模型并且會根據不同的句型采取不同的語言模型。
目前,在學術界比較流行的語言模型是N元語法模型,雖然簡單,但這樣簡單、操作性強的模型,卻為搜索引擎的翻譯帶來了曙光?,F在對于語言模型的研究還依然處于初級發展階段,不過對翻譯模型的研究卻在如火如荼地進行中。
1.1.2 Google 核心技術
Google之所以成為搜索引擎行業內的領頭人物,不僅僅是因為 Google 專注技術的發展,更是因為 Google 注重與時俱進,善于使用差異化來保持自己的行業地位。下面是 Google 采取的兩種基本核心技術:
(1)關于 Page Rank 網頁排名算法。超鏈接分析其實是一種引用投票機制,也就是說如果一個網頁被另外一個網頁鏈接一次就相當于另一網頁對其投了一票,其重要性被肯定了一次。人們在瀏覽網頁的時候,鏈接提供了強大的導航系統,同時也幫助搜索引擎理解網頁之間的關系,這種關系幫助搜索引擎更有效地對網頁進行排序。
(2)關于超文本匹配分析技術。Google搜索引擎在計算網頁排名的同時,Google運用的技術不是單純地將網頁文本掃描一次,會根據內容重要度對關鍵詞的字體、字號、位置等因素進行考慮。
1.2 百度搜索引擎
1.2.1 百度成功的關鍵因素
(1)百度在地理位置上具有優勢
因為百度在很大程度上符合中國人的搜索習慣以及思維習慣,再加上自己到位的宣傳方式,百度從此在中國搜索引擎行業中聲名鵲起。
(2)百度關注細節
一是自動糾錯:當用戶在輸入拼音時,百度搜索引擎會將該拼音轉換成中文關鍵詞。
二是自動提醒功能:
當百度搜索引擎在一個導航網頁中出現,如百度搜索出現在360導航網頁,在使用時,搜索框自動顯示出當前熱點檢索話題列表,如圖1 所示。
1.2.2 百度現在所面臨的挑戰
百度文庫的出現在一定程度上滿足了廣大網民的搜索需求,但是在另一方面卻引起了一部分文章作者的不滿。在 2011年3月15日的時候,韓寒、郭敬明、方舟子等被現在年輕人所熟知的作家聯合署名發布了《三一五中國作家討百度書》,這一創舉也成了中國文學界一次維護自身利益的重要行動。
雖然百度在這次事件中受到了很大的負面影響,不過這也給百度一個啟示:數字化一定是出版產業今后的總體趨勢,但并非所有的出版社轉型數字出版都要闖同一條道路,不同的數字出版模式適合于不同的企業背景,出版社進軍數字出版,應該根據自己的資源、優勢,選擇最切合自己實際的模式,這樣才可能盡快取得成效。