Internet 網絡技術的快速發展 ,使網絡已經成為了人們日常生活不可或缺的一部分 ,它作為信息發布、傳播的主要方式 ,Web 擁有幾億頁面的分布式信息空間 ,目前仍然以 130~200d 翻一番的速度增加。Internet 信息廣泛 ,涵蓋量很大 ,要從中迅速找出自己需要的信息 ,有一定難度。因此 ,人們研究開發了多種檢索工具 ,以便自可以快速方便的找出自己想要的內容。
隨著科學技術的不斷發展與成熟 ,網絡搜索引擎得到了快速發展 ,它是以一定的策略在互聯網中搜集、發現、提取、處理信息的過程 ,通過為用戶提供檢索服務 ,發揮其信息導航的作用。
1 搜索引擎技術
1.1 分類
①目錄式搜索引擎。其特點主要是用人工方式或者半自動的方式搜集相關信息 ,編輯人員通過訪問 Web 站點 ,等信息摘要形成之后便會根據站點的內容將其歸類在預先設置的分類中 ,將站點的描述、URL 置于此類別中 ,若用戶需要查詢某個關鍵詞 ,搜索軟件便會在預先存儲的描述中搜索。部分目錄也會接受用戶提交的描述 ,當編輯人員認可此描述后 ,便會將其歸類在相關類別當中 ,以供其他用戶查詢。此搜索引擎的優點是導航質量可靠 ,準確性高 ,如 Yahoo ;缺點則是人工介入過多 ,維護量及維修費用大 ,信息無法及時更新。
②基于 Robot 的搜索引擎。其特點是由稱為 Robot 的機器人程序用某種策略自動發現并搜集互聯網中的有關信息 ,通過索引系統自動建立信息索引 ,由查詢接口按照用戶輸入信息檢索索引庫 ,然后將查詢結果反饋給用戶。其較為顯著的一個特點是需要定期訪問曾經搜集的網頁,并刷新索引,去除無用鏈接,網頁內容的變化也會出現在用戶查詢結果中。其優點是更新及時、不需要人工干預、信息齊全 ,如 Google,缺點則是返回信息較多 ,且無用信息多 ,用戶要在搜索結果中仔細篩選。
③Meta搜索引擎。其特點是自身無存放網頁信息的數據庫,用戶查詢某個關鍵詞時 ,它可以將其查詢請求轉化為其他搜索引擎可以接受的形式 ,通過訪問多個搜索引擎查詢關鍵詞 ,并對查詢的相同結果進行排除 ,之后返回給用戶。優點是覆蓋面比較大 ,搜索效果好 ,缺點是具有局限性 ,無法充分發揮搜索引擎的功能。
1.2 工作原理及相關技術
搜索引擎的工作原理是通過一個 Robot 最大限度的收集 WWW的網頁 ,根據網頁內容建立反向索引 ,用戶想查詢有關內容時 ,輸入關鍵字作為查詢條件 ,搜索引擎根據預先建立的單詞索引或者網頁庫 ,檢索符合要求的網頁反饋給用戶。通常情況下 ,搜索引擎由三部分組織 ,如下圖所示(圖 1)?!?】
①信息搜集系統。主要以 Robot 自動完成 Robot 在互聯網中漫游時能夠搜集大量的、多類型的新信息?;ヂ摼W上信息含量大 ,更新速度快。為了確保搜索引擎信息具備一定的時效性與準確性 ,就要提高 Robot 的搜索效率 ,完善其搜索策略。搜索策略主要有兩個內容 ,一是從 URL 集合開始 ,根據其超鏈接 ,以深度或者寬度優先的方法重復搜索互聯網中的有關信息 ,URL可以是任何 URL,但經常會包括很多鏈接站點 ;二是將 Web 空間根據 IP 地址、域名劃分 ,搜索器需要對每個子空間進行不斷搜索。
②索引系統。Robot 完成信息搜集后 ,要用索引系統程序對其收集的網頁進行分析 ,并提取網頁 URL、頁面內容包含的關鍵詞等信息 ,采用有關算法對其進行計算 ,然后獲得網頁針對頁面文字及關鍵詞的相關度 ,用相關信息建立網頁索引數據庫。
③查詢接口。用戶做出查詢操作時 ,搜索引擎根據查詢內容迅速檢出相關文檔 ,并對查詢和文檔的相關度進行分析 ,根據相關度大小對輸出結果進行排序 ,反饋給用戶。其目的在于方便用戶獲得更加及時、有效的信息。而查詢接口的設計 ,能夠適應人類思維方式。
2 人工智能技術在搜索引擎中的應用
現有搜索引擎效率較低 ,將人工智能技術引入搜索引擎中 ,不僅可以支持用戶的搜索及瀏覽操作 ,還可以提供獨立搜索的功能。
2.1 Robot 的人工智能化
基于 Robot 的搜索引擎使用人工智能技術 ,其目的在于獲得互聯網中的信息資源 ,利用主頁的超文本鏈接 Web,然后通過 URL 引用一個 HTML 文檔爬行到另一個文檔。其算法采用深度優先、廣度優先的搜索策略 ,廣度優先能夠跟蹤頁面中的任何URL,覆蓋網頁范圍較廣 ;深度優先則是輕松發現文檔結構 ,并進行交叉引用。兩種算法雖然可以檢索出用戶需要的內容 ,但無法對檢索出的信息進行再分析。為有效提高其搜索效率 ,采用啟發式學習采取有效的搜索策略 ,可在互聯網上自動整理信息。
2.2 智能代理技術的應用
智能代理技術是人工智能研究的成果 ,可以對用戶知識進行搜集、過濾 ,根據用戶需求的變化 ,將用戶可能感興趣的內容主動提交給用戶 ,此外 ,還可以根據用戶的相關要求 ,代替用戶完成某些任務。其特點是不斷學習 ,積極、主動的適應用戶興趣的動態變化 ,從而實現個性化服務 ,因此 ,其具備智能性、主動性、代理性及協作性等優勢。
2.3 查詢接口的智能化
一是根據關鍵詞進行搜索。用戶有查詢需求時 ,搜索技術可以將其查詢需求分解為多個關鍵詞 ,根據關鍵詞計算 Web 文檔和用戶要求是否符合 ,從而選出合適的文檔。二是自然語言查詢。好的檢索語言可以提高搜索引擎對用戶查詢要求的理解 ,自然語言理解計算可以實現自然語言智能答詢。它可以將信息檢索從關鍵詞查詢提升到知識層面 ,通過理解、處理有關知識 ,實現分詞技術、翻譯技術、短語識別等。因此,其服務更加人性化、智能化。
3 結束語
在全球經濟的不斷發展下 ,互聯網已經發展成全球最大的信息庫 ,成為傳播信息的主要途徑 ,并且擁有大量分散的信息內容。在搜索引擎中引入人工智能技術 ,可以有效提高互聯網中的資源利用率 ,實現資源共享充分發揮信息資源的作用。
參考文獻
[1]張曉剛,李明樹。智能搜索引擎技術的研究與發展[J].計算機工程與應用,2011(24)。
[2]張明遠?;诹S嬎愕闹悄芩阉饕婕夹g研究[D].武漢理工大學:計算機應用技術,2010.
[3]王挺。智能搜索引擎在企業人力資源管理決策支持系統中的應用[J].電腦知識與技術,2010(24)。