摘 要:伴隨互聯網的發展,以及分布式計算的有效運用,傳統的日志技術的局限性日益凸顯。分布式日志系統的優化設計,可以有效的解決傳統日志技術的缺陷,從時間上、效率上有效的提高日志文件的處理能力。有效的日志記錄,可以有效的維護系統資源的運行情況。本文從分布式文件系統中日志技術優化的趨勢、日志分析系統的優化設計兩個方面對分布式文件系統中日志技術優化進行一定的探討,期望可以為改善日志技術提供一定的理論依據。
關鍵詞:分布式文件系統;日志技術;優化
日志,可以有效的反映計算機系統的運行軌跡。日志的分析與管理,是入侵檢測、系統管理的基礎措施,可以對系統的運行情況進行評估,同時也可以對網絡的安全性進行有效分析。因此,日志技術被普遍的運用于安全監測、系統調試與系統監控之中[1]。分布式系統,將分布式計算、并行計算有機結合,可以實現數據的并行計算與分布式存儲[2-3]。但是現今的分布式系統中的日志技術,在實際運行中存在一定的問題,需要進行日志技術的優化,進而改善日志數據處理的問題,本文就對分布式文件系統中,日志技術的優化問題進行一定的探討,期望可以為改善日志技術提供一定的理論借鑒。
1分布式文件系統中日志技術優化的趨勢
1.1數據處理方面
伴隨云計算時代的到來,分布式計算模型隨之出現,日志分析系統運用云計算進行處理。傳統的日志分析工具,針對的日志類型較為單一,而以云計算為基礎的日志分析系統,其具備較大的擴展性,可以采取多種不同的處理方式,進而滿足用戶的差異性的要求。實現日志數據的預處理,可以有效的去掉錯誤與重復的數據,確保日志記錄的實用性;完整性;準確性[4]。
1.2數據存儲方面
數據存儲方面,改變了傳統的單一存儲模式,改為多節點負載存儲。當系統中的單個節點出現問題時,并不會影響其余節點的工作性能,進而有效的提高了系統的穩定性。同時可以在系統正常工作的情況下,有效的恢復失效節點的工作,進而大大提高了系統的使用效率,不會影響用戶的正常使用。對于收集的源數據;預處理后的數據;分析處理的結果等,都存儲在分布式系統中。在HDFS分布式文件系統中,可以存儲收集到的Web日志數據、預處理后的數據,在分布式數據庫HBase中,可以存儲分析結果[5]。
1.3提高用戶請求的效率
數據的處理與分析,都是經由分布式集群進行的,可以有效的提高數據處理的效率。日志分析系統在接受到用戶的請求后,可以依據用戶的要求,進行自動的數據統計分析,大大降低數據延遲的時間,提高用戶請求的效率。
1.4分析結果的可視化
運用圖形化的方式,可以有效的展示分析結果,進而有效的提高用戶、系統之間的交互性。諸如,應用柱狀圖,可以反映1個月內的使用量。對于用戶來講,可以有效的了解各類應用的使用量。運用折線圖,反映各類應用的變化情況,可以便于用戶有效的掌握,各類應用的訪問量的變化趨勢。具體如圖1所示。
2日志分析系統的優化設計
2.1日志分析系統的整體設計
整體設計,主要包含:日志的收集、存儲;數據表的配置;后臺的數據統計;前端的數據展示。具體如圖2所示。
2.2日志的收集、存儲
當用戶在進行網頁瀏覽的時候,計算機可以對用戶的操作行為進行有效的記錄。前端的日志收集服務器,可以進行記錄的有效收集?,F今的日志分析系統,可以進行日志的預處理操作,進而進行日志的分類、清洗與格式的統一操作。同時可以將收集的日志,發送給中間的日志處理服務器。在中間處理服務器,實施處理操作后,可以定時存放在Hadoop分布式集群中。同時在HDFS文件系統中,當做后面的數據統計的輸入數據。
2.3數據表配置
數據表配置,可以包含權限的設置;維度設置;表頭的指標設置。當用戶登錄報表系統后,可以依據不同的需求,進而配置差異性的數據表。用戶若想盡快的看到數據的結果,也可以對數據表的優先級別,進行特定設置。對于用戶配置的維度、指標等都可以重復利用。
2.4數據統計
對于用戶配置的數據信息,可以保存到數據庫中。同時對于新添加的任務指標,可以啟動后臺的統計程序。統計程序,可以有效的讀取指標的配置信息,進而從HDFS中讀取所需數據進行計算。最終可以把結果保存在數據庫中。
2.5數據結果的前端展示
數據結果在數據庫中,若用戶對于數據表中的數據進行查看,系統就可以經由查詢數據庫,將數據結果的終極數據,在前端頁面進行展示。
3結語
伴隨互聯網的發展,以及分布式計算的有效運用,傳統的日志技術的局限性日益凸顯。分布式日志系統的優化設計,可以有效的解決傳統日志技術的缺陷,從時間上、效率上有效的提高日志文件的處理能力,進而有效的適用現今網絡的發展。
參考文獻:
[1]薛勝軍,劉寅.基于Hadoop的氣象信息數據倉庫建立與測試[J].計算機測量與控制,2012,04:926-932.
[2]George Coulouris, Jean Dollimore, Tim Kindberg, Gordon Blair. Disributed Systems Concepts and Design[M].北京:機械工業出版社,2013.
[3]Kai Hwang, Geoffrey C. Fox, Jack J.Dongarra. Distributed and Cloud Computing From Parallel Processing to the Internet of Things[M].北京:機械工業出版社,2013.
[4]白超.基于并行計算的海量日志分析系統實現[D].安徽大學碩士學位論文,2013.
[5]胡光民,周亮,柯立新.基于Hadoop的網絡日志分析系統研究[J].電腦知識與技術,2010,22.