第 2 章 大數據時代概述
在"云計算"和"物聯網"等新型技術概念還尚未被統一定義時,"大數據"已經不知不覺的成為了當今時代最熱門詞匯,無論是研究機構、商業界還是機關單位,都在開始探討大數據。
2.1 大數據的概述。
大數據是信息技術的發展和現實生活需要相結合的產物,大數據現象在我們的現實工作生活中隨處可以看到,可以說我們無時無刻不身處于數據的海洋里。
我們每天都在產生數據,例如電子商務每天的交易數據,傳統的物流運輸數據以及金融機構的交易數據,利用這些數據進行市場開發和經濟預測等,其價值是難以估量的。海量數據資源成為重要生產要素、無形資產和社會財富,其對經濟社會發展的影響日益深刻,開始引起社會各界的高度關注。2011 年,著名咨詢公司麥肯錫根據其研究報告第一次明確提出,全球已進入大數據時代。 就在次年 3 月,美國宣布了對大數據進行開發和研究的計劃,并提升至國家戰略高度。至此,大數據正一步步成為與石油相媲美的寶貴資源和財富[51].
2.1.1 大數據的概念。
那么,究竟如何定義大數據?由于大數據的概念較為抽象,很難給出一個確切和公認的含義,大多是根據大數據的特征進行描述。不管哪種定義,"大數據"實質上是指信息技術快速發展的時代,對數據核心價值的再挖掘,是信息技術產業的新的具有顛覆性的技術變革與創新。大數據技術必然會對人們的工作、生活、思維產生重大影響,也將引起政府審計環境發生翻天覆地的變化,傳統的數據只是政府審計的一部分,審計機構面對更多的是新型的數據形式。這就要求審計機關和審計人員緊跟大數據時代的步伐,適應新形勢下審計工作環境的變化,從而轉變觀念、積極應對。
2.1.2 大數據的特征。
自從 2008 年《自然》雜志推出"大數據"??詠?,大數據的特征就開始成為了學術討論的焦點之一,隨著討論的不斷深入,大數據的討論開始上升到企業的數字化轉型以及政府數據共享平臺的高度。關于大數據的時代特征,也由最開始的 3V 轉變為 4V,這些特征具體是指:
第一,海量數據。從 TB 級別,躍升到 PB 級別,甚至 EB 和 ZB 級別。根據國際數據公司 2011 發布的 Digital Universe Study 報告,數據信息以每兩年增長一倍的速度上升,以 2011 年為例,當年全球的數據總量高達 1.8 萬億 GB,而十年之后將增長至 35GB.
第二,數據快速變化。大數據時代的各類信息快速變化、稍縱即逝,特別是涉及到電子商務領域的信息。例如網上交易,交易時間的短暫性導致交易信息瞬間消失,如果相關信息需求者對交易信息進行采集和分析,這就要求分析結果必須在瞬間給出,否則就會失去價值。
第三,數據類型多樣性。傳統的信息環境下,我們主要面對的是結構性數據,例如財務信息、ERP 系統等,大數據時代的背景下,更多的是半結構數據和非結構性數據,這些復雜的數據主要來自社交媒介和電子商務等,例如視頻、音頻、靜態圖像、股票指數、GPS 信息等等,這些數據信息隨著技術的發展不斷地更新和演變。
第四,價值密度低。大數據僅僅有海量數據和超大規模數據是遠遠不夠的,數據本身還要具有價值性,但是收集 ZB 級的大數據雖然看起來是合理的,由于存在各種類型的數據,導致價值密度與傳統關系型數據相比卻低很多。價值密度低不是說數據庫沒有價值,而是針對大數據本身而言,以視頻為例,長時間的視頻監控過程里,可能有用的數據也就幾秒鐘的時間,而針對數據信息需求者而言,具有非常高的價值。
大數據時代,數據的新型特征給政府審計帶來了前所未有的影響和沖擊,政府審計部門必須在金審一期和二期工程的基礎上,緊緊把握住"金審工程"三期建設的重大機遇期,利用云計算、大數據技術,充分挖掘大數據的價值,使政府審計實現跨越式發展。
2.2 數據價值。
大數據的目的不僅僅是擁有海量數據信息,更重要的是利用大數據技術對這些數據進行挖掘,發現數據背后的潛在價值。
2.2.1 數據轉化與可視化。
數據可視化概念起源于 20 世紀 80 年代,含義是借助計算機、圖像處理技術,對抽象信息進行處理并展現出來。傳統的數據可視化,面臨的主要是結構性數據,數據結構單一,可視化的結果主要是原始的統計圖表等,例如直方圖,折線圖等。
信息科技在不斷發展,數據信息的表現形式也逐漸多種多樣。在大數據時代背景下,我們要處理的數據較以往相比顯著增長,面對主要是極為復雜的異型數據,例如政府審計部門進行審計調查時的視頻、音頻以及交易日志等。與傳統數據不同的是,這些異型數據往往是模糊混亂的,憑借以往的知識和技術,很難從中提取出潛在的有價值的信息,而大數據時代下,憑借大數據挖掘和分析技術,將抽象復雜的數據信息轉化為具體的、可視化的信息,有助于我們更好地把握數據中的潛在價值,從而提高決策的效率和正確性。
大數據時代背景下,數據的轉化和可視化處理流程。
2.2.2 提供依據并改善決策。
大數據時代來臨之前,人類在做出決策時,習慣于尋找問題的源頭和把握問題的根本原因,領導往往依靠來自組織內部的信息和對外部環境的直覺判斷作為決策的依據,由于這種決策模式缺乏充分完整、科學性的預見,往往使決策者的視角變窄,甚至把決策引入歧途。大數據時代的到來給我們改善決策的質量帶來了福音,大數據技術為我們整合、分析和開發結構性數據和非結構性數據提供了工具,提高了我們理解數據和學習數據的能力,通過數據可視化的途徑發現潛在的風險和機會推動決策,提升我們的洞察力,而不再單單依靠直覺來做出決定。
站在政府審計的角度,大數據之所以能夠為審計決策提供依據,并且進一步改善審計決策。首先是因為大數據為審計帶來了海量和完整的數據集,而不再是依據數據樣本進行審計,由于信息的完整性能夠得以保證,通過對海量數據進行深入廣泛的挖掘,可以使得審計決策更加理性化[52].其次,大數據時代給審計工作帶來了先進的數據技術,在開展審計工作時,利用人工智能進行數據加工和處理,關注數據之間的相關性,用來分析潛在的價值和風險,并對未來進行實時預測和監督,云計算等先進技術提升了審計的技術含量,使得政府審計部門進行全數據審計有了技術保障。最后,擴大了審計數據的審計范圍,不僅審查來自審計對象內部的數據,而且可以審計與審計對象相關的外部數據,例如展開審計工作時利用審計對象所在行業或部門的"混搭數據",整合供應商和電信等數據。這些外部海量數據將在很大程度上彌補僅僅依據內部數據決策的短板,進一步保障了決策的科學性。