隨著電子商務、互聯網金融、社交網絡等的飛速發展,互聯網已經成為人們生產生活不可或缺的重要場所。人們在互聯網上購物、交流、搜索、瀏覽的各種行為所產生的數據量越來越大。大數據時代的到來,不僅意味著數據處理技術和處理能力的極大提升,而且使得全社會的數據資源分布結構也在發生深刻改變。此外,互聯網已經從傳統的信息傳播媒介升華為虛擬的社會空間,越來越多有關人類經濟、社會運行的數據被投射到云上。因此,在實時、交互、離散化、非結構化的海量數據中,蘊含著經濟社會運行的各種先行指標信號。
當前,中國正處于從互聯網大國向互聯網強國轉變的重要時期。中國互聯網產業的規模和實力已經位居世界前列。據統計,在全球10大互聯網公司中,中國獨占4家,前30家互聯網公司有40%以上來自中國。[1]可以預見,隨著“互聯網+”戰略的深入推進,中國經濟運行的網絡化、智能化程度將不斷提高,基于互聯網大數據的宏觀經濟監測和預測將變得越來越重要。
本文擬對基于互聯網大數據進行宏觀經濟監測預測的現有研究,以及基于不同數據源的宏觀經濟監測預測分析進行初步闡述。
二、基于互聯網大數據開展宏觀經濟監測預測的研究進展。
國內學者認為,大數據在宏觀經濟分析應用中最活躍也是最重要的四個領域為:宏觀經濟預測、宏觀經濟數據挖掘、宏觀經濟分析技術和宏觀經濟政策。[2]而在利用大數據對宏觀經濟進行預測方面,“現時預測(Now Casting)”近來受到特別關注?!艾F時預測”一詞最初起源于氣象學領域,是對現在已經發生的事由于信息發布滯后等原因難以馬上知道準確情況,因而根據其他可得信息進行推測。[3]
一般來說,依賴統計部門的宏觀經濟數據的發布都存在時間滯后的問題。由于不能及時獲取宏觀經濟發展的數據信息,也就不能對當下的宏觀經濟形勢作出準確判斷。比如衡量宏觀經濟發展的GDP指標,盡管當月GDP是多少這件事已經發生了,但往往要到下個月才能拿到相關的數據和結果。而在月底估測本月GDP總量就是“現時預測”.現時預測利用的數據不再局限于官方統計數據,方法也不受制于傳統的統計方法和模型?,F時預測說到底就是利用大數據方法和技術對宏觀經濟進行及時的監測和預測。
目前,利用大數據方法和技術進行宏觀經濟監測預測已經在國際上引起相當程度的重視,不同機構的學者和研究人員已經進行了大量研究和應用,而且產生了豐碩的成果。但從國內來看,這一領域的研究和應用都處在起步階段,與國外相比,還有很大發展潛力和空間。
(一)國外基于互聯網大數據的宏觀經濟監測預測研究。
從數據來源渠道來看,國外利用互聯網大數據監測預測宏觀經濟的研究主要有兩大類:一類是基于網絡搜索引擎的宏觀經濟監測預測,如谷歌公司研發的Google Trend(谷歌趨勢);另一類是基于網絡社交媒體的宏觀經濟監測預測,如國外社交網站Twitter(推特)、Facebook(臉譜)、Microblog(微博)。
在利用網絡搜索引擎提供的數據方面,Ettredge很早即嘗試利用網絡搜索數據來預測美國的失業率。[4]他分析了World Tracker列出的500個常用關鍵詞和美國失業率之間的關系,發現與失業相關的搜索數據和美國官方發布的失業率之間存在顯著的正相關關系。Choi和Varian根據Google Trend提供的“就業”和“失業與救濟”目錄進行搜索查詢,并用查詢結果預測美國失業津貼的初始索賠情況。[5]
他們發現,通過加入查詢結果變量,標準回歸預測模型無論在模型擬合度還是平均絕對誤差上都得到顯著提高和改善。Choi和Varian還專門寫了一篇介紹如何利用Google Trends來預測當下經濟活動的文章。[6]
他們認為,經濟學家、投資人、財經記者每月都在關注政府發布的經濟運行情況,但這些結果的發布普遍滯后,這個月的數據往往要等到下個月中旬才能發布,而Google Trends每天都在產生大量與經濟發展相關的查詢結果,且這些查詢結果與當下的經濟活動之間必然存在著不容忽視的關系,或許可以對預測當下的經濟活動起到非常重要的作用。在此基礎上,他們舉例說明了如何利用Google Trends預測美國零售業、汽車、住房和旅游的銷售情況。Bughin利用Google Insights forSearch預測了比利時的宏觀經濟先行指標--零售業銷售和失業情況。[3]結果發現,查詢數據對預測比利時的宏觀經濟波動有非常好的解釋能力,比利時從2004年到2011年經濟波動的16%-46%可以通過搜索查詢的結果來解釋。
現在,越來越多的研究在利用Google Trend進行經濟監測和預測,除了失業率、汽車銷量以外,GoogleTrend還被應用到房地產、旅游、零售業、個人消費等諸多可以反映宏觀經濟活動的領域。除了美國,D' Amuri等[7]和Suhoy[8]分別通過網絡搜索引擎提供的數據預測了以色列、德國和意大利的失業情況,還有學者運用同樣的方法成功預測了智利等國家的汽車銷量。已有的大部分研究都表明,加入Google Trends的搜索結果數據,可以顯著提高模型的預測能力。[9]在利用網絡社交媒體提供的數據方面,Bollen等發現基于Twitter(推特)平臺表達的公共情緒可以用來預測股市變動。[10]
這一研究的數據來源于兩方面:一是Yahoo金融發布的道瓊斯工業平均指數(DJIA)的收盤價;二是2008年3月到10月間,270萬推特用戶推送的970萬條消息。這970萬條消息經過情緒評估工具--Opinion Finder和GPOMS被賦值。Opinion Finder根據文本內容可以評估“積極”與“消極”兩種情緒;GPOMS根據文本內容可以評估“calm(冷靜)”“alert(警覺)”“sure(確信)”“vital(活潑)”“kind(美好)”“happy(高興)”等六種情緒。結果發現,在道瓊斯工業平均指數(DJIA)和GPOMS中的“calm(冷靜)”情緒之間存在相關性。進一步研究發現,“calm(冷靜)”情緒可以很好地預測道瓊斯工業平均指數在未來2到6天的漲跌情況,而且這種每日預測的準確率高達到87.6%.2011年5月,英國對沖基金Derwent CapitalMarkets建立了規模為4000萬美元的對沖基金,是首家基于研究社交網絡的對沖基金。該基金通過分析Twitter的數據內容來感知市場情緒,從而指導投資行為。此外,不少研究還利用網絡社交媒體數據來預測其他經濟活動,如亞馬遜網站的售書情況[11]、電影賣座率[12]以及網絡游戲銷售情況等。最近,Bughin將社交網絡、博客、論壇和谷歌搜索數據同時加入到預測模型。[13]結果發現,比利時國家電信公司銷量的15%可以通過網絡社交媒體數據解釋,25%可以通過網絡搜索數據解釋;加入網絡社交媒體和網絡搜索數據以后,模型的整體預測能力提高了25%.