一、前言
我國科技經費是指統計年度內全社會實際用于研究與試驗發展經費投入(簡稱 R&D),包括基礎研究、應用研究和試驗發展的經費支出。目前,我國科技經費投入保持增長態勢。國家財政科技支出穩步增加,2013 年,國家統計局、科學技術部、財政部聯合發布了《2012 年全國科技經費投入統計公報》(簡稱《公報》)?!豆珗蟆窋祿@示,2012 年全社會研究與試驗發展經費投入首次突破萬億元大關,R&D 經費投入強度(R&D 經費投入與國內生產總值之比)再創歷史新高。這就反映了我國在深化科技體制改革、加快國家創新體系建設方面又邁出了堅實的一步。
本文將用最大信息系數 MIC 來判斷 GDP 與 R&D經費投入的相依程度,從而為我國宏觀經濟政策的制定提供參考和依據。
表 1 給出我國 1995-2013 的國內生產總值GDP 和全國 R&D 經費投入的數據,并計算出了R&D 經費投入強度,下面利用表 1 數據來對 GDP和 R&D 經費進行相關性分析。
二、GDP 與 R&D 經費相關性分析
(一)秩相關系數
考慮兩個隨機變量的相關性,如果這兩個隨機變量的聯合分布服從高斯分布,應直接運用線性相關系數,如果數據不服從高斯分布,此時應考慮能描述單調相關的秩相關系數或者其他關系的相關系數。由于兩個指標都不服從正態分布,首先考慮秩相關系數,秩相關系數主要有 Spearman 和 Kendall 兩種,它們可以度量兩個變量之間的單調關系。
關于 spearman 和 kendall 系數的計算,可以通過 R 語言的函數 cor.test 來完成。以秩相關系數來構建統計量,原假設就是兩個變量之間存在相關性,在原假設成立條件下,統計量服從 t 分布。R 語言的宏包 pspearman 改進 spearman 系數計算方法,不再局限于 t 分布,而是提前設置的原分布。所以我們這里計算了 spearman 系數、kendall 系數和改進的spearman 系數來判斷相關性。如果檢驗的相伴概率大于 0.05,不拒絕原假設,說明兩個變量之間存在相關性;系數越接近零,說明相關性越小。從計算結果看出各種系數均為 1,表明我國 GDP 和科研經費投入之間存在相關性(見表 2)?!?】
(二)距離相關 Dco(rDistance correlation) 系數
距離相關 Dcor(Distance correlation)是 Székely和 Rizzo 提出的一種新的相關性度量,它以觀測值的距離作為度量的依據。Dcor 等于零表示隨機變量X 和 Y 獨立。距離相關 Dcor 取值在[0,1]之間,其中大于 0.05 表示變量之間存在相關性,距離相關 Dcor系數還可以用來檢驗多維隨機變量的獨立性。距離相關 Dcor 系數計算,可以通過 R 語言 energy 宏包dcor 函數完成,經過計算得到 Dcor 檢驗結果為0.992 607 8,因此認為我國 GDP 和科研經費投入之間存在相關性。
(三)平均互信息指數
平均互信息指數是信息論中比較重要的一個概念,可以用來判斷系統的非線性相關性??紤]由兩11,s2,…,sn}和{q1,q2,…,qn}構成的系統 S和 Q,定義兩系統互信息?!?】
其中 Psq(si,qj)為同時出現事件 si和 qj的概率,Ps(si)為出現事件 si的概率,Pq(qj)為出現事件 qj的概率。
采用 R 軟件宏包 bioDist 中的函數 mutualInfo可以計算兩個系統的互信息指數。經計算得到我國GDP 和科研經費投入之間的兩兩互信息指數為1.576 029,這說明我國 GDP 和科研經費投入之間存在很強的相關性。
以上通過幾種相關性檢驗方法,進行簡單的介紹和驗證,可以看出我國 GDP 和科研經費投入存在相關性,下面將用最新的最大信息系數 MIC 的方法進行驗證說明。
(四) 最大信息系數 MIC(Maximal InformationCoefficient)
哈佛大學 Broad 研究院的研究人員在 Science雜志上發表了題為“Detecting novel associations inlarge data sets”的文章,這是相關系數比較新的研究成果。該算法可以對各種類型的相關進行快速估計,能夠發現更為一般的函數聯系。這種方法被稱為MINE (Maximal Information -Based NonparametricExploration),研究人員無需事前對其尋找的關系類型有所了解,就檢測由多種因素驅動的復雜模式。
MINE 基于最大信息系數 MIC,其依據的理念是,如果兩個變量之間存在著一種關系,那么就應該有一種方法在那些變量的散點圖上畫一個網格,使得大多數的數據點集中在該網格的幾個單元格中。通過搜尋這種“最適合”的網格,計算機可以計算 MIC 及一族可用來發現并描繪關系的相關的統計數據。
下面主要介紹 MINE 的核心概念,令 D={(x,y)}為 x 和 y 的 n 個次序樣本。樣本空間在 X-O-Y平面分割,分別統計落入每個小格的樣本數。則 MIC定義如下:
MIC (D)= maxXY
MAS(D)= maxXY
MEV(Maximum Edge Value)定義如下:
MEV(D)= maxXY
MCN(Minimum Cell Number) 定義如下:
MCN(D,∈)= minXY
MINE 各種系數計算通過 R 語言的 minerva 宏包函數 mine 完成,其輸入可以是兩個數值向量 x 和y,也可以是一個矩陣,還有 5 個參數 master,alpha,C,n.cores,var.thr 可供選擇。參數默認值為:
master =NULL,alpha =0.6,C =15,n.cores =1,var.thr=1e-5.
master 參數控制變量 x 的選擇,可以是一列數據,也可以是多列數據,剩下的列數據作為變量 y.alpha 參數控制網格分割的大小,網格分割大小B(n)=nα.如果樣本數據小,可以提高 alpha 值以得到更精確估計。由于本文樣本數據只有 18 組,提高其值到 0.9.參數 C 決定 X-Y 網格搜索的起點,參數 alpha 和參數 C 聯合控制近似精度和運行時間。
參數 n.cores 設置并行計算,如果樣本數據不是很大,取默認值即可。參數 var.thr 設置允許的樣本最小方差,如果樣本方差過小,MINE 方法無法計算。
表 3 給出了我國 GDP 與 R&D 經費 MINE 計算結果。MIC 值在[0,1]之間,如果為零,說明兩個變量之間獨立;如果越接近 1,說明相關性越強。MIC-R2表示 MIC 系數和線性相關系數的差值,大多數值在0.6 以上,說明它們之間線性關系很不顯著,更多的是非線性關系。MAS 衡量了非對稱的強弱,MEV 指出邊緣網格上系數大小,MCN 值在 2,3 之間,說明有 2,3 個網格起到主要作用。從計算結果中可以看出,MIC 值為 0.998 000 9,非常接近于 1,說明我國GDP 與 R&D 經費相關性很強?!?】
三、HHG 獨立性檢驗
通過上述秩相關系數、距離相關 Dcor 系數、互信息指數、MIC 等各種相關性檢驗,說明了我國GDP 與 R&D 經費的相關性,下面將通過獨立性檢驗,說明假設不成立,證明其相關性。
HHG 獨立性檢驗是一種功效很高的非參數檢驗,可以是任何維數的兩個隨機向量,任何形式的相關性都可以作為對立假設。因此,HHG 檢驗可以判斷兩個隨機向量之間是否存在相關性。下面以全國R&D 經費投入為隨機變量 X,國內生產總值 GDP為隨機向量 Y,來進行獨立性檢驗。HHG 獨立性檢驗可以通過 R 語言的 HHG 宏包來實現,通過計算得到 HHG 檢驗結果如表 4 所示。
從表 4 的計算結果可以看出,相伴概率均小于0.05,拒絕原假設,認為兩個隨機向量(或者隨機變量)之間存在相關性。也就是說我國 GDP 與 R&D 經費的獨立性檢驗不通過,二者存在相關性,這就進一步驗證和說明了相關性驗證的正確性?!?】
四、結語
筆者首次利用 2011 年哈佛大學 Broad 研究院的研究人員在《Science》雜志上提出的最大相關系數 MIC 來判斷 GDP 與 R&D 經費投入的相依程度。
計算 MIC 值為 0.998 000 9,非常接近于 1,說明GDP 的增長與 R&D 經費投入相關性很高。同時還計算了 spearman 系數、kendall 系數和改進的 spear-man 系數來判斷二者的相關性,計算結果均為 1,驗證了二者存在相關性。還計算了距離相關 Dcor 系數、計算結果為 0.992 607 8,也非常接近 1,因此認為我國 GDP 和科研經費投入之間存在相關性。另外還計算了我國 GDP 和科研經費投入之間的兩兩互信息指數,計算結果為 1.576 029,也說明了二者存在相關性。
通過對這幾種方法的比較發現:MIC 方法可以對各種類型的相關性進行快速估計,并且能夠發現更為一般的函數聯系。因此,MIC 方法比較適合判斷GDP 與 R&D 經費投入的相依程度,而且計算比較快速有效。
另外,筆者還應用了最新的統計學方法 HHG 獨立性檢驗進行了驗證和說明。計算結果表明,相伴概率均小于 0.05,拒絕原假設,也就是說我國 GDP 與R&D 經費的獨立性檢驗不通過,二者存在相關性。
從本文分析結果可以推斷我國的國內生產總值GDP 的增長與 R&D 經費投入有很大的相關性,同時從表 1 的 GDP 與 R&D 經費投入的數據也可以看出我國 R&D 經費投入和 GDP 同時呈上升趨勢的,這也進一步驗證了本文所得相關性結論的正確性。
所以,我國加大 R&D 經費投入將為我國的經濟增長以及建設創新型國家方面起關鍵性作用。本文的分析結果為我國相關宏觀經濟政策的制定提供一定理論參考。
參考文獻:
[1]薛毅,陳立萍。統計建模與 R 軟件[M].北京:清華大學出版社,2007.
[2]史道濟。相關系數與相關性[J].統計科學與實踐,2002,(4):22-24.