2014年9月北京大學成立了社會科學大數據研究院,2015 年 5 月 29 日邱澤奇教授發表了《大數據給社會學帶來什么挑戰?》的演講,討論了大數據和社會學的關系以及大數據給社會學帶來的挑戰。2015 年 5 月復旦大學舉辦了第三屆“中國調查”學術研討會,將“大數據時代的現代方法研究”作為一個重要的板塊加以討論。這說明社會學家們開始集體審視大數據給社會科學研究帶來的影響。實際上大數據被應用到社會研究中已經有幾年的歷史,而現狀是國內學術界還沒有對此進行專門的探討,本研究嘗試對這一問題做出回答。
一、大數據的概念及其發展歷程
(一)大數據的定義
迄今為止有關大數據的定義還處于爭論之中,維基百科給出的定義是“大數據(Big data 或Megadata)或稱巨量數據、海量數據,指的是所涉及的數據量規模巨大到無法通過人工在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息”.這是從數量的級別(PB或ZB)來定義大數據,主要講的是數據量之大使得用常規的數據分析技術無法處理。另外一種講法是從數據的特性來定義大數據,埃德·頓姆比爾(Edd Dumbill)認為大數據有大量(Volume)、髙速(Velocity)與多樣(Variety)的特征.后來又加了一個特征,國際數據公司IDC(International Data Corporation)認為大數據應當具有價值性(Value),而 IBM(International BusinessMa-Chines Corporation)等認為大數據必然具有真實性(Veracity)。在 IDC 和 IBM 的說法中選擇 1 個“V”再加上前面的“3V”,合起來就被稱為“4V”,這是學術界廣泛采用的說法。
(二)大數據的發展歷程
最早運用大數據這一術語的是著名未來學家阿爾文·托夫勒,他在 19 世紀 80 年代出版的《第三次浪潮》一書中稱贊大數據是“第三次浪潮的華彩樂章”.英國著名的大數據研究學者維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)及肯尼斯·庫克耶(Kenneth Cukier)在其合著的《大數據時代:生活、工作與思維的大變革》一書開篇中講到了 Google 用搜索記錄預測流感爆發的經典案例,并評論說這是“以一種前所未有的方式,通過對海量數據進行分析獲得有巨大價值的產品和服務或深刻的洞見”[2].這一流感預測案例和沃爾瑪“啤酒+尿不濕”的組合營銷案例成為了大數據傳播最廣為人知的經典案例。2008年Nature也出了大數據??痆3].2010年英國《經濟學家》(The Economist)“The data deluge”一文,分析了健康管理、在線廣告和政府管理帶來的數據巨增,以及面臨的風險。[4]
《科學》(Science)于2011 年也推出了“Dealing data online”???,說明大數據對于科學研究的重要性[5].麥肯錫全球研究院(MGI)2011 年 5 月發表“Big data:The next frontierfor innovation,competition and producticity”[6]. 2012年 3 月美國國家科學基金會發布報告“Big data research and development initiative”,涉及到環境、健康、應急管理、研究范式轉變、大數據研究和發展的管理等方面的內容[7].2012 年世界經濟論壇發布了“Big data,big impact:New possibilities for internationaldevelopment”,從金融服務、健康、教育、農業等領域分析了大數據給世界經濟帶來的發展機會[8].
國內關于大數據的概念大多引用美國學者的觀點,徐子沛的《大數據:正在到來的數據革命》一書最先對美國數據運用的歷史進行解讀,對國民進行了大數據知識的普及,其最近出版的《數據之巔》一書著重強調數據文化。隨后國內出版并翻譯了一批大數據方面的著作,例如埃里克·托普(EricTopol)的《顛覆醫療:大數據時代的個人健康革命》、李軍的《大數據:從海量到精準》、阿里巴巴副總裁車品覺的《決戰大數據:駕馭未來商業的利器》等。
這些國內外的開創性研究通過互聯網和傳統媒體傳播開來,使得學術界和普通民眾日益認識到大數據的重要性。
二、社會研究中已經運用大數據方法的學科
大數據產生和發展的擔綱者是互聯網公司和數據科學家,無論是通過搜索關鍵詞預測流感發生的研究,還是沃爾瑪“啤酒+尿不濕”的營銷都不是由社會科學家完成的。但是當大數據的概念傳播開來后,立刻被社會科學家們引入自己的研究領域中。
大數據為語言學添上了翅膀,除了龐大的圖書資料數據庫之外,還有 Facebook、Twitter、新浪微博、騰訊 QQ 和微信朋友圈等諸多網絡文本內容。美國學者米歇爾(Michel)等對 500 萬本 Google 圖書的內容進行挖掘,探討了“Salvery(奴隸)”、“Apple(蘋果)”等詞匯在1800年-2000年出現的頻率變化、語法演變、集體意識改變和技術適應等方面的內容[9].我國 2014 年度國家社會科學基金的重大委托項目“語言大數據挖掘與文化價值現”的成果《基于大數椐的漢語表達智能模型及其理論基礎》探討了構建漢語表達智能模型,提出了建立用于漢語機器表達的專門語料庫的設想,討論了該模型的理論基礎[10].梅德明在《大數據時代語言生態研究》一文中討論了大數據時代語言生態研究者的思維模式和研究方法[11].劉國輝運用語料庫分析了英語“X-able”形態的文體分布與歷時演變[12].這些研究意味著語言學家開始以大型語料庫為基礎,運用大數據的方法來研究語言現象,這和大數據的內容挖掘技術是一致的。
新聞傳播學是運用大數據方法比較早的一個學科。國外已經出現了通過大數據自動編寫新聞的軟件。2015 年中山大學成立了我國第一個大數據傳播實驗室,同時也舉辦了“大數據與傳播”的圓桌論壇。中國人民大學喻國明教授等也于 2015 年出版了《新聞傳播的大數據時代》,該書涉及大數據時代的新聞生產、廣告營銷、輿情分析和新聞傳播等方面的內容[13].喻國明教授特別強調大數據時代新聞傳播學的范式轉變,主要體現在從“隨機樣本”到“總體”的轉變,從“理論”向“算法”與“規則”的轉換[14].除此之外,大數據也對整個新聞產業產生了很大影響,主要體現在生產信息提供者層面、媒體層面和用戶層面的深刻變化上[15].這種變化原因是大數據帶來的新聞價值的改變,陳雪奇等就撰文分析了大數據給新聞“有用性”、“時效性”和“異常性”帶來的改變[16].數據可視化給大數據新聞展示帶來了很大變化,郎勁松等認為數據新聞通過挖掘和展示龐雜數據背后的關聯與模式,能夠通過可視化方式豐富新聞報道的方式[17].輿情監督和分析領域已經采用了很多大數據的方法,清華大學沈陽教授的團隊在這個方面做了很多研究,其典型研究成果有《微博意見活躍群體分析報告》、《2013年中國縣域網絡形象分析報告》和《2013年中國地級市網絡形象分析報告》等,都采用了大數據信息挖掘技術??傮w來看,新聞傳播學對大數據的運用已經有了范式、理論和方法方面的討論,并有一些比較成熟的案例。
大數據方法也延伸到政治學研究領域。美國政治學的一個重要板塊是研究政治選舉,邦德(Bond R. M.)等依據 2010 年美國國會大選投票期間的 6100 萬 Facebook 用戶的發帖內容,分析了自我表達、信息搜尋和真實世界的投票行為之間的關系[18].托馬斯·沙德福(Thomas Chadefaux)運用文本分析技術,分析了1990年到2013年間166個國家的報紙文章,來分析預測是否會發生戰爭[19].另外大數據在公共政策制定和分析中具有重要作用,而且已經用于突發事件處理和減少犯罪等方面[20].
國外的政治學研究已經有一些運用大數據方法的實證研究,而非僅僅是理論上的探討。國內的孟天廣等直接提出了“大數據政治學”概念,認為數據分析學新方法的引入、定量與定性方法的整合、政治學與計算科學、信息科學等跨學科研究、數據民主化所推進的政治知識平民化的傳播和普及革新了我國的政治學研究方法[21].國內在政治學領域對 大 數 據 方 法 的 探 討 主 要 集 中 于 理 念 和 理 論方面。
經濟學領域,特別是營銷領域,是大數據應用的重要發源地,比如亞馬遜網站的圖書推薦系統,就是根據用戶的搜索習慣為其推薦可能感興趣的圖書,這種技術已經被阿里巴巴的淘寶網,京東和當當網等國內購物網站廣泛采用,甚至一些博彩公司也采用了大數據的分析方法。國內學者俞立平提出了大數據經濟學,分析了大數據經濟學的研究內容和方法以及同其他學科之間的關系[22].劉濤雄和徐曉飛在《大數據與宏觀經濟分析研究綜述》一文中認為,大數據在宏觀經濟分析應用中應用最為活躍的四個領域是宏觀經濟數據挖掘、宏觀經濟預測、宏觀經濟分析技術和宏觀經濟政策,探討了大數據分析技術如何將機器學習算法引入到宏觀經濟分析[23].總體來看,當下經濟學領域的大數據運用主要在營銷領域。
大數據在教育學領域的應用,主要體現在大數據對于個性化教育的影響以及在線教育研究方面。張燕南等在探討了大數據的基本概念和思維特征之后,探討了大數據對于個性化教育、教育決策和教育效果評價的作用[24].吳剛在《大數據時代的個性化教育:策略與實踐》一文中重點談到可以通過學習分析學(Learning Analytics),借助技術平臺將每個學生學習過程的數據進行智能分析,進而轉化成教師的課堂決策及反饋[25].張羽和李越在《基于MOOCs大數據的學習分析和教育測量介紹》一文中利用慕課(Massive open onlie courses)等網絡課堂的大數據,很好地發展了學習分析和教育測量[26].鄭燕林和柳海民分析了美國運用大數據進行教育評價的路徑[27].總體來看,教育學中運用大數據方法進行研究的成熟案例還不多。
美國的心理學是一個龐大的學術共同體,當然少不了大數據方法的應用和探討。Kramer A.D.I.通過 Facebook 做了一項實驗,將 70 萬戶的 Facebook 分成兩組,一組接收積極的信息,另一組接收消極的信息,結果發現用戶會表現出和刺激信息類似的情緒[28].換句話說,這是把心理學實驗,從實驗室搬到了互聯網上。國內的心理學家也進行了相關研究。中國社科院心理學所的朱廷劭研究員等發表了《論大數據時代的心理學研究變革》一文,總結了大數據對心理學研究邏輯和研究方法產生的影響,認為有必要將大數據同心理學問題和心理學研究范式有機結合[29].朱廷劭還通過微博的帖子內容--客觀“微博”行為記錄(digital records of micro-blogging behaviors)預測其人格特征[30].在這一思路的引導之下,中科院心理所展開了一系列研究。目前,無論美國還是中國,心理學界都出現了不少運用大數據進行研究的成熟案例。
2014 年 8 月,美國社會學界提出了新計算社會學(new computational sociology)的概念[31],武漢大學的羅瑋和羅教講在《新計算社會學:大數據時代的社會學研究》一文中作了詳細介紹,其中新計算社會學的五個主要內容之一就是“大數據的獲取與分析”[31].范德里特等(Arnout van de Rijt)分析了美國從 2004 年-2009 年間的 2200 多種報紙周刊,10 萬多個姓名,進而分析了名聲的結構變遷[32],并將該文發表在《美國社會學評論》上??的螤柎髮W社會學系的學者古德等人(Scott A.Golder et al.)2013年在《科學》上發表了論文,利用推特(Twitter)上從 2008年 2 月到 2010 年 1 月 240 萬個用戶的 5.09 億條信息,分析人們的情緒變化[33].國內南京大學的學者陳云松運用谷歌圖書的最新語料庫(811萬種書籍,8613 億詞匯)分析了社會學的學科軌跡、領域熱點、理論流派等方面的內容[34].可見無論是美國還是中國都已經出現了社會學學者運用大數據進行研究的案例。
除了語義學、新聞傳播學、政治學、教育學、經濟學、心理學和社會學之外,管理學、營銷學、歷史研究、影視分析等學科也都將大數據的理念引入進來。比如,通過學籍卡等格式化資料構建大規模歷史資料數據庫來開展歷史研究[35].而影視行業依據大數據來選擇演員和劇情已經不是新鮮事。國內有學者提出,基于云計算和互聯網基礎構建電影大數據深度分析平臺,并使之服務于電影產業發展和科學決策的設想。[36]