0 引言
科研檔案是高等學??蒲邪l展的縮影和真實寫照,是反映高??茖W研究和科研管理水平的重要標志,是高校實力的見證??茖W研究水平是各高校核心競爭力的關鍵所在,支撐和引領學科建設與發展。隨著高??萍紕撔赂偁幍娜遮吋ち?,在科技資源配置方面,高端人才和重點重大項目資助的集中度不斷升級。與各“985”高校、國子頭的科研院所相比,地方普通高校與它們的創新競爭力差距不斷擴大,只有可能在少數優勢學科具有一定競爭力,在面上科研任務競爭中占有一定份額。多年來,高校在科研管理中積累了很多數據,但這些數據只是簡單的以案卷目錄的形式存儲在檔案管理系統中,在高校的科研決策中并沒有得到充分利用,還停留在傳統的管理水平上。如何利用已有的科研檔案信息明確自己的科研優勢,找出科研重點領域,凝練出品牌特色,以應對普通省屬高校發展的嚴峻挑戰,提升自己的核心競爭力,是目前普通省屬高校亟須解決的重大課題。
1 數據挖掘概述
數據挖掘是一種深層次的數據分析方法,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又具有潛在價值的數據信息和知識的過程[1].數據挖掘是一種全新的信息處理技術,其主要特點是對大量數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助決策的關鍵性數據,把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持[2].目前數據挖掘已廣泛應用于商業零售、電信、金融、電力、保險、生物信息學和醫療等行業。
聚類分析是根據數據中發現的描述對象及其關系的信息,將數據對象分組[3],并使得同一個組內的數據對象具有較高的相似度,不同組中的數據對象具有較低的相似度[4].
關聯規則是數據挖掘的重要工具之一[5],關聯規則分析是用于發現隱藏在大型數據集中的有意義的聯系的過程。關聯規則的強度可以用它的支持度和置信度來度量。支持度是一種重要度量,因為支持度很低的規則可能只是偶然出現;另一方面,對于給定的規則X→Y,置信度越高,Y在包含X的事務中出現的可能性就越大。
2 數據挖掘技術在科研檔案中的應用
2.1應用背景介紹
國家級科研項目[6]是高校及科研院所科研實力及學術水平的一項重要指標,是高校高水平縱向研究課題經費的主要來源。江蘇科技大學作為江蘇省省屬高校,一直以來都非常重視國家級科研項目的申報和管理工作,在獲得批準項目數量與資助金額不斷提升的同時,學校的科研實力和學術水平也躍上了一個新臺階。多年來,我校在科學研究過程中積累了很多數據,但這些數據只是簡單的以案卷目錄的形式存儲在檔案管理系統中,在學校的科研決策中并沒有得到充分利用,本文以江蘇科技大學2011-2015年獲得資助的國家級科研項目為例,應用數據挖掘技術對參與國家級科研項目的課題組進行了科研績效評估,為學校找出科研重點領域和優勢學科、凝練出品牌特色提供決策依據,同時進一步探討科研績效與科研人員最高學位、職稱、年齡之間的關系,從而實現科研團隊的優化配置。
2.2數據選擇及預處理
2.2.1 2011至2015年江蘇科技大學國家級科研項目基本情況分析
近五年來,江蘇科技大學所獲自然科學與社會科學國家級項目實現了質與量的飛躍,獲資助項目數逐年遞增,資助經費也實現了穩步增長,獲資助項目數從2011的24項增加到2015年的45項,資助經費從2011年的659萬元增加到2015年的1478萬元(其中2013年葛世倫教授申請的“基于云的管理信息系統再造研究”項目作為重點項目,資助經費為220萬元)。
2.2.2課題組數據集
國家級科研項目相關信息包括項目名稱、申請領域、資助經費、負責人年齡、項目組成員最高學位、專業、職稱、批準年度?;诖?,本文構造了課題組數據集,并利用聚類方法對其進行了分析。課題組數據集由項目資助經費、負責人年齡、項目組中博士人數、碩士人數、學士人數、其他人數、教授(正高)人數、副教授(副高)人數、講師(中級)人數、助教(初級)人數、項目中各專業的人數組成。2011-2015年江蘇科技大學共獲批了185個國家級項目,有156個專業共815名科研人員參與。因此,本文為課題組數據集添加了對應于這156個專業的人數屬性,以便發現項目組人員專業差別對國家級項目的影響。項目負責人年齡劃分成<=30、31-35、36-40、41-45、46-50、51-55、56-60、61-65、>=66共9個年齡段。
2.3基于數據挖掘的課題組科研績效評估
2.3.1課題組數據集的聚類分析
課題組數據集的聚類結果顯示,簇1中的項目數為45,大部分是面上項目或者重點項目,資助經費額較高、課題組科研能力較強,僅占總項目的24.3%;簇2中的項目數為140,占總項目的75.7%.結合聚類結果的簇中心情況如表1所示,簇1的各項指標都優于簇2,尤其是教授人數和資助經費額。本文還利用決策樹分析聚類結果,發現教授人數、講師人數和資助經費是導致這種項目聚類結果的重要因素。簇1共包含材料學11項、海洋工程10項、機械工程7項、管理科學與工程7項、養蠶學5項、自動化2項、物理學2項、生物學1項目。這說明了材料學、海洋工程、機械工程、管理科學與工程、養蠶學是江蘇科技大學自然科學的優勢研究學科,自動化、物理學、生物學等學科在快速發展,計算機科學、電子學等其他學科還需要提高。簇2的負責人年齡段指標顯示這些項目申請人比較年輕,絕大多數都小于40歲,正是出科研成果的黃金時期,他們是學??蒲嘘犖榈纳?;簇1的負責人年齡段指標顯示項目申請人具有豐富的科研經驗,但超過一半以上的人在50歲以上,人才成長有些脫節,年輕教師沒有能夠及時頂上來,不利于學校的長遠發展。