摘 要
如今數據爆炸時代已經來臨,傳統的數據處理技術已經不能滿足海量數據的處理需求。隨著信息技術的發展,以 Hadoop 為首的眾多大數據處理技術已經廣泛應用到互聯網、商業、醫學、金融業以及工業等行業,而在教育中的應用確很少。因此本文應用 Hadoop 集群平臺對本校的學生成績數據進行了分析和處理,并且研究了一種基于 MapReduce 的關聯規則算法,提高了關聯規則算法在處理海量數據時的效率,同時挖掘了課程之間的關聯規則。
本文的工作主要分為以下兩個部分:
首先學習了 Hadoop 平臺的核心架構-HDFS 和 MapReduce,采用 HDFS 實現學生數據的存儲。在深入了解到 MapReduce 編程模型后,針對傳統 Apriori 算法的局限性,實現了一種基于 MapReduce 編程模型的改進算法,并通過實例驗證了改進后算法的可行性。然后通過改變數據集的大小和改變最小支持度閾值以及最小置信度閾值這三種方式對這兩種算法的性能進行了對比,實驗證明,經過改進 MapReduce Apriori 算法的性能在各個方面都要優于傳統的 Apriori 算法。
其次本文搭建了 Hadoop 集群平臺,將改進的算法應用到真實的學生成績數據中,挖掘出了課程之間隱藏的關聯關系,同時本文也應用 Hadoop 平臺進行了一些統計分析的工作。
本文的主要創新點為:(1)根據MapReduce編程模型的特點,對傳統的Apriori關聯規則算法進行了改進,改進的算法不僅實現了發現頻繁項集這一過程,同時也根據發現的頻繁項集篩選出了強關聯規則;(2)通過對大數據技術的學習和學生數據的分析,本文搭建了 Hadoop 集群來分析和處理真實學生成績數據。
高校中時時刻刻都會產生大量的數據,同時教育數據中隱藏的潛在價值也是無窮無盡的,更值得我們去探索。如果能將如此豐富的教育數據轉化為有價值的教學研究成果,并且應用到改善教學決策的制定和實踐中,那么對于各大高校和教育研究機構來說意義非凡。希望通過本文的工作能為以后的研究學者提供一個方向,也能為學校的教育工作者在以后的教學管理上提供借鑒。
關鍵詞:大數據, Hadoop,MapReduce,Apriori
目錄
摘要
第 1 章 緒 論
1.1 論文研究的背景和意義
1.2 論文的主要研究內容
1.3 論文的組織結構
1.4 本章小結
第 2 章 Hadoop 理論基礎簡介
2.1 Hadoop 簡介
2.1.1 Hadoop 框架及其生態系統
2.1.2 第二代 Hadoop 平臺-YARN
2.1.3 Hadoop 的應用現狀和發展趨勢
2.2 Hadoop 分布式文件系統
2.2.1 HDFS 簡介
2.2.2 HDFS 工作原理
2.3 MapReduce 編程模型
2.3.1 MapReduce 簡介
2.3.2 MapReduce 工作原理
2.4 本章小結
第 3 章 基于 MapReduce 關聯規則算法的研究與改進
3.1 Apriori 算法簡介
3.2 Apriori 算法的缺陷
3.3 基于 MapReduce 的 Apriori 算法的研究與改進
3.4 改進算法的可行性分析
3.5 本章小結
第 4 章 大數據技術在學生成績分析中的應用
4.1 實驗環境介紹
4.2 數據預處理
4.3 基于學生成績的統計分析
4.4 MapReduce Apriori 在學生成績分析中的應用
4.4.1 輸入數據格式
4.4.2 分析結果
4.5 應用結果分析
4.6 本章小結
第 5 章 總結和展望
5.1 總結
5.2 不足與展望
參考文獻