藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 計算機論文 > > 軟件工程數據挖掘存在的挑戰與解決方案
軟件工程數據挖掘存在的挑戰與解決方案
>2022-12-31 09:00:00


1 引言(Introduction)

數據挖掘技術既是在海量的數據當中將需求信息挖掘出來的過程[1].軟件工程數據挖掘則是數據挖掘技術在軟件工程領域的重要應用[2].軟件工程數據挖掘技術可以有效地提高軟件的開發效率,增強軟件的穩定性以及可用性,隨著軟件工程數據挖掘技術的不斷提升,其應用范圍更加的廣泛[3].因此,對其的研究工作不僅具有重要的學術價值,更具有重大的實際應用價值。本文重點探索軟件工程數據挖掘技術面臨的挑戰以及將來的發展趨勢。

2 軟件工程數據挖掘(Software engineering datamining)

(1)軟件工程數據挖掘的必要性

軟件工程數據主要是指在軟件開發階段積累的相關數據,其中包括軟件的可行性分析以及需求分析文本,軟件的注釋或者代碼等等。這些信息是軟件開發者獲取軟件相關數據的唯一來源。隨著軟件研發技術以及規模的不斷提升,其中包括的軟件工程數據也是成指數性增長。例如:Linux操作系統軟件,其僅代碼一項就超過了500萬行。這在無形中增加了軟件開發者獲取軟件相關數據的難度。因此,借助于數據挖掘技術的軟件工程信息搜索技術是十分必要的。

(2)軟件工程數據挖掘任務及其過程

一般來講,軟件工程的數據挖掘工作主要包括:

a.軟件數據的預處理。這一過程主要是將未曾加工的數據變為便于挖掘出來的形式。其主要涉及到不同來源以及格式數據的融合,進而轉化成為統一格式的數據。選取數據挖掘任務有關的數據記錄,并對數據中的噪音以及重復值進行清理。目前,數據挖掘的預處理技術主要采用的是LSA、PLSA、LDA等。

b.數據挖掘。這一過程主要是要將海量數據中能夠反映出軟件本質或者規律的信息搜取出來。其中運用了大量的算法。輸入的是結構規整的數據,而將關聯、分類等信息模式進行輸出,這些信息模式與挖掘任務有關。

c.結果評估。這一過程的目的就是要是用戶獲得有用的信息。主要包括提出信息質量不高的部分結果數據,以及將計算機處理以及理解的信息模式轉換成為用戶能夠理解的信息模式,并傳遞給用戶。

2 軟件工程數據挖掘存在的挑戰(Challenge ofsoftware engineering data mining)

(1)軟件工程數據復雜度高

目前的軟件工程數據主要包括結構化和非結構化兩類數據。其中,結構化數據主要涉及到軟件的版本相關信息以及缺陷報告等。非結構化數據主要包括一些軟件代碼、文檔等。這兩類數據不能采取同一種算法,但是兩類數據之間卻又存在著諸多相關性。因此,在數據挖掘算法開發上,要充分的考慮到兩類數據的復雜聯系,無形中增加了不小的難度。

(2)分析方法并非傳統模式

軟件工程數據挖掘工作的最后階段是將獲取的挖掘信息呈現給所需用戶。在傳統的數據挖掘應用過程中,例如:銀行或者電子商務,都是將其轉化為文字或者圖表的形式。但是,軟件開發者所需的信息并沒有如此簡單。其囊括了編程模板、缺陷定位等客戶信息。因此,這對數據挖掘技術提出了更高要求。

(3)數據挖掘結果評價標準不一

數據挖掘技術在很多行業都已經廣泛應用,并且,在結果表示以及評價標準制定等方面較為成熟,但是,在軟件工程數據挖掘領域卻不是這樣。軟件開發者需要獲取的信息不僅詳細而且極為復雜,同時,信息的表示方法也不盡相同,這樣一來,為信息對比增加了不小的難度,因此,很難對數據挖掘結果進行定量準確分析。

3 軟件工程數據挖掘問題的解決方案(Solution ofsoftware engineering data mining)

(1)數據復雜性解決方法

軟件工程數據的復雜性主要包括三方面:

a.數據的類型相對復雜。關于這一類型,目前一些學者提出可以從軟件程序的結構圖以及文本數據等方面進行信息挖掘。

b.數據間聯系復雜。這一類型可以利用算法的改進,增強發現數據之間聯系能力來提升數據挖掘結果的準確程度,例如:社會網絡分析法比較適用于尚未存在大量研究工作的領域。

c.數據中存在噪音或缺失。這一類型可以采用類似于半監督學習的方法以達到有效控制因數據缺失所帶來的不良影響程度。

總而言之,通過數據挖掘算法的不斷改進,能夠有效地解決數據復雜性問題。

(2)非傳統分析的解決方法

相對于文字、圖表等信息形式,軟件開發者往往更需要軟件使用范例。目前,很多研究成果會涉及到軟件使用例程以及編程規則等。同時,在軟件工程當中,程序可視化作為一種信息表示方法正在逐漸成為趨勢,其與數據挖掘技術相結合,將會極大的滿足更多的非傳統分析需求。

(3)挖掘結果評估問題解決方法

傳統的評估體系很難在軟件工程數據挖掘中應用。為了解決這一問題,一些研究者試圖利用缺陷檢測效果評估法進行挖掘數據評價,但是,這種方法有點以偏概全的嫌疑。還有一些學者采用用戶體驗評價方法,但是在用戶較少的情況下,結果評價的客觀性不足。軟件工程領域無論是理論研究還是實際應用,其服務對象始終都是人,由此可見,軟件工程數據挖掘的結果評價方法會越來越貼近人類心理學以及管理學中的分析方法。

4 軟件工程數據挖掘的發展趨勢(Developmenttrend of software engineering data mining)

(1)基于現有問題,開法高性能挖掘算法

a.軟件工程數據的檢索由精確的關鍵詞檢索向模糊檢索、甚至不受格式限制的自然語言檢索發展,檢索返回的內容從簡單的語句向完整的文檔發展。

b.缺陷檢測工具從僅能夠檢測缺陷的原因向更加復雜、范圍更加廣泛的缺陷發展。

c.用人類自然語言表達行為方法及軟件行為的模型將更加豐富,對應的表達能力也會大幅度提升。

(2)提出更為復雜的問題及其解決方法。

a.將研究基于數據挖掘技術的軟件結構分析方法。

b.將研究軟件行為的評價方法和惡意軟件檢測方法。

c.通過數據挖掘方法定量分析、評估與預測軟件的穩定性,從而指導軟件的開發和維護。

d.進一步發現數據之間的關系,綜合利用多方面的數據源進行挖掘。

(3)高效預處理,改進挖掘算法

研究更高效的數據預處理方法,最主要研究特征提取和數據降維方法;推進異構數據的管理和整合技術,如數據融合、數據空間等,以及分布式數據的并行處理技術。

(4)引入新的軟件工程理念,指導數據挖掘工作

隨著計算機網絡技術的不斷發展,軟件開發工作逐漸呈現出了高效化、智能化,網絡化特征。這些更是成為軟件開發人以及數據的基本特征。正因為如此,軟件模塊的開發工作更加趨向于功能性以及可重用性。這樣發展趨勢勢必會導致軟件工程數據挖掘技術研究方向的改變。利用數據挖掘技術采集、整合網絡數據,獲得信息的方法;以及利用數據挖掘工具設計軟件重用的規范和模式,以輔助可重用模塊的開發。

5 結論(Conclusion)

隨著計算機技術的快速發展,人們的生活也逐漸的進入到了網絡化時代。各種應用軟件的開發速度之快令人震驚,而這也對軟件工程數據挖掘工作提出了更多、更高的要求。本文首先對軟件工程數據挖掘技術的相關概念進行分析,然后,對其遇到的挑戰和應對措施進行探索,最后,研究其未來的發展趨勢。希望能夠為有關的研究工作者提供一些參考性的建議。

參考文獻(References)

[1] 毛澄映,盧炎生,胡小華。數據挖掘技術在軟件工程中的應用綜述[J].計算機科學,2009(05):1-6.

[2] 李新,張曉靜,米燕濤。軟件開發過程中的數據挖掘[J].石家莊職業技術學院學報,2007(02):31-33.

[3] 趙志升,羅德林,李海英。數據挖掘技術與應用[J].河北北方學院學報(自然科學版),2006(06):63-66.

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观