两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于改進(jìn)的Adaboost軟件缺陷不平衡數(shù)據(jù)分類方法

文檔序號(hào):9910931閱讀:1583來源:國(guó)知局
基于改進(jìn)的Adaboost軟件缺陷不平衡數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于軟件工程應(yīng)用領(lǐng)域,具體涉及一種基于改進(jìn)的Adaboost軟件缺陷不平 衡數(shù)據(jù)分類方法。
【背景技術(shù)】
[0002] 隨著當(dāng)代信息技術(shù)的高速發(fā)展,軟件系統(tǒng)已經(jīng)運(yùn)用到國(guó)防建設(shè)、國(guó)民經(jīng)濟(jì)的各個(gè) 方向和部門,以及人類活動(dòng)的各個(gè)領(lǐng)域。軟件系統(tǒng)所發(fā)揮的作用越來越大,相應(yīng)地其規(guī)模也 日益增大。例如,美國(guó)電信需要一個(gè)有超過一億行代碼的系統(tǒng)進(jìn)行支持;航天飛機(jī)的機(jī)載系 統(tǒng)有著近50萬行的代碼,地面控制系統(tǒng)及處理系統(tǒng)代碼約有35萬行,即使在對(duì)系統(tǒng)進(jìn)行了 大規(guī)模的縮減后,仍有將近百萬行的代碼來操縱整個(gè)航天系統(tǒng)。高穩(wěn)定性對(duì)于這些裝備來 說極其重要,而大部分的裝備系統(tǒng)的穩(wěn)定性由計(jì)算機(jī)軟件系統(tǒng)的安全性和可靠性決定的。 因此,軟件系統(tǒng)的穩(wěn)定性和可靠性直接關(guān)系到整個(gè)系統(tǒng)的可靠性。
[0003] 由于各種原因,一些軟件的缺陷是不可避免的發(fā)生,這些錯(cuò)誤導(dǎo)致了軟件缺陷隱 含在軟件中。對(duì)于隱藏的缺陷,如果不能及時(shí)地、準(zhǔn)確地發(fā)現(xiàn),有效地排除,將會(huì)對(duì)軟件質(zhì)量 產(chǎn)生很大影響,甚至給軟件使用者帶來災(zāi)難性后果。曾有研究表明,專業(yè)軟件開發(fā)人員平均 每一千行代碼就有6個(gè)缺陷,更糟糕的是隨著軟件規(guī)模增加,軟件內(nèi)在的缺陷數(shù)量呈指數(shù)增 長(zhǎng)。軟件缺陷的過多導(dǎo)致缺陷定位和測(cè)試修復(fù)成本大大增加。例如,微軟平均定位和修改一 個(gè)軟件缺陷需要12個(gè)小時(shí);美國(guó)聯(lián)邦調(diào)查局研究顯示,有軟件故障造成的直接經(jīng)濟(jì)損失達(dá) 600億美元。
[0004] 為了提高軟件系統(tǒng)質(zhì)量,學(xué)者們提出了軟件缺陷預(yù)測(cè)的概念,軟件缺陷預(yù)測(cè)可以 幫助開發(fā)者更快地找到存在缺陷的模塊,提高軟件質(zhì)量。軟件缺陷預(yù)測(cè)的關(guān)鍵是發(fā)現(xiàn)有缺 陷的模塊,這實(shí)際上是一個(gè)二分類問題,即將軟件模塊分為"無缺陷"和"有缺陷"兩個(gè)類。但 是由于軟件模塊中存在缺陷的模塊要遠(yuǎn)少于無缺陷的模塊,所以這也是不平衡數(shù)據(jù)的分類 問題。目前,對(duì)于平衡數(shù)據(jù)的分類技術(shù)已經(jīng)相對(duì)比較成熟,然而,面向不平衡數(shù)據(jù)的分類,特 別是面向軟件缺陷數(shù)據(jù)的分類問題仍需投入大量的研究。
[0005] 綜上,在當(dāng)前互聯(lián)網(wǎng)軟件產(chǎn)品迅速發(fā)展的形勢(shì)下,解決軟件缺陷數(shù)據(jù)的不平衡性, 提出高效的軟件缺陷預(yù)測(cè)模型即對(duì)軟件模塊進(jìn)行正確分類,是迫切需要解決的問題。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是克服軟件缺陷數(shù)據(jù)的不平衡性,對(duì)軟件模塊進(jìn)行準(zhǔn)確分類,提供 一種基于改進(jìn)的Adaboost軟件缺陷不平衡數(shù)據(jù)分類方法。
[0007] 為實(shí)現(xiàn)上述目的,本發(fā)明技術(shù)方案主要包括以下三個(gè)步驟:
[0008] A.從軟件數(shù)據(jù)集中獲取數(shù)據(jù),包括軟件特征集和軟件模塊,并對(duì)其進(jìn)行預(yù)處理。將 軟件模塊數(shù)據(jù)分為訓(xùn)練集和測(cè)試集以備訓(xùn)練和測(cè)試。本發(fā)明采用十次交叉驗(yàn)證,將數(shù)據(jù)集 分成十份,其中九份做訓(xùn)練,一份做測(cè)試。
[0009] B.利用基于改進(jìn)的遺傳算法與BP神經(jīng)網(wǎng)絡(luò)結(jié)合進(jìn)行軟件數(shù)據(jù)的特征選擇,得到最 優(yōu)特征子集,從而對(duì)軟件特征進(jìn)行降維處理,減少運(yùn)算時(shí)間。
[0010] (1)隨機(jī)產(chǎn)生初始種群,種群大小為P。對(duì)特征集進(jìn)行二進(jìn)制編碼,0代表選擇特征, 1表示不選擇特征。
[0011] (2)以BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集,根據(jù)預(yù)測(cè)誤差調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值。
[0012] ⑶利用遺傳算法對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,進(jìn)行選擇、交叉、變異的操作。為充分考 慮軟件數(shù)據(jù)集的不平衡性,適應(yīng)度函數(shù)采用普遍適用于不平衡數(shù)據(jù)分類評(píng)價(jià)的Gmeans,較 高的Gmeans值表示分類器是平衡的,即對(duì)兩個(gè)類的分類來說都有好的性能。定義如下:
[0013]
[0014]
[0015] 表1混淆矩陣
[0016]
?00?7?~(4)判斷是否達(dá)到代次數(shù),若達(dá)到,則輸出當(dāng)前最優(yōu)特征子集,否則執(zhí)行以下 程。
[0018] (a)根據(jù)適應(yīng)度函數(shù)選擇遺傳到下一代的個(gè)體,適應(yīng)度越高被選擇的概率越大。
[0019] (b)采用單點(diǎn)交叉算子進(jìn)行交叉操作,采用單點(diǎn)變異算子進(jìn)行變異操作。
[0020] C.根據(jù)得到的最優(yōu)特征子集,充分考慮軟件缺陷數(shù)據(jù)的不平衡性,訓(xùn)練基于改進(jìn) 的Adaboost分類器,對(duì)軟件模塊進(jìn)行分類,步驟如下:
[0021 ] (1)初始化樣本集內(nèi)的樣本權(quán)重
[0022] DKihl/n 公式(2)其中,η為樣本數(shù),D!⑴為樣本在第1輪迭代中的權(quán)重。
[0023] (2)進(jìn)行T次循環(huán)訓(xùn)練弱分類器ht(x),迭代次數(shù)t=l,2,…,T
[0024] (a)計(jì)算弱分類器ht(x)在當(dāng)前樣本分布上的分類錯(cuò)誤率,針對(duì)軟件缺陷數(shù)據(jù)的不 平衡性,應(yīng)充分關(guān)注被誤分為"無缺陷"實(shí)則"有缺陷的"樣本,被誤分為"無缺陷"的樣本比 例越大,則分類器的分類錯(cuò)誤率應(yīng)相應(yīng)地增加。因此,設(shè)定ht(x)的分類錯(cuò)誤率為:
[0025]
[0026] 其中,其中Dt(i)為樣本(Xl,yi)在第t輪迭代中的權(quán)重,I[h t(Xl)矣yi]說明參與分 類錯(cuò)誤率^計(jì)算的是被誤分類的樣本。FN,TP含義表1所示;
[0027] (b)若et>0.5或者et = 〇,則令T = t_l,迭代停止;
[0028] (3)計(jì)算弱分類器ht(x)在最終集成獲得的強(qiáng)分類器中的加權(quán)系數(shù):
[0029]
[0030] (4)更新樣本權(quán)值:
[0031] v ^
7 ν ι ν· v ,>· y v?
[0032] 其中,Zt是歸一化因子:
[0033]
[0034] (5)輸出強(qiáng)分類器:
[0035]
[0036] (6)利用得到的強(qiáng)分類器,對(duì)軟件模塊進(jìn)行缺陷預(yù)測(cè)。
【附圖說明】
[0037] 圖1是基于改進(jìn)的Adaboost軟件缺陷不平衡數(shù)據(jù)分類方法流程圖。
【具體實(shí)施方式】
[0038]下面結(jié)合圖1對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述。
[0039] 第一步:首先獲取軟件特征集及軟件模塊數(shù)據(jù),并做標(biāo)簽處理。其中,特征集F = 。軟件模塊數(shù)據(jù)集{Χ,Υ},Χ= {χ?,Χ2···Χη},Y= {yi,y2} = { + 1 ,-1}。若軟件模塊 Xi 無缺陷,貝1J (xi,yi) = (xi,-1),反之,(xi,yi) = (xi,+1)。
[0040] 第二步:利用基于改進(jìn)的遺傳算法與BP神經(jīng)網(wǎng)絡(luò)結(jié)合進(jìn)行軟件數(shù)據(jù)的特征選擇, 從而對(duì)軟件特征進(jìn)行降維處理,得到最優(yōu)特征
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
左权县| 吴旗县| 从化市| 东乌| 安乡县| 册亨县| 吕梁市| 张家口市| 盐池县| 综艺| 德江县| 仙居县| 邵阳县| 汽车| 宣城市| 志丹县| 应用必备| 新蔡县| 偏关县| 高碑店市| 伊通| 积石山| 太仆寺旗| 马尔康县| 东阳市| 法库县| 镇巴县| 改则县| 平果县| 百色市| 新宾| 浮梁县| 盐源县| 华池县| 汝州市| 宽城| 宣汉县| 长沙市| 正安县| 黔西县| 陵水|