本發(fā)明涉及一種特種選擇方法,特別涉及一種多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法。
背景技術(shù):
:特征選擇是模式識(shí)別領(lǐng)域的核心問題之一,其研究得到了世界各國學(xué)者的重視。特征選擇算法通過合理選擇有效特征達(dá)到減少特征維數(shù)的目的,不但可以消除信息冗余,提高分類效率,加快運(yùn)算速度,而且還可以降低分類器的復(fù)雜性和分類錯(cuò)誤率。目前,特征選擇方法已廣泛應(yīng)用到圖像檢索、文本分類和基因分析等方面。然而當(dāng)前大多數(shù)特征選擇算法的選擇結(jié)果對于訓(xùn)練集的變化非常敏感,即算法穩(wěn)定性較差。對于給定的數(shù)據(jù)集,某個(gè)具體的特征選擇算法構(gòu)成的模型可以得到最好的分類準(zhǔn)確率,但當(dāng)訓(xùn)練數(shù)據(jù)集發(fā)生變化時(shí),特征選擇算法需要重新訓(xùn)練才能有較好的分類結(jié)果。這種過擬合現(xiàn)象與特征選擇方法及分類算法均有關(guān)。這個(gè)問題在高維小樣本數(shù)據(jù)集上尤為突出,具體表現(xiàn)為訓(xùn)練數(shù)據(jù)集即使只發(fā)生了稍微改變,得到的最優(yōu)特征子集也會(huì)出現(xiàn)較大的差異,分類模型的性能也會(huì)發(fā)生較大的變化。因此,為了提高分類性能的可信度,在對高維小樣本數(shù)據(jù)集降維的同時(shí),我們需要選用穩(wěn)定性高的特征選擇算法。技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的技術(shù)問題是如何克服現(xiàn)有技術(shù)的上述缺陷,基于聚類和信息融合的思想,提出一種新穎的特征選擇方法——基于多準(zhǔn)則融合的多項(xiàng)式核支持向量機(jī)(MCF-PSVM),并以此為基礎(chǔ),提供一種多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法。為解決上述技術(shù)問題,本多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法包括以下步驟:步驟1):初始化樣本數(shù)據(jù)集并對其進(jìn)行聚類;步驟2):用FisherRatio方法與ReliefF法,分別對完成聚類的樣本進(jìn)行特征選?。徊襟E3):融合特征選擇結(jié)果并對各個(gè)類加以不同的懲罰因子,然后采用融合結(jié)果訓(xùn)練PSVM分類器;步驟4):采用完成訓(xùn)練的分類器對樣本數(shù)據(jù)集進(jìn)行回歸,并剔除相關(guān)性最小的特征,更新樣本數(shù)據(jù)集;步驟5):判斷編碼是否結(jié)束;如果是,則結(jié)束迭代;如果否,則重復(fù)步驟2~4,直到實(shí)現(xiàn)特征選擇。作為進(jìn)一步具體說明:步驟1)所述聚類具體方法為,采用k-均值聚類方法對訓(xùn)練樣本進(jìn)行聚類,其中第k個(gè)群聚用集合Gk來表示,假設(shè)Gk包含n筆資料{x1,x2,…xn},k-均值聚類的任務(wù)便是找到一組m個(gè)代表點(diǎn)Y={y1,y2,…ym}使目標(biāo)函數(shù)越小越好,其中yk是的Gk聚類中心,聚類的數(shù)目采用實(shí)驗(yàn)的方法確定。作為進(jìn)一步具體說明:步驟3)所述PSVM分類器為多項(xiàng)式核支持向量機(jī)分類器,其具體算法為,max12Σi=1lai-Σi,j=1laiaj(x·y+1)dyiyjs.t.Σi=1laiyi=0,0≤ai≤Cclass1,ClassIndex=class1;0≤ai≤Cclass2,ClassIndex=class2;.......0≤ai≤CclassN,ClassIndex=classN;Ci=li+,...,li-1,li+1...,+lnl1+,...,+ln]]>其中,a是拉格朗日乘子,class1,…,classN指聚類后的類別,classIndex指類別的標(biāo)記,l1,l2,…ln指每類中的樣本點(diǎn)數(shù)目,Ci表示每類的懲罰因子。作為優(yōu)化選擇:步驟1)所述k的值為8。如此設(shè)計(jì)的理論在于:以往的研究中,往往只對單一特征選擇算法進(jìn)行魯棒性、穩(wěn)定性的研究,對多種特征選擇算法融合的研究比較少。MarinaSkurichina認(rèn)為特征選擇后那些未被選擇的特征中可能存在有用的信息。由于對這些特征的忽略可能會(huì)導(dǎo)致特征選擇及模式識(shí)別的性能變差,建議使用融合的方法對被忽略特征中的有用信息進(jìn)行利用。但是并不是所有的特征選擇準(zhǔn)則都能進(jìn)行融合。如果兩種特征選擇的準(zhǔn)則相似,那么這兩種準(zhǔn)則的融合對于提高選擇算法的穩(wěn)定性作用不大。因此我們在選取特征選擇準(zhǔn)則時(shí),準(zhǔn)則的多樣性是必須考慮的問題。特性互異的準(zhǔn)則既可以相互補(bǔ)充又可以避免發(fā)生重疊。顯然,我們沒有必要也不可能對所有的特征選擇準(zhǔn)則進(jìn)行融合。為了簡化計(jì)算,降低計(jì)算量,同時(shí)達(dá)到保證選擇準(zhǔn)則多樣性的目的,本發(fā)明選取FisherRatio方法與ReliefF法的選擇準(zhǔn)則進(jìn)行融合。FisherRatio方法屬于特征選擇Filter類中的一種基本方法,它的評估標(biāo)準(zhǔn)直接由數(shù)據(jù)集求得,具有計(jì)算代價(jià)小,效率高等特點(diǎn)。ReliefF則是一種權(quán)值搜索的特征子集選擇方法。考慮到多項(xiàng)式核支持向量機(jī)(PolynomialSupportVectorMachine,PSVM)是一種新的基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,它具有很強(qiáng)大的容錯(cuò)能力和泛化能力。研究表明,PSVM的泛化能力不會(huì)隨著階數(shù)的增加而降低。它克服了傳統(tǒng)機(jī)器學(xué)習(xí)中過學(xué)習(xí)、欠學(xué)習(xí)、局部最小值、維數(shù)災(zāi)難等問題。所以本發(fā)明選取多項(xiàng)式核支持向量機(jī)作為特征選擇的分類器。在對大量數(shù)據(jù)進(jìn)行模式分類和時(shí)間序列預(yù)測時(shí),如何提高算法數(shù)據(jù)處理的實(shí)時(shí)性,縮短樣本的訓(xùn)練時(shí)間,仍是亟待解決的問題。k-均值聚類作為機(jī)器學(xué)習(xí)領(lǐng)域中最具代表性的分類方法之一,它的特點(diǎn)是在大量高維的資料點(diǎn)中找出具有代表性的資料點(diǎn)作為群中心,用這些少數(shù)點(diǎn)代表特定類別的資料,降低資料量及計(jì)算量,避免其他無關(guān)信息的影響,最終可提高特征選擇的速度和效率。本多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法,首先對樣本數(shù)據(jù)進(jìn)行預(yù)處理并將其聚合成K類;然后采用兩種特性各異的特征選擇方法對完成聚類的樣本數(shù)據(jù)集進(jìn)行特征選擇;為了保證特征選擇的穩(wěn)定性,同時(shí)達(dá)到平衡樣本分布,降低訓(xùn)練的資料量及計(jì)算量的目的,該方法接著對各類數(shù)據(jù)樣本加以不同的懲罰因子并將前一步驟得到的特征選擇結(jié)果進(jìn)行融合用以訓(xùn)練PSVM分類器;其次采用完成訓(xùn)練的分類器對樣本數(shù)據(jù)集進(jìn)行回歸,剔除相關(guān)性最小的特征;最后對數(shù)據(jù)集進(jìn)行特征重組,實(shí)現(xiàn)特征選擇。其有益效果在于,應(yīng)用于高維小樣本數(shù)據(jù)選擇領(lǐng)域,顯著的加快了特征選擇的速度和效率,并大大提高了特征選擇結(jié)果的穩(wěn)定性。附圖說明下面結(jié)合附圖對本發(fā)明本多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法進(jìn)一步說明:圖1是對照例中四種方法在進(jìn)行特征選擇時(shí)的識(shí)別誤差;圖2是對照例中四種方法的AUC值;圖3是對照例中四種方法的標(biāo)準(zhǔn)差;圖4是種方法的穩(wěn)定性度量的對比圖;具體實(shí)施方式實(shí)施例:本多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法包括以下步驟:步驟1):步驟1)所述聚類具體方法為,采用k-均值聚類方法對訓(xùn)練樣本進(jìn)行聚類,其中第k個(gè)群聚用集合Gk來表示,假設(shè)Gk包含n筆資料{x1,x2,…xn},k-均值聚類的任務(wù)便是找到一組m個(gè)代表點(diǎn)Y={y1,y2,…ym}使目標(biāo)函數(shù)越小越好,其中yk是的Gk聚類中心,聚類的數(shù)目采用實(shí)驗(yàn)的方法確定。本實(shí)施例所述k的值為8。步驟2):用FisherRatio方法與ReliefF法,分別對完成聚類的樣本進(jìn)行特征選取;步驟3):融合特征選擇結(jié)果并對各個(gè)類加以不同的懲罰因子,然后采用融合結(jié)果訓(xùn)練PSVM分類器;所述PSVM分類器為多項(xiàng)式核支持向量機(jī)分類器,其具體算法為,max12Σi=1lai-Σi,j=1laiaj(x·y+1)dyiyjs.t.Σi=1laiyi=0,0≤ai≤Cclass1,ClassIndex=class1;0≤ai≤Cclass2,ClassIndex=class2;.......0≤ai≤CclassN,ClassIndex=classN;Ci=li+,...,li-1,li+1...,+lnl1+,...,+ln]]>其中,a是拉格朗日乘子,class1,…,classN指聚類后的類別,classIndex指類別的標(biāo)記,l1,l2,…ln指每類中的樣本點(diǎn)數(shù)目,Ci表示每類的懲罰因子。步驟4):采用完成訓(xùn)練的分類器對樣本數(shù)據(jù)集進(jìn)行回歸,并剔除相關(guān)性最小的特征,更新樣本數(shù)據(jù)集;步驟5):判斷編碼是否結(jié)束;如果是,則結(jié)束迭代;若果否,則重復(fù)步驟2~4,直到實(shí)現(xiàn)特征選擇。對照例:本對照例采用普林斯頓大學(xué)提供的結(jié)腸癌數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn)。該數(shù)據(jù)集包含62個(gè)樣本,其中22個(gè)為正常樣本,40個(gè)為腫瘤樣本,每個(gè)樣本包含有2000個(gè)基因,這2000個(gè)基因是Alon等根據(jù)一定的準(zhǔn)則從原始數(shù)據(jù)6500個(gè)基因中挑選出來的具有代表性的基因。針對該高維小樣本數(shù)據(jù)集,本對照例將從識(shí)別誤差、AUC值、標(biāo)準(zhǔn)差以及穩(wěn)定性等四個(gè)方面對本實(shí)施例提出方法、FisherRatio方法、ReliefF以及PSVM做特征提取性能評價(jià)。如圖1所示:本實(shí)施例所提出方法的特征識(shí)別精度優(yōu)于其他三種方法,它僅提取了150個(gè)特征便實(shí)現(xiàn)了最低的識(shí)別誤差,此時(shí)的識(shí)別誤差為12.96%。而FisherRatio方法,ReliefF以及PSVM在提取到第150個(gè)特征時(shí),它們各自的識(shí)別誤差分別為14.70%,14.73%,15.93%。本對照例考慮到,ROC曲線下的面積(AUC)通常會(huì)被用來度量分類性能。AUC值越大,表示分類性能越好。故本對照例在進(jìn)行仿真實(shí)驗(yàn)時(shí)采用AUC來評價(jià)幾種特征選擇方法的分類性能。如圖2所示,結(jié)合圖1所示的各個(gè)方法的識(shí)別誤差值可以看出,當(dāng)提取到150個(gè)特征時(shí),本實(shí)施例提出方法的AUC值大于其它三種方法,表明在對特征實(shí)現(xiàn)最精確選擇時(shí),MCF-PSVM的分類性能也同時(shí)優(yōu)于其他三種方法。如圖3所示,通過分析該仿真結(jié)果可知,本實(shí)施例提出方法的性能優(yōu)于其它三種特征提取方法。當(dāng)提取到第150個(gè)特征時(shí),本實(shí)施例方法的標(biāo)準(zhǔn)差僅為0.0446。而識(shí)別精度僅次于本實(shí)施例提出方法的RliefF,它的標(biāo)準(zhǔn)差此時(shí)為0.050;FisherRatio方法的標(biāo)準(zhǔn)差為0.0451;PSVM的最大,達(dá)到了0.0561。如圖3所示,通過分析該仿真結(jié)果可知,本實(shí)施例所提出方法的穩(wěn)定性優(yōu)于多項(xiàng)式核支持向量機(jī)和ReliefF方法,但較FisherRatio方法差。這是因?yàn)楸緦?shí)施例提出的算法是一種嵌入式的特征選擇算法。與FisherRatio方法相比,它在進(jìn)行特征選擇時(shí)更加充分地考慮了特征之間的依賴性,這樣處理的結(jié)果是可以更加精確地提取特征,實(shí)現(xiàn)模式的識(shí)別。圖1中的前三個(gè)仿真結(jié)果也充分證實(shí)了這一點(diǎn)。而ReliefF作為一種filter式的特征選擇方法,它在進(jìn)行特征選擇時(shí)雖然也考慮了特征之間的相關(guān)性,但它的特征選擇穩(wěn)定性明顯低于本如圖3所示,提出的方法。與PSVM相比,仿真結(jié)果表明,如圖3所示,所提方法的穩(wěn)定性明顯優(yōu)于前者。值得一提的是,在評價(jià)一個(gè)特征選擇方法的性能時(shí),我們需要綜合考慮方法對于特征識(shí)別的精度、效率及穩(wěn)定性?;诖瞬⒔Y(jié)合以上仿真分析結(jié)果,我們可以得出結(jié)論:在對高維小樣本數(shù)據(jù)進(jìn)行特征選擇時(shí),本實(shí)施例提出的MCF-PSVM方法其綜合性能優(yōu)于其它三種方法。上述實(shí)施方式旨在舉例說明本發(fā)明可為本領(lǐng)域?qū)I(yè)技術(shù)人員實(shí)現(xiàn)或使用,對上述實(shí)施方式進(jìn)行修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,故本發(fā)明包括但不限于上述實(shí)施方式,任何符合本權(quán)利要求書或說明書描述,符合與本發(fā)明所公開的原理和新穎性、創(chuàng)造性特點(diǎn)的方法,均落入本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3