多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法與流程

文檔序號：11952119閱讀：870來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法與流程

本發(fā)明涉及一種特種選擇方法，特別涉及一種多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法。
背景技術(shù)：
：特征選擇是模式識(shí)別領(lǐng)域的核心問題之一，其研究得到了世界各國學(xué)者的重視。特征選擇算法通過合理選擇有效特征達(dá)到減少特征維數(shù)的目的，不但可以消除信息冗余，提高分類效率，加快運(yùn)算速度，而且還可以降低分類器的復(fù)雜性和分類錯(cuò)誤率。目前，特征選擇方法已廣泛應(yīng)用到圖像檢索、文本分類和基因分析等方面。然而當(dāng)前大多數(shù)特征選擇算法的選擇結(jié)果對于訓(xùn)練集的變化非常敏感，即算法穩(wěn)定性較差。對于給定的數(shù)據(jù)集，某個(gè)具體的特征選擇算法構(gòu)成的模型可以得到最好的分類準(zhǔn)確率，但當(dāng)訓(xùn)練數(shù)據(jù)集發(fā)生變化時(shí)，特征選擇算法需要重新訓(xùn)練才能有較好的分類結(jié)果。這種過擬合現(xiàn)象與特征選擇方法及分類算法均有關(guān)。這個(gè)問題在高維小樣本數(shù)據(jù)集上尤為突出，具體表現(xiàn)為訓(xùn)練數(shù)據(jù)集即使只發(fā)生了稍微改變，得到的最優(yōu)特征子集也會(huì)出現(xiàn)較大的差異，分類模型的性能也會(huì)發(fā)生較大的變化。因此，為了提高分類性能的可信度，在對高維小樣本數(shù)據(jù)集降維的同時(shí)，我們需要選用穩(wěn)定性高的特征選擇算法。技術(shù)實(shí)現(xiàn)要素：本發(fā)明要解決的技術(shù)問題是如何克服現(xiàn)有技術(shù)的上述缺陷，基于聚類和信息融合的思想，提出一種新穎的特征選擇方法——基于多準(zhǔn)則融合的多項(xiàng)式核支持向量機(jī)(MCF-PSVM)，并以此為基礎(chǔ)，提供一種多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法。為解決上述技術(shù)問題，本多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法包括以下步驟：步驟1)：初始化樣本數(shù)據(jù)集并對其進(jìn)行聚類；步驟2)：用FisherRatio方法與ReliefF法，分別對完成聚類的樣本進(jìn)行特征選?。徊襟E3)：融合特征選擇結(jié)果并對各個(gè)類加以不同的懲罰因子，然后采用融合結(jié)果訓(xùn)練PSVM分類器；步驟4)：采用完成訓(xùn)練的分類器對樣本數(shù)據(jù)集進(jìn)行回歸，并剔除相關(guān)性最小的特征，更新樣本數(shù)據(jù)集；步驟5)：判斷編碼是否結(jié)束；如果是，則結(jié)束迭代；如果否，則重復(fù)步驟2～4，直到實(shí)現(xiàn)特征選擇。作為進(jìn)一步具體說明：步驟1)所述聚類具體方法為，采用k-均值聚類方法對訓(xùn)練樣本進(jìn)行聚類，其中第k個(gè)群聚用集合Gk來表示，假設(shè)Gk包含n筆資料{x1,x2,…xn}，k-均值聚類的任務(wù)便是找到一組m個(gè)代表點(diǎn)Y＝{y1,y2,…ym}使目標(biāo)函數(shù)越小越好，其中yk是的Gk聚類中心，聚類的數(shù)目采用實(shí)驗(yàn)的方法確定。作為進(jìn)一步具體說明：步驟3)所述PSVM分類器為多項(xiàng)式核支持向量機(jī)分類器，其具體算法為，max12Σi=1lai-Σi,j=1laiaj(x·y+1)dyiyjs.t.Σi=1laiyi=0,0≤ai≤Cclass1,ClassIndex=class1;0≤ai≤Cclass2,ClassIndex=class2;.......0≤ai≤CclassN,ClassIndex=classN;Ci=li+,...,li-1,li+1...,+lnl1+,...,+ln]]>其中，a是拉格朗日乘子，class1，…，classN指聚類后的類別，classIndex指類別的標(biāo)記，l1,l2,…ln指每類中的樣本點(diǎn)數(shù)目，Ci表示每類的懲罰因子。作為優(yōu)化選擇：步驟1)所述k的值為8。如此設(shè)計(jì)的理論在于：以往的研究中，往往只對單一特征選擇算法進(jìn)行魯棒性、穩(wěn)定性的研究，對多種特征選擇算法融合的研究比較少。MarinaSkurichina認(rèn)為特征選擇后那些未被選擇的特征中可能存在有用的信息。由于對這些特征的忽略可能會(huì)導(dǎo)致特征選擇及模式識(shí)別的性能變差，建議使用融合的方法對被忽略特征中的有用信息進(jìn)行利用。但是并不是所有的特征選擇準(zhǔn)則都能進(jìn)行融合。如果兩種特征選擇的準(zhǔn)則相似，那么這兩種準(zhǔn)則的融合對于提高選擇算法的穩(wěn)定性作用不大。因此我們在選取特征選擇準(zhǔn)則時(shí)，準(zhǔn)則的多樣性是必須考慮的問題。特性互異的準(zhǔn)則既可以相互補(bǔ)充又可以避免發(fā)生重疊。顯然，我們沒有必要也不可能對所有的特征選擇準(zhǔn)則進(jìn)行融合。為了簡化計(jì)算，降低計(jì)算量，同時(shí)達(dá)到保證選擇準(zhǔn)則多樣性的目的，本發(fā)明選取FisherRatio方法與ReliefF法的選擇準(zhǔn)則進(jìn)行融合。FisherRatio方法屬于特征選擇Filter類中的一種基本方法，它的評估標(biāo)準(zhǔn)直接由數(shù)據(jù)集求得，具有計(jì)算代價(jià)小，效率高等特點(diǎn)。ReliefF則是一種權(quán)值搜索的特征子集選擇方法。考慮到多項(xiàng)式核支持向量機(jī)(PolynomialSupportVectorMachine,PSVM)是一種新的基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,它具有很強(qiáng)大的容錯(cuò)能力和泛化能力。研究表明，PSVM的泛化能力不會(huì)隨著階數(shù)的增加而降低。它克服了傳統(tǒng)機(jī)器學(xué)習(xí)中過學(xué)習(xí)、欠學(xué)習(xí)、局部最小值、維數(shù)災(zāi)難等問題。所以本發(fā)明選取多項(xiàng)式核支持向量機(jī)作為特征選擇的分類器。在對大量數(shù)據(jù)進(jìn)行模式分類和時(shí)間序列預(yù)測時(shí)，如何提高算法數(shù)據(jù)處理的實(shí)時(shí)性，縮短樣本的訓(xùn)練時(shí)間，仍是亟待解決的問題。k-均值聚類作為機(jī)器學(xué)習(xí)領(lǐng)域中最具代表性的分類方法之一，它的特點(diǎn)是在大量高維的資料點(diǎn)中找出具有代表性的資料點(diǎn)作為群中心，用這些少數(shù)點(diǎn)代表特定類別的資料，降低資料量及計(jì)算量，避免其他無關(guān)信息的影響，最終可提高特征選擇的速度和效率。本多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法，首先對樣本數(shù)據(jù)進(jìn)行預(yù)處理并將其聚合成K類；然后采用兩種特性各異的特征選擇方法對完成聚類的樣本數(shù)據(jù)集進(jìn)行特征選擇；為了保證特征選擇的穩(wěn)定性，同時(shí)達(dá)到平衡樣本分布，降低訓(xùn)練的資料量及計(jì)算量的目的，該方法接著對各類數(shù)據(jù)樣本加以不同的懲罰因子并將前一步驟得到的特征選擇結(jié)果進(jìn)行融合用以訓(xùn)練PSVM分類器；其次采用完成訓(xùn)練的分類器對樣本數(shù)據(jù)集進(jìn)行回歸，剔除相關(guān)性最小的特征；最后對數(shù)據(jù)集進(jìn)行特征重組，實(shí)現(xiàn)特征選擇。其有益效果在于，應(yīng)用于高維小樣本數(shù)據(jù)選擇領(lǐng)域，顯著的加快了特征選擇的速度和效率，并大大提高了特征選擇結(jié)果的穩(wěn)定性。附圖說明下面結(jié)合附圖對本發(fā)明本多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法進(jìn)一步說明：圖1是對照例中四種方法在進(jìn)行特征選擇時(shí)的識(shí)別誤差；圖2是對照例中四種方法的AUC值；圖3是對照例中四種方法的標(biāo)準(zhǔn)差；圖4是種方法的穩(wěn)定性度量的對比圖；具體實(shí)施方式實(shí)施例：本多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法包括以下步驟：步驟1)：步驟1)所述聚類具體方法為，采用k-均值聚類方法對訓(xùn)練樣本進(jìn)行聚類，其中第k個(gè)群聚用集合Gk來表示，假設(shè)Gk包含n筆資料{x1,x2,…xn}，k-均值聚類的任務(wù)便是找到一組m個(gè)代表點(diǎn)Y＝{y1,y2,…ym}使目標(biāo)函數(shù)越小越好，其中yk是的Gk聚類中心，聚類的數(shù)目采用實(shí)驗(yàn)的方法確定。本實(shí)施例所述k的值為8。步驟2)：用FisherRatio方法與ReliefF法，分別對完成聚類的樣本進(jìn)行特征選取；步驟3)：融合特征選擇結(jié)果并對各個(gè)類加以不同的懲罰因子，然后采用融合結(jié)果訓(xùn)練PSVM分類器；所述PSVM分類器為多項(xiàng)式核支持向量機(jī)分類器，其具體算法為，max12Σi=1lai-Σi,j=1laiaj(x·y+1)dyiyjs.t.Σi=1laiyi=0,0≤ai≤Cclass1,ClassIndex=class1;0≤ai≤Cclass2,ClassIndex=class2;.......0≤ai≤CclassN,ClassIndex=classN;Ci=li+,...,li-1,li+1...,+lnl1+,...,+ln]]>其中，a是拉格朗日乘子，class1，…，classN指聚類后的類別，classIndex指類別的標(biāo)記，l1,l2,…ln指每類中的樣本點(diǎn)數(shù)目，Ci表示每類的懲罰因子。步驟4)：采用完成訓(xùn)練的分類器對樣本數(shù)據(jù)集進(jìn)行回歸，并剔除相關(guān)性最小的特征，更新樣本數(shù)據(jù)集；步驟5)：判斷編碼是否結(jié)束；如果是，則結(jié)束迭代；若果否，則重復(fù)步驟2～4，直到實(shí)現(xiàn)特征選擇。對照例：本對照例采用普林斯頓大學(xué)提供的結(jié)腸癌數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn)。該數(shù)據(jù)集包含62個(gè)樣本，其中22個(gè)為正常樣本，40個(gè)為腫瘤樣本，每個(gè)樣本包含有2000個(gè)基因，這2000個(gè)基因是Alon等根據(jù)一定的準(zhǔn)則從原始數(shù)據(jù)6500個(gè)基因中挑選出來的具有代表性的基因。針對該高維小樣本數(shù)據(jù)集，本對照例將從識(shí)別誤差、AUC值、標(biāo)準(zhǔn)差以及穩(wěn)定性等四個(gè)方面對本實(shí)施例提出方法、FisherRatio方法、ReliefF以及PSVM做特征提取性能評價(jià)。如圖1所示：本實(shí)施例所提出方法的特征識(shí)別精度優(yōu)于其他三種方法，它僅提取了150個(gè)特征便實(shí)現(xiàn)了最低的識(shí)別誤差，此時(shí)的識(shí)別誤差為12.96％。而FisherRatio方法，ReliefF以及PSVM在提取到第150個(gè)特征時(shí)，它們各自的識(shí)別誤差分別為14.70％，14.73％，15.93％。本對照例考慮到，ROC曲線下的面積(AUC)通常會(huì)被用來度量分類性能。AUC值越大,表示分類性能越好。故本對照例在進(jìn)行仿真實(shí)驗(yàn)時(shí)采用AUC來評價(jià)幾種特征選擇方法的分類性能。如圖2所示，結(jié)合圖1所示的各個(gè)方法的識(shí)別誤差值可以看出，當(dāng)提取到150個(gè)特征時(shí)，本實(shí)施例提出方法的AUC值大于其它三種方法，表明在對特征實(shí)現(xiàn)最精確選擇時(shí)，MCF-PSVM的分類性能也同時(shí)優(yōu)于其他三種方法。如圖3所示，通過分析該仿真結(jié)果可知，本實(shí)施例提出方法的性能優(yōu)于其它三種特征提取方法。當(dāng)提取到第150個(gè)特征時(shí)，本實(shí)施例方法的標(biāo)準(zhǔn)差僅為0.0446。而識(shí)別精度僅次于本實(shí)施例提出方法的RliefF，它的標(biāo)準(zhǔn)差此時(shí)為0.050；FisherRatio方法的標(biāo)準(zhǔn)差為0.0451；PSVM的最大，達(dá)到了0.0561。如圖3所示，通過分析該仿真結(jié)果可知，本實(shí)施例所提出方法的穩(wěn)定性優(yōu)于多項(xiàng)式核支持向量機(jī)和ReliefF方法，但較FisherRatio方法差。這是因?yàn)楸緦?shí)施例提出的算法是一種嵌入式的特征選擇算法。與FisherRatio方法相比，它在進(jìn)行特征選擇時(shí)更加充分地考慮了特征之間的依賴性，這樣處理的結(jié)果是可以更加精確地提取特征，實(shí)現(xiàn)模式的識(shí)別。圖1中的前三個(gè)仿真結(jié)果也充分證實(shí)了這一點(diǎn)。而ReliefF作為一種filter式的特征選擇方法，它在進(jìn)行特征選擇時(shí)雖然也考慮了特征之間的相關(guān)性，但它的特征選擇穩(wěn)定性明顯低于本如圖3所示，提出的方法。與PSVM相比，仿真結(jié)果表明，如圖3所示，所提方法的穩(wěn)定性明顯優(yōu)于前者。值得一提的是，在評價(jià)一個(gè)特征選擇方法的性能時(shí)，我們需要綜合考慮方法對于特征識(shí)別的精度、效率及穩(wěn)定性?；诖瞬⒔Y(jié)合以上仿真分析結(jié)果，我們可以得出結(jié)論：在對高維小樣本數(shù)據(jù)進(jìn)行特征選擇時(shí)，本實(shí)施例提出的MCF-PSVM方法其綜合性能優(yōu)于其它三種方法。上述實(shí)施方式旨在舉例說明本發(fā)明可為本領(lǐng)域?qū)I(yè)技術(shù)人員實(shí)現(xiàn)或使用，對上述實(shí)施方式進(jìn)行修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的，故本發(fā)明包括但不限于上述實(shí)施方式，任何符合本權(quán)利要求書或說明書描述，符合與本發(fā)明所公開的原理和新穎性、創(chuàng)造性特點(diǎn)的方法，均落入本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：江竹;雷震宇;
技術(shù)所有人：西華大學(xué);
我是此專利的發(fā)明人

上一篇：一種粉末色料磨輥用刷洗驅(qū)動(dòng)裝置的制作方法
上一篇：圖像識(shí)別回調(diào)通知的方法和裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

高維小樣本相關(guān)技術(shù)

高維特征相關(guān)技術(shù)

高維特征空間相關(guān)技術(shù)

gbdt高維稀疏特征相關(guān)技術(shù)

高維特征可視化相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

多準(zhǔn)則融合應(yīng)用于高維小樣本數(shù)據(jù)特征選擇的方法與流程