本發(fā)明屬于分析化學和光譜學領域,具體涉及基于蒙特卡洛變量組合集群的近紅外光譜變量選擇方法
技術背景
近紅外的光譜頻段為780nm~2500nm,光譜信息源來源于有機物的含氫基團的倍頻和合頻吸收,近紅外光譜分析技術能夠廣泛的應用與物質的定性分析和定量分析領域,因此該項技術被譽為“具有提高全球農(nóng)業(yè)分析能力的潛力技術”。由于近紅外光譜具有上百個光譜波段,當儀器采集這些波段時除了樣品自身的信息以外還包含了大量的外界信息,如噪音、樣品背景干擾等。所以在分析研究中,變量選擇對數(shù)據(jù)分析和建模有著及其重要的影響。進行變量選擇,實際就是對變量的重要性來進行合理評價。
現(xiàn)在,國內外主要應用的變量選擇方法有蒙特卡羅無信息變量刪除法(montecarlobaseduve,mc-uve,參見w-scai,y–kli,x-gshao,avariableselectionmethodbasedonuninformativevariableeliminationformultivariatecalibrationofnear-infraredspectra[j],chemometr,intell.lab.syst.2008,90,188-194)、遺傳學算法(geneticalgorithm,ga,參見leardir,gonzalezal,geneticalgorithmsappliedtofeatureselectioninplsregression:howandwhentousethem,chemomintelllabsyst,1998,41,195-207)、隨機蛙跳算法(randomfrog,rf,參見朱逢樂何勇邵詠妮應用近紅外高光譜成像預測三文魚肉的水分含量光譜學與光譜分析2015-1,113-117)、迭代保留有信息變量法(iterativelyretainsinformativevariablesiriv,參見yong-huanyun,wei-tingwang,min-litan,yi-zengliang,hong-dongli,dong-shengcao,hong-meilu,qing-songxu,astrategythatiterativelyretainsinformativevariablesforselectingoptimalvariablesubsetinmultivariatecalibration,anal.chim.acta,2014,807,36-45)、競爭自適應重采樣方法(cars,參見h-dli,y-zliang,q-sxu,d-scao,keywavelengthsscreeningusingcompetitiveadaptivereweightedsamplingmethodformultivariatecalibration,anal.chim.acta,2009,648,77-84)、變量組合集群分析法(variablecombinationpopulationanalysisvcpa,參見yong-huanyun,wei-tingwang,bai-chuandeng,guang-bilai,xin-boliu,da-bingren,yi-zengliang,weifan,qing-songxu,usingvariablecombinationpopulationanalysisforvariableselectioninmultivariatecalibration,anal.chimacta,2015,862,14-23)]等。
雖然以上幾種方法在近紅外領域被大量的運用,但是在科研實踐中,由于所收集的樣本數(shù)一般不可能太多,會出現(xiàn)樣本少變量多的情況,而且會有大量的無信息變量和干擾變量夾入,所以上述幾種變量選擇方法不僅難以實現(xiàn)所有的變量組合,而且還會受到大量的無信息變量和干擾變量的影響。也是由于任何為建模收集的樣本數(shù)總不足以完全表達總體信息,所以由上述幾種只對變量空間進行采樣的變量選擇方法所得到的如變量重要性等參數(shù)會存在著很大的不確定性因素,樣本產(chǎn)生波動勢必會對變量的重要性分布產(chǎn)生一定的影響,這會影響模型的預測性能。
技術實現(xiàn)要素:
為了克服現(xiàn)有技術的不足,本發(fā)明提出了基于蒙特卡洛變量組合集群的近紅外光譜變量選擇方法。該方法不僅通過bms實現(xiàn)對變量空間的采樣,同時還通過了mcs實現(xiàn)了對樣本空間的采樣,避免了樣本集合變化對變量選擇結果的影響。
具體步驟如下:
a運用蒙特卡洛采樣方法對校正集樣本進行隨機采樣,每次采樣80%的樣本作為樣本子集,采樣m次得到m組不同的樣本子集,m值為50;
b針對每個樣本子集首先運用二進制矩陣采樣方法對其變量空間進行變量采樣,采樣k次得到k組不同的變量合集,k值為1000,運用偏最小二乘法建立每個變量合集的模型,得到每個變量合集的交互檢驗均方根誤差;
c針對每個樣本合集,選取其均方根誤差最小的前θ×k組變量子集作為每個樣本子集的變量子集,其中θ為10%,θ×k為100,統(tǒng)計每個變量子集中每個光譜變量出現(xiàn)的頻率,運用指數(shù)衰減函數(shù)刪除那些出現(xiàn)頻率較小的變量;
d步驟b~步驟c過程迭代n次,n值為50,最后每個樣本子集中只剩下l個光譜變量,l的數(shù)值為14,計算出每個樣本子集中l(wèi)個變量之間所有變量組合的均方根誤差,其值最小的變量組合為每個樣本子集的特征變量;
e保留所有樣本子集中的特征變量,最后通過對所保留的變量重復二進制矩陣采樣法變量采樣、變量子集選取和指數(shù)衰減函數(shù)刪除貢獻小變量,此過程迭代n1次,n1值為200,最后剩余l(xiāng)個變量,計算出每個樣本子集中l(wèi)個變量之間所有變量組合的均方根誤差,其值最小的變量組合為最終蒙特卡洛變量組合集群分析法特征變量選取結果。
步驟d中指數(shù)衰減函數(shù)變量刪除的變量保留率計算公式為:
rn=e-θ×n(1)
rn:指數(shù)衰減函數(shù)運行n次時變量保留率;θ:曲線控制參數(shù),它與指數(shù)衰減函數(shù)的執(zhí)行次數(shù)有關,指數(shù)衰減函數(shù)執(zhí)行的次數(shù)越多,其θ值越小。n
:指數(shù)衰減函數(shù)的執(zhí)行次數(shù),曲線控制參數(shù)的計算公式為:
公式(2)中p為指數(shù)衰減函數(shù)執(zhí)行n-1次后所保留的變量數(shù)目,l為指數(shù)衰減函數(shù)運行結束之后剩余變量數(shù)目。
與目前國內外現(xiàn)有的變量選擇方法相比,本發(fā)明同時實現(xiàn)了對樣本空間和變量空間的采樣,極大的降低了模型對于收集樣本數(shù)量的依賴性,克服了由于樣本中的無信息變量和干擾變量加入影響模型預測穩(wěn)定性的技術缺陷,避免了樣本集合變化對變量選擇結果的影響,顯著提高了預測模型的穩(wěn)定性和可靠性。
附圖說明
下面結合附圖及實施方式對本發(fā)明作進一步說明:
圖1為蒙特卡洛變量組合集群分析法的算法流程圖
圖2為小麥近紅外光譜圖
圖3為bms采樣次數(shù)與預測均方根誤差分布圖
圖4為edf采樣次數(shù)與預測均方根誤差分布圖
圖5為wtp-mc-vcpa-pls模型預測集的預測值與實際值的散點圖
具體實施方式
實施方案一:為了證明本發(fā)明的適用性,結合實例進行詳細的說明。但是本發(fā)明也可以應用于本次所采用的實例之外的光譜數(shù)據(jù)。
圖1是本發(fā)明提供的基于蒙特卡洛變量組合集群的近紅外光譜變量選擇方法(mc-vcpa)算法的流程圖,可見,本發(fā)明具體包括以下步驟:
(1)本次研究所使用的93個小麥本和小麥蛋白化學數(shù)據(jù)來源于國家糧食局北京方孚德研究中心,運用德國卡爾蔡司的mcs611nir光纖光譜儀每個小麥樣本的近紅外光譜,其光譜范圍為950~1690nm,每個實驗樣品采集3條光,取其吸光度平均值。運用小波包(wtp)消除光譜中的噪聲信號。本次研究所用的分類方法為kennard-stone(k-s)算法,運用k-s將93個小麥本分61個建模集本和32個集本,原始小麥近紅外光譜圖如圖2所示。
(2)運用蒙特卡洛采樣方法對校正集樣本進行隨機采樣,每次采樣80%的樣本作為樣本子集,采樣50次得到50組不同的樣本子集。
(3)針對每個樣本子集首先運用二進制矩陣采樣方法(bms)對其變量空間進行變量采樣,采樣1000次得到1000組不同的變量子集。運用偏最小二乘法(pls)建立每個變量子集的模型,得到每個變量子集的交互檢驗均方根誤差(rmsecv)。
(4)針對每個樣本子集,選取其rmsecv最小的前10%×1000組變量子集作為每個樣本子集的優(yōu)秀變量子集,統(tǒng)計每個優(yōu)秀變量子集中每個光譜變量出現(xiàn)的頻率,運用指數(shù)衰減函數(shù)(edf)刪除那些出現(xiàn)頻率較小的變量保留率計算公式如下所示。
rn=e-θ×n(1)
rn:edf運行n次時變量保留率;θ:曲線控制參數(shù),它與edf的執(zhí)行次數(shù)有關,edf執(zhí)行的次數(shù)越多,其θ值越小。n:edf的執(zhí)行次數(shù)。曲線控制參數(shù)的計算公式為
上述公式中p為edf執(zhí)行n-1次后所保留的變量數(shù)目,l為edf運行結束之后剩余變量數(shù)目。
(5)在步驟(3)~步驟(4)過程迭代50次,最后每個樣本子集中只剩下14個光譜變量,計算出每個樣本子集中14個變量之間所有變量組合的rmsecv,其值最小的變量組合為每個樣本子集的特征變量。
(6)保留所有樣本子集中的特征變量如圖3,設置新的bms采樣參數(shù)和edf迭代參數(shù)(bms=200,edf=200),最后通過對所保留的變量重復bms變量采樣、優(yōu)秀變量子集選取和edf刪除貢獻小變量,此過程迭代200次,最后剩余14個變量,計算出每個樣本子集中14個變量之間所有變量組合的rmsecv,其值最小的變量組合為最終mc-vcpa的特征變量選取結果,最終選取的特征變量為954.51nm,1002.71nm,1013.61nm,1118.38nm,1138.49nm,1148.45nm,1203.74nm,1229.12nm,1405.60nm,1612.50nm,其分布如圖4所示。
(7)將mc-vcpa選取的特征變量結合pls建立小麥蛋白質預測模型,預測集的實際值月真實值之間的散點圖分布如圖5所示。
為了驗證本發(fā)明的優(yōu)越性,將mc-vcpa與ga、rf、iriv、cars、mc–uve、vcpa變量選擇結果相對比,運用pls建立小麥蛋白質含量預測模型,每種建模方法的結果如表1所示,
表1小麥蛋白質含量預測結果比較
本發(fā)明實施方式說明到此結束。