一種基于近紅外定性分析的種子品種真實性鑒別方法
【專利摘要】本發(fā)明公開了一種基于近紅外定性分析的種子品種真實性鑒別方法,該方法包括:采集種子樣本的近紅外光譜數(shù)據(jù),并確定建模集和測試集;對建模集和測試集依次進行預處理、偏最小二乘特征提取和線性鑒別分析特征提取;從建模集和測試集中選取光譜校正集,并計算建模集與測試集之間的變換矩陣;將該變換矩陣應用于剩余測試集;采用支持向量機方法建立定性分析模型;利用該定性分析模型對剩余測試集進行品種真實性鑒別。本發(fā)明建立在近紅外光譜基礎上,通過光譜預處理、特征提取、校正測試集、建模、鑒別等一系列操作,建立更為穩(wěn)定的近紅外光譜分析模型,解決因同一臺儀器長時間的光譜偏移帶來的模型適用性問題,使鑒別結果更為準確。
【專利說明】一種基于近紅外定性分析的種子品種真實性鑒別方法
【技術領域】
[0001] 本發(fā)明涉及種子的品種鑒別領域,特別是一種基于近紅外定性分析的種子品種真 實性鑒別方法。
【背景技術】
[0002] 中國是農(nóng)業(yè)大國,農(nóng)業(yè)是安天下、穩(wěn)民心的戰(zhàn)略產(chǎn)業(yè)。"國以農(nóng)為本,農(nóng)以種為先", 種業(yè)安全是我國糧食安全的前提,是農(nóng)業(yè)安全的先決條件之一。然而,我國的種業(yè)市場不容 樂觀,品種侵權行為嚴重,假劣種子坑農(nóng)害農(nóng)事件時有發(fā)生。企業(yè)維權難,訴訟難,追賠難, 致使許多優(yōu)良品種遭受侵權,以至于形成育種的不如賣種的、搞科研的不如搞經(jīng)營的怪象。
[0003] 目前所采用的品種鑒別方法大體可分為以下三類:一)基于形態(tài)特性的鑒別方 法,主要包括種子形態(tài)鑒別、幼苗形態(tài)鑒別、田間種植鑒別和計算機模擬形態(tài)分析等方法; 二)基于分子生物學技術的鑒別方法,主要包括蛋白質(zhì)指紋圖譜和DNA指紋圖譜兩類鑒別 方法;三)基于化學、物理特性的鑒別方法,主要有苯酚染色法、氫氧化鈉染色法、氫氧化鉀 染色法、熒光掃描圖譜法等。
[0004] 以上方法均存在多種技術障礙:(1)鑒別時間長;(2)鑒別成本高;(3)過程煩瑣;
[4] 鑒別者需要專門技術知識;(5)鑒別需要特定的測試條件、化學試劑、器材等。因此,種 業(yè)市場缺乏有效的快速現(xiàn)場鑒別技術手段和設備,給農(nóng)業(yè)生產(chǎn)、管理執(zhí)法等帶來諸多困難, 難以有效保障種子安全與糧食安全。
[0005] 近紅外光譜是基于物質(zhì)對近紅外譜區(qū)電磁波吸收的一種光譜技術,由于近紅外光 譜分析技術具有簡便、快捷、低成本、無污染以及不破壞樣品等優(yōu)點,因此被廣泛應用于多 個行業(yè)。近紅外定性分析主要用于物質(zhì)的定性判別分析,即通過比較未知樣品和建模樣品 或標準樣品的光譜來確定未知樣品的歸屬。
[0006] 在實際應用中發(fā)現(xiàn),同一臺儀器長時間的光譜偏移面臨著模型適用性的問題,由 于相同物質(zhì)不同品種間成分相差較小,光譜相互交疊,因此這種差異對定性分析的影響甚 至比定量分析更為嚴重,嚴重時甚至完全不能正確識別。
[0007] 針對種子品種真實性鑒別方法的現(xiàn)狀與諸多不足,與同一臺儀器長期的光譜偏移 問題,本發(fā)明提出一種基于近紅外定性分析的種子品種真實性鑒別方法。
【發(fā)明內(nèi)容】
[0008] (一)要解決的技術問題
[0009] 有鑒于此,本發(fā)明的主要目的是為了提供一種簡單可行、快速高效,并且能提高模 型適用性的一種基于近紅外定性分析的種子品種真實性鑒別方法。
[0010] (二)技術方案
[0011] 為達到上述目的,本發(fā)明提供了一種基于近紅外定性分析的種子品種真實性鑒別 方法,該方法包括:步驟1:采集種子樣本的近紅外光譜數(shù)據(jù),并確定建模集和測試集;步驟 2 :對建模集和測試集依次進行預處理、偏最小二乘(PLS)特征提取和線性鑒別分析(LDA) 特征提??;步驟3 :從建模集和測試集中選取光譜校正集,并計算建模集與測試集之間的變 換矩陣;步驟4 :將該變換矩陣應用于剩余測試集;步驟5 :采用支持向量機(SVM)方法建立 定性分析模型;步驟6 :利用該定性分析模型對剩余測試集進行品種真實性鑒別。
[0012] 上述方案中,步驟1中所述采集種子樣本的近紅外光譜數(shù)據(jù),是采用近紅外光譜 儀在不同時間采集種子樣本的近紅外光譜數(shù)據(jù)。所述確定建模集和測試集,是將在同一天 采集的光譜數(shù)據(jù)作為建模集,建模集是用來建立定性分析模型的原始建模數(shù)據(jù);將不同采 集日期采集的近紅外光譜數(shù)據(jù)作為不同的測試集,測試集是用來鑒別種子品種真實性的原 始測試數(shù)據(jù)。
[0013] 上述方案中,步驟2中所述對建模集和測試集依次進行預處理、偏最小二乘特征 提取和線性鑒別分析特征提取,具體包括:
[0014] 步驟21 :對建模集和測試集的原始數(shù)據(jù)用相同的預處理方法及相同的參數(shù)進行 預處理;
[0015] 步驟22 :對經(jīng)過預處理之后的建模集數(shù)據(jù)進行偏最小二乘特征提取,得到PLS特 征矩陣,以利用該矩陣將數(shù)據(jù)變換到PLS空間;
[0016] 步驟23 :利用該PLS特征矩陣,將經(jīng)過預處理之后的建模集和測試集數(shù)據(jù)變換到 PLS空間中;
[0017] 步驟24 :對經(jīng)過PLS特征提取之后的建模集數(shù)據(jù)進行線性鑒別分析特征提取,得 到LDA特征矩陣,以利用該投影矩陣將數(shù)據(jù)變換到LDA空間;
[0018] 步驟25 :利用該LDA特征矩陣,將經(jīng)過PLS特征提取之后的建模集和測試集數(shù)據(jù) 變換到LDA空間中;
[0019] 步驟26 :利用變換到LDA空間中的建模集數(shù)據(jù)進行建模,用變換到LDA空間中的 測試集數(shù)據(jù)進行鑒別。
[0020] 上述方案中,步驟2中所述的預處理、偏最小二乘特征提取、線性鑒別分析特征提 取,在對建模集和測試集處理時采用相同的參數(shù)。所述的預處理,是為了去除或降低不確定 的背景信息對光譜數(shù)據(jù)的噪聲干擾,采用的預處理方法包括數(shù)據(jù)歸一化處理、導數(shù)法處理、 平滑處理或中心化及標準化處理。
[0021] 上述方案中,步驟22中所述PLS特征矩陣提取,具體算法如下:
[0022] 步驟221 :對樣本數(shù)據(jù)進行標準化處理,即令樣本的各個變量的均值為0,方差為 1 ;令樣本矩陣為Xtl,類別信息矩陣為Ytl ;其中,Xtl定義為n條光譜p個數(shù)據(jù)點的原始光譜矩 陣,Ytl為對應的類別屬性矩陣:
[0023]
【權利要求】
1. 一種基于近紅外定性分析的種子品種真實性鑒別方法,其特征在于,該方法包括: 步驟1 :采集種子樣本的近紅外光譜數(shù)據(jù),并確定建模集和測試集; 步驟2 :對建模集和測試集依次進行預處理、偏最小二乘特征提取和線性鑒別分析特 征提取; 步驟3 :從建模集和測試集中選取光譜校正集,并計算建模集與測試集之間的變換矩 陣; 步驟4 :將該變換矩陣應用于剩余測試集; 步驟5 :采用支持向量機方法建立定性分析模型; 步驟6 :利用該定性分析模型對剩余測試集進行品種真實性鑒別。
2. 根據(jù)權利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟1中所述采集種子樣本的近紅外光譜數(shù)據(jù),是采用近紅外光譜儀在不同時間采集 種子樣本的近紅外光譜數(shù)據(jù)。
3. 根據(jù)權利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟1中所述確定建模集和測試集,是將在同一天采集的光譜數(shù)據(jù)作為建模集,建模集 是用來建立定性分析模型的原始建模數(shù)據(jù);將不同采集日期采集的近紅外光譜數(shù)據(jù)作為不 同的測試集,測試集是用來鑒別種子品種真實性的原始測試數(shù)據(jù)。
4. 根據(jù)權利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟2中所述對建模集和測試集依次進行預處理、偏最小二乘特征提取和線性鑒別分 析特征提取,具體包括: 步驟21 :對建模集和測試集的原始數(shù)據(jù)用相同的預處理方法及相同的參數(shù)進行預處 理; 步驟22 :對經(jīng)過預處理之后的建模集數(shù)據(jù)進行偏最小二乘特征提取,得到偏最小二乘 特征矩陣,以利用該矩陣將數(shù)據(jù)變換到偏最小二乘空間; 步驟23 :利用該偏最小二乘特征矩陣,將經(jīng)過預處理之后的建模集和測試集數(shù)據(jù)變換 到偏最小二乘空間中; 步驟24 :對經(jīng)過偏最小二乘特征提取之后的建模集數(shù)據(jù)進行線性鑒別分析特征提取, 得到線性鑒別分析特征矩陣,以利用該投影矩陣將數(shù)據(jù)變換到線性鑒別分析空間; 步驟25 :利用該線性鑒別分析特征矩陣,將經(jīng)過偏最小二乘特征提取之后的建模集和 測試集數(shù)據(jù)變換到線性鑒別分析空間中; 步驟26 :利用變換到線性鑒別分析空間中的建模集數(shù)據(jù)進行建模,用變換到線性鑒別 分析空間中的測試集數(shù)據(jù)進行鑒別。
5. 根據(jù)權利要求4所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟2中所述的預處理、偏最小二乘特征提取和線性鑒別分析特征提取,在對建模集和 測試集處理時采用相同的參數(shù)。
6. 根據(jù)權利要求4所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟2中所述的預處理,是為了去除或降低不確定的背景信息對光譜數(shù)據(jù)的噪聲干擾, 采用的預處理方法包括數(shù)據(jù)歸一化處理、導數(shù)法處理、平滑處理或中心化及標準化處理。
7. 根據(jù)權利要求4所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟22中所述偏最小二乘特征矩陣提取,具體算法如下: 步驟221 :對樣本數(shù)據(jù)進行標準化處理,即令樣本的各個變量的均值為0,方差為I ;令 樣本矩陣為Xtl,類別信息矩陣為Ytl ;其中,Xtl定義為η條光譜p個數(shù)據(jù)點的原始光譜矩陣, Ytl為對應的類別屬性矩陣:
Yci中,yu = 1表示第i條光譜屬于第j類,yu = 〇表示第i條光譜不屬于第j類; 步驟222:求矩陣Γ Jtl的協(xié)方差矩陣C = X' A),其中協(xié)方差矩陣常數(shù)舍棄; 步驟223 :求得協(xié)方差矩陣C的特征值以及對應的特征向量,并將特征向量按照特征值 的大小排列,取最大的η維特征值對應的特征向量組成投影矩陣W1^ ; 步驟224 :得到新的特征向量為:x' i = XiW' PIjS。
8. 根據(jù)權利要求4所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟25中所述將經(jīng)過偏最小二乘特征提取之后的建模集和測試集數(shù)據(jù)變換到線性鑒 別分析空間中,具體如下: 步驟251 :假設有C類樣本,總樣本數(shù)為INi為第i類樣本數(shù),則定義類內(nèi)散布矩陣Sw、 類間散布矩陣Sb如下:
其中,
^,為第i類模式的均{I
為總樣本均值; 步驟252 :線性鑒別分析分析的目標,是尋找一個變換矩陣W,使得Fisher準則取得最 大值的方向為Sb與Sw比值最大的方向,其中Sw非奇異時:
其中,WiQ = 1,2,...,)對應為下式特征值降序排列前η個值對應的特征向量:SBw = ASww;如果Sw非奇異,則上式可直接轉換為AP1SsW = Iw來求解,即求解對應的 特征值和特征矩陣,取最大的η維特征值對應的特征向量組成投影矩陣Wuia ; 步驟253:得到Wuia即可進行數(shù)據(jù)轉換Y' =YW' ωΑ。
9. 根據(jù)權利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟3中所述的建模集和測試集,是指經(jīng)過預處理、偏最小二乘和線性鑒別分析特征提 取之后的光譜數(shù)據(jù)集。
10. 根據(jù)權利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟3中所述的選取光譜校正集,是指從建模集和測試集中各自挑選出用于光譜校 正的光譜數(shù)據(jù)。
11. 根據(jù)權利要求10所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特 征在于,所述從建模集和測試集中各自挑選出用于光譜校正的光譜數(shù)據(jù)是采用Kennard/ Stone算法,具體包括以下過程: 步驟31 :設置需要選取的校正樣品個數(shù)k ; 步驟32 :計算所有建模集樣本兩兩之間的距離,將距離最遠的兩個樣本選為校正集的 第一、二個樣本; 步驟33 :對于剩余樣本,計算其與已選樣本之間的距離并取其最小值,然后選擇這些 距離中最大值對應的樣本為本次選擇樣本; 步驟34 :重復步驟33,直至選夠k個樣本組成建模集的校正集; 步驟35 :在測試集中選擇建模集中所選出的對應編號的樣本作為測試集的校正集。
12. 根據(jù)權利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟3中所述計算建模集與測試集之間的變換矩陣,具體包括: 步驟a :設建模集光譜校正集矩陣為S1,測試集光譜校正集矩陣為S3,矩陣的行列分別 表示樣品數(shù)和數(shù)據(jù)點數(shù);由S1和S3根據(jù)公式/7 求得變換矩陣,其中,&和f為 中心化后的光譜矩陣,是&的廣義逆; 步驟b :利用步驟a中得到的F計算背景校正矩陣匕=,其中Sln和s2n分 別為S1和S3每列元素平均值組成的行向量; 通過以上兩步,得到了變換矩陣F和背景校正矩陣bs。
13. 根據(jù)權利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,由于同一臺光譜儀隨著時間推移,會產(chǎn)生光譜偏移,步驟3中所述的變換矩陣,是為 了在建模集和測試集之間建立校正模型,使測試集可以利用該校正模型進行光譜校正,解 決光譜偏移所帶來的模型不適用的問題,不同的測試集對應不同的變換矩陣。
14. 根據(jù)權利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟4中所述將變換矩陣應用于剩余測試集,具體包括: 步驟41 :對測試集光譜中的測試集數(shù)據(jù)X2,計算其變換后的矩陣= I2F + ,其 中,F(xiàn)和bs為求得的變換矩陣和背景校正矩陣,1為全1的列向量,長度為樣本數(shù); 步驟42 :變換后的數(shù)據(jù)矩陣Γ 2即可用已建模型進行鑒別。
15. 根據(jù)權利要求14所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟4中所述剩余測試集,是指從測試集中挑選出光譜校正集之后剩余的測試數(shù)據(jù) 集。
16. 根據(jù)權利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟5中所述采用支持向量機方法建立定性分析模型,具體包括: 步驟51 :將經(jīng)過預處理及特征提取之后的建模樣本數(shù)據(jù)X1, x2, ...,Xn,作為支持向量 機建模數(shù)據(jù); 步驟52 :確定建模樣本數(shù)據(jù)中的類別標簽數(shù)據(jù)yi,y2, . . .,yn,yi e {+1,-1}; 步驟53 :設置支持向量機建模過程中的各個參數(shù),包括分類器、核函數(shù)類型等,以此來 確定最佳分類界面; 步驟54 :利用該最佳分類界面,對未知樣本數(shù)據(jù)進行分類。
17. 根據(jù)權利要求16所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟53中所述設置支持向量機建模過程中的各個參數(shù),包括分類器、核函數(shù)類型,以 此來確定最佳分類界面,具體包括: 假設這個最佳的分類界面為:w' x+b = O 則判另函數(shù)為:f(x)=w^ x+b, 因此:
假定兩類樣本到分類界面最小的距離均為d,即存在樣本Xl e Wl,X2 e W2,使得: f (X1) = W1 x^b = d f (x2) = w' x2+b = -d 右邊歸一化得: w' d Xi+bd = 1 w, d x2+bd = 其中:
因此,可得:
? 1 要使分類間隔d = Pl最大,等效于t||wf最小問題轉化為一個典型的優(yōu)化問題: s. t YiCwi
Xj+b) -1^0 其中,約束條件表示所有樣本被正確分類,使用拉格朗日算法可以求解此優(yōu)化問題,從 而得到最佳的分類界面。
18. 根據(jù)權利要求16所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟6中所述利用定性分析模型對剩余測試集進行品種真實性鑒別,是利用支持向 量機方法對剩余測試集進行分類鑒別,并給出鑒別結果,具體包括: 利用所建立的支持向量機分類器的最佳分類界面,對未知分類的測試樣本數(shù)據(jù)進行分 類,根據(jù)其分類結果確定其所屬類別。
【文檔編號】G01N21/359GK104374739SQ201410599260
【公開日】2015年2月25日 申請日期:2014年10月30日 優(yōu)先權日:2014年10月30日
【發(fā)明者】張麗萍, 李衛(wèi)軍, 董肖莉, 覃鴻 申請人:中國科學院半導體研究所