两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法

文檔序號:10532754閱讀:808來源:國知局
一種基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法
【專利摘要】本發(fā)明公開了一種基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,包括:步驟1,獲取煙葉的原始近紅外光譜以及化學(xué)值;步驟2,剔除原始近紅外光譜中的異常光譜以及化學(xué)值中的異常值;步驟3,將近紅外光譜劃分為若干光譜段,在每個光譜段內(nèi),對近紅外光譜與化學(xué)值進行典型相關(guān)分析,計算典型相關(guān)系數(shù);步驟4,選取閾值,對典型相關(guān)系數(shù)大于閾值的波長點進行PLS建模。本發(fā)明提供的基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,能夠提高近紅外光譜的解釋能力,消除近紅外光譜信息的多重共線性,提高利用近紅外光譜預(yù)測化學(xué)成分模型的穩(wěn)定性。
【專利說明】
一種基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及煙葉成分分析技術(shù)領(lǐng)域,具體涉及一種基于典型相關(guān)系數(shù)的近紅外光 譜信息提取方法。
【背景技術(shù)】
[0002] 近紅外光譜在定量快速檢測領(lǐng)域應(yīng)用非常廣泛,為現(xiàn)場的質(zhì)量控制提供了一條很 好的獲取物質(zhì)基礎(chǔ)數(shù)據(jù)的方法。近紅外光譜屬于850-2500nm波段的電磁波,不同類型的光 譜反映了不同樣本層次的分子信息。近紅外光譜信息近似符合Lambert-Beer公式,這一定 律為在近紅外光譜信息中提取檢測物質(zhì)的組成信息與結(jié)構(gòu)信息,提供了理論基礎(chǔ)。
[0003] 但是,在實際的近紅外測試過程中,面臨著使用環(huán)境變化比較復(fù)雜,檢測物質(zhì)組份 的年度差異,樣本與光譜不能保證絕對的對應(yīng),儀器的差異較大,以及有可能遇到的基礎(chǔ)數(shù) 據(jù)的誤差波動,這些因素都使得在實際使用近紅外的過程中,理論基礎(chǔ)不再是簡單的線性 體系,而形成了未知組分、未知線性基礎(chǔ)的一個灰度分析模型。
[0004] 近紅外光譜的特點有:(1)帶寬比較寬;(2)多重共線性;(3)光譜的解釋能力比較 差。具體而言,在使用過程中存在以下問題:
[0005] 第一,近紅外光譜信號包含的物質(zhì)信息很弱,某些光譜區(qū)域中樣品的有效光譜差 異很小,不能明顯提供樣品被測成分信息;
[0006] 第二,某些波段,樣品近紅外光譜信息與樣品的被測組成或性質(zhì)間線性相關(guān)關(guān)系 不存在,建模方法一旦選定線性偏最小二乘法會降低模型的精度;
[0007] 第三,近紅外光譜信息存在多重相關(guān)性,即自變量之間存在線性相關(guān)的現(xiàn)象,導(dǎo)致 光譜信息中存在冗余信息,全譜建模會把大量的冗余信息引入模型;
[0008] 第四,由于近紅外光譜儀器噪聲的影響,在某些波段下,樣品光譜信噪比(SNP)較 低,光譜質(zhì)量較差,若不過濾掉這些噪聲,模型不穩(wěn)??;
[0009] 第五,若采用全譜建模,一旦外界環(huán)境因素發(fā)生變化,會對近紅外光譜的吸光度產(chǎn) 生干擾,使得檢測的樣本成為異常值;
[0010] 第六,當波長變量數(shù)目太多時,模型計算復(fù)雜,模型精度降低。
[0011] 在紅外光譜檢測中,如果不進行波長選擇,每次對不同種類的物質(zhì)進行近紅外定 量建模的波長區(qū)間完全一樣,從化學(xué)研究的角度不能給出一個合理的解釋。進行波長選擇 不僅可以減少波長變量的個數(shù),提高測量速度,利于在線檢測,也能夠提高近紅外模型的精 度,增強模型對外界檢測環(huán)境的抗干擾能力,保證模型的穩(wěn)健性。
[0012] 近紅外光譜目前一般的波長選擇方法有:
[0013] (1)典型相關(guān)系數(shù)法:將校正集光譜矩陣中每個波長點對應(yīng)的吸光度向量與待測 組分的濃度向量進行相關(guān)性計算,得到每個波長變量下的典型相關(guān)系數(shù)。將典型相關(guān)系數(shù) 排序,選擇合適的閾值,保留典型相關(guān)系數(shù)大于該閾值的波長點,進而建立多元校正模型。 該方法在近紅外波長選擇中非常實用,但是該方法只適合簡單的線性體系。
[0014] (2)無信息變量消除法(UVE):該方法不僅使用了回歸系數(shù)的絕對值,同時還考慮 到回歸系數(shù)的方差,并且集噪音、光譜和濃度信息于一體,直觀實用,但是該方法要求一定 的樣本量,樣本量沒有積累到一定程度時,改進精度的效果不是很明顯。
[0015] (3)競爭性自適應(yīng)權(quán)重取樣(competitive adaptive reweighted sampling, CARS):該方法基于回歸系數(shù)進行波長點選擇,模仿達爾文進化論中的"適者生存"原則,將 每個波長作為一個個體,對波長實施逐步淘汰。該方法利用回歸系數(shù)絕對值的大小作為衡 量波長重要性的指標,同時,引入了指數(shù)衰減函數(shù)來控制波長的保留率,每次通過自適應(yīng)重 加權(quán)采樣技術(shù)篩選出PLS模型中回歸系數(shù)絕對值大的波長點,去掉權(quán)重小的波長點,利用交 差驗證的方法選出模型交叉驗證均方根誤差(root mean square error of cross val idat ion,RMSECV)值最低的子集,可有效選擇與目標值相關(guān)的最優(yōu)波長組合。 [0016] (4)CARS-Monte-Carlo_sampling算法:該方法在實際使用的時候,對樣本的穩(wěn)定 性要求很高,如果模型的基準數(shù)據(jù)存在問題或者實際的取樣光譜與取樣的代表性發(fā)生了問 題,模型的構(gòu)建會存在明顯的誤差。
[0017] 綜上所述,需要提供一種近紅外光譜的信息提取方法,以實現(xiàn)方便地從近紅外光 譜中提取出有效的近紅外信息,并依據(jù)提取的近紅外信息構(gòu)建準確的定量模型。

【發(fā)明內(nèi)容】

[0018] 本發(fā)明提供了一種基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,對現(xiàn)有技術(shù)中 的典型相關(guān)系數(shù)法加以改進和利用,能夠快速地從近紅外光譜中有效的物質(zhì)濃度信息,為 近紅外定量模型的構(gòu)建提供指導(dǎo)。
[0019] -種基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,包括:
[0020] 步驟1,獲取煙葉的原始近紅外光譜以及化學(xué)值;
[0021] 步驟2,剔除原始近紅外光譜中的異常光譜以及化學(xué)值中的異常值;
[0022] 步驟3,將近紅外光譜劃分為若干光譜段,在每個光譜段內(nèi),對近紅外光譜與化學(xué) 值進行典型相關(guān)分析,計算典型相關(guān)系數(shù);
[0023]步驟4,選取閾值,對典型相關(guān)系數(shù)大于閾值的波長點進行PLS建模。
[0024]不同煙葉樣本的物理性質(zhì)、化學(xué)性質(zhì)、產(chǎn)地、以及煙葉部位等都不盡相同,這些因 素的差異在近紅外光譜中都會有所體現(xiàn),本發(fā)明將近紅外光譜劃分為若干光譜段,在每個 光譜段內(nèi)構(gòu)建CCAR模型(即典型相關(guān)回歸模型),在每個光譜段內(nèi)計算每個波長點與化學(xué)值 的典型相關(guān)系數(shù),然后依據(jù)一定的閾值條件,篩選出典型相關(guān)系數(shù)大于閾值的波長點作為 與化學(xué)值相關(guān)的近紅外光譜,典型相關(guān)系數(shù)小于閾值的波長點作為與化學(xué)值無關(guān)的噪聲。
[0025] 由于CCAR模型是在每個光譜段內(nèi)計算得到的回歸模型,提取的是與待測物質(zhì)濃度 最相關(guān)的波長點,同時也考慮了不同波長點的互信息,減少了建模時的冗余波長。
[0026] 在本發(fā)明中,利用紅外光譜構(gòu)建模型之前,首先對構(gòu)建模型所用的波長點進行選 擇,選擇的方式為:根據(jù)煙葉的近紅外光譜以及化學(xué)值,在劃分的各個光譜段內(nèi),計算各個 波長點的典型相關(guān)系數(shù),并進行交叉驗證,將典型相關(guān)系數(shù)大于閾值的波長點作為建模采 用的波長點,利用這些篩選出來的波長點進行定量模型的建立。
[0027] 典型相關(guān)系數(shù)與簡單相關(guān)系數(shù)的區(qū)別在于,簡單相關(guān)系數(shù)表征每一種化學(xué)值與波 長點的相關(guān)性,典型相關(guān)系數(shù)表征多種化學(xué)值與波長點的相關(guān)性。
[0028] 作為優(yōu)選,步驟3中,將近紅外光譜劃分為若干光譜段的方式為:
[0029] 從近紅外光譜的起始波長開始,將近紅外光譜劃分為依次銜接的若干光譜段。即 從光譜的起始波長點開始,選擇近紅外光譜波長點窗口寬度為W,對每個波長點窗口內(nèi)的 Xm1光譜段與待測濃度物質(zhì)的化學(xué)值Y進行典型相關(guān)系數(shù)分析。
[0030] 采用這種方式進行劃分時,近紅外光譜的所有波長點都作為光譜段內(nèi)的波長點被 使用,每個波長點僅存在于一個光譜段中,各個光譜段中的波長點數(shù)量相同。
[0031] 作為優(yōu)選,將近紅外光譜劃分為若干光譜段的方式為:
[0032] 從近紅外光譜中隨機選取波長點構(gòu)成光譜段,每個光譜段中的波長點數(shù)目相同, 且各個光譜段中不存在重復(fù)的波長點。即從近紅外光譜矩陣中隨機抽取連續(xù)或不連續(xù)的波 長點組成Xm 1光譜段,按照加權(quán)采樣技術(shù)計算每個波長點下的典型相關(guān)系數(shù)。
[0033] 采用這種方式進行劃分時,選取的波長點可以連續(xù),也可以不連續(xù),每個波長點僅 存在于一個光譜段中,各個光譜段中的波長點數(shù)量相同,可能存在沒有被使用的波長點,沒 有被使用的波長點數(shù)量不大于總波長點數(shù)量的10%。
[0034]本發(fā)明中,典型相關(guān)系數(shù)的原理以及計算方法如下:
[0035] 設(shè)有兩組隨機變量X = Xi-w+i:i= (xi,X2, . . .Xw),Y = y,分別為w維向量和1維向量, 根據(jù)典型相關(guān)分析的思想,用X和Y的線性組合α'χ和β'Υ之間的相關(guān)性來表征兩組隨機變量 X和Y之間的相關(guān)性,找到α '和β',使得典型相關(guān)系數(shù)Ρ(α 'X,β' Υ)最大。
[0036] 曲刑士H光玄\V*nTC:^.
[0037]
[0038] 由上式可得,對于任意常數(shù)e,f,c,d,均有
[0039] p[e(a,X)+f,c(0,Y)+d]=P(a,X,P,Y)
[0040] 這說明使得典型相關(guān)系數(shù)最大的α'Χ,β'Υ并不唯一,為避免不必要的結(jié)果重復(fù),在 求綜合變量時限定Var(a'X) = 1,Var(P'Y) = 1
[0041] 由此得出如下定義:設(shè)有兩組隨機變量 維隨機向量^的均值向量為零,協(xié)方差陣Σ>0(不妨設(shè)q)。
[0042] 如果存在~^叱,…,(Ipl)IPP1 = (βη,…,Pql)',使得在約束條件Var(a'X) = l, ¥&『(0'¥) = 1下4(€[1%01飛)=胍迎(€1%01),則稱€11%0 11是父,¥的典型相關(guān)變量,它 們之間的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。
[0043] 其他典型相關(guān)變量定義如下:定義了前k-Ι對典型相關(guān)變量之后,第k對典型相關(guān) 變量定義為:如果存在Qk= (alk,…,apk) '和仇=(fok,…,i3qk) ',同時滿足如下條件:
[0044] (l)a'kXj'kY和前面的k-Ι對典型相關(guān)變量都不相關(guān);
[0045] (2)Var(a'kX) = I,Var(P'kY) = I;
[0046] (3)a'kX和0'kY的典型相關(guān)系數(shù)最大;
[0047]則稱a 'kX和0'kY是X,Y的第k對(組)典型相關(guān)變量,它們之間的典型相關(guān)系數(shù)稱為 第k個典型相關(guān)系數(shù)(k = 2,…,p)。
[0048]在本發(fā)明中,計算出每個光譜段的典型相關(guān)系數(shù)Cri,Cr2. . .0?后,合并成典型相 關(guān)系數(shù)CR,繪制出CR與波長點的趨勢圖,依據(jù)趨勢圖設(shè)定閾值,篩選閾值之上的光譜信息為 建模用的光譜信息。
[0049] 依據(jù)篩選出的近紅外光譜信息,按照PLS(偏最小二乘法建立波長點與物質(zhì)濃度之 間的關(guān)聯(lián)關(guān)系,得到定量模型,并通過獨立外部驗證樣本進行實證。
[0050] 作為優(yōu)選,步驟2中,將馬氏距離大于3倍建模集平均馬氏距離的原始近紅外光譜 作為異常光譜進行剔除。
[0051] 本發(fā)明中,剔除異常光譜的方法利用主成分光譜來計算每個煙葉樣本的馬氏距離,根 據(jù)馬氏距離的大小來判斷煙葉樣本的異常情況,具體的做法為:利用式I)/ 計算馬氏距離,其中,D1為第i個煙葉樣本的馬氏距離;S1為第i個煙葉樣本的主成分得分矩 陣;V為主成分得分矩陣的協(xié)方差。將馬氏距離大于3倍建模集平均馬氏距離的樣本,判定為 異常樣本進行剔除。
[0052] 作為優(yōu)選,步驟2中,對剔除完異常光譜的近紅外光譜進行預(yù)處理,預(yù)處理方式采 用中心化、SG導(dǎo)數(shù)平滑、散射校正或正交校正。
[0053] 每個光譜段中的波長點數(shù)量應(yīng)適當,過多或過少,都會影響到提取出的波長點的 質(zhì)量,進而影響到最終的建模結(jié)果,優(yōu)選地,每個光譜段中波長點的個數(shù)為30~50。進一步 優(yōu)選,每個光譜段中波長點的個數(shù)為30~40。
[0054] 在進行閾值的選取時,應(yīng)充分考慮不同光譜段的典型相關(guān)系數(shù)分布,以篩選出與 化學(xué)值最相關(guān)的波長點,優(yōu)選地,步驟4中,閾值范圍為0.6~0.9。進一步優(yōu)選,步驟4中,閾 值范圍為0.6~0.8。
[0055] 本發(fā)明提供的基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,能夠提高近紅外光 譜的解釋能力,消除近紅外光譜信息的多重共線性,提高利用近紅外光譜預(yù)測化學(xué)成分模 型的穩(wěn)定性。
【附圖說明】
[0056] 圖1為原始的近紅外光譜圖;
[0057] 圖2為經(jīng)過正交校正處理后的近紅外光譜圖;
[0058] 圖3為簡單相關(guān)系數(shù)和典型相關(guān)系數(shù)的對比圖;
[0059] 圖4為典型相關(guān)回歸提取的離散波長點數(shù);
[0060] 圖5為實施例1校正模型擬合圖,圖5中橫坐標為典型相關(guān)成分;
[0061] 圖6為外部驗證結(jié)果圖。
【具體實施方式】
[0062] 實施例1
[0063]在云南A復(fù)烤廠在線選取358個煙葉樣本,選取方法為:在生產(chǎn)線上通過人工每5秒 抓取一個片煙樣本,Imin內(nèi)的片煙樣本混合后形成一個混合樣本,每個混合樣本即為一個 煙葉樣本。
[0064]所有煙葉樣本的基礎(chǔ)數(shù)據(jù)尼古丁的含量檢測按照《YC/T160煙草和煙草制品總植 物堿的測定》測試得到。
[0065] 358個煙葉樣本中的前326個樣本作為訓(xùn)練集,最后在線取得的32個煙葉樣本作為 模型的獨立驗證集。
[0066] 利用德國卡爾蔡司在線近紅外儀器掃描得到所有煙葉樣本的近紅外光譜,設(shè)置工 作參數(shù)為:掃描范圍:910-2200nm;波長準確性小于0 · 5nm;波長重復(fù)性小于0 · 05nm;RMS小于 104(即<30yabs)。
[0067] (1)對各煙葉樣本進行近紅外掃描,所有煙葉樣本的原始近紅外光譜如圖1所示。
[0068] (2)采用正交校正方法(OSC)對各煙葉樣本的原始近紅外光譜進行預(yù)處理,預(yù)處理 后的近紅外光譜如圖2所示,圖2中橫坐標為波長點,縱坐標為吸光度。
[0069] (3)從近紅外光譜的波長起始點開始,設(shè)置近紅外光譜波長點窗口寬度W為35個波 長點,如圖3所示,采用典型相關(guān)系數(shù)的閾值在0.6以上的波長點明顯多于簡單相關(guān)系數(shù)。圖 3中,相對位置靠上的曲線為典型相關(guān)系數(shù),相對位置靠下的曲線為簡單相關(guān)系數(shù)。
[0070]圖4表征的是在回歸模型中每個波長點出現(xiàn)的頻數(shù),從圖4中可以看出波長點頻數(shù) 出現(xiàn)較多的區(qū)域為50-100、以及200附近,這段區(qū)域為在線近紅外光譜信息含量比較豐富的 波段。
[0071 ] (4)將典型相關(guān)系數(shù)大于0.6的波長點作為建模用波長點,利用PLS建立模型,建立 的校正模型如圖5所示。
[0072] (5)利用獨立驗證集進行驗證,驗證結(jié)果如圖6所示,由圖6可見,采用本發(fā)明提供 的方法測量得到的化學(xué)值與真實值能夠很好地吻合。
[0073] 實施例2
[0074]與實施例1的區(qū)別在于,光譜段的劃分方式不同,每個光譜段隨機選取35個波長 點,各個光譜段中不存在相同的波長點。
[0075]將典型相關(guān)系數(shù)大于0.9的波長點作為建模用波長點,利用PLS建立模型,并利用 獨立驗證集進行驗證。
[0076] 性能比對
[0077]利用實施例1中獨立驗證集,并采用不同的波長點選擇方法進行化學(xué)值測量結(jié)果 比對的結(jié)果如表1所示。 Γ00781 券1
[0080]如表1所示,本發(fā)明提供的方法能夠更有效地提取紅外光譜信息,證實了近紅外光 譜信息中交互信息的存在,很多看似不是信息的近紅外光譜圖卻能夠從另外一個角度得到 很好的詮釋,為快速進行近紅外光譜信息的提取奠定了基礎(chǔ)。
【主權(quán)項】
1. 一種基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,其特征在于,包括: 步驟1,獲取煙葉的原始近紅外光譜以及化學(xué)值; 步驟2,剔除原始近紅外光譜中的異常光譜以及化學(xué)值中的異常值; 步驟3,將近紅外光譜劃分為若干光譜段,在每個光譜段內(nèi),對近紅外光譜與化學(xué)值進 行典型相關(guān)分析,計算典型相關(guān)系數(shù); 步驟4,選取閾值,對典型相關(guān)系數(shù)大于閾值的波長點進行PLS建模。2. 如權(quán)利要求1所述的基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,其特征在于,步 驟3中,將近紅外光譜劃分為若干光譜段的方式為: 從近紅外光譜的起始波長開始,將近紅外光譜劃分為依次銜接的若干光譜段。3. 如權(quán)利要求1所述的基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,其特征在于,步 驟3中,將近紅外光譜劃分為若干光譜段的方式為: 從近紅外光譜中隨機選取波長點構(gòu)成光譜段,每個光譜段中的波長點數(shù)目相同,且各 個光譜段中不存在重復(fù)的波長點。4. 如權(quán)利要求1所述的基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,其特征在于,步 驟2中,將馬氏距離大于3倍建模集平均馬氏距離的原始近紅外光譜作為異常光譜進行剔 除。5. 如權(quán)利要求1所述的基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,其特征在于,步 驟2中,對剔除完異常光譜的近紅外光譜進行預(yù)處理,預(yù)處理方式采用中心化、SG導(dǎo)數(shù)平滑、 散射校正或正交校正。6. 如權(quán)利要求1所述的基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,其特征在于,步 驟3中,每個光譜段中波長點的個數(shù)為30~50。7. 如權(quán)利要求1所述的基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,其特征在于,步 驟4中,閾值范圍為0.6~0.9。8. 如權(quán)利要求1所述的基于典型相關(guān)系數(shù)的近紅外光譜信息提取方法,其特征在于,步 驟4中,閾值范圍為0.6~0.8。
【文檔編號】G01N21/359GK105891147SQ201610194097
【公開日】2016年8月24日
【申請日】2016年3月30日
【發(fā)明人】吳繼忠, 徐清泉, 夏琛, 吳鍵, 廖付, 李石頭, 張軍, 夏駿, 蘇燕, 畢鳴, 畢一鳴, 慕繼瑞, 張立立, 李永生, 何文苗, 郝賢偉
【申請人】浙江中煙工業(yè)有限責(zé)任公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
灵璧县| 崇仁县| 新余市| 南投市| 梁山县| 宜州市| 石楼县| 湘阴县| 林芝县| 铜川市| 凉城县| 康乐县| 尤溪县| 广宁县| 香格里拉县| 龙海市| 兴文县| 黄大仙区| 绍兴县| 长丰县| 海阳市| 怀化市| 绥宁县| 宁阳县| 伊宁市| 长海县| 余庆县| 罗田县| 闽清县| 新巴尔虎左旗| 陆河县| 上犹县| 东港市| 宾阳县| 武夷山市| 密山市| 台安县| 盐亭县| 霞浦县| 新丰县| 锦州市|