本發(fā)明所涉及的一種乳制品的特征成分提取方法,具體涉及一種基于化學(xué)先驗信息及高斯過程隱變量模型相結(jié)合的拉曼光譜特征提取技術(shù)。
背景技術(shù):
:在我國,乳制品逐漸成為人民生活必需食品。改革開放特別是近幾年以來,我國乳制品工業(yè)發(fā)展迅速,乳制品產(chǎn)量成倍增長,乳制品消費穩(wěn)步提高,因其高的營養(yǎng)價值,世界上許多國家都對增加乳制品消費給予高度重視,加以引導(dǎo)和鼓勵,人均乳制品消費量成為衡量一個國家人民生活水平的主要指標(biāo)之一。目前,我國乳制品工業(yè)正處在由數(shù)量擴(kuò)張型向質(zhì)量效益型轉(zhuǎn)變的關(guān)鍵時期,在迅猛發(fā)展的同時也出現(xiàn)了較多問題。尤其是2008年三聚氰胺事件的發(fā)生,使得國內(nèi)知名乳制品品牌深陷信任危機(jī),消費者對國內(nèi)乳制品行業(yè)失望之極,從而出現(xiàn)對進(jìn)口奶粉的爆發(fā)式需求。此次事件的揭露,掀起了一次又一次的食品安全問題事件,這些事件都一再提醒我們,要加強食品生產(chǎn)的監(jiān)督與管理。為了保障消費者的利益及安全,對乳制品實行高效準(zhǔn)確的質(zhì)量檢測是十分必要的。目前針對乳制品的檢測技術(shù)主要集中在色譜、紅外光譜等檢測手段,并未將基于化學(xué)先驗信息的譜圖解析技術(shù)與模式識別技術(shù)中的特征提取方法有效結(jié)合,對于乳制品的某些特征成分未能實現(xiàn)有效的提取,導(dǎo)致一些劣質(zhì)乳制品的識別準(zhǔn)確度不高。在乳制品的特征提取方法上主要集中在基于譜方法的模型上,普遍會造成后向映射問題,即無法將一個新的高維觀測數(shù)據(jù)直接映射到低維空間中。因此,在現(xiàn)有的技術(shù)基礎(chǔ)上,對于乳制品的檢測,研究一種新的特征提取技術(shù)是非常必要的。技術(shù)實現(xiàn)要素:發(fā)明目的:本發(fā)明的目的是為了解決現(xiàn)有技術(shù)的不足,提供一種能準(zhǔn)確、快速、全面的乳制品檢測技術(shù),實現(xiàn)乳制品的精確質(zhì)量檢測,保障廣大消費者的利益及安全。本發(fā)明采用拉曼光譜儀為樣品檢測手段,結(jié)合基于化學(xué)先驗信息的譜圖解析技術(shù)及高斯過程隱變量模型的特征提取技術(shù),實現(xiàn)乳制品的k-means分類識別。拉曼光譜儀提供快速、簡單、可重復(fù)、且更重要的是無損傷的定性定量分析,它無需樣品準(zhǔn)備,樣品可直接通過光纖探頭或者通過玻璃、石英和光纖測量,且沒有來自于水或co2氣體的干擾?;诨瘜W(xué)先驗信息對拉曼光譜進(jìn)行譜圖解析,對譜圖進(jìn)行特征峰選擇,再結(jié)合高斯過程隱變量模型對特征進(jìn)一步提取,從而對于復(fù)雜混合物的識別能力及效率大幅提升。技術(shù)方案:為了達(dá)到以上目的,本發(fā)明采用的技術(shù)方案為:基于化學(xué)先驗信息解析及高斯過程隱變量模型的乳制品拉曼光譜特征提取方法,包括乳制品拉曼光譜的譜圖信息采集、基于化學(xué)先驗信息的譜圖解析、高斯過程隱變量模型與k均值算法結(jié)合的分類模型的構(gòu)建:乳制品拉曼光譜的譜圖信息采集包括以下步驟:實驗所用儀器為激光拉曼光譜儀,拉曼光譜采集儀器參數(shù)設(shè)置:激光波長785nm,激光功率450mw,積分時間50s,波長范圍250-2339cm-1,分辨率1cm-1。乳制品樣品直接上樣測試。(2)基于化學(xué)先驗信息的譜圖解析包括以下步驟:原始拉曼譜圖不同的特征峰是由乳制品中不同成分的化合物分子的化學(xué)鍵電子云振動引起的,解析原始譜圖中各個特征峰歸屬于何種化學(xué)成分,觀察原始譜圖,位于圖示最右邊的1756cm-1所示峰可歸屬于c=o伸縮振動,主要可能源自于脂肪有關(guān)的酯基。1662cm-1所示峰可歸屬于c=o伸縮振動和c=c伸縮振動,其中c=o伸縮振動可能主要源自于蛋白質(zhì)的酰胺i鍵,c=c伸縮振動主要源自于不飽和脂肪酸。1460cm-1所示峰可歸屬于ch2變形振動,可能主要源自于糖類和脂肪分子。1339cm-1所示峰可能主要歸屬于糖類的c-h變形振動、c-o伸縮振動或/和游離膽固醇的c-c伸縮振動;1305cm-1以及1258cm-1所示峰可能源自于糖類以及飽和脂肪酸的ch2扭曲振動;1128cm-1可能主要源自于飽和脂肪酸的c-c伸縮振動或/和糖類的c-c伸縮振動、c-o伸縮振動以及c-o-h變形振動;1083cm-1所示峰可能主要歸屬于游離膽固醇的c-c伸縮振動或/和糖類的c-c伸縮振動、c-o伸縮振動以及c-o-h變形振動;930cm-1所示峰可能主要歸屬于膽固醇或/和糖類的c-o-c變形振動、c-o-h變形振動和c-o伸縮振動;862cm-1所示峰主要歸屬于糖類的c-c-h變形振動和c-o-c變形振動;800波數(shù)以下還有9個峰,依次是780cm-1,721cm-1,652cm-1,595cm-1,571cm-1,521cm-1,488cm-1,427cm-1,362cm-1,可歸屬于指紋區(qū),主要可歸屬于c-c-o變形振動、c-s伸縮振動、c-c-c變形振動、c-o扭曲振動等,與乳制品的主要營養(yǎng)成分糖類、脂肪、蛋白質(zhì)含量密切相關(guān)。故選取300-1800cm-1做實驗,即保留原始數(shù)據(jù)集的300-1800cm-1的特征數(shù)據(jù)作為樣本數(shù)據(jù)集。(3)高斯過程隱變量模型與k均值算法結(jié)合的分類模型的構(gòu)建包括以下步驟:采用高斯過程隱變量模型對譜圖分析后的樣本數(shù)據(jù)集進(jìn)一步降維;設(shè)經(jīng)由基于化學(xué)先驗信息解析后的乳制品拉曼光譜樣本集數(shù)據(jù)記為為n×m維的樣本數(shù)據(jù)矩陣,其中第i行是m維向量,即第i個乳制品樣本點是由m維數(shù)據(jù)組成的,li是的樣本標(biāo)簽,即乳制品的類別標(biāo)簽;高斯過程隱變量模型(gplvm)算法:為了描述的簡化,僅考慮標(biāo)量輸出,即假設(shè)高維空間的樣本數(shù)據(jù)x是一維的,并存在函數(shù)關(guān)系這里為隱變量,即對應(yīng)低維空間里的乳制品樣本點,并假設(shè)未知隱射函數(shù)f是核函數(shù)的高斯過程,噪聲ε服從均值為0,方差為β的高斯分布。對于給定的觀測數(shù)據(jù)x,該數(shù)據(jù)集的似然可以寫為:同時,因假設(shè)f是高斯過程,有p(f)=n(f|0,ky,y)其中ky,y是基于隱空間中點的核矩陣。根據(jù)貝葉斯理論,通過邊緣化未知映射函數(shù)f,可以得到以下邊緣分布p(x|y)=n(x|0,ky,y+β-1i)最后通過最大化該邊際似然求解隱變量y及模型的超參數(shù)(模型中核函數(shù)的參數(shù)及β),所得y矩陣即為降維后的乳制品樣本集數(shù)據(jù)矩陣。k均值算法:1)將y中所有樣本點隨機(jī)分配到k個非空的類,k=3;2)計算類平均值(向量),以平均值代表相應(yīng)的類中心;3)根據(jù)各樣本點與類中心的歐式距離,按照最小距離原則將其分配給最近的類;4)返回第二步,重新計算各類均值,直到達(dá)到收斂條件,即如果前后兩次各類中心不發(fā)生顯著改變,可以結(jié)束。通過以上乳制品拉曼光譜的譜圖信息采集、基于化學(xué)先驗信息的譜圖解析、高斯過程隱變量模型與k均值算法結(jié)合的分類模型的構(gòu)建可以實現(xiàn)乳制品的準(zhǔn)確分類。作為優(yōu)選方案,以上所述的基于化學(xué)先驗信息解析及高斯過程隱變量模型的乳制品拉曼光譜特征提取方法,可廣泛應(yīng)用于不同乳制品的特征提取,所述的乳制品樣本為購置于南京蘇果超市的三個不同廠家的牛初乳奶片。有益效果:本發(fā)明采用拉曼光譜儀為樣品檢測手段,結(jié)合基于化學(xué)先驗信息的譜圖解析技術(shù)及高斯過程隱變量模型的特征提取技術(shù),實現(xiàn)乳制品的k-means分類識別?;诨瘜W(xué)先驗信息的譜圖解析技術(shù)有效減少了特征維數(shù),降低了分類模型的復(fù)雜度。對于新的未知類別的乳制品高維樣本利用訓(xùn)練好的高斯過程隱變量模型直接進(jìn)行降維,從而提高了新的未知類別樣品的檢測效率,實現(xiàn)乳制品的高效優(yōu)劣檢測,應(yīng)用范圍廣泛。附圖說明圖1是牛初乳奶片原始拉曼譜圖。具體實施方式下面結(jié)合具體實施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落入本申請所附權(quán)利要求所限定的范圍?;诨瘜W(xué)先驗信息解析及高斯過程隱變量模型的乳制品拉曼光譜特征提取方法,包括乳制品拉曼光譜的譜圖信息采集、基于化學(xué)先驗信息的譜圖解析、高斯過程隱變量模型與k均值算法結(jié)合的分類模型的構(gòu)建:(1)三類牛初乳奶片拉曼光譜的譜圖信息采集包括以下步驟:實驗所用儀器為激光拉曼光譜儀,拉曼光譜采集儀器參數(shù)設(shè)置:激光波長785nm,激光功率450mw,積分時間50s,波長范圍250-2339cm-1,分辨率1cm-1。三類牛初乳奶片樣品直接上樣測試。(2)基于化學(xué)先驗信息的譜圖解析包括以下步驟:觀察拉曼光譜儀采集的三種牛初乳奶片的拉曼譜圖,位于圖示最右邊的1756cm-1所示峰可歸屬于c=o伸縮振動,主要可能源自于脂肪有關(guān)的酯基。1662cm-1所示峰可歸屬于c=o伸縮振動和c=c伸縮振動,其中c=o伸縮振動可能主要源自于蛋白質(zhì)的酰胺i鍵,c=c伸縮振動主要源自于不飽和脂肪酸。1460cm-1所示峰可歸屬于ch2變形振動,可能主要源自于糖類和脂肪分子。1339cm-1所示峰可能主要歸屬于糖類的c-h變形振動、c-o伸縮振動或/和游離膽固醇的c-c伸縮振動;1305cm-1以及1258cm-1所示峰可能源自于糖類以及飽和脂肪酸的ch2扭曲振動;1128cm-1可能主要源自于飽和脂肪酸的c-c伸縮振動或/和糖類的c-c伸縮振動、c-o伸縮振動以及c-o-h變形振動;1083cm-1所示峰可能主要歸屬于游離膽固醇的c-c伸縮振動或/和糖類的c-c伸縮振動、c-o伸縮振動以及c-o-h變形振動;930cm-1所示峰可能主要歸屬于膽固醇或/和糖類的c-o-c變形振動、c-o-h變形振動和c-o伸縮振動;862cm-1所示峰主要歸屬于糖類的c-c-h變形振動和c-o-c變形振動;800波數(shù)以下還有9個峰,依次是780cm-1,721cm-1,652cm-1,595cm-1,571cm-1,521cm-1,488cm-1,427cm-1,362cm-1,可歸屬于指紋區(qū),主要可歸屬于c-c-o變形振動、c-s伸縮振動、c-c-c變形振動、c-o扭曲振動等,與乳制品的主要營養(yǎng)成分糖類、脂肪、蛋白質(zhì)含量密切相關(guān)。故選取300-1800cm-1做實驗,即保留原始數(shù)據(jù)集的300-1800cm-1的特征數(shù)據(jù)作為樣本數(shù)據(jù)集。高斯過程隱變量模型與k均值算法結(jié)合的分類模型的構(gòu)建包括以下步驟:采用高斯過程隱變量模型對譜圖分析后三種牛初乳奶片的樣本數(shù)據(jù)集所保留的特征維數(shù)進(jìn)一步降維;設(shè)經(jīng)由基于化學(xué)先驗信息解析后的牛奶初乳片的拉曼光譜樣本集數(shù)據(jù)記為為n×m維的樣本數(shù)據(jù)矩陣,其中第i行是m維向量,即第i個乳制品樣本點是由m維數(shù)據(jù)組成的,li是的樣本標(biāo)簽,即牛初乳奶片的類別標(biāo)簽;高斯過程隱變量模型(gplvm)算法:為了描述的簡化,僅考慮標(biāo)量輸出,即假設(shè)高維空間的樣本數(shù)據(jù)x是一維的,并存在函數(shù)關(guān)系這里為隱變量,即對應(yīng)低維空間里的奶片樣本點,并假設(shè)未知隱射函數(shù)f是核函數(shù)的高斯過程,噪聲ε服從均值為0,方差為β的高斯分布。對于給定的觀測數(shù)據(jù)x,該數(shù)據(jù)集的似然可以寫為:同時,因假設(shè)f是高斯過程,有p(f)=n(f|0,ky,y)其中ky,y是基于隱空間中點的核矩陣。根據(jù)貝葉斯理論,通過邊緣化未知映射函數(shù)f,可以得到以下邊緣分布p(x|y)=n(x|0,ky,y+β-1i)最后通過最大化該邊際似然求解隱變量y及模型的超參數(shù)(模型中核函數(shù)的參數(shù)及β),所得y矩陣即為降維后的三類牛初乳奶片樣本集數(shù)據(jù)矩陣。利用k均值算法對降維得到的樣本集數(shù)據(jù)進(jìn)行分類;k均值算法:1)將y中所有樣本點隨機(jī)分配到k個非空的類,k=3;2)計算類平均值(向量),以平均值代表相應(yīng)的類中心;3)根據(jù)各樣本點與類中心的歐式距離,按照最小距離原則將其分配給最近的類;4)返回第二步,重新計算各類均值,直到達(dá)到收斂條件,即如果前后兩次各類中心不發(fā)生顯著改變,可以結(jié)束。通過以上特征提取技術(shù)及分類模型,再對另外10批的三類牛初乳奶片進(jìn)行分類識別。識別結(jié)果如表1所示,實驗結(jié)果表明對不同牛初乳奶片的分類準(zhǔn)確率均為100%。表1不同牛初乳奶片的分類結(jié)果牛初乳奶片品牌測試樣本數(shù)正確識別的樣本數(shù)識別率正確率集寧雪原乳業(yè)1010100%100%伊諾清真食品1010100%100%天龍乳業(yè)1010100%100%以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。當(dāng)前第1頁12