基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法
【專利摘要】本發(fā)明涉及一種基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法,含有如下步驟:1:待檢索圖像輸入后,通過語義提取操作模塊進行圖像語義的提取,獲得當前輸入圖像的類別,并構(gòu)造與當前輸入圖像具有相似語義的相似語義子圖像庫;語義提取操作模塊一方面利用人腦智能對刺激圖像進行表達,獲得人腦某些腦區(qū)對視覺圖像刺激的響應(yīng);另一方面,應(yīng)用機器智能對刺激圖像進行表達,獲得視覺圖像刺激在過完備字典上的分解系數(shù);對以上兩方面獲得的信息進行融合,得到圖像語義特征,輸入分類器進行分類;2:通過圖像匹配操作模塊在相似語義子圖像庫中進行圖像檢索,輸出與當前輸入圖像引起的腦響應(yīng)類似的圖像;本發(fā)明提高了圖像檢索系統(tǒng)的準確率。
【專利說明】基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法
[0001](一)、【技術(shù)領(lǐng)域】:本發(fā)明涉及一種圖像檢索方法,特別是涉及一種基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法。
[0002](二)、【背景技術(shù)】:傳統(tǒng)的圖像檢索方法一般為基于圖像數(shù)據(jù)的機器智能計算方法,通常根據(jù)圖像的灰度、顏色、紋理、形狀和位置等底層數(shù)據(jù)特征或者變換域特征對圖像進行分類和檢索,這種形式化的表達可以對圖像的細節(jié)進行很完善的表達,但在處理真實世界的復(fù)雜圖像時,卻往往會遇到無法克服的語義鴻溝。面對這一瓶頸問題,人們針對如何基于圖像數(shù)據(jù)進行語義提取方面開展了深入研究,尤其是信號稀疏分解理論和方法受到圖像處理各個領(lǐng)域的廣泛關(guān)注,已經(jīng)證明,當使用非正交過完備字典對信號進行稀疏表示時,能夠最稀疏表示一個樣本的字典系數(shù)是惟一的。因此,基于字典分解模型的語義表達方法被認為是解決問題的可能途徑之一。
[0003]大腦是人類長期進化的結(jié)果,具有很強的抽象思維能力和邏輯思考能力,對于視覺信息的感知能力是目前任何機器智能無法達到的。功能磁共振成像的主要方法是血氧水平依賴性方法,該方法利用磁共振成像設(shè)備采集大腦的信息,主要反映被激活腦區(qū)毛細血管內(nèi)以體素為單位氧合血紅細胞濃度的瞬時變化,簡稱BOLD-fMRI (Blood oxygenationlevel dependent functional magnetic resonance imaging, BOLD-fMRI)。與其他腦功能成像方式相比,BOLD-fMRI成像在速度和空間分辨率方面與具有很大的優(yōu)勢,利用其開展腦認知研究已經(jīng)成為腦功能成像的主流。有效融合大腦智能和機器智能并集成機器和大腦各自的優(yōu)勢于一體,是解決目前基于形式化表達體系的模式識別和機器智能方法在處理真實世界中的復(fù)雜問題時所面臨的語義鴻溝的一個可能途徑。
[0004]傳統(tǒng)圖像檢索主要基于反映圖像內(nèi)容的圖像數(shù)據(jù)特征,如顏色、形狀、紋理等來檢索圖像。這項技術(shù)被稱為基于內(nèi)容的圖像檢索(Content-based image retrieval, CBIR),其主要的思想是根據(jù)圖像所包含的數(shù)據(jù)特征以及對象的空間關(guān)系等信息,建立圖像的特征矢量,檢索方法主要是基于圖像的多維特征進行相似性查詢。
[0005]然而這種僅僅依靠機器智能的圖像檢索方法仍然無法滿足人們的檢索要求,無法真正實用。主要問題在于:系統(tǒng)提取出的圖像底層內(nèi)容特征與用戶檢索時具有的高層語義之間無法對應(yīng)起來,也就是說圖像的底層特征根本無法表達用戶的高層語義。其實,這也一直是計算機視覺、圖像理解以及模式識別等領(lǐng)域的一個難點問題。
[0006]基于功能磁共振成像技術(shù)的視覺信息解讀一直是腦認知解碼的研究熱點之一。James V.Haxby 在2001 年首次提出了多體素模式分析(mult1-voxel pattern analysis,MVPA)方法,并應(yīng)用于無場景的圖像分類,成功地根據(jù)被試大腦的激活狀態(tài)對被試看到的簡單圖像刺激進行了 二分類。而后,Thomas A.Carlson于2003年使用線性判別分析(I ineardiscriminant analysis, LDA)提升了簡單圖像的語義二分類準確率;同年,David D.Cox和 Robert L.Savoy 引入了支持向量機(support vector machines, SVM)得到了更高的分類準確率。2011年,宋素濤等將SVM與體素選擇方法相結(jié)合進行四類簡單圖像進行語義分類,達到了 70%左右的分類準確率。然而目前的研究主要集中于人工制作的簡單圖像,沒有背景的干擾,而且各類圖像差異明顯,盡管如此,分類準確率仍然不高。針對更為廣泛和常見的自然圖像進行分類仍然是研究的重要難點問題。
[0007]基于功能磁共振成像技術(shù)的圖像分類以人腦的智能為基礎(chǔ),結(jié)合模式分類的方法提取圖像的語義,形成新的視覺信息表示方式,以有效地縮小圖像底層特征和高層語義之間的鴻溝,進而提高圖像檢索的正確率。值得注意的是,盡管與其他成像方式相比,fMRI有著較高的空間分辨率,但它的空間分辨率仍然局限于mm量級,測量到的最小體元,也就是一個體素(voxel)中仍然包含數(shù)以萬計的神經(jīng)元,體素的BOLD響應(yīng)僅僅是大尺度上的大腦智能,這就使得體素的BOLD響應(yīng)往往缺乏足夠的細節(jié)信息。此外,fMRI測量到的BOLD響應(yīng)還會受到因素的影響,比如頭動、掃描漂移、生理因素等。因此,僅僅依靠大尺度的體素特征進行圖像分類,往往難以達到魯棒的較高的分類準確率,仍然需要圖像細節(jié)信息予以輔助,但是如何將基于機器智能的圖像底層特征和基于人腦智能的fMRI體素特征結(jié)合起來仍是一個難點問題。
[0008]1997年,Olshausen和Field就人腦如何接受和利用視覺圖像信息這一問題進行了深入研究,研究表明人類視覺系統(tǒng)只需少數(shù)幾個視覺神經(jīng)元就能捕獲到自然場景中的關(guān)鍵信息(包括圖像的語義信息),也就是說,人類視覺系統(tǒng)可以對自然場景實現(xiàn)最稀疏的表示。如果能將圖像底層特征以類似于人類視覺系統(tǒng)的方式進行表達,就能夠與大尺度的人腦智能進行有效的融合。
[0009]2008年,Kendrick N.Kay等人的研究發(fā)現(xiàn),自然圖像在Gabor空間的分解系數(shù)跟大腦的BOLD響應(yīng)有線性的關(guān)系,Kay等利用該線性關(guān)系實現(xiàn)了對大腦信號的預(yù)測,并利用Gabor感受野模型進行了圖像識別。圖像過完備冗余字典與Gabor基函數(shù)很相像,而且其稀疏表示方法自2009年以來便成為圖像處理領(lǐng)域和模式識別領(lǐng)域的研究熱點,被廣泛應(yīng)用于解決計算機視覺方面的問題,并被認為有希望真正揭示人類視覺特性和圖像語義之間的關(guān)系。
[0010](三)、
【發(fā)明內(nèi)容】
:
本發(fā)明要解決的技術(shù)問題是:克服現(xiàn)有技術(shù)的缺陷,提供一種基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法,該方法提高了圖像檢索系統(tǒng)的準確率。
[0011]本發(fā)明的技術(shù)方案:
一種基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法,含有如下 步驟:
步驟1:待檢索圖像輸入后,通過語義提取操作模塊進行圖像語義的提取,獲得當前輸入圖像的類別,并構(gòu)造與當前輸入圖像具有相似語義的相似語義子圖像庫;
步驟2:通過圖像匹配操作模塊在相似語義子圖像庫中進行圖像檢索,輸出與當前輸入圖像引起的腦響應(yīng)類似的圖像。
[0012]步驟I中,語義提取操作模塊的工作過程為:
步驟1.1:一方面,利用人腦智能對刺激圖像進行表達,通過提取人腦對視 覺圖像刺激的BOLD (血氧水平依賴性)響應(yīng),基于fMRI (功能磁共振成像)
的解碼框架獲得人腦某些腦區(qū)對視覺圖像刺激的響應(yīng);另一方面,應(yīng)用機器智 能對刺激圖像進行表達,通過語義字典分解模型將視覺刺激圖像進行分解,獲 得視覺圖像刺激在過完備字典上的分解系數(shù);
步驟1.2:在特征空間對步驟1.1中的兩方面獲得的信息進行融合,得到融合了人腦智能和機器智能的圖像語義特征,最后輸入分類器進行分類。
[0013]步驟1.1中,利用人腦智能對刺激圖像進行表達方面:選擇在視覺圖像刺激時激活顯著的特征體素或者大腦視覺區(qū)的特征體素;這些特征體素的BOLD響應(yīng)反映了被試在看到視覺圖像刺激后大腦的響應(yīng),是人腦智能的一種體現(xiàn);提取每個視覺圖像刺激時刻對應(yīng)的這些特征體素的響應(yīng)值并組合,得到與每個視覺圖像刺激相對應(yīng)的特征向量;
應(yīng)用機器智能對刺激圖像進行表達方面:首先根據(jù)額外的訓(xùn)練集訓(xùn)練出可供圖像分類的字典;然后基于該包含類別信息的字典將刺激圖像進行稀疏分解,得到能夠表征圖像細節(jié)信息的特征向量。
[0014]步驟1.2中,對步驟1.1中的兩種特征向量進行融合。
[0015]對步驟1.1中的兩種特征向量進行融合的方法為:將兩種特征向量進行高維組合,得到維數(shù)更高的組合特征向量。
[0016]或者,對步驟1.1中的兩種特征向量進行融合的方法為:先分別對兩種特征向量進行主成分分析(Principal Components Analysis, PCA),再分別選取各特征向量的一些主要的主成分組成兩個主成分向量,然后再將該兩個主成分向量進行高維組合,得到最終的組合特征向量。該融合方法更有效且可避免過擬合(over-fitting)。
[0017]步驟2中,圖像匹配操作模塊的工作過程為:
首先,通過一個隨機圖像庫及其對應(yīng)的實際腦響應(yīng)構(gòu)成訓(xùn)練集,將隨機圖像庫中的圖像投射到由不同相位、不同空間頻率和不同位置的Gabor基函數(shù)構(gòu)成的Gabor空間,并計算投影能量,這些投影能量和這些圖像對應(yīng)的腦響應(yīng)之間的關(guān)系通過一個帶參數(shù)的線性模型表示;在訓(xùn)練集上通過稀疏優(yōu)化模型求解出圖像的投影能量與圖像的腦響應(yīng)之間的線性模型的參數(shù),建立圖像與腦響應(yīng)之間的Gabor感受野模型;
然后,基于該Gabor感受野模型,將相似語義子圖像庫中的所有圖像轉(zhuǎn)換成預(yù)測腦響
應(yīng);
最后,將當前輸入圖像對應(yīng)的實際腦信號與該相似語義子圖像庫的所有預(yù)測腦響應(yīng)信號進行匹配,按照相關(guān)系數(shù)依次給出檢索結(jié)果。
[0018]本發(fā)明的有益效果:
本發(fā)明先通過語義提取操作模塊進行待檢索圖像的語義提取,語義提取操作模塊首先通過fMRI進行基于大腦信號的語義提取,同時通過基于語義字典分解模型的方法進行基于圖像數(shù)據(jù)的語義提取,然后將大腦信號分析和機器智能分析的結(jié)果進行融合準確提取圖像的語義,構(gòu)建相似語義子圖像庫;圖像匹配操作模塊在相似語義子圖像庫中進行圖像匹配,以檢索出圖像庫中與待檢索圖像相似的圖像,該模塊利用Gabor感受野模型預(yù)測出人腦對輸入圖像的大腦BOLD曲線響應(yīng)圖,將圖像庫中的圖像數(shù)據(jù)轉(zhuǎn)化為人腦對圖像的腦BOLD響應(yīng)曲線,最后通過當前輸入圖像的實際腦響應(yīng)曲線和相似語義子圖像庫中圖像的預(yù)測腦響應(yīng)曲線的相似性進行圖像匹配,實現(xiàn)具有準確語義的圖像檢索。本發(fā)明將基于fMRI的人腦智能和基于語義字典分解模型的機器智能相融合,準確提取圖像語義,實現(xiàn)新的腦機協(xié)同圖像檢索方法,解決了傳統(tǒng)圖像檢索的語義鴻溝,提高了圖像檢索系統(tǒng)的準確率。
[0019](四)、【專利附圖】
【附圖說明】:
圖1為基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法的流程示意圖;
圖2為語義提取操作模塊的工作流程示意圖; 圖3為稀疏分解的工作流程示意圖;
圖4為對兩種特征向量進行融合的工作流程示意圖之一;
圖5為對兩種特征向量進行融合的工作流程示意圖之二;
圖6為Gabor感受野模型的訓(xùn)練示意圖;
圖7為圖像匹配操作模塊的工作流程示意圖。
[0020](五)、【具體實施方式】:
實施例一:參見圖1?圖4、圖6、圖7,基于功能磁共振成像和圖像字典 稀疏分解的圖像檢索方法含有如下步驟(見圖1):
步驟1:待檢索圖像輸入后,通過語義提取操作模塊進行圖像語義的提取,獲得當前輸入圖像的類別,并構(gòu)造與當前輸入圖像具有相似語義的相似語義子圖像庫;
步驟2:通過圖像匹配操作模塊在相似語義子圖像庫中進行圖像檢索,輸出與當前輸入圖像引起的腦響應(yīng)類似的圖像。
[0021]步驟I中,語義提取操作模塊的工作過程為(見圖2):
步驟1.1:一方面,利用人腦智能對刺激圖像進行表達,通過提取人腦對視 覺圖像刺激的BOLD (血氧水平依賴性)響應(yīng),基于fMRI (功能磁共振成像)
的解碼框架獲得人腦某些腦區(qū)對視覺圖像刺激的響應(yīng);另一方面,應(yīng)用機器智 能對刺激圖像進行表達,通過語義字典分解模型將視覺刺激圖像進行分解,獲 得視覺圖像刺激在過完備字典上的分解系數(shù);
步驟1.2:在特征空間對步驟1.1中的兩方面獲得的信息進行融合,得到融合了人腦智能和機器智能的圖像語義特征,最后輸入分類器進行分類。
[0022]步驟1.1中,利用人腦智能對刺激圖像進行表達方面:選擇在視覺圖像刺激時激活顯著的特征體素或者大腦視覺區(qū)的特征體素;這些特征體素的BOLD響應(yīng)反映了被試在看到視覺圖像刺激后大腦的響應(yīng),是人腦智能的一種體現(xiàn);提取每個視覺圖像刺激時刻對應(yīng)的這些特征體素的響應(yīng)值并組合,得到與每個視覺圖像刺激相對應(yīng)的特征向量;
應(yīng)用機器智能對刺激圖像進行表達方面:首先根據(jù)額外的訓(xùn)練集訓(xùn)練出可供圖像分類的字典;然后基于該包含類別信息的字典將刺激圖像進行稀疏分解,得到能夠表征圖像細節(jié)信息的特征向量(見圖3)。
[0023]步驟1.2中,對步驟1.1中的兩種特征向量進行融合。
[0024]對步驟1.1中的兩種特征向量進行融合的方法為:將兩種特征向量進行高維組合,得到維數(shù)更高的組合特征向量(見圖4)。
[0025]步驟2中,圖像匹配操作模塊的工作過程為(見圖6、圖7):
首先,通過一個隨機圖像庫及其對應(yīng)的實際腦響應(yīng)構(gòu)成訓(xùn)練集,將隨機圖像庫中的圖像投射到由不同相位、不同空間頻率和不同位置的Gabor基函數(shù)構(gòu)成的Gabor空間,并計算投影能量,這些投影能量和這些圖像對應(yīng)的腦響應(yīng)之間的關(guān)系通過一個帶參數(shù)的線性模型表示;在訓(xùn)練集上通過稀疏優(yōu)化模型求解出圖像的投影能量與圖像的腦響應(yīng)之間的線性模型的參數(shù),建立圖像與腦響應(yīng)之間的Gabor感受野模型;
然后,基于該Gabor感受野模型,將相似語義子圖像庫中的所有圖像轉(zhuǎn)換成預(yù)測腦響
應(yīng);
最后,將當前輸入圖像對應(yīng)的實際腦信號與該相似語義子圖像庫的所有預(yù)測腦響應(yīng)信號進行匹配,按照相關(guān)系數(shù)依次給出檢索結(jié)果。
[0026]實施例二:參見圖1?圖3、圖5、圖6、圖7,基于功能磁共振成像和圖像
字典稀疏分解的圖像檢索方法與實施例一中相同的部分就不再詳述,不同部分如下:對步驟1.1中的兩種特征向量進行融合的方法為:先分別對兩種特征向量進行主成分分析(Principal Components Analysis, PCA),再分別選取各特征向量的一些主要的主成分組成兩個主成分向量,然后再將該兩個主成分向量進行高維組合,得到最終的組合特征向量。該融合方法更有效且可避免過擬合(over-fitting)(見圖5)。
【權(quán)利要求】
1.一種基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法,其特征是:含有如下步驟: 步驟1:待檢索圖像輸入后,通過語義提取操作模塊進行圖像語義的提取,獲得當前輸入圖像的類別,并構(gòu)造與當前輸入圖像具有相似語義的相似語義子圖像庫; 步驟2:通過圖像匹配操作模塊在相似語義子圖像庫中進行圖像檢索,輸出與當前輸入圖像引起的腦響應(yīng)類似的圖像。
2.根據(jù)權(quán)利要求1所述的基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法,其特征是:所述步驟I中,語義提取操作模塊的工作過程為:步驟1.1:一方面,利用人腦智能對刺激圖像進行表達,通過提取人腦對視 覺圖像刺激的BOLD響應(yīng),基于fMRI的解碼框架獲得人腦某些腦區(qū)對視覺圖 像刺激的響應(yīng);另一方面,應(yīng)用機器智能對刺激圖像進行表達,通過語義字典 分解模型將視覺刺激圖像進行分解,獲得視覺圖像刺激在過完備字典上的分解 系數(shù); 步驟1.2:在特征空間對步驟1.1中的兩方面獲得的信息進行融合,得到融合了人腦智能和機器智能的圖像語義特征,最后輸入分類器進行分類。
3.根據(jù)權(quán)利要求2所述的基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法,其特征是:所述步驟1.1中,利用人腦智能對刺激圖像進行表達方面:選擇在視覺圖像刺激時激活顯著的特征體素或者大腦視覺區(qū)的特征體素;提取每個視覺圖像刺激時刻對應(yīng)的這些特征體素的響應(yīng)值并組合,得到與每個視覺圖像刺激相對應(yīng)的特征向量; 應(yīng)用機器智能對刺激圖像進行表達方面:首先根據(jù)額外的訓(xùn)練集訓(xùn)練出可供圖像分類的字典;然后基于該包含類別信息的字典將刺激圖像進行稀疏分解,得到能夠表征圖像細節(jié)信息的特征向量; 所述步驟1.2中,對步驟1.1中的兩種特征向量進行融合。
4.根據(jù)權(quán)利要求3所述的基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法,其特征是:對步驟1.1中的兩種特征向量進行融合的方法為:將兩種特征向量進行高維組合,得到維數(shù)更高的組合特征向量。
5.根據(jù)權(quán)利要求3所述的基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法,其特征是:對步驟1.1中的兩種特征向量進行融合的方法為:先分別對兩種特征向量進行主成分分析,再分別選取各特征向量的一些主要的主成分組成兩個主成分向量,然后再將該兩個主成分向量進行高維組合,得到最終的組合特征向量。
6.根據(jù)權(quán)利要求1所述的基于功能磁共振成像和圖像字典稀疏分解的圖像檢索方法,其特征是:所述步驟2中的圖像匹配操作模塊的工作過程如下: 首先,通過一個隨機圖像庫及其對應(yīng)的實際腦響應(yīng)構(gòu)成訓(xùn)練集,將隨機圖像庫中的圖像投射到由不同相位、不同空間頻率和不同位置的Gabor基函數(shù)構(gòu)成的Gabor空間,并計算投影能量,這些投影能量和這些圖像對應(yīng)的腦響應(yīng)之間的關(guān)系通過一個帶參數(shù)的線性模型表示;在訓(xùn)練集上通過稀疏優(yōu)化模型求解出圖像的投影能量與圖像的腦響應(yīng)之間的線性模型的參數(shù),建立圖像與腦響應(yīng)之間的Gabor感受野模型; 然后,基于該Gabor感受野模型,將相似語義子圖像庫中的所有圖像轉(zhuǎn)換成預(yù)測腦響應(yīng);最后,將當前輸入圖像對應(yīng)的實際腦信號與該相似語義子圖像庫的所有預(yù)測腦響應(yīng)信號進行匹配,按照相關(guān)系數(shù)依`次給出檢索結(jié)果。
【文檔編號】G06F17/30GK103778240SQ201410046388
【公開日】2014年5月7日 申請日期:2014年2月10日 優(yōu)先權(quán)日:2014年2月10日
【發(fā)明者】閆鑌, 童莉, 王理軍, 王林元, 鄭載舟, 雷煜, 史大鵬, 管民 申請人:中國人民解放軍信息工程大學(xué)