基于三維自組織映射的視差圖像編碼方法
【專利摘要】本發(fā)明的基于三維自組織映射的視差圖像編碼方法,是建立處理立體圖像的三維SOM網(wǎng)絡(luò)結(jié)構(gòu),利用三維SOM算法,對(duì)視差圖像進(jìn)行編碼,獲得三維立體圖像壓縮編碼,包括初始化算法、競爭算法、鄰域算法、學(xué)習(xí)算法。該法實(shí)現(xiàn)了二維輸入到三維輸出的映射,設(shè)計(jì)出的碼書在三維重構(gòu)圖像峰值信噪比方面具有很好的性能,實(shí)現(xiàn)了三維立體圖像編碼,由解碼視差圖和左圖像重建的右圖像具有很好的主客觀評(píng)價(jià),具有較重要的理論及工程實(shí)踐意義和較廣泛的應(yīng)用前景,可廣泛應(yīng)用于三維立體圖像處理、遙感圖像處理、醫(yī)學(xué)影像處理、目標(biāo)識(shí)別和立體視頻編碼等。
【專利說明】基于三維自組織映射的視差圖像編碼方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像處理,具體是三維立體圖像的處理,更具體是基于三維自組織映射的視差圖像編碼方法。
【背景技術(shù)】
[0002]芬蘭人T.Kohonen于1982年提出自組織映射網(wǎng)絡(luò)(Self-Organizing Map,即SOM),或稱為自組織特征映射網(wǎng)絡(luò)(Self-Organizing Feature Map)。它是一種無指導(dǎo)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),通過自身訓(xùn)練,自動(dòng)對(duì)輸入模式進(jìn)行聚類。SOM是一種具有側(cè)向聯(lián)想能力的兩層結(jié)構(gòu)網(wǎng)絡(luò),輸出節(jié)點(diǎn)呈二維陣列分布,每個(gè)輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn)之間用可變權(quán)值連接,每個(gè)輸出節(jié)點(diǎn)都有一個(gè)拓?fù)溧徲?,鄰域隨時(shí)間變化。該神經(jīng)網(wǎng)絡(luò)用于碼書設(shè)計(jì)時(shí),用矢量維數(shù)作為神經(jīng)網(wǎng)絡(luò)輸入節(jié)點(diǎn)個(gè)數(shù),用碼書尺寸作為輸出節(jié)點(diǎn)個(gè)數(shù),輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn)間的可變權(quán)值為碼書中各碼字。SOM算法的核心是尋找最優(yōu)匹配模式的碼書,即通過對(duì)大量樣本序列的不斷學(xué)習(xí)和訓(xùn)練,從而得到最優(yōu)匹配的模式庫。
[0003]傳統(tǒng)的SOM及其改進(jìn)SOM算法直接用于三維信號(hào)(如立體圖像/立體視頻等)處理遇到了如下挑戰(zhàn)性的問題:
[0004](I)傳統(tǒng)SOM通常采用一維輸入層和二維映射層,能有效地將一維輸入映射為二維輸出,但無法實(shí)現(xiàn)二維輸入到三維輸出的映射。例如三維立體圖像由二維平面圖像加一維深度信息構(gòu)成,深度信息的高效表示和處理是立體圖像應(yīng)用的基本問題,顯然傳統(tǒng)SOM難以有效地實(shí)現(xiàn)三維立體圖像的映射,也無法表示深度信息。
[0005](2)映射既是SOM的本質(zhì)特性,也是三維信號(hào)處理的關(guān)鍵技術(shù)之一。一般而言,傳統(tǒng)SOM算法主要研究一維輸入到二維輸出的映射,三維信號(hào)處理則需要研究二維輸入到三維輸出的映射,無論從信號(hào)相關(guān)性利用,還是從計(jì)算量、性能評(píng)價(jià)方法和實(shí)時(shí)性要求等,都差異較大。直接采用傳統(tǒng)SOM算法難以有效地實(shí)現(xiàn)三維信號(hào)的非線性映射。
[0006](3)三維信號(hào)的數(shù)據(jù)量要比一維/ 二維信號(hào)大得多,例如三維立體圖像的數(shù)據(jù)量較二維平面圖像要大2倍以上,處理如此海量數(shù)據(jù)對(duì)處理速度、存儲(chǔ)空間和實(shí)時(shí)性等提出了更高的要求,存在諸多問題需要解決。
【發(fā)明內(nèi)容】
[0007]隨著三網(wǎng)融合、4G的發(fā)展,立體圖像具有越來越廣泛的應(yīng)用性。由于立體圖像描述一個(gè)場景需左右兩組序列,相當(dāng)于2倍二維圖像,而大數(shù)據(jù)量的圖像信息會(huì)給存儲(chǔ)器的存儲(chǔ)容量、通信干線信道的帶寬以及計(jì)算機(jī)的處理速度增加極大的壓力,所以必須研究高效立體圖像壓縮技術(shù),才能使其實(shí)用化。
[0008]針對(duì)傳統(tǒng)的SOM及其改進(jìn)SOM算法直接用于三維信號(hào)的不足,為了有效地壓縮視差圖(立體圖像對(duì)中左眼視圖和右眼視圖相減),進(jìn)而實(shí)現(xiàn)三維立體圖像壓縮,本發(fā)明提出一種能高效處理三維信號(hào)的自組織映射算法-基于三維自組織映射的視差圖像編碼方法。
[0009]本發(fā)明的基于三維自組織映射的視差圖像編碼方法,是建立處理立體圖像的三維SOM網(wǎng)絡(luò)結(jié)構(gòu),利用三維SOM算法,對(duì)視差圖像用碼書(Wj(O), j=0,I,…,N-1}進(jìn)行編碼,獲得三維立體圖像壓縮編碼,包括采用下述的步驟:
[0010]I)基于方差的初始化算法;
[0011]2)輸入一個(gè)M=n*m的訓(xùn)練矢量X,進(jìn)行失真準(zhǔn)則的競爭算法;
[0012]3)通過鄰域算法求解鄰域的全局最優(yōu)解;
[0013]4)通過學(xué)習(xí)算法求解學(xué)習(xí)模型的全局最優(yōu)解;
[0014]5)對(duì)所有的訓(xùn)練矢量重復(fù)步驟2)~4); [0015]其中n和m分別表示二維輸入層的行數(shù)和列數(shù)。
[0016]所述三維SOM網(wǎng)絡(luò)結(jié)構(gòu),其輸入層為二維陣列信號(hào),映射層為三維信號(hào)。其輸入層有3行6列共18個(gè)神經(jīng)元,輸出層(即映射層)有3行6列3層共54個(gè)神經(jīng)元,輸入層各神經(jīng)元和輸出層各神經(jīng)元之間實(shí)現(xiàn)全連接,此連接物理量稱之為權(quán)值。
[0017]所述二維陣列信號(hào)為雙目立體圖像對(duì)的左右圖像。
[0018]本發(fā)明由匹配器將立體圖像對(duì)中左眼視圖和右眼視圖相減,得到視差圖。
[0019]步驟I)的初始化算法是:設(shè)置自組織神經(jīng)網(wǎng)絡(luò)大小為(N,M),其中N為碼書大小,即輸出層神經(jīng)元的個(gè)數(shù),M為每個(gè)訓(xùn)練矢量的大小,即輸入層神經(jīng)元的個(gè)數(shù);初始化碼書{W」(0),j=0, 1,…,N-1},選定初始碼書中的碼矢,并將碼矢排列成N=a X b X c的三維立體結(jié)構(gòu),其中a、b、c分別表示三維立體結(jié)構(gòu)的行數(shù)、列數(shù)和層數(shù);設(shè)定初始鄰域NEj(O), j=0, I,-,N-1 ;然后
[0020]1、計(jì)算各訓(xùn)練矢量的方差var (X);
[0021]i1、根據(jù)設(shè)置的閾值,將各訓(xùn)練矢量的方差與閾值相比,把訓(xùn)練集分成高頻低頻\兩個(gè)部分,其中:訓(xùn)練集的方差低于該閾值,則分到低頻部分;訓(xùn)練集的方差高于該閾值,則分為高頻部分;
[0022]ii1、根據(jù)方差分別對(duì)Xh和\中的訓(xùn)練矢量進(jìn)行排序;
[0023]iv、分別計(jì)算高頻和低頻子集中訓(xùn)練矢量所占總矢量數(shù)的比例,則初始碼書中的碼矢由相應(yīng)比例的高頻部分和低頻部分中的矢量組成:
[0024]
【權(quán)利要求】
1.基于三維自組織映射的視差圖像編碼方法,其特征在于:建立處理立體圖像的三維SOM網(wǎng)絡(luò)結(jié)構(gòu),利用三維SOM算法,對(duì)視差圖像用碼書(Wj(O), j=0,I,…,N-1}進(jìn)行編碼,獲得三維立體圖像壓縮編碼,包括采用下述的步驟: 1)基于方差的初始化算法; 2)輸入一個(gè)M=n*m的訓(xùn)練矢量X,進(jìn)行失真準(zhǔn)則的競爭算法; 3)通過鄰域算法求解鄰域的全局最優(yōu)解; 4)通過學(xué)習(xí)算法求解學(xué)習(xí)模型的全局最優(yōu)解; 5)對(duì)所有的訓(xùn)練矢量重復(fù)步驟2)~4); 其中n和m分別表示二維輸入層的行數(shù)和列數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述三維SOM網(wǎng)絡(luò)結(jié)構(gòu),其輸入層為二維陣列信號(hào),映射層為三維信號(hào)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于:所述二維陣列信號(hào)為雙目立體圖像對(duì)的左右圖像。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:由匹配器將立體圖像對(duì)中左眼視圖和右眼視圖相減,得到視差圖。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于:在步驟1),設(shè)置自組織神經(jīng)網(wǎng)絡(luò)大小為(N,M),其中N為碼書大小,即輸出層神經(jīng)元的個(gè)數(shù),M為每個(gè)訓(xùn)練矢量的大小,即輸入層神經(jīng)元的個(gè)數(shù);初始化碼書(Wj(O)J=O, I,…,N-1},選定初始碼書中的碼矢,并將碼矢排列成N=aXbXc的三維立體結(jié)構(gòu),其中a、b、c分別表示三維立體結(jié)構(gòu)的行數(shù)、列數(shù)和層數(shù);設(shè)定初始鄰域NE」(0),j=0, I,…,N-1 ;然后 1、計(jì)算各訓(xùn)練矢量的方差var(X); i1、根據(jù)設(shè)置的閾值,將各訓(xùn)練矢量的方差與閾值相比,把訓(xùn)練集分成高頻Xh和低頻\兩個(gè)部分,其中:訓(xùn)練集的方差低于該閾值,則分到低頻部分;訓(xùn)練集的方差高于該閾值,則分為高頻部分; ii1、根據(jù)方差分別對(duì)Xh和\中的訓(xùn)練矢量進(jìn)行排序; iv、分別計(jì)算高頻和低頻子集中訓(xùn)練矢量所占總矢量數(shù)的比例,則初始碼書中的碼矢由相應(yīng)比例的高頻部分和低頻部分中的矢量組成: Nl =N^(LlZL) 'N11=N-^liiID 式中,隊(duì)初始碼書中低頻部分碼矢總數(shù), Nh初始碼書中高頻部分碼矢總數(shù), N初始碼書碼矢總數(shù), L訓(xùn)練矢量總數(shù), U訓(xùn)練矢量中低頻子集總數(shù), Lh訓(xùn)練矢量中高頻子集總數(shù); V、分別從Xh和\中按一定間隔抽取訓(xùn)練矢量組成初始碼書。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于:在步驟2),對(duì)輸入的訓(xùn)練矢量X,計(jì)算該輸入矢量與碼書中各碼矢的失真dj,并選擇具有最小失真的碼矢j*為響應(yīng)碼矢;給碼書中每個(gè)碼失都設(shè)置一個(gè)響應(yīng)計(jì)數(shù)器h (j=l,2,…,N),每響應(yīng)一次數(shù)加1,并將這個(gè)頻率參量與其失真相關(guān)聯(lián),其失真測(cè)度變?yōu)?
7.根據(jù)權(quán)利要求1所述的方法,其特征在于:在步驟3),鄰域形狀選自正方體、球體和星形;三維鄰域衰減函數(shù)選自線性函數(shù)和指數(shù)函數(shù); 所述線性函數(shù)NE (t)形式如下:
NE (t) =NEfflin+(NEfflax-NEfflin) r)/T 式中NEmax和NEmin表示鄰域的最大值和最小值,NEmin=LNEmax為常數(shù),T為訓(xùn)練總次數(shù),也為常數(shù),t為迭代次數(shù); 所述指數(shù)函數(shù)NE (t)形 式如下:
8.根據(jù)權(quán)利要求1或7所述的方法,其特征在于:在步驟3),鄰域形狀選用星形;三維鄰域衰減函數(shù)選用指數(shù)函數(shù)。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于:在步驟4),按下式調(diào)整響應(yīng)碼矢及r的拓?fù)溧徲騈E范圍內(nèi)的碼矢
10.根據(jù)權(quán)利要求1所述的方法,其特征在于:在步驟4),還包括依據(jù)下式對(duì)獲勝神經(jīng)元鄰域范圍內(nèi)的神經(jīng)元的權(quán)值進(jìn)行更新,
Wi (t+1) =Wi (t) +a (t) hi (t) [X (t) -Wi (t)] 式中:hi(t)為高斯函數(shù),a (t)與前述相同,為學(xué)習(xí)函數(shù),Wi (t+1)為(t+1)時(shí)刻的獲勝神經(jīng)元鄰域范圍內(nèi)的神經(jīng)元的權(quán)值% (t)為t獲勝神經(jīng)元鄰域范圍內(nèi)的神經(jīng)元的權(quán)值;X (t)為訓(xùn)練矢量;
【文檔編號(hào)】H04N13/00GK103763565SQ201410035157
【公開日】2014年4月30日 申請(qǐng)日期:2014年1月24日 優(yōu)先權(quán)日:2014年1月24日
【發(fā)明者】黎洪松, 王艷華 申請(qǐng)人:桂林電子科技大學(xué)