類地重力場環(huán)境下室內(nèi)場景單目視覺空間識別方法
【專利摘要】一種類地重力場環(huán)境下室內(nèi)場景單目視覺空間識別方法,其特征是它包括以下步驟:首先,對圖像進(jìn)行基于像素色彩及空間位置的超像素圖像分割;其次,基于人類視覺多尺度感知特性的色彩空間譜聚類方法將超像素圖像進(jìn)一步聚類;對色彩分類圖塊進(jìn)行基于輪廓形態(tài)譜聚類;采用室外重力場視覺模糊分布密度函數(shù)進(jìn)行室內(nèi)場景的初步空間分類;利用曼哈頓強度特性將具有強立面輪廓特征的圖塊歸類成立面;基于室內(nèi)場景透視原理對天花板與立面、地面與立面邊界進(jìn)行搜索;采用室內(nèi)重力場視覺模糊分布密度函數(shù)進(jìn)行室內(nèi)場景圖像空間識別;基于地面與天花板透視原理標(biāo)注室內(nèi)空間生成深度圖。本發(fā)明實用性、棒性強。
【專利說明】類地重力場環(huán)境下室內(nèi)場景單目視覺空間識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種可以廣泛應(yīng)用于如機器視覺室內(nèi)空間導(dǎo)航、目標(biāo)測量、目標(biāo)追蹤與定位等領(lǐng)域的室內(nèi)場景圖像單目視覺空間識別方法,尤其是一種將重力場、透視投影原理及視覺空間尺度作為機器視覺空間識別的重要線索,實現(xiàn)對室內(nèi)場景圖像的視覺空間識別的方法,具體地說是一種類地重力場環(huán)境下室內(nèi)場景單目視覺空間識別方法。
【背景技術(shù)】
[0002]本發(fā)明僅涉及類地重力場環(huán)境下的場景,因此需要對類地重力場環(huán)境給予必要的定義,本方法中所謂的類地重力場是指以硅酸鹽巖石為主要成分的星體表面所構(gòu)成的重力場環(huán)境,如:地球、火星、月球等重力場環(huán)境。圖1給出了在萬有引力場中場景圖像的分類。而在類地重力場環(huán)境下的場景圖像又可以分為兩類,分別是通常所說的室外和室內(nèi)場景圖像,本發(fā)明的應(yīng)用對象為室內(nèi)場景。
[0003]目前對室內(nèi)場景圖像進(jìn)行空間識別的方法主要有:動態(tài)貝葉斯網(wǎng)絡(luò)模型法(DBN)、基于”盒子模型”的結(jié)構(gòu)化學(xué)習(xí)法(SL)以及幾何推理法(GR)等。這些方法能夠?qū)σ恍╊愋偷氖覂?nèi)場景圖像產(chǎn)生一定的三維空間識別。
[0004]1.動態(tài)貝葉斯網(wǎng)絡(luò)模型法(DBN)
[0005]Erick等人采用動態(tài)貝葉斯網(wǎng)絡(luò)模型,以斯坦福大學(xué)校園的建筑物室內(nèi)場景為訓(xùn)練集,通過反復(fù)機器學(xué)習(xí)獲得了對建筑物室內(nèi)空間識別的模型,并對由因特網(wǎng)上的谷歌圖片(http://images.google, com)收索到44張分辨率相似的室內(nèi)場景圖片進(jìn)行測試,該方法模型對地板邊界的平均識別率為80%,對圖像3D重構(gòu)的平均準(zhǔn)確率為66%。Erick等人在其文章中對其提出的方法產(chǎn)生的錯誤進(jìn)行了分析,其主要原因在于該方法依賴圖像中對滅點檢測的準(zhǔn)確性,當(dāng)室內(nèi)空間存在較多不規(guī)則物體時將影響其方法對空間中平行線滅點的檢測,從而帶來空間識別的錯誤。此外,當(dāng)場景中出現(xiàn)弧形墻面時則該方法的錯誤率將會更大。
[0006]2.基于“盒子模型”的結(jié)構(gòu)化學(xué)習(xí)法(SL)
[0007]Varsha等人基于Derek等人提出的“盒子模型”假設(shè),引入了一種結(jié)構(gòu)化的機器學(xué)習(xí)方法,通過對308張由網(wǎng)上獲得的室內(nèi)場景圖像進(jìn)行訓(xùn)練學(xué)習(xí),其中隨機抽取了 204張圖像用于訓(xùn)練,104張圖像用于測試。該方法數(shù)據(jù)集圖像空間識別情況是,其對室內(nèi)空間平面的像素識別錯誤率在26.5%?21.2%之間;對室內(nèi)空間中墻角識別的錯誤率為7.4%?6.3% Jarsha等人對其方法所產(chǎn)生的錯誤進(jìn)行了分析,其主要原因也在于該方法依賴滅點檢測的準(zhǔn)確性。
[0008]3.幾何推理法(GR)
[0009]David C.等人提出采用幾何推理法來對室內(nèi)場景圖像進(jìn)行空間識別,即通過提取室內(nèi)場景圖像中的線段集合,并通過對線段進(jìn)行相對合理的推理解釋,來重構(gòu)建筑物的室內(nèi)3D空間,該方法忽略了室內(nèi)場景中障礙物的存在,比如:室內(nèi)場景中的人體、家具等。從其推理模型中可以看出(如圖2所示),該方法僅適合攝像機在平視或接近平視條件下的墻面與天花板及地面間有明確直線交界線其障礙物較少的室內(nèi)場景空間。
[0010]本發(fā)明在繼承“盒內(nèi)假想方法”(Thinking Inside the Box)的基礎(chǔ)上,提出將室內(nèi)空間定義為“任意形狀盒子模型”,并將重力場、透視投影原理及視覺空間尺度作為機器視覺空間識別的重要線索,實現(xiàn)室內(nèi)場景圖像的空間識別,該方法不需要進(jìn)行機器學(xué)習(xí)。
【發(fā)明內(nèi)容】
[0011]本發(fā)明的目的是針對現(xiàn)有的各類室內(nèi)場景圖像空間識別方法存在的精度低、誤差率大的問題,發(fā)明一種類地重力場環(huán)境下室內(nèi)場景單目視覺空間識別方法,這種方法在繼承“盒內(nèi)假想方法”(Thinking Inside the Box)的基礎(chǔ)上,通過分析重力場中室內(nèi)環(huán)境空間特點,采用構(gòu)造模糊函數(shù)的方法來構(gòu)建重力場室內(nèi)場景視覺空間識別模型,該模型不依賴于室內(nèi)場景圖像中的滅點信息。其基本思想是,在室內(nèi)空間中,主導(dǎo)性結(jié)構(gòu)物體為地面、墻面和天花板,而且它們相互之間的關(guān)系往往是正交的,因此采用“盒子模型”是可行的,但是本發(fā)明所采用的盒子模型并不是立方體,而是由底面即地面和有頂蓋即天花板的“任意形狀的盒子”。本發(fā)明拋棄了以往研究中提出的尋找平行線滅點方法來認(rèn)知室內(nèi)3D空間的方法,而是將重力場因素加入到“任意形狀盒子模型”中作為約束條件,即在重力場的作用下,除了氣體以外幾乎所有的物體(除利用空氣動力學(xué)原理的飛行器)都需要地面的支撐,如天花板需要墻體的支撐,墻體需要地面的支持,室內(nèi)家具等物體必須處于地面的支持狀態(tài)下才是穩(wěn)定的。因此本發(fā)明中的室內(nèi)場景3D空間識別方法從立面物體識別著手,以立面物體為線索推導(dǎo)出室內(nèi)空間中的天花板和地面,進(jìn)而實現(xiàn)對室內(nèi)場景的空間認(rèn)知與識別。
[0012]本發(fā)明的技術(shù)方案是:
[0013]一種類地重力場環(huán)境下室內(nèi)場景單目視覺空間識別方法,其特征是它包括以下步驟,如圖3所示:
[0014]首先,對圖像進(jìn)行基于像素色彩及空間位置的超像素圖像分割,形成具有一定密度的超像素圖像;
[0015]其次,基于人類視覺多尺度感知特性的色彩空間譜聚類方法將超像素圖像進(jìn)一步聚類,生成接近人類視覺色彩分類感知的圖塊圖像,以降維超像素圖像;
[0016]第三,對色彩分類圖塊進(jìn)行基于輪廓形態(tài)譜聚類,將立面物體的圖像聚類成大立面圖塊;
[0017]第四,采用室外重力場視覺模糊分布密度函數(shù)進(jìn)行室內(nèi)場景的初步空間分類,初步找出可能的天花板、立面及地面的空間區(qū)域;
[0018]第五,并利用曼哈頓強度特性將具有強立面輪廓特征的圖塊歸類成立面;
[0019]第六,基于室內(nèi)場景透視原理的天花板與立面、地面與立面邊界進(jìn)行搜索;
[0020]第七,采用室內(nèi)重力場視覺模糊分布密度函數(shù)進(jìn)行室內(nèi)場景圖像空間識別;
[0021 ] 第八,基于地面與天花板透視原理標(biāo)注室內(nèi)空間生成深度圖。
[0022]所述的多尺度感知特性的色彩空間譜聚類方法是先采用簡單線性迭代聚類方法即SLIC(Simple Linear Iterative Clustering)進(jìn)行超像素聚類,它以像素的CIELAB色彩空間的L、a、b值及像素的X,y軸坐標(biāo)構(gòu)建5維空間,并定義了規(guī)范化的距離測量方法Ds,具體定義如下:
【權(quán)利要求】
1.一種類地重力場環(huán)境下室內(nèi)場景單目視覺空間識別方法,其特征是它包括以下步驟: 首先,對圖像進(jìn)行基于像素色彩及空間位置的超像素圖像分割,形成具有一定密度的超像素圖像; 其次,基于人類視覺多尺度感知特性的色彩空間譜聚類方法將超像素圖像進(jìn)一步聚類,生成接近人類視覺色彩分類感知的圖塊圖像,以降維超像素圖像; 第三,對色彩分類圖塊進(jìn)行基于輪廓形態(tài)譜聚類,將立面物體的圖像聚類成大立面圖塊; 第四,采用室外重力場視覺模糊分布密度函數(shù)進(jìn)行室內(nèi)場景的初步空間分類,初步找出可能的天花板、立面及地面的空間區(qū)域; 第五,利用曼哈頓強度特性將具有強立面輪廓特征的圖塊歸類成立面; 第六,基于室內(nèi)場景透視原理對天花板與立面、地面與立面邊界進(jìn)行搜索; 第七,采用室內(nèi)重力場視覺模糊分布密度函數(shù)進(jìn)行室內(nèi)場景圖像空間識別; 第八,基于地面與天花板透視原理標(biāo)注室內(nèi)空間生成深度圖。
2.根據(jù)權(quán)利要求1 所述的方法,其特征是所述的多尺度感知特性的色彩空間譜聚類方法是先采用簡單線性迭代聚類方法即SLIC(Simple Linear Iterative Clustering)進(jìn)行超像素聚類,它以像素的CIELAB色彩空間的L、a、b值及像素的x,y軸坐標(biāo)構(gòu)建5維空間,并定義了規(guī)范化的距離測量方法Ds,具體定義如下:
其中:ck = [lk,ak,bk,Xk, yk]T為聚類的中心;[li; ai; bi; xi; yJT為圖像像素點的5維空間坐標(biāo);N為圖像的像素數(shù);K為期望獲得的超像素的數(shù)目;S為超像素中心柵格間距;DS為色彩Iab距離dlab和dxy基于S的規(guī)范化距離;m為可控的超像素密度因子;其次采用以下方法進(jìn)行多尺度特性色彩空間譜聚類: (1)將SLIC方法所產(chǎn)生的η個超像素作為無向權(quán)值圖G的頂點V= Iv1, V2, , νη}; (2)構(gòu)建鄰接矩陣,i= 1,2...n ;j = I,2...n,其中,η為超像素的個數(shù);
(3)構(gòu)建權(quán)值鄰接矩陣,i= l,2...n ;j = l,2...n ;
其中權(quán)值w(i,j)為相鄰兩個超像素之間的規(guī)范化CIELAB顏色直方圖Bhattacharyya系數(shù)進(jìn)行度量計算,具體構(gòu)建方法是將圖像的色彩空間轉(zhuǎn)換到CIELab空間,并將L通道的取值范圍劃分為8級等分,a通道的取值范圍劃分為16等分,將b通道的取值范圍劃分成16個等級,其中將L通道取值范圍劃分為8級的目的是降低色彩亮度變化對權(quán)值的擾動,每個超像素在8X 16X 16 = 2048維度的空間計算值直方圖為:
對于權(quán)值W(i, j)的取值通過增加一個基于Bhattacharyya系數(shù)的色彩距離的約束條件進(jìn)行選取,選取條件為:
當(dāng) W(i,j) ^ 0.71 ^ cos45° 時,則令 W(i,j) = O ; 增加此約束條件的目的是提高相鄰超像素間色彩的相似性閾值以提高方法的干擾能力和魯棒性;
(4)構(gòu)建度矩陣,i= 1,2...n ;j = 1,2...η ;
(5)構(gòu)建規(guī)范化Laplacian矩陣,采用Normalized_cut準(zhǔn)則來計算規(guī)范化的Laplacian 矩陣:
(6)計算Lsym進(jìn)行特征值分解,并取前K個最小特征值所對應(yīng)的特征向量,V1,V2,,Vk;,其中K= [0.1Xn],即取η的10%作為圖像聚類特征向量的維度,從而實現(xiàn)將超像素圖像降維到接近10%以下的目的; (7)將V1,V2,..., Vk排列組成Rnxk矩陣并將矩陣中的每個元素取絕對值得矩陣U ; (8)對于i= 1,2...n,令yi e Rk為矩陣U的第i行向量; (9)對非零的Yie Rk向量進(jìn)行歸一化,并用Bhattacharyya系數(shù)法進(jìn)行聚類,其中Bhattacharyya距離的Bu閾值為cos20° ^ 0.95,即當(dāng)Bu≥0.95時,超像素間進(jìn)行聚類; (10)采用以下方法對每個譜聚類圖塊進(jìn)行聚類,生成接近人類視覺色彩分類感知的圖塊圖像: ①構(gòu)建顏色多尺度空間模型: 采用一個以a = 0,b = O為圓心,Rm為半徑的圓柱體將CIELAB色彩空間分割成兩個部分: 對于在ab平面上投影的模長大于Rm的顏色向量,采用兩個顏色向量在ab平面投影向量間的夾角和顏色向量在ab平面上投影的模長之差的絕對值作為顏色聚類的近似性測度,具體的數(shù)學(xué)表達(dá)如下:
其中:5和S為兩個顏色向量在ab平面投影向量,AmT分別為兩向量聚類夾角的閾值和模長之差的閾值,θ τ的取值范圍為θτ = 5~20°,AmT的取值范圍為Λπιτ =.15 ~40 ; 對于在ab平面上投影的模長小于Rm的顏色向量,則采用兩個顏色向量在ab平面投影向量間的夾角,其表達(dá)式同(10)式,以及向量在L上的亮度差作為其顏色聚類的近似性測度,具體的數(shù)學(xué)表達(dá)如下: AL = |La-Lj ^ ALt (12) 其中:Λ Lt的取值范圍為ALt = 5~20。 ②應(yīng)用顏色多尺度空間模型進(jìn)行圖像聚類: a.計算每個聚類圖塊平均色彩向量值,并將向量投影到ab平面上; b.計算每個聚類圖塊平均色彩向量值投影在ab平面上向量的模長,并根據(jù)向量在ab平面上的模長將其歸于不同的測度空間; c.對相鄰圖塊類采用式(10)進(jìn)行向量間的夾角的計算; d.以公式(10)(11) (12)為判據(jù),將符合條件的圖塊進(jìn)行聚類; e.重復(fù)a~d步,直到收斂。
3.根據(jù)權(quán)利要求1所述的方法,其特征是為了提高重力場視覺模糊分布密度函數(shù)對天花板、地面和立面物體判斷的準(zhǔn)確度,需要對圖塊進(jìn)行基于幾何包含關(guān)系的聚類,以消除孤島圖塊,所謂孤島圖塊是指一個或多個圖塊被一個大圖塊完全包圍的圖塊,幾何包含關(guān)系的聚類方法能將孤島圖塊聚類成完全包圍該孤島的大圖塊;圖像中非鏤空圖塊是指:其輪廓邊界的線積分值等于其外輪廓線積分值的圖形區(qū)域,即圖塊的輪廓線就是其唯一的輪廓線,其判據(jù)的數(shù)學(xué)表達(dá)式為:
圖像中鏤空圖塊是指:其外輪廓線積分值小于其輪廓邊界線積分值的圖形區(qū)域,其判據(jù)的數(shù)學(xué)表達(dá)式為:
幾何包含關(guān)系的聚類方法為: (1)尋找鏤空圖塊,其判據(jù)為當(dāng)Nb-nb> O時則圖塊為鏤空圖塊,其中Nb為圖塊所有邊界的像素值,nb為圖塊外邊界的像素值,如果Nb-nb > O則進(jìn)入下一步,否則圖塊不為鏤空圖塊則退出進(jìn)程,并遍歷其它圖塊以尋找鏤空圖塊;直到遍歷所有圖塊且沒有鏤空圖塊時退出; (2)以外邊界為邊界以原圖塊的標(biāo)記值來填充圖塊; (3)以填充圖塊代替原鏤空圖塊。 (4)返回第一步。
4.根據(jù)權(quán)利要求1所述的方法,其特征是所述的基于圖塊輪廓形態(tài)的譜聚類方法為:(1)對聚類圖像中的所有圖塊邊緣輪廓進(jìn)行Hough直線提??; (2)在[0,180]角度區(qū)間范圍,以4°為一區(qū)間,將[0,180]區(qū)間分為45個小區(qū)間,并統(tǒng)計場景圖像中各角度區(qū)間中的直線段總長,并歸一化后形成統(tǒng)計直方圖; (3)構(gòu)造一個窗口函數(shù)wK(X),即在[0,4]、[84,96]以及[176,180]區(qū)間內(nèi)設(shè)置采樣窗口。
(4)將統(tǒng)計直方圖與窗口函數(shù)Wk(X)相乘,并將其結(jié)果進(jìn)行求和得到直方圖在[0,4]、[84,96]以及[176,180]區(qū)間內(nèi)的能量E' H ; (5)將整個統(tǒng)計直方圖進(jìn)行求和運算得Eh; (6)根據(jù)公式將E,H除以Eh,得曼哈頓方向強度Sm;
(7)當(dāng)兩相鄰圖塊的曼哈頓方向強度Sm≥0.75時,構(gòu)建向量e(i) = (e1,e2,e3),其中,e1; e2,e3分別是,圖塊輪廓直線方向直方圖在[0,4]、[84,96]以及[176,180]區(qū)間內(nèi)的數(shù)值; (8)求取其相鄰超像素之間的Bhattacharyya系數(shù)值Bk(i, j)為:
(9)當(dāng)BK(i,j)≥0.9時圖塊聚類。
5.根據(jù)權(quán)利要求1所述的方法,其特征是室外重力場視覺模糊分布密度函數(shù)分類方法為: (1)設(shè)定圖像的視平線的位置;視平線為過攝像機的光心并與地平面或水平面平行的直線,而圖像中的水平線為過視平線與攝像機成像靶面的交點與地平面或水平面平行的直線,直線為成像靶面視平線所在的位置,需要指出的是由于攝像機視角的變化,其視平線的位置將會在圖像成像靶面中上下移動,即視平線不一定在圖像的中間位置; (2)構(gòu)造地面重力場視覺模糊分布密度函數(shù)G: 當(dāng) Hg ≥ Hs 時:令
當(dāng) Hg < Hs 時:G(x) = -S(x)
其中:n = 1,2,3......N,N e正整數(shù),通常取n = I即可。 (3)構(gòu)造天空重力場視覺模糊分布密度函數(shù)S:
其中:n = 1,2,3......N,N e正整數(shù),通常取n = I即可。 (4)計算立面物體重力場視覺模糊分布密度函數(shù)V:
即
(5)對聚類圖塊中各像素在圖像垂直方向上與地面模糊分布密度函數(shù)G、天空模糊分布密度函數(shù)S以及立面物體模糊分布密度函數(shù)V,在(-?,?)范圍內(nèi)相乘并求其期望值,公式如下:
其中:叫為聚類圖塊在第i行的像素個數(shù),rb為聚類圖塊的最下延,rt為圖塊的最上延,則圖塊的分類為:
其中:S代表天空、V代表立面、G代表地面。
6.根據(jù)權(quán)利要求1所述的方法,其特征是室內(nèi)重力場視覺模糊分布密度函數(shù)方法為: (1)構(gòu)造地面重力場視覺模糊分布密度函數(shù)G:
其中:n = 1,2,3......N,N e正整數(shù),本發(fā)明中的實驗取n = I ; (2)構(gòu)造天花板重力場視覺模糊分布密度函數(shù)C:
其中:n = 1,2,3......N,N e正整數(shù),本發(fā)明中的實驗取n = I ; (3)構(gòu)造立面物體重力場視覺模糊分布密度函數(shù)V:
(4)對聚類圖塊中各像素在圖像垂直方向上與地面模糊分布密度函數(shù)G、天花板模糊分布密度函數(shù)C以及立面物體模糊分布密度函數(shù)V,在(-?,?)范圍內(nèi)相乘并求其期望值,公式如下:
其中:叫為聚類圖塊在第i行的像素個數(shù),rb為聚類圖塊的最下延,rt為圖塊的最上延,則圖塊的分類為:
其中:C代表天花板、V代表立面、G代表地面。
7.根據(jù)權(quán)利要求1所述的方法,其特征是室內(nèi)空間中天花板、地面與立面的邊界線預(yù)測估計方法: (1)對室內(nèi)初步分類圖像中每行像素中的天花板像素的個數(shù)進(jìn)行累加統(tǒng)計,得η個I?,其中:4 - O ? 4下標(biāo)i代表像素的行號,上標(biāo)c代表天花板像素; (2)對室內(nèi)初步分類圖像中每行像素中地面像素的個數(shù)進(jìn)行累加統(tǒng)計,得m個弓,其中:Lgj^O,馬下標(biāo)j代表像素的行號,上標(biāo)g代表地面像素; (3)令
(4)分別以μ。和μg為均值計算標(biāo)準(zhǔn)差S。和Sg,公式如下:
(5)直線cc’位置的確定,首先取fAA,……A,}中所有大于y「1.96S。的IJ,組成新的集合,……,并在此集合中尋找與視平線00’距離d。最小的水平線作為天花板與立面邊界的預(yù)測估計線cc’ ; (6)直線cc’位置的確定,首先取……中所有大于118-1.96\的15,組成新的集合弓.……qj,并在此集合中尋找與視平線00’距離dg最小的水平線作為天花板與立面邊界的預(yù)測估計線gg’。
8.根據(jù)權(quán)利要求1所述的方法,其特征是基于地面與天花板透視原理標(biāo)注室內(nèi)空間深度圖生成方法包括 (1)構(gòu)建基于地面的深度模型; 該模型首先假設(shè)地面是水平連續(xù)延展且較為平整,視覺成像系統(tǒng)有明確的方向性,即圖像上緣為3D空間的正上方,下緣為3D空間的正下方; 地面深度信息與圖像中地面像素位置的透視投影關(guān)系如下:
其中:Η為攝像機距地面的高度,β為攝像機光軸與視平線的夾角,深度投影角α為視平線00’與直線op的夾角,其取值范圍為(0,β + tan-1^], ρ,為地面上的ρ點在成像靶面上的投影,f為鏡頭焦距,h為成像靶面上的視平線到P’點的距離,則攝像機可感知的地面距離d取值范圍為(Hcotp + tarT1.),+00)。 (2)構(gòu)建基于地面的圖像深度圖;由地面深度與攝像機距地面的高度H和深度投影角a的關(guān)系式(34)知,當(dāng)H為常數(shù)時,可以用a的值來表示地面在攝像機投影的各像素點深度,將ae(0,沒+ tern?1合]的取值映射到 CIELAB色彩空間的(-f, I)的色環(huán)上,并將天空的顏色定義為色環(huán)彳處的顏色; (3)生成基于天花板的圖像深度圖,先假設(shè)天花板是一個與地面平行的水平面,并在此基礎(chǔ)上將天花板的深度圖標(biāo)注方法采用上述相同基于地面的圖像深度圖的標(biāo)注方法,對天花板的深度進(jìn)行標(biāo)注。
【文檔編號】G06K9/66GK104077611SQ201410335080
【公開日】2014年10月1日 申請日期:2014年7月14日 優(yōu)先權(quán)日:2014年7月14日
【發(fā)明者】鄭李明, 崔兵兵 申請人:金陵科技學(xué)院