專利名稱:基于非均勻量化顏色特征矢量的敏感圖像過濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種圖像處理技術(shù)領(lǐng)域的方法,特別是一種基于非均勻量化顏色特征矢量的敏感圖像過濾方法。
背景技術(shù):
在互聯(lián)網(wǎng)給人民生活帶來極大便利的同時,其負面效應(yīng)也日益凸顯出來,各種不良信息能夠在互聯(lián)網(wǎng)中快捷地傳播,其中,敏感圖象在互聯(lián)網(wǎng)中的泛濫則是一個重要的方面,相對于其他一些不良信息,敏感圖像所帶來的危害更大,更加直接,尤其對未成年少年的危害,更加不容忽視。在這種情況下,如何凈化網(wǎng)絡(luò)空間,限制敏感圖像在網(wǎng)絡(luò)中的傳播已經(jīng)受到人們的普遍關(guān)注。因此,有必要對網(wǎng)絡(luò)中的信息進行監(jiān)控,以發(fā)現(xiàn)并過濾隱藏其中的敏感圖像。圖像不同于一般的信息,需要在理解其中的語義的基礎(chǔ)上才能判斷是否包含敏感內(nèi)容,而對于高級語義的理解則需要通過提取圖像的低級特征,如顏色、紋理、形狀等信息,并對這些低級特征的分析來完成,進而完成圖像內(nèi)容的識別和判斷。對于敏感圖像的語義描述以及在這個基礎(chǔ)之上的圖像內(nèi)容的識別,有人提出自動識別裸體人物圖片的系統(tǒng)。該識別方法結(jié)合了膚色和紋理特征來標(biāo)記皮膚區(qū)域,然后讓這些標(biāo)記后的皮膚區(qū)域通過一個專門的分類器,利用人體結(jié)構(gòu)的幾何特征來分類出人的輪廓。帶有十分大量的可能肢體區(qū)域的圖片即可被認為是包含裸體人物的敏感圖片。但該方法過于依賴非幾何的因素(比如膚色)和部位之間的關(guān)系。還有人提出多層次特定類型圖像過濾方法,是一種基于計算機視覺和模式識別的敏感圖像過濾方法。通過研究人類視覺對圖像的分析機理,提出綜合膚色模型檢驗、支持向量機分類和最近鄰方法校驗的多層次圖像處理框架。該方法通過綜合多種方法的過濾結(jié)果以提高過濾的準(zhǔn)確性。
經(jīng)過對現(xiàn)有技術(shù)文獻的檢索發(fā)現(xiàn),中國專利申請?zhí)枮?2157115.5,名稱為“基于人體局部和形體信息的敏感圖像識別方法”該專利自述為一種基于人體局部和形體信息的敏感圖像識別方法,包括步驟對靜態(tài)敏感圖像進行劃分;確定區(qū)域幾何點;采用生長點的自主抖動確定生長點所屬區(qū)域的圖像局部特征;進行圖像性質(zhì)判斷。該方法主要通過將圖像劃分成若干個不同的區(qū)域,綜合每個區(qū)域中所提取的圖像局部特征和人體形體特征來進行判斷。故而這種方法處理時間短,對于背景清晰或形體輪廓清晰的圖像具有較好的效果。然而,實際生活中的圖像往往具有復(fù)雜的背景,人體與背景之間的顏色對比度也不太明顯。在這種情況下,該方法很難準(zhǔn)確地獲得人體的輪廓信息。另外,僅僅通過顏色信息來判斷皮膚區(qū)域也存在較大的誤差。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提出一種基于非均勻量化顏色特征矢量的敏感圖像過濾方法,使其實現(xiàn)對于圖像內(nèi)容的識別,判斷圖像是否包含敏感內(nèi)容,在獲得高識別率的同時,保證了較高的處理速度。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的,首先進行多種圖像特征的提取,主要包括1)圖像基本特征,即針對敏感圖像特點的非均勻量化顏色直方圖特征;2)圖像內(nèi)容特征,即基于紋理檢測的皮膚區(qū)域分布特征。然后采用自適應(yīng)提升(ADABOOST)算法,綜合分析所提取的特征組合,根據(jù)其與圖像樣本庫內(nèi)敏感圖像和正常圖像的匹配程度,判別該圖像是否為敏感圖像。本發(fā)明還采用平衡因子來調(diào)節(jié)識別率和錯誤率的平衡,可以針對不同的情況采取不同的判別方法。
本發(fā)明采用針對敏感圖像的非均勻量化顏色直方圖特征,該特征在性能上優(yōu)于傳統(tǒng)的均勻量化顏色直方圖,其原因在于,一方面,傳統(tǒng)的均勻量化顏色直方圖一般來說是高維的,其中包含很多與圖像敏感與否無關(guān)的冗余信息;另一方面,圖像性質(zhì)的信息往往包含在多個鄰近的直方圖元素的相互關(guān)系而非任何一個單個元素中,綜合多個鄰近的直方圖元素往往比單個元素能夠提供更高的判別力。2)采取一種能夠根據(jù)上述特征進行判別圖像內(nèi)容的方法,并可以自主調(diào)節(jié)識別率和錯誤率的平衡,以滿足各種不同的應(yīng)用需求。
本發(fā)明是一種新的敏感圖像描述和識別方法,針對敏感圖像的具體特點,提出了新的適合該類圖像的特征描述方法,并實現(xiàn)了敏感圖像的識別。本發(fā)明經(jīng)過了性能測試,測試結(jié)果表明了本發(fā)明對于圖像內(nèi)容的識別有著較高正確率,即正確判斷一幅是敏感圖像,識別率高于88%;同時有著較低的錯誤率,即將一幅正常圖像判斷為敏感圖像,錯誤率小于10%。因此,本發(fā)明在獲得高識別率的同時,保證了較高的處理速度,具有廣闊的應(yīng)用前景。
圖1本發(fā)明方法流程2本發(fā)明非均勻量化顏色直方圖特征的提取流程3本發(fā)明皮膚區(qū)域分布特征的提取流程圖具體實施方式
結(jié)合附圖以及本發(fā)明的內(nèi)容,對本發(fā)明作進一步詳細說明如圖1所示,本發(fā)明首先進行多種圖像特征的提取,主要包括1)圖像基本特征,即針對敏感圖像特點的非均勻量化顏色直方圖特征;2)圖像內(nèi)容特征,即基于紋理檢測的皮膚區(qū)域分布特征。然后采用自適應(yīng)提升(ADABOOST)算法,綜合分析所提取的特征組合,根據(jù)其與圖像樣本庫內(nèi)敏感圖像和正常圖像的匹配程度,判別該圖像是否為敏感圖像。
如圖2所示,非均勻量化顏色直方圖特征的提取流程,首先建立一個包含敏感圖像和非敏感圖像的訓(xùn)練集,從中獲得能夠區(qū)分敏感和非敏感圖像的特征描述方法。提取步驟如下1)從24位RGB格式的圖像中,將每個顏色成分均勻的分成10份,統(tǒng)計每個顏色單元中包含的像素點個數(shù)記為ni,j,k,則均勻量化的直方圖矢量為ci,j,k=ni,j,k/N(i,j,k∈{0,1,2,...,9}),其中N為圖像中包含的像素點總數(shù)。初始化特征組gi*100+j*10+k=ci,j,k(i,j,k∈{0,1,2,...,9})。
2)對于未標(biāo)記的每個特征(組),計算依據(jù)該特征(組)作判別的誤差。從中選取誤差最小(記為e1)的特征(組)g1。
3)在特征(組)g1的顏色空間鄰域范圍內(nèi)尋找滿足以下要求,誤差最小的特征(組)g2i)將特征(組)g1和g2合并后的判別誤差e2<e1。
ii)g1和g2中包含的元素在三個顏色成分的最大差別小于給定閾值τ。
4)如果找不到這樣的特征(組)g2,則標(biāo)記特征(組)g1,否則將特征(組)g2并入g1同時刪除組g2。如果存在未被標(biāo)記的組則轉(zhuǎn)到第2步,否則退出循環(huán)。
值得注意的是第一,上述步驟中均采用線性判別式分析(LDA)作為判別算法,在終止循環(huán)之前記錄所有的分組情況及其相應(yīng)的LDA權(quán)重;第二,這樣的訓(xùn)練過程只需預(yù)先進行一次,之后便可以通過所得到的分組和LDA權(quán)重來計算任何圖像的非均勻量化顏色直方圖特征。
如圖3所示,皮膚區(qū)域分布特征的提取,通過顏色門限、紋理檢驗方法,從圖像中提取皮膚區(qū)域,并生成描述皮膚區(qū)域分布情況的特征矢量。具體如下1.色彩門限法首先將圖像轉(zhuǎn)化到HIS顏色空間,選取滿足以下條件的像素點為可能的皮膚點H∈
∪[5.6,2π],I>100,0.1<S<0.88且R>240。
2.紋理檢驗通過Gabor特征來描述皮膚區(qū)域的紋理特征,從可能的皮膚點中過濾掉與皮膚紋理模型不符的像素點。
3.皮膚區(qū)域的描述從得到的皮膚區(qū)域中,提取以下特征i)pi=皮膚點的總數(shù)/圖像中包含的總像素點ii)p2=最大連接皮膚塊中包含的像素點總數(shù)/圖像中包含的總像素點iii)p3=最大連接皮膚塊中包含的像素點總數(shù)/最小外包矩形面積采用自適應(yīng)提升算法,綜合分析所提取的特征組合,根據(jù)其與圖像樣本庫內(nèi)敏感圖像和正常圖像的匹配程度,判別該圖像是否為敏感圖像,具體如下記訓(xùn)練集中包含的非敏感圖像特征集為{x1+,x2+,…,xp+},敏感圖像特征集為{x1-,x2-,…,xn-},其中xi+和xi-為包含所有圖像特征(基本特征和內(nèi)容特征)的矢量。預(yù)設(shè)平衡因子c(0<c<1),整個判別方法如下1)初始化樣本權(quán)重wi+(t)=cp(1≤i≤p),wi-(t)=cn(1≤i≤n),t=0.]]>2)針對每個圖像特征,根據(jù)樣本權(quán)重訓(xùn)練一個相應(yīng)的基本分類器hj,其產(chǎn)生的誤差為ej=Σi=1pwi+(t)1-hj(xi+)2+Σi=1nwi-(t)1+hj(xi-)2.]]>
3)選取誤差最小的圖像特征,記其誤差為et,并計算αt=12ln(1-etet).]]>4)更新權(quán)重wi+(t+1)=cZt+wi+(t)exp(-αtht(xi+))]]>wi+(t+1)=1-cZt-wi-(t)exp(αtht(xi-))]]>其中,Zt+和Zt-是歸一化因子。
5)t=t+1,如果t大于給定的閾值T,則退出循環(huán),否則轉(zhuǎn)到步驟2)。
6)最終的判別方法為h(x)=1Σt=1Tαtht(x)≥0-1Σt=1Tαtht(x)<0.]]>其中平衡因子c用來調(diào)節(jié)識別率和錯誤率的平衡,可以針對不同的情況采取不同的判別方法(如對于比較可靠的圖像信息來源,可以適當(dāng)提高因子c來降低錯誤率,反之亦然)。
為了實施本發(fā)明的具體方法,設(shè)計并實現(xiàn)了基于圖像內(nèi)容識別的互聯(lián)網(wǎng)上敏感圖像過濾系統(tǒng)。通過10,000多幅互聯(lián)網(wǎng)上隨機獲取圖像的性能測試(包含3,000幅敏感圖像),本系統(tǒng)對于圖像內(nèi)容的識別有著較高正確率,即正確判斷一幅是敏感圖像,識別率高于88%;同時有著較低的錯誤率,即將一幅正常圖像判斷為敏感圖像,錯誤率小于10%。
權(quán)利要求
1.一種基于非均勻量化顏色特征矢量的敏感圖像過濾方法,其特征在于,首先進行多種圖像特征的提取,包括圖像基本特征的提取和圖像內(nèi)容特征的提取,圖像基本特征是針對敏感圖像特點的非均勻量化顏色直方圖特征;圖像內(nèi)容特征是基于紋理檢測的皮膚區(qū)域分布特征;然后采用自適應(yīng)提升算法,綜合分析所提取的特征組合,根據(jù)其與圖像樣本庫內(nèi)敏感圖像和正常圖像的匹配程度,判別該圖像是否為敏感圖像。
2.根據(jù)權(quán)利要求1所述的基于非均勻量化顏色特征矢量的敏感圖像過濾方法,其特征是,所述的非均勻量化顏色直方圖特征的提取,首先建立一個包含敏感圖像和非敏感圖像的訓(xùn)練集,從中獲得能夠區(qū)分敏感和非敏感圖像的特征描述方法,提取步驟如下1)從24位RGB格式的圖像中,將每個顏色成分均勻的分成10份,統(tǒng)計每個顏色單元中包含的像素點個數(shù)記為ni,j,k,則均勻量化的直方圖矢量為ci,j,k=ni,j,k/N(i,j,k∈{0,1,2,...,9}),其中N為圖像中包含的像素點總數(shù),初始化特征組gi*100+j*10+k=ci,j,k(i,j,k∈{0,1,2,...,9});]]>2)對于未標(biāo)記的每個特征組,計算依據(jù)該特征組作判別的誤差。從中選取誤差最小的特征組g1,其所對應(yīng)的誤差為e1;3)在特征組g1的顏色空間鄰域范圍內(nèi)尋找滿足要求,誤差最小的特征組g2;4)如果所有e2≥e1,則標(biāo)記特征組g1,否則將特征組g2并入g1同時刪除組g2;如果存在未被標(biāo)記的組則轉(zhuǎn)到第2)步,否則退出循環(huán)。
3.根據(jù)權(quán)利要求2所述的基于非均勻量化顏色特征矢量的敏感圖像過濾方法,其特征是,所述的誤差最小的特征組g2滿足以下要求i)將特征組g1和g2合并后的判別誤差e2<e1;ii)g1和g2中包含的元素在三個顏色成分的最大差別小于給定閾值τ。
4.根據(jù)權(quán)利要求2所述的基于非均勻量化顏色特征矢量的敏感圖像過濾方法,其特征是,所述的非均勻量化顏色直方圖特征,采用線性判別式分析作為判別算法,在終止循環(huán)之前記錄所有的分組情況及其相應(yīng)的LDA權(quán)重;這樣的訓(xùn)練過程只需預(yù)先進行一次,之后便通過所得到的分組和LDA權(quán)重來計算任何圖像的非均勻量化顏色直方圖特征。
5.根據(jù)權(quán)利要求1所述的基于非均勻量化顏色特征矢量的敏感圖像過濾方法,其特征是,所述的基于紋理檢測的皮膚區(qū)域分布特征,通過顏色門限法、紋理檢驗法從圖像中提取皮膚區(qū)域,并生成描述皮膚區(qū)域分布情況的特征矢量。
6.根據(jù)權(quán)利要求5所述的基于非均勻量化顏色特征矢量的敏感圖像過濾方法,其特征是,所述的色彩門限法,具體是首先將圖像轉(zhuǎn)化到HIS顏色空間,選取滿足以下條件的像素點為可能的皮膚點H∈
∪[5.6,2π],I>100,0.1<S<0.88且R>240。
7.根據(jù)權(quán)利要求5所述的基于非均勻量化顏色特征矢量的敏感圖像過濾方法,其特征是,所述的紋理檢驗法,具體是通過Gabor特征來描述皮膚區(qū)域的紋理特征,從可能的皮膚點中尋找滿足皮膚紋理模型的像素點。
8.根據(jù)權(quán)利要求5或者7所述的基于非均勻量化顏色特征矢量的敏感圖像過濾方法,其特征是,所述的皮膚區(qū)域,其描述如下i)p1=皮膚點的總數(shù)/圖像中包含的總像素點;ii)p2=最大連接皮膚塊中包含的像素點總數(shù)/圖像中包含的總像素點;iii)p3=最大連接皮膚塊中包含的像素點總數(shù)/最小外包矩形面積。
9.根據(jù)權(quán)利要求1所述的基于非均勻量化顏色特征矢量的敏感圖像過濾方法,其特征是,所述的采用自適應(yīng)提升算法,綜合分析所提取的特征組合,根據(jù)其與圖像樣本庫內(nèi)敏感圖像和正常圖像的匹配程度,判別該圖像是否為敏感圖像,具體如下記訓(xùn)練集中包含的非敏感圖像特征集為{x1+,x2+,…,xp+},敏感圖像特征集為{x1-,x2-,…,xn-},其中xi+和xi-為包含圖像基本特征和內(nèi)容特征的矢量,預(yù)設(shè)平衡因子c(0<c<1),整個判別方法如下1)初始化樣本權(quán)重wi+(t)=cp(1≤i≤p),]]>wi-(t)=cn(1≤i≤n),]]>t=0;2)針對每個圖像特征,根據(jù)樣本權(quán)重訓(xùn)練一個相應(yīng)的基本分類器hj,其產(chǎn)生的誤差為ej=Σi=1pwi+(t)1-hj(xi+)2+Σi=1nwi-(t)1+hj(xi-)2;]]>3)選取誤差最小的圖像特征,記其誤差為et,并計算αt=12ln(1-etet);]]>4)更新權(quán)重wi+(t+1)=cZt+wi+(t)exp(-αtht(xi+))]]>wi+(t+1)=1-cZt-wi-(t)exp(αtht(xi-))]]>其中,Zt+和Zt-是歸一化因子;5)t=t+1,如果t大于給定的閾值T,則退出循環(huán),否則轉(zhuǎn)到步驟2);6)最終的判別方法為h(x)=1Σt=1Tαtht(x)≥0-1Σt=1Tαtht(x)<0,]]>其中平衡因子c用來調(diào)節(jié)識別率和錯誤率的平衡。
全文摘要
一種模式識別領(lǐng)域的基于非均勻量化顏色特征矢量的敏感圖像過濾方法,首先進行多種圖像特征的提取,包括圖像基本特征的提取和圖像內(nèi)容特征的提取,圖像基本特征是針對敏感圖像特點的非均勻量化顏色直方圖特征;圖像內(nèi)容特征是基于紋理檢測的皮膚區(qū)域分布特征;然后采用自適應(yīng)提升算法,綜合分析所提取的特征組合,根據(jù)其與圖像樣本庫內(nèi)敏感圖像和正常圖像的匹配程度,判別該圖像是否為敏感圖像。本發(fā)明提出了一種新型圖像基本顏色特征的表達方式,能夠使用盡可能低維的特征向量來描述敏感圖像的顏色分布特點。因此,本發(fā)明在獲得高識別率的同時,保證了較高的處理速度,具有廣闊的應(yīng)用前景。
文檔編號G06K9/46GK1728161SQ20051002820
公開日2006年2月1日 申請日期2005年7月28日 優(yōu)先權(quán)日2005年7月28日
發(fā)明者王士林, 李生紅, 李翔, 李建華, 周黎 申請人:上海交通大學(xué)