專利名稱:一種對互聯(lián)網(wǎng)大麻圖像進(jìn)行的過濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)網(wǎng)絡(luò)安全領(lǐng)域,特別涉及互聯(lián)網(wǎng)敏感信息過濾方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,毒品信息,特別是大麻販?zhǔn)坌畔⒃诨ヂ?lián)網(wǎng)快速的傳播開來。許多不法網(wǎng)站利用網(wǎng)上購物的形式銷售大麻,同時宣揚(yáng)大麻無害論,給社會造成了較大的危害。因此,正如過濾網(wǎng)絡(luò)色情一樣,對毒品,特別是大麻信息的過濾已經(jīng)成為當(dāng)務(wù)之急。
從2001年1月1日開始,歐洲委員會啟動了一項名為"網(wǎng)絡(luò)保護(hù)(NetProtect,NetProtect II)"的計劃開發(fā)互聯(lián)網(wǎng)多語言過濾系統(tǒng),其搜集的網(wǎng)頁數(shù)據(jù)庫包括色情、暴力、炸彈制作和毒品共4大類,研究人員主要根據(jù)網(wǎng)頁中的文本信息,嘗試了文本處理領(lǐng)域的各種方法來對這四類網(wǎng)頁進(jìn)行過濾。然而這項計劃只采用了文本過濾技術(shù),對于販?zhǔn)鄞舐榈木W(wǎng)站,由于其主要內(nèi)容是圖像和文字,過濾的效果就會大打折扣。 目前對毒品網(wǎng)站的識別還主要依靠文本過濾技術(shù),對于毒品類圖像識別問題,目
前還未見相關(guān)的研究。而從更廣義上講,毒品類圖像的識別實際上是計算機(jī)視覺領(lǐng)域中"物
體類識別(object class recognition)"問題的一個特例。物體類識別是由物體識別技術(shù)
發(fā)展而來的。物體識別主要的任務(wù)是區(qū)分本類物體中此物體與彼物體,例如人臉識別,其主
要難點是圖像的視角、尺度、遮擋、光照等因素會嚴(yán)重的改變物體的信息,給識別造成較大
的困難。而物體類識別的主要任務(wù)是區(qū)分一類物體和其它任何不屬于此類的物體,其不僅
繼承了物體識別的所有難點,還要考慮一類物體內(nèi)部的變化信息。雖然這個問題很困難,卻
吸引了一批學(xué)者對此問題進(jìn)行了深入的研究,涌現(xiàn)出一系列有效的方法。 CVPR03上Fergus等人提出了一個概率模型,用一群已學(xué)習(xí)的部分來表達(dá)一個物
體類,然后用EM算法學(xué)習(xí)這個模型的參數(shù)。這個方法在Caltech圖像庫上測試并取得了巨
大的成功,因此在物體類識別領(lǐng)域作為其它方法的標(biāo)尺。 在物體識別領(lǐng)域?qū)W者們提出了很多基于局部特征的方法,典型的方法包括一個興趣點檢測算法和一個局部特征描述子,這些局部特征一般都是平移和平面旋轉(zhuǎn)不變的。Mikolajczyk和Schmid總結(jié)并比較了幾種局部特征描述子,包括尺度不變特征變換(SIFT) , steerable filters, differential invariants禾口 moment invariants,結(jié)論是SIFT特征是效果最好的。 0pelt等人提出一個包含3種興趣點檢測算法和4種局部描述子的模型,用Adaboost來挑選特征,進(jìn)行物體類識別。Levi和Fink也采用了相似的多特征的方法來識別。他們用Adaboost來挑選類Haar特征、方向特征、甚至還有顏色特征。
物體類識別也可以用形狀特征來完成。例如,Thureson和Carlsson首先在圖像中找出梯度方向,然后用這些梯度形成一個直方圖特征。 一個物體的形狀特征間接的定義為圖像的梯度。兩幅圖像的相似度定義為他們直方圖的點乘。如果一幅圖像和訓(xùn)練圖像有足夠的相似度,就認(rèn)為此圖像屬于某一類物體。 物體識別還可以利用特征的空間位置關(guān)系。Fergus等人用聯(lián)合高斯密度來描述特
4征位置的分布。Agarwal和Roth把每對檢測的部位的空間關(guān)系描述為一個二值的特征向量,然后把特征放入Winnows學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。 2005年CVPR上Zhang等人提出了一個兩層的boosting模型,用來融合局部特征,形狀特征和相對位置特征。首先對訓(xùn)練圖像提取PCA-SIFT和Sh即e Context組成一個特征庫,用Adaboost挑選好的特征組成第一層分類器;同時把這些挑選到的局部特征輸入到第二層形成空間位置特征(PSR),測試圖像如果能通過這兩層分類器就成功分類。這種方法比較成功的融合了各種類型的特征,取得了不錯的實驗結(jié)果。但是這種方法的PSR特征的實驗效果并不是很令人滿意,在處理圖像背景復(fù)雜的情況下反而起到負(fù)面效果。
物體類識別領(lǐng)域也有些利用圖像內(nèi)部自相似關(guān)系進(jìn)行識別的方法。Shechtman和Irani對圖像中每個點提取周圍的自相似信息,然后將局部特征和相對位置一起考慮,用貝耶斯概率圖模型來計算圖像間的相似度,取得了不錯的實驗結(jié)果。但是缺點是識別類似于窮舉搜索,沒有興趣點定位和尺度不變的性質(zhì),計算量非常大。 物體類識別已經(jīng)從利用某些特征進(jìn)行識別到多特征的融合算法。對于大麻類圖像,有區(qū)分力的特征除了形狀、顏色、紋理等,自相似性也是其主要特點之一。因此,如何有效地利用圖像中的自相似信息是現(xiàn)階段研究的重點之一。
發(fā)明內(nèi)容
本發(fā)明的目的是針對大麻圖像存在多個自相似結(jié)構(gòu)的特點提出了大麻圖像過濾算法,本發(fā)明在于提供一種高識別率的對大麻圖像進(jìn)行過濾方法。 為實現(xiàn)上述目的,本發(fā)明提供的一種對互聯(lián)網(wǎng)大麻圖像進(jìn)行過濾方法,該方法包括步驟 步驟1 :利用尺度不變特征變換算法(SIFT)提取圖像的局部特征; 步驟2 :對每一個大麻訓(xùn)練圖像的每一個局部特征構(gòu)造一個自相似性弱分類器,
其中每個自相似性弱分類器包括一個局部特征,一個距離閾值,一個數(shù)量閾值;自相似性弱
分類器考察任意一幅測試圖像的兩方面性質(zhì)一是這幅測試圖像是否與此自相似性弱分
類器的局部特征所在的大麻圖像相似,二是這幅測試圖像的自相似程度是否足夠;如果一
幅測試圖像既與此自相似性弱分類器的局部特征所在的大麻圖像相似,又有足夠的自相似
性,自相似性弱分類器輸出l,否則輸出-I ; 步驟3 :基于Adaboost算法將自相似性弱分類器整合到一起,構(gòu)造一個強(qiáng)分類器,
此強(qiáng)分類器根據(jù)一幅圖像的所有局部特征判斷此圖像是否為大麻圖像。 所述自相似性弱分類器通過計算一幅測試圖像中有多少個局部特征與此自相似
性弱分類器的局部特征相似來度量測試圖像內(nèi)的自相似性;所述自相似性弱分類器通過計
算一幅圖像中是否存在局部特征與此自相似性弱分類器的局部特征相似來度量這兩個局
部特征所在圖像的相似性;具體定義如下定義d( , )為兩個局部特征SIFT的歐式距
離;定義集合{Fi,j, j = l,. . . ,nj是第Ii個測試圖像的所有局部特征;自相似性弱分類器
包含一個局部特征fk,一個距離閾值9d和一個數(shù)量閾值9n;如果一個特征Fi,j滿足方程
d(Fi,j,fk) < ed,就說這個特征和此自相似性弱分類器相似。 所述自相似性弱分類器定義如下
A(/fc,^f,D =
5<formula>formula see original document page 6</formula> 其中Card(( })表示一個集合的勢,即集合中元素的個數(shù);Card(」| d」,fk)< 9 d, j = 1, . . . , nj)表示集合{Fi,j, j = 1, . . . , 中滿足方程d(Fi,j, fk) < e d的特征數(shù)目;這種設(shè)計表明不僅關(guān)心是否存在特征和自相似性弱分類器相似,還關(guān)心滿足這樣條件的特征數(shù)目;一個圖像被自相似性弱分類器接受是這幅圖像中有足夠多的特征和這個自相似性弱分類器相似,與某自相似性弱分類器相似的特征之間也是相似,因此,計算圖像中有多少個特征與自相似性弱分類器相似表達(dá)了測試圖像內(nèi)部局部特征之間的相似性。
本發(fā)明的積極效果本發(fā)明提出了一種新型的互聯(lián)網(wǎng)大麻圖像過濾技術(shù),本發(fā)明技術(shù)針對大麻圖像的特點,采用了一種自相似性弱分類器,可以克服一般物體識別方法中無法考慮圖像內(nèi)部相似關(guān)系的缺點,從而有效地抓住大麻圖像的特點,識別與過濾大麻圖像,同時本發(fā)明可與傳統(tǒng)的文本過濾技術(shù)互補(bǔ),具有廣闊的應(yīng)用前景。
圖1為現(xiàn)有技術(shù)互聯(lián)網(wǎng)上大麻圖像實例示意圖; 圖2a為現(xiàn)有技術(shù)DoG尺度空間的建立示意圖; 圖2b為現(xiàn)有技術(shù)尺度空間金字塔的26鄰示意圖; 圖3a為現(xiàn)有技術(shù)尺度空間的建立示意圖; 圖3b為現(xiàn)有技術(shù)前后圖片求差后,DoG尺度空間示意圖; 圖4a為現(xiàn)有技術(shù)局部極值點示意圖; 圖4b為現(xiàn)有技術(shù)去除低對比度的點后示意圖; 圖4c為現(xiàn)有技術(shù)再去除邊緣上的點后示意圖; 圖4d為現(xiàn)有技術(shù)SIFT特征示意圖; 圖5a為現(xiàn)有技術(shù)梯度幅值示意圖; 圖5b為現(xiàn)有技術(shù)加權(quán)的高斯核示意圖; 圖5c為現(xiàn)有技術(shù)加權(quán)的梯度幅值示意圖; 圖5d為現(xiàn)有技術(shù)梯度方向示意圖 圖5e為現(xiàn)有技術(shù)峰值方向檢測,達(dá)到主峰80%的次峰可作為另一個主方向示意圖; 圖6為現(xiàn)有技術(shù)SIFT描述子的構(gòu)造示意圖; 圖7為本發(fā)明大麻圖像過濾框架示意具體實施例方式
下面結(jié)合附圖詳細(xì)說明本發(fā)明技術(shù)方案中所涉及的各個細(xì)節(jié)問題。應(yīng)指出的是,
所描述的實施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。 本發(fā)明的主要特點在于 1)自相似性弱分類器的構(gòu)造,這些自相似性弱分類器應(yīng)盡可能互補(bǔ)以最大限度的提供分類信息。對于大麻圖像的識別與過濾來說,自相似性弱分類器應(yīng)該能很好的抓住此類物體的特點,也就是物體內(nèi)部結(jié)構(gòu)的自相似性。
請參閱圖1為現(xiàn)有技術(shù)互聯(lián)網(wǎng)上大麻圖像實例示意圖,再請參閱圖7,為本發(fā)明大麻圖像過濾框架示意,下面詳細(xì)給出本發(fā)明技術(shù)方案中所涉及的各個細(xì)節(jié)問題的說明。
—、尺度不變特征變換算法(SIFT)的特征提取 SIFT由Lowe于1999年首次提出,并在2004年進(jìn)行了完善總結(jié)。SIFT最初是作為一種關(guān)鍵點的特征提出來的,這種特征對圖像的尺度變化和旋轉(zhuǎn)是不變量,而且對光照的變化和圖像形變具有較強(qiáng)的適應(yīng)性,同時,SIFT特征還具有較高的辨別能力,有利于后續(xù)的匹配。SIFT出眾的分辨能力和對圖像平移、旋轉(zhuǎn)、縮放、仿射、光照變化的魯棒性十分適合于檢測圖片中的細(xì)節(jié)。 SIFT特征的構(gòu)造方法包括關(guān)鍵點(Keypoint)的檢測和描述子的構(gòu)造兩大部分。整個過程包括四個步驟多尺度空間極值點檢測、關(guān)鍵點的精確定位、關(guān)鍵點的主方向計算和描述子的構(gòu)造。 (1)多尺度空間極值點檢測 這一步是確定關(guān)鍵點在圖像空間和尺度空間中的位置x二 (x,y, 0)T。為了獲得尺度不變性,關(guān)鍵點的檢測是在多尺度空間完成的。 尺度空間理論最早出現(xiàn)于計算機(jī)視覺領(lǐng)域時其目的是模擬圖像數(shù)據(jù)的多尺度特征。Koendetink證明高斯巻積核是實現(xiàn)尺度變換的唯一變換核,而Lindeberg等人則進(jìn)一步證明高斯核是唯一的線性核。
二維高斯函數(shù)定義如下 G(X, 乂 CT) = _i^e—( "2)/2CT2
2;rcr 其中,o表示高斯正態(tài)分布的方差。 根據(jù)線性尺度空間理論,多尺度空間是采用不同尺度的高斯核函數(shù)對原圖像進(jìn)行濾波來表示的 L(x, y, o ) = G(x, y, o )W (x, y) 其中,I(x, y)表示原圖像,G(x, y,。)代表二維巻積運(yùn)算,。是尺度因子,o值
越小則表征該圖像被平滑的越少,相應(yīng)的圖像尺度也就越小。大尺度對應(yīng)于圖像的概貌特
征,小尺度對應(yīng)于圖像的細(xì)節(jié)特征。L(x,y, o)表示圖像的多尺度空間。 Lowe證明,DoG(Difference-of-Gaussians)能夠較好地反映了圖像的局部結(jié)構(gòu),
且計算復(fù)雜度很低多。其計算公式如下,其中k為兩個相鄰尺度的比值 D (x, y, o ) = (G (x, y, k o ) _G (x, y, o ))承I (x, y) = "x, y, k o ) _L (x, y, o ), Lowe采用了 DoG算子來建立尺度空間金字塔圖像結(jié)構(gòu),如圖2a、圖3所示,輸入圖
像通過高斯核函數(shù)進(jìn)行連續(xù)平滑與下采樣,圖2a左邊、圖3a是連續(xù)平滑及下采樣之后的示
意圖像,然后再對相鄰的兩個平滑圖像相減得到DoG多尺度空間表示,如圖2a右邊及圖3b
所示。圖2a中給出的是每組金字塔中建立2個離散尺度的情況(s = 2)。根據(jù)Lowe的實
驗結(jié)果,我們在選擇了 s = 3。若最后一組金字塔中的圖像大小已經(jīng)小于30X30像素,則停
止繼續(xù)建立。關(guān)鍵點的搜索則是在每組金字塔中對每個點與其26鄰域中的點分別比較,如
圖2b所示。通過對DoG金字塔尺度空間每個點與相鄰尺度和相鄰位置的點逐個進(jìn)行搜索
比較,局部極值點即是關(guān)鍵點。 (2)關(guān)鍵點的精確定位
由于圖像和尺度空間都是離散取值的,本節(jié)將在上一節(jié)的基礎(chǔ)上進(jìn)一步將關(guān)鍵點定位到子像素級精度,而尺度參數(shù)也定位到更精細(xì)的尺度。Lowe采用的方法是對關(guān)鍵點周圍的樣點進(jìn)行三元二次函數(shù)擬合(這里的三個變量分別為圖像坐標(biāo)x, y和尺度變量o),如圖4a圖4b圖4c圖4d示出關(guān)鍵點定位結(jié)果。
(3)關(guān)鍵點的主方向計算 關(guān)鍵點的主方向計算是指對每個關(guān)鍵點賦予基于局部圖像特性的主方向,主方向通過鄰域內(nèi)梯度方向直方圖來確定。后續(xù)描述子的計算將以這個方向為基準(zhǔn),這樣構(gòu)造的描述子就具有了旋轉(zhuǎn)不變特性。 下式為像素點的梯度幅值和方向計算公式,其中L為金字塔結(jié)構(gòu)中與關(guān)鍵點尺度最近的高斯圖像, 《 , z 、
|^(:r,j/) = ton-t,vjz + l) -£(.r,j/- - i(.r - l,y))), 在程序?qū)崿F(xiàn)時,對于每個關(guān)鍵點,首先計算該關(guān)鍵點鄰域內(nèi)每個像素點的梯度幅
度和方向,如圖5a和圖5d,再用一個以關(guān)鍵點為中心的高斯圓型窗口函數(shù)對梯度幅度進(jìn)行
加權(quán)的二維高斯核和加權(quán)的梯度幅度值,如圖5b和圖5c,高斯函數(shù)的o取為1. 5倍的關(guān)鍵
點尺度值。然后對每個方向的梯度幅值進(jìn)行統(tǒng)計,形成梯度方向直方圖,如圖5e。直方圖的
范圍是0 360度,其中每10度一個計數(shù)器,總共36個計數(shù)器。直方圖中對應(yīng)于最大值和
大于最大值80%的那個(或那些)方向作為該關(guān)鍵點的主方向。因此,在同一個圖像位置
和尺度上,可能產(chǎn)生具有多個不同主方向的關(guān)鍵點,這可以增強(qiáng)匹配的魯棒性丄owe通過比
較大量方法的實驗結(jié)果表明,這種主方向計算方法在這里是最為穩(wěn)定的。 至此,圖像的關(guān)鍵點已檢測完畢,每個關(guān)鍵點有三個信息位置、尺度、方向。由此
可以確定一個SIFT特征區(qū)域。 (4) SIFT描述子的構(gòu)造 在前面的步驟中,已經(jīng)確定了關(guān)鍵點的位置、關(guān)鍵點所在的尺度空間參數(shù),而且還為每個關(guān)鍵點確定了一個主方向,下一步將為該關(guān)鍵點的局部鄰域設(shè)計描述子,用于后續(xù)的匹配。SIFT描述子的構(gòu)造是通過建立一個三維直方圖來實現(xiàn)的,這里,三維是指圖像空間的坐標(biāo)(x,y)和梯度方向9 ,直方圖的值則是梯度的幅值m。 如圖6所示,假設(shè)該圖像是某關(guān)鍵點所在的金字塔結(jié)構(gòu)的某一層,圖像中心是該關(guān)鍵點的位置,鄰域大小取為16X16(圖中只畫了 8X8大小)樣點,圖中小箭頭方向代表鄰域每點的梯度方向,其大小為梯度幅值經(jīng)過圓形高斯窗加權(quán)后的大小(高斯加權(quán)函數(shù)的o為鄰域?qū)挾鹊囊话?,那么SIFT的構(gòu)造如下 將每點的位置和梯度方向重新表示為以關(guān)鍵點主方向為基準(zhǔn)的新坐標(biāo)系下的量(這樣描述子就具有了旋轉(zhuǎn)不變性,而且后續(xù)的計算和表示都以這個坐標(biāo)系為基準(zhǔn))。將16X16的鄰域劃分為4X4大小的16個子區(qū)域,計算每個4X4子區(qū)域的梯度方向直方圖,直方圖分為8個方向(圖6中只畫了 2X2個子區(qū)域方向直方圖),這樣對每個關(guān)鍵點構(gòu)成了一個4X4X8 = 128維的向量,該向量的每一維分量代表對應(yīng)子區(qū)域的直方圖中對應(yīng)方向的梯度幅值。該向量即是我們所稱的SIFT描述子。非線性光照變化的影響,將歸一化后的描述子的128個元素值用0. 2截斷(即將所有大于0. 2的元素值都賦值為0. 2),并再次歸一化。
二、自相似性弱分類器的構(gòu)造 Adaboost的核心思想是將弱分類器整合到一起,構(gòu)造一個強(qiáng)分類器。而不同的弱分類器的分類能力不同,我們針對大麻樹葉的特點構(gòu)造出一種能夠衡量圖像內(nèi)部結(jié)構(gòu)自相似性的弱分類器。具體過程如下定義(!( , )為兩個局部特征SIFT的歐式距離。自相似性弱分類器包含一個局部特征fk,一個距離閾值9d和一個數(shù)量閾值en。如果一個特征Fi,j滿足方程d(Fi,j, fk) < 9d,我們就說這個特征和此自相似性弱分類器相似。我們的自相似性弱分類器定義如下
<formula>formula see original document page 9</formula> <formula>formula see original document page 9</formula> 其中Card((一)表示一個集合的勢,即集合中元素的個數(shù)。Card(| dfk)< 9 d, j = 1, . . . , nj)表示集合{Fi,j, j = 1, . . . , 中滿足方程d(Fi,j, fk) < e d的特征數(shù)目。這種設(shè)計表明我們不僅關(guān)心是否存在特征和自相似性弱分類器相似,還關(guān)心滿足這樣條件的特征數(shù)目。 一個圖像只有當(dāng)其有足夠多的特征和這個自相似性弱分類器相似,才可能被自相似性弱分類器接受。由于e d是兩個歸一化的特征向量的歐式距離,因此o《e d《2。而e n為自然
數(shù),根據(jù)實驗經(jīng)驗,我們規(guī)定9n的可以取的最大值為IO,這樣既可以保證數(shù)量閾值的有效
性,同時也可以減少計算時間,提高計算效率。因此每個自相似性弱分類器的距離閾值ed
和數(shù)量閾值9n可以通過窮舉獲得。具體方法是對于9d,我們規(guī)定它的取值精確到0.01,也即9d的可能取值為{0,0.01,0. 02,0.03, ... ,2},而同理、可能取值為{1,2,3,...,
io}。對于每一對Pd, ej可能的取值,我們可以在所有樣本權(quán)重都相同的情況下計算其
對所有樣本的分類準(zhǔn)確率,窮舉所有的閾值,我們就可以找到最優(yōu)的閾值作為此自相似性弱分類器的閾值。 三、基于Adaboost算法的強(qiáng)分類器構(gòu)造 首先設(shè)定自相似性弱分類器集合為H = 0if},其中hf是構(gòu)造的自相似性弱分類器,I(O為示性函數(shù),即判斷函數(shù)I(O括號中的邏輯式是否為真,如果為真,I(O = l,否則I ( ) = 0 ; 利用給定帶標(biāo)記的訓(xùn)練樣本集為(Xl, y》,...,(xn, yn),循環(huán)如述步驟 步驟3. 1.從自相似性弱分類器集合H二 0if}中選擇一個自相似性弱分類器hW,
使得給定帶標(biāo)記的訓(xùn)練樣本上的加權(quán)分類錯誤率最小,即 # = argmin^ =力wW(z')/[:k,. - ~(\)],初始化訓(xùn)練樣本權(quán)值為"(1) (i)=l/n(i = 1,…,n) , t = 1,…,T ;步驟3. 2.如果fW = minf > 1/2 ,則令T = t-l,終止循環(huán)
步驟3. 3.根據(jù)貪婪策略計算"(()=|log
1 —
步驟3. 4.根據(jù)加權(quán)分類錯誤率重新計算訓(xùn)練樣本權(quán)值,即<formula>formula see original document page 10</formula> 其中ZW是一個歸一化因子,標(biāo)記信息為yi G {+1, -1};;當(dāng)循環(huán)結(jié)束后,得到-強(qiáng)分類器
水//(x) = sign
,其中sign是符號函數(shù)c 為了實施本發(fā)明的具體思想,我們從互聯(lián)網(wǎng)上搜集了 1197張大麻圖像和1821張其它植物的圖像,并在此數(shù)據(jù)庫上做了大量的實驗,準(zhǔn)確率達(dá)到了87%。實驗結(jié)果進(jìn)一步驗證了該方法的有效性和魯棒性。 以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
一種對互聯(lián)網(wǎng)大麻圖像進(jìn)行的過濾方法,其特征在于,包括步驟步驟1利用尺度不變特征變換算法提取圖像的局部特征;步驟2對每一個大麻訓(xùn)練圖像的每一個局部特征構(gòu)造一個自相似性弱分類器,其中每個自相似性弱分類器包括一個局部特征,一個距離閾值,一個數(shù)量閾值;自相似性弱分類器考察任意一幅測試圖像的兩方面性質(zhì)一是這幅測試圖像是否與此自相似性弱分類器的局部特征所在的大麻圖像相似,二是這幅測試圖像的自相似程度是否足夠;如果一幅測試圖像既與此自相似性弱分類器的局部特征所在的大麻圖像相似,又有足夠的自相似性,自相似性弱分類器輸出1,否則輸出-1;步驟3基于Adaboost算法將自相似性弱分類器整合到一起,構(gòu)造一個強(qiáng)分類器,此強(qiáng)分類器根據(jù)一幅圖像的所有局部特征判斷此圖像是否為大麻圖像。
2. 按權(quán)利要求1所述的方法,其特征在于所述自相似性弱分類器通過計算一幅測 試圖像中有多少個局部特征與此自相似性弱分類器的局部特征相似來度量測試圖像內(nèi)的 自相似性;所述自相似性弱分類器通過計算一幅圖像中是否存在局部特征與此自相似性 弱分類器的局部特征相似來度量這兩個局部特征所在圖像的相似性;具體定義如下定義 d(*, )為兩個局部特征SIFT的歐式距離;定義集合{Fi,j,j = l,...,nj是第It個測試 圖像的所有局部特征;自相似性弱分類器包含一個局部特征fk,一個距離閾值9 d和一個數(shù) 量閾值9n;如果一個特征Fi,j滿足方程d(Fi,j,fk) < 9d,就說這個特征和此自相似性弱分 類器相似。
3. 按權(quán)利要求1所述的方法,其特征在于所述自相似性弱分類器定義如下 <formula>formula see original document page 2</formula>其中Card({ })表示一個集合的勢,即集合中元素的個數(shù);Card((Fi,jld(Fi,j, fk) < 9 d, j = 1, . . . , nj)表示集合{Fi,j, j = 1, . . . , 中滿足方程d(Fi,j, fk) < e d的特 征數(shù)目;這種設(shè)計表明不僅關(guān)心是否存在特征和自相似性弱分類器相似,還關(guān)心滿足這樣 條件的特征數(shù)目;一個圖像被自相似性弱分類器接受是這幅圖像中有足夠多的特征和這個 自相似性弱分類器相似,與某自相似性弱分類器相似的特征之間也是相似,因此,計算圖像 中有多少個特征與自相似性弱分類器相似表達(dá)了測試圖像內(nèi)部局部特征之間的相似性。
4. 按權(quán)利要求1所述的方法,其特征在于所述的基于Adaboost算法的強(qiáng)分類器設(shè)計 包括步驟首先設(shè)定自相似性弱分類器集合為^=,其中~是自相似性弱分類器; 利用給定帶標(biāo)記的訓(xùn)練樣本集為0q, y》,...,(Xn, yn),循環(huán)如述步驟步驟31 :從自相似性弱分類器集合 1:= (/zj中選擇一個自相似性弱分類器h(t),使得給定帶標(biāo)記的訓(xùn)練樣本上的加權(quán)分類錯誤率最小,即<formula>formula see original document page 2</formula>初始化訓(xùn)練樣本權(quán)值為"")(i) = 1/ n(i = 1, ... ,n), t = 1, ... ,T, I(O為示性函數(shù),即判斷函數(shù)I(O括號中的邏輯式是否為真,如果為真,I(O = l,否則I(O =0; '(')—u步驟32 :如果s(') = min~ > 1/2 ,則令T = t-l,終止循環(huán);步驟33 :根據(jù)貪婪策略計算a(') =llog<formula>formula see original document page 3</formula>步驟34 :根據(jù)加權(quán)分類錯誤率重新計算訓(xùn)練樣本權(quán)值,即_ ,)exP(-a('W')(x,))其中Z(t)是一個歸一化因子,標(biāo)記信息為yi G {+1, -1};廣r當(dāng)循環(huán)結(jié)束后,得到一個強(qiáng)分類器^(x) = sign2>"函數(shù)cX,其中sign是符號
全文摘要
本發(fā)明涉及一種對互聯(lián)網(wǎng)大麻圖像進(jìn)行的過濾方法,包括步驟利用尺度不變特征變換算法提取圖像的局部特征;對每一個大麻訓(xùn)練圖像的每一個局部特征構(gòu)造一個自相似性弱分類器;自相似性弱分類器考察任意一幅測試圖像是否與此自相似性弱分類器的局部特征所在的大麻圖像相似及自相似程度是否足夠;如果一幅測試圖像既與此自相似性弱分類器的局部特征所在的大麻圖像相似,又有足夠的自相似性;將自相似性弱分類器整合到一起,構(gòu)造一個強(qiáng)分類器對一幅圖像的所有局部特征判斷此圖像是否為大麻圖像。本發(fā)明采用自相似性弱分類器,克服現(xiàn)有技術(shù)物體識別方法中無法考慮圖像內(nèi)部相似關(guān)系的缺點,從而有效地抓住大麻圖像的特點。
文檔編號G06K9/00GK101751554SQ20081023932
公開日2010年6月23日 申請日期2008年12月10日 優(yōu)先權(quán)日2008年12月10日
發(fā)明者吳偶, 胡衛(wèi)明, 謝年華 申請人:中國科學(xué)院自動化研究所