一種對郵件廣告圖片的識別方法
【技術領域】
[0001]本發(fā)明涉及垃圾郵件處理技術與網(wǎng)絡安全技術領域,尤其涉及一種對郵件廣告圖片的識別方法。
【背景技術】
[0002]每年全球的垃圾郵件中,圖片類垃圾郵件數(shù)量占據(jù)了垃圾郵件總量的50%以上。所以,針對圖片垃圾郵件識別的技術亟需升級和更新,以便更有效的對圖片類垃圾郵件進tx識別,提尚垃圾郵件識別率。
[0003]在現(xiàn)有技術中,通常使用光學字符識別(OCR)以實現(xiàn)對包含廣告圖片的文本內(nèi)容進行提取,通過內(nèi)容判斷是否廣告內(nèi)容,從而實現(xiàn)垃圾郵件的識別。所謂光學字符識別通常使用一般將被稱作OCR引擎的計算機軟件來對原本在紙張、縮影膠片或其它介質(zhì)上印刷的、打字的、手寫的或其它書寫文本的數(shù)字圖像進行處理,并且從所述圖像產(chǎn)生機器可識別和可編輯的文本。通過OCR引擎處理的文檔的數(shù)字圖像可包括多頁書寫材料的圖像。要由OCR引擎進行處理的文本的圖像可通過各種成像方法來獲取,包括使用圖像掃描儀來捕捉文本的數(shù)字圖像。然而這種技術方案存在計算量大、廣告圖片中的文字提取效果不理想,誤判率較高,以及對加入干擾字符或者豎排顯示內(nèi)容等經(jīng)過垃圾郵件投放者處理后的垃圾郵件的識別效果不佳等技術缺陷。
[0004]有鑒于此,有必要對現(xiàn)有技術中的對郵件廣告圖片的識別方法予以改進,以解決上述技術瑕疵。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于公開一種對郵件廣告圖片的識別方法,提高對包含文字的圖片進行文字提取的效果,從而實現(xiàn)對包含廣告圖片的垃圾郵件進行有效的識別,同時降低服務器的負載,同時提高服務器在過濾垃圾郵件時的抗干擾能力。
[0006]為實現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種對郵件廣告圖片的識別方法,包括以下步驟:
[0007]S1、提取郵件中的圖片后進行預處理后確定文本塊排列方向;
[0008]S2、根據(jù)文本塊排列方向建立虛擬坐標系;
[0009]S3、分別計算圖片中各文本塊在虛擬坐標系中的二值化數(shù)據(jù);
[0010]S4、統(tǒng)計圖片中的文本塊的大小及數(shù)量;
[0011]S5、根據(jù)設定閾值判斷圖片是否為廣告圖片。
[0012]作為本發(fā)明的進一步改進,步驟SI中的預處理包括邊框處理、反色處理、去除背景處理、二值化處理、降噪處理。
[0013]作為本發(fā)明的進一步改進,步驟S2具體為:根據(jù)圖片內(nèi)容在虛擬坐標系上的投影結果的連續(xù)性,為圖片建立匹配的虛擬坐標系。
[0014]作為本發(fā)明的進一步改進,步驟S3具體為:將圖片中各文本塊相對于虛擬坐標軸的極軸做投影,若坐標點有前景色像素點則標記為黑色,否則標記為白色。
[0015]作為本發(fā)明的進一步改進,步驟S4具體為:對圖片中的二值化數(shù)據(jù)相對于虛擬坐標系的極軸進行單獨投影處理,記錄文字文本塊與非文字文本塊的沿虛擬坐標系上的寬高值,并統(tǒng)計相應數(shù)量后保存至服務器數(shù)據(jù)庫。
[0016]作為本發(fā)明的進一步改進,服務器數(shù)據(jù)庫包括MySQL數(shù)據(jù)庫、Oracle數(shù)據(jù)庫。
[0017]作為本發(fā)明的進一步改進,虛擬坐標系包括一軸虛擬坐標系、二軸虛擬坐標系。
[0018]作為本發(fā)明的進一步改進,二軸虛擬坐標系包括二軸正交虛擬坐標系、二軸非正交虛擬坐標系。
[0019]作為本發(fā)明的進一步改進,步驟S5中的設定閾值具體為:文字文本塊數(shù)量T的范圍為50至300,文字文本塊面積總和占圖片面積百分比范圍為50至100,非文字文本塊數(shù)量范圍為O至2T。
[0020]與現(xiàn)有技術相比,本發(fā)明的有益效果是:通過獲取圖片中文本塊在虛擬坐標系中的投影并計算二值化數(shù)據(jù),可以有效地通過統(tǒng)計圖片中的文本塊的大小及數(shù)量并根據(jù)設定閾值判斷圖片是否為廣告圖片,顯著地提高了對垃圾郵件中的廣告圖片中的文字的提取效果,抗干擾能力強,并降低了服務器的負載。
【附圖說明】
[0021]圖1為本發(fā)明一種對郵件廣告圖片的識別方法的示意圖;
[0022]圖2為從郵件中提取到的一種類型圖片;
[0023]圖3為將圖2進行步驟S2的預處理后所生成的圖片;
[0024]圖4為從郵件中提取到的另一種類型圖片;
[0025]圖5為將圖4進行步驟S2的預處理后所生成的圖片;
[0026]圖6為圖3通過對前景色像素點標記為黑色的投影結果進行連續(xù)性分析從而確定行列方向的示意圖;
[0027]圖7為圖5通過對前景色像素點標記為黑色的投影結果進行連續(xù)性分析從而確定行列方向的示意圖;
[0028]圖8為對圖7所示的圖片中的第一行文本塊進行單獨投影處理的示意圖;
[0029]圖9為根據(jù)圖8中所示的投影結果示意圖記錄文本塊寬高值與文本塊數(shù)量的示意圖。
【具體實施方式】
[0030]下面結合附圖所示的各實施方式對本發(fā)明進行詳細說明,但應當說明的是,這些實施方式并非對本發(fā)明的限制,本領域普通技術人員根據(jù)這些實施方式所作的功能、方法、或者結構上的等效變換或替代,均屬于本發(fā)明的保護范圍之內(nèi)。
[0031]在本實施方式中,一種對郵件廣告圖片的識別方法,所述識別方法包括以下步驟:
[0032]步驟S1、提取郵件中的圖片后進行預處理后確定文本塊排列方向。該預處理包括邊框處理、反色處理、去除背景處理、二值化處理、降噪處理。
[0033]邊框處理是為了判斷圖片是否有邊框,如果有邊框則通過裁剪去掉圖片外部和/或內(nèi)部的邊框。反色處理是為了計算圖片中的前景色和/或背景色。去除背景處理是通過計算獲取圖片的背景色,并將其去除;同時對反色處理的圖片進行前景色與背景色的對調(diào)。如果圖片中包含風景或者人物等背景干擾因素,則根據(jù)步驟I中從郵件中所提取的圖片的整體風格或像素色值分布情況,去除人物背景或者風景背景等干擾因素。二值化處理是根據(jù)計算機的配置操作,采用誤差補償算法,對根據(jù)步驟I中從郵件中所提取的圖片進行整體二值化處理。經(jīng)過二值化處理的圖片的文件非常小,便于計算機后期對其是否為廣告圖片進行判斷。降噪處理具體為通過雙背景濾波法對計算機提取到的圖片進行降噪處理,從而降低圖片中的噪點對后期廣告圖片的識別計算所造成的不良影響。
[0034]參圖2與圖3、圖4與圖5所示,圖2為經(jīng)過反色處理的預處理后生成如圖3所示的預處理結果。圖4為經(jīng)過邊框處理的預處理后生成如圖5所示的預處理結果。
[0035]步驟S2、根據(jù)文本塊排列方向建立虛擬坐標系。
[0036]為了確定圖片中文本塊的大小與數(shù)量,需要首先確定圖片內(nèi)容中所包含的文本塊的排列方向。例如圖2與圖4中的文本塊分別是水平橫向排列與垂直縱向排列。
[0037]參圖6所示,步驟S2具體為:根據(jù)圖片內(nèi)容在虛擬坐標系上的投影結果的連續(xù)性,為圖片建立匹配的虛擬坐標系。該虛擬坐標系包括一軸虛擬坐標系、二軸虛擬坐標系,二軸虛擬坐標系包括二軸正交虛擬坐標系、二軸非正交虛擬坐標系。
[0038]具體而言,如果廣告圖片中的文字呈現(xiàn)為一條橫向排布或者縱向排布時,則僅僅根據(jù)圖片中的文本塊排列方向建立一軸虛擬坐標系(橫向)或者一軸虛擬坐標系(豎向)。
[0039]如果廣告圖片中的文字呈現(xiàn)為多條橫向排布或者多條豎向排布時,則建立二軸正交虛擬坐標系,并將水平方向的極軸定義為X軸,將垂直方向的極軸定義為Y軸。
[0040]如果圖片中的文字成像斜向排布時,則需要通過帶文本圖片的旋轉處理來建立虛擬坐標系。具體通過以下技術方案來實現(xiàn)。
[0041]步驟Sll:將圖片按照圖片寬高的自然方向建立坐標軸,標記垂直方向為X軸,水平方向為Y軸。計算圖片在X軸上的極高點、極低點,在Y軸上的極遠點、極近點;其中,
[0042]極高點為X軸方向上數(shù)值最大的點;
[0043]極低點為X軸方向上數(shù)值最小的點;
[0044]極遠點為Y軸方向上數(shù)值最大的點;
[0045]極近點為Y軸方向上數(shù)值最小的點。
[0046]步驟12:設定極值偏差值tdev = 20px,計算高點集合、低點集合、遠點集合、近點集合。計算方式如下:
[0047]圖片中X軸方向距離極高點小于等于tdev的點,記錄為高點集合h ;
[0