專利名稱:識別圖片垃圾郵件的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通訊技術(shù)領(lǐng)域,尤其涉及一種識別圖片垃圾郵件的方法及系統(tǒng)。
背景技術(shù):
隨著網(wǎng)絡(luò)的快速發(fā)展,使用電子郵件(E-mail)進行通信已十分普遍,圖片、文檔、 影音等各種計算機文件均可通過E-mail的方式傳送給接收者,給人們的生活帶來了極大 的方便。但同時垃圾郵件也隨之蔓延,嚴重威脅到用戶郵箱的穩(wěn)定性及安全性。目前,識別圖片垃圾郵件的方法主要有兩類。一是通過OCR(OpticalCharacter Recognition,光學字符識別)系統(tǒng)從圖片中分析提取文字,并對所提取的文字進行分詞, 再根據(jù)樣本庫,獲得每個詞語對應(yīng)的該郵件為垃圾郵件的概率。最后,將每個詞語對應(yīng)的該 郵件為垃圾郵件的概率代入貝葉斯公式中進行計算,得到該郵件為垃圾郵件的概率。若該 郵件為垃圾郵件的概率大于預(yù)定的門限值,則將該郵件標記為垃圾郵件。然而,由于OCR技術(shù)需要事先將圖片分解成像素方式才能處理,其效率非常低,特 別是處理高分辨率的圖像。而且,OCR技術(shù)只能提取印刷版的字體信息,假如圖片中的字體 稍變形或者背景包含噪音,其識別率就急速下降甚至不能識別。因此,現(xiàn)有的使用OCR技術(shù) 從圖片提取文字的垃圾圖片過濾方式,效率低,而且不能處理扭曲變形或者背景包含噪音 信息的圖片。
發(fā)明內(nèi)容
本發(fā)明實施例提出一種識別圖片垃圾郵件的方法及系統(tǒng),識別圖片垃圾郵件的效 率高,并且能夠識別扭曲變形的或者背景包含噪音信息的圖片。本發(fā)明實施例提供一種識別圖片垃圾郵件的方法,包括根據(jù)郵件中的圖片的壓縮率分布特性,提取所述圖片的特征值;根據(jù)所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率,應(yīng)用概率統(tǒng)計公式計算獲 得所述圖片為垃圾郵件的概率;應(yīng)用哈希算法計算所述圖片的哈希值,將所述哈希值和已接收的郵件圖片的哈希 值進行比較,得出所述圖片被重復(fù)發(fā)送的次數(shù);根據(jù)所述圖片的發(fā)信IP查詢聲譽值數(shù)據(jù)庫,獲得所述發(fā)信IP的聲譽值;根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值查詢預(yù)置 的權(quán)重值列表,計算所述圖片的權(quán)重和,并根據(jù)所述權(quán)重和判定所述圖片是否為垃圾郵件。其中,所述聲譽值數(shù)據(jù)庫保存有發(fā)信IP的聲譽值,所述聲譽值是發(fā)信IP所發(fā)送的 正常郵件在其所有已發(fā)送的郵件中所占的比例。相應(yīng)地,本發(fā)明實施例還提供了一種郵件系統(tǒng),包括圖片特征提取模塊,用于根據(jù)郵件中的圖片的壓縮率分布特性,提取所述圖片的 特征值;垃圾郵件概率獲取模塊,用于根據(jù)所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率,應(yīng)用概率統(tǒng)計公式計算獲得所述圖片為垃圾郵件的概率;圖片發(fā)送次數(shù)獲取模塊,應(yīng)用哈希算法計算所述圖片的哈希值,將所述哈希值和 已接收的郵件圖片的哈希值進行比較,得出所述圖片被重復(fù)發(fā)送的次數(shù);聲譽值獲取模塊,用于根據(jù)所述郵件的發(fā)信IP查詢聲譽值數(shù)據(jù)庫,獲得所述發(fā)信 IP的聲譽值;垃圾郵件判定模塊,用于根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā) 信IP的聲譽值查詢預(yù)置的權(quán)重值列表,計算所述圖片的權(quán)重和,并根據(jù)所述權(quán)重和判定所 述圖片是否為垃圾郵件。所述郵件系統(tǒng)還包括樣本數(shù)據(jù)庫,用于保存垃圾圖片樣本和正常圖片樣本的所有特征值,以及每個特 征值在垃圾圖片中出現(xiàn)的概率;聲譽值數(shù)據(jù)庫,用于保存發(fā)信IP的聲譽值;所述聲譽值是發(fā)信IP所發(fā)送的正常郵 件在其所有已發(fā)送的郵件中所占的比例;聲譽值更新模塊,用于在所述垃圾郵件判定模塊判定圖片為垃圾郵件后,重新計 算所述圖片的發(fā)信IP的聲譽值,并對聲譽值數(shù)據(jù)庫中的相應(yīng)的聲譽值進行更新。實施本發(fā)明實施例,具有如下有益效果本發(fā)明實施例提供的識別圖片垃圾郵件的方法及系統(tǒng),基于圖片的壓縮率分布特 性提取郵件中的圖片的特征值,應(yīng)用概率統(tǒng)計公式計算獲得所述圖片為垃圾郵件的概率; 再根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值三者的權(quán)重值計 算所述圖片的權(quán)重和,根據(jù)所述權(quán)重和判定所述圖片是否為垃圾郵件。本發(fā)明基于圖片的 壓縮率分布識別圖片垃圾郵件,效率高,并且能夠識別扭曲變形的或者背景包含噪音信息 的圖片。此外,本發(fā)明應(yīng)用哈希算法判斷圖片的相似度,并統(tǒng)計相似圖片被重復(fù)發(fā)送的次 數(shù),而根據(jù)這一特征可以很好地判斷發(fā)信者的行為是否與垃圾郵件的發(fā)信行為相似,從而 提高了識別圖片垃圾郵件的準確率。
圖1是本發(fā)明提供的識別圖片垃圾郵件的方法的第一實施例的流程示意圖;圖2是本發(fā)明提供的支持向量機算法的示意圖;圖3是本發(fā)明提供的識別圖片垃圾郵件的方法的第二實施例的流程示意圖;圖4是本發(fā)明提供的識別圖片垃圾郵件的方法的第三實施例的流程示意圖;圖5是本發(fā)明實施例提供的郵件系統(tǒng)的結(jié)構(gòu)示意圖;圖6是本發(fā)明實施例提供的圖片特征提取模塊的結(jié)構(gòu)示意圖;圖7是本發(fā)明實施例提供的垃圾郵件概率獲取模塊的結(jié)構(gòu)示意圖;圖8是本發(fā)明實施例提供的圖片發(fā)送次數(shù)獲取模塊的結(jié)構(gòu)示意圖;圖9是本發(fā)明實施例提供的垃圾郵件判定模塊的結(jié)構(gòu)示意圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?br>
6本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。本發(fā)明實施例提供的識別圖片垃圾郵件的方法及系統(tǒng),預(yù)先收集正常圖片和垃圾 郵件圖片樣本,基于圖片的壓縮率分布特性提取圖片特征,獲得正常圖片和垃圾郵件圖片 的特征集合;再使用貝葉斯分類器學習這些特征集合,計算獲得最具代表性的特征是垃圾 圖片還是正常圖片的概率結(jié)果集。具體如下一、收集正常圖片和垃圾郵件圖片樣本使用圖片抓取軟件,從互聯(lián)網(wǎng)上隨機抓取格式為JPG或者GIF的圖片,加入到正常 郵件樣本庫中。在郵件系統(tǒng)中部署舉報系統(tǒng),收集用戶舉報的包含圖片的垃圾郵件,經(jīng)過人工審 核確認圖片為垃圾郵件的,將該圖片加入到垃圾郵件樣本庫中。二、提取正常圖片和垃圾郵件圖片所包含的所有特征本發(fā)明實施例基于圖片的壓縮率分布特性提取圖片特征,下面僅以JPG格式、GIF 格式和PNG格式的圖片為例詳細描述提取圖片特征的方法。(1)、計算JPG格式圖片的壓縮率;JPG格式的圖片的壓縮方式是對圖片每8*8像素劃分一個子塊,并對每個子塊進 行獨立的壓縮,再將壓縮后的塊信息保存到文件。因此,在分析JPG格式的圖片特征時,只 需要獲取圖片壓縮后的每一個子塊的大小,再將子塊大小除以(8*8),取整后即可獲得這一 子塊的壓縮率,無需對子塊做解壓操作。掃描整個JPG文件,即可獲得一個壓縮率序列C1、C2、C3、C4...,其中Cl代表圖片 左上角的8*8像素的子塊的壓縮率,C2是連續(xù)的相鄰近的子塊的壓縮率,C3、C4類推。(2)、計算GIF格式圖片的壓縮率;GIF格式圖片的壓縮方式是著名的LZW壓縮算法。LZW算法的主要思想是維護一 個有256個單元的編碼表,如果圖片中某一行像素序列曾經(jīng)在編碼表里面出現(xiàn)過的,則使 用編碼表的下標來代替這段像素序列,以達到壓縮的目的。在分析GIF格式的圖片特征時,只需要讀取上述的碼表下標(碼表下標的長度固 定為一個字節(jié)),通過查詢對應(yīng)的碼表該下標所對應(yīng)的像素值,以此計算出這一小塊圖片的 壓縮率1/(碼表對應(yīng)的像素)。掃描整個GIF文件,即可獲得一個壓縮率序列C1、C2、C3、C4...,其中Cl代表圖片 左上角一行不定長像素的壓縮率,C2、C3、C4類推。(3)計算PNG格式圖片的壓縮率;PNG格式圖片使用LZ77壓縮算法,其與GIF圖片的LZW壓縮算法相似,不同點僅在 于,LZ77算法沒有一個固定的編碼表,而是使用之前已經(jīng)遇到的序列的相對位置和長度來 表示像素序列。例如對像素序列abcdeabcde進行壓縮時,在掃描到abcde之前,由于之前 沒有出現(xiàn)過與a、b、c、d或e重復(fù)的序列,因此不對abcde進行壓縮,即輸入序列abcde和 壓縮后的序列相等。但是,當掃描到abcdea的時候,由于序列a在之前出現(xiàn)過,然后繼續(xù)比 對abcde,發(fā)現(xiàn)之前也曾出現(xiàn)過abcde這個序列,于是第二次出現(xiàn)的abcde序列,用一個偏移 量和長度來表示即可。也就是,PNG圖片使用的LZ77算法沒有固定的編碼表,其碼表就是 隱含在當前位置之前已經(jīng)出現(xiàn)過的序列中。需要說明的是,LZ77壓縮算法是本領(lǐng)域的公知技術(shù),上述只作簡單的原理說明,實際上PNG圖片的偏移量和長度等信息是按bit保存的, 以便更加節(jié)省空間。因此,在分析PNG圖片的壓縮率時,從壓縮后的PNG數(shù)據(jù)流可以得出對于沒有做 過壓縮的數(shù)據(jù)序列,這些序列的壓縮率為1 ;對于做過壓縮的數(shù)據(jù)序列,這些序列使用(偏 移量,長度)來表示該序列所對應(yīng)的信息,可以在之前已經(jīng)解壓好的輸出序列的特定位置 找到。假定保存(偏移量,長度)信息需要N個字節(jié),而(偏移量,長度)中的“長度”屬性 的值為M,則壓縮率為N/M(即用N個字節(jié)保存M個字節(jié)的信息)。通過分析壓縮后的PNG數(shù)據(jù)流,即可獲得一個壓縮率序列Cl、C2、C3、C4...,其中 Cl代表圖片左上角一行不定長像素序列的壓縮率,C2、C3、C4類推。本發(fā)明實施例無需解壓圖片,節(jié)省大量運算資源和內(nèi)存資源。(4)、計算圖片的特征值;通過上述的⑴、⑵、(3)實施例獲得JPG、GIF或PNG格式的圖片壓縮率序列后, 將每4個連續(xù)的壓縮率合并成一個新的壓縮率變化元素D (其中4是經(jīng)驗值,是經(jīng)過試驗的 結(jié)果,本發(fā)明不限于4)。D代表圖片的4個相鄰子塊的壓縮率變化情況,例如,對于壓縮率 序列(1丄2、03、04丄5丄6丄7、08,經(jīng)過轉(zhuǎn)換后變成01、02序列,其中Dl = C1C2C3C4,D2 = C5C6C7C8。在獲得圖片的壓縮率變化元素序列后,將每一個壓縮率變化元素加上該元素所在 的相對位置信息,組成一個特征值。例如,將圖片分成6個區(qū)域,每一個區(qū)域?qū)?yīng)一個固定的位置編碼,如下左上角區(qū)域位置編碼為1 ;上方區(qū)域位置編碼為2 ;右上角區(qū)域位置編碼為3 ;左下角區(qū)域位置編碼為4 ;下方區(qū)域位置編碼為5;右下角區(qū)域位置編碼為6;如果像素塊位于圖片的左上角,其壓縮率變化元素為Dl的,則包含位置信息的特 征值Fl為IDl ;如果像素塊位于圖片的右上角,其壓縮率變化元素為D2的,則包含位置信 息的特征值F2為3D2。依此類推,將壓縮率變化元素和該元素對應(yīng)的像素塊在圖片上的位 置編碼進行組合(位置編碼+壓縮率變化元素D),獲得圖片的特征序列F1、F2、F3、F4...。需要說明的是,上述僅以JPG、GIF和PNG格式的圖片為例,以說明基于圖片的壓縮 率特性提取圖片特征的方法,本發(fā)明實施例還可以應(yīng)用到其他的具有類似壓縮率特性的圖 片中。三、建立樣本數(shù)據(jù)庫(1)、建立正常圖片和垃圾郵件圖片的特征集合;通過上述步驟二的方法計算出正常圖片和垃圾圖片所包含的所有特征值后,將正 常圖片的所有特征值保存在正常圖片特征集合HAM中,將垃圾圖片的所有特征值保存在垃 圾圖片特征集合SPAM中。此外,正常圖片特征集合HAM還記錄了每個特征值在所有正常圖片樣本中出現(xiàn)的 次數(shù)。例如,特征值Fl在所有正常圖片樣本中出現(xiàn)的次數(shù)為10000,特征值F2在所有正常圖片樣本中出現(xiàn)的次數(shù)為20000,等等。同理,垃圾圖片特征集合SPAM也記錄了每個特征值在所有垃圾圖片樣本中出現(xiàn) 的次數(shù)。例如,特征值Fl在所有垃圾圖片樣本中出現(xiàn)的次數(shù)為30000,特征值F2在所有垃 圾圖片樣本中出現(xiàn)的次數(shù)為40000,等等。對于某個特定的特征值Fn,它既可能出現(xiàn)在垃圾郵件圖片樣本中,也可能出現(xiàn)在 正常郵件圖片樣本中,其出現(xiàn)的次數(shù)一般不相等。(2)、計算每個特征值在垃圾圖片中出現(xiàn)的概率,組建樣本數(shù)據(jù)庫;從正常圖片特征集合HAM和垃圾圖片特征集合SPAM中,分別讀取特征值F在正常 圖片樣本和垃圾郵件圖片樣本中的出現(xiàn)次數(shù),使用貝葉斯分類器進行計算,即可得出這個 特征值F在垃圾郵件圖片中出現(xiàn)的概率Q。例如,特征值Fl在垃圾郵件圖片中出現(xiàn)的概率 為Q1,特征值F2在垃圾郵件圖片中出現(xiàn)的概率為Q2,特征值F3在垃圾郵件圖片中出現(xiàn)的 概率為Q3。將F和Q的對應(yīng)關(guān)系保存下來,即保存為F1:Q1,F(xiàn)2:Q2,F(xiàn)3:Q3...,組建成樣本 數(shù)據(jù)庫。本發(fā)明實施例所建立的樣本數(shù)據(jù)庫,保存有垃圾圖片樣本和正常圖片樣本的所有 特征值,以及每個特征值在垃圾圖片中出現(xiàn)的概率。可選的,本發(fā)明實施例還可以按照Q值的大小,從高到低對“Fl Ql,F(xiàn)2 Q2, F3:Q3... ”序列進行排序,只抽取Q值大于80%的那些序列F:Q(說明這些序列在垃圾郵件 樣本出現(xiàn)的概率很高)和Q值小于20%的那些序列F:Q(說明這些序列在正常郵件樣本中 出現(xiàn)的概率很高),作為最終貝葉斯評估的評估基準保存到樣本數(shù)據(jù)庫中。經(jīng)驗表明,Q值 在(20%,80%)之間的序列F:Q,因為其特征序列F在正常圖片和垃圾郵件圖片中出現(xiàn)的 次數(shù)數(shù)量差不多,F(xiàn)對于評判圖片是否垃圾郵件圖片沒有太多的幫助,而且這類中性的F:Q 序列占到F:Q序列總數(shù)的80%左右,因此剔除這些中性的數(shù)據(jù),將有助于加快評估圖片是 否垃圾郵件圖片的效率。下面結(jié)合圖1 圖9,對本發(fā)明實施例提供的識別圖片垃圾郵件的方法及系統(tǒng)進 行詳細描述。本發(fā)明實施例的概率統(tǒng)計公式包括貝葉斯(Bayes)公式和/或支持向量機 (SVM)公式。應(yīng)用貝葉斯公式進行計算,所獲得的圖片為垃圾郵件的概率稱為“第一概率”; 應(yīng)用向量機公式進行計算,所獲得的圖片為垃圾郵件的概率稱為“第二概率”。參見圖1,是本發(fā)明提供的識別圖片垃圾郵件的方法的第一實施例的流程示意圖。在第一實施例中,應(yīng)用貝葉斯公式計算圖片為垃圾郵件的概率。所述方法包括以 下步驟S101,根據(jù)郵件中的圖片的壓縮率分布特性,提取所述圖片的特征值。在具體實施當中,當接收到郵件后,包括對郵件中所包含的圖片進行掃描,獲得 所述圖片的每一個子塊的壓縮率;將每N個連續(xù)的子塊的壓縮率合并成一個新的壓縮率變 化元素,再將每一個壓縮率變化元素和它所在圖片中的位置編碼進行組合,獲得所述圖片 的特征值。其中,N是大于1的自然數(shù)。優(yōu)選的,N的值為4。需要說明的是,本發(fā)明實施例可以處理JPG、GIF、PNG或其他格式的圖片。其中,基 于圖片的壓縮率分布特性提取JPG、GIF或PNG格式的圖片的方法與上述實施例相同,在此 不再贅述。S102,根據(jù)所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率,應(yīng)用概率統(tǒng)計公式計算獲得所述圖片為垃圾郵件的概率。所述概率統(tǒng)計公式為貝葉斯公式,貝葉斯分類器的分類原理是通過某對象的先驗 概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗 概率的類作為該對象所屬的類。貝葉斯(Bayes)分類器的數(shù)學基礎(chǔ)是貝葉斯公式,如下若Bi,B2,...為一系列互不相容的事件,如果以P(Bi)表示事件Bi發(fā)生的概率, 且
σοIjBi =Ω ,P(Bi) > 0,i = 1,2,. . · 1=1則對于任一事件A,有
Γ Π Ρ(Ε I Λλ ~尸⑷戶剛)
_7] (‘1明(他廣=1’2’…通過上述步驟SlOl的處理,得到圖片的所有特征值后,在步驟S102中,根據(jù)圖片 的每一個特征值查詢樣本數(shù)據(jù)庫,獲得所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率; 再將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率代入上述的貝葉斯公式中進行計算, 獲得第一概率。所述第一概率就是所述圖片為垃圾郵件的概率。例如,在接收到一封未知是否為垃圾郵件的圖片郵件后,應(yīng)用上述步驟SlOl的方 法,獲得圖片的所有特征值F1,F(xiàn)2,F(xiàn)3...。再查詢樣本數(shù)據(jù)庫,得出每一個特征值在在垃圾 圖片中出現(xiàn)的概率F1:Q1,F(xiàn)2:Q2,F(xiàn)3:Q3. · ·。應(yīng)用貝葉斯公式,輸入上述的‘卞1斤2斤3. · ·,, 特征值序列和“F1:Q1,F(xiàn)2:Q2,F(xiàn)3:Q3... ”概率統(tǒng)計結(jié)果,即可計算出該未知的圖片郵件為垃 圾郵件的概率。S103,應(yīng)用哈希算法計算所述圖片的哈希值,將所述哈希值和已接收的郵件圖片 的哈希值進行比較,得出所述圖片被重復(fù)發(fā)送的次數(shù)。Nilsimsa算法是一個著名的哈希算法,其特點是如果輸入的信息只作少量變 化,則其輸出的哈希值也只會有少量變化甚至沒有變化。由于無論輸入序列的長度是多少, 其輸出序列的長度都是固定的,因此可以通過Mlsimsa算法對輸入序列進行計算,并通過 比對輸出序列的相似度來確定輸入序列的相似度,大大加快了相似信息的聚類速度。具體的,步驟S103包括應(yīng)用Nilsimsa算法對所述圖片的特征值進行處理,獲得 所述圖片的哈希值;將所述圖片的哈希值和已接收的郵件圖片的哈希值進行比較,得出所 述圖片和已接收的郵件圖片的相似度;根據(jù)所述圖片和已接收的郵件圖片的相似度,得出 所述圖片被重復(fù)發(fā)送的次數(shù)。舉例如下假設(shè)在上述步驟SlOl中得到圖片的所有特征值F1,F(xiàn)2,F(xiàn)3...,則在步驟S103中, 對上述的特征值“?1,?2,?3... ”進行處理,輸入序列是“F1,F(xiàn)2,F(xiàn)3... ”,輸出序列是一個固 定長度的二進制序列“01,02,03... ”。其中,輸出序列的長度一般是64字節(jié),0的取值為0 或1。該二進制序列“01,02,03... ”就是圖片的哈希值。然后,再將所述圖片的哈希值和 之前已接收的郵件圖片的哈希值進行比較,根據(jù)圖片之間的相似度判定相似圖片被重復(fù)發(fā) 送的次數(shù)。Nilsimsa算法具有如下優(yōu)點如果輸入序列“F1,F(xiàn)2,F(xiàn)3... ”只是做了較小的改動 (比如在其中插入多段小的序列,修改其中一小段序列的內(nèi)容等),其輸出的二進制序列的
10穩(wěn)定性很高,變動很少甚至不會變動。所以通過比較兩個輸出序列的相似度,即可獲知兩個 輸入序列的相似度,從而判定相似圖片被重復(fù)發(fā)送的次數(shù)。S104,根據(jù)所述圖片的發(fā)信IP查詢聲譽值數(shù)據(jù)庫,獲得所述發(fā)信IP的聲譽值。本發(fā)明實施例配置了聲譽值數(shù)據(jù)庫,用于保存發(fā)信IP的聲譽值。該聲譽值是指發(fā) 信IP所發(fā)送的正常郵件在其所有已發(fā)送的郵件中所占的比例,計算聲譽值的方法如下對 發(fā)信IP在過去一段時間的發(fā)信行為進行記錄,將發(fā)信IP發(fā)送的正常郵件比例作為此IP的 聲譽值。比如,某個發(fā)信IP在過去一段時間發(fā)送了 100封郵件,其中有10封郵件被判定為 垃圾郵件,則通過數(shù)學計算方式“(100-10)/100 = 90”得出該發(fā)信IP的聲譽值為90。因此,在步驟S104中,根據(jù)圖片郵件的發(fā)信IP查詢聲譽值數(shù)據(jù)庫,即可獲得該圖 片郵件的發(fā)信IP的聲譽值。S105,根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值查 詢預(yù)置的權(quán)重值列表,計算所述圖片的權(quán)重和,并根據(jù)所述權(quán)重和判定所述圖片是否為垃 圾郵件。本發(fā)明實施例預(yù)先配置了三個權(quán)重值列表,分別記錄了圖片為垃圾郵件的概率、 被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值所對應(yīng)的權(quán)重值。(1)本發(fā)明實施例根據(jù)圖片屬于垃圾郵件的概率所在的范圍,將“圖片為垃圾郵件 的概率”定義為10段,并配置每段的權(quán)重值?!皥D片為垃圾郵件的概率”的權(quán)重列表如下 (2)本發(fā)明實施例根據(jù)圖片郵件重復(fù)發(fā)送次數(shù)所在的范圍,將“圖片重復(fù)發(fā)送次 數(shù)”定義為6段,并配置每段的權(quán)重值?!皥D片重復(fù)發(fā)送次數(shù)”的權(quán)重列表如下
11
(3)本發(fā)明實施例根據(jù)發(fā)信IP的聲譽值的范圍,將“發(fā)信IP聲譽值”定義為10段, 并配置每段的權(quán)重值?!鞍l(fā)信IP聲譽值”的權(quán)重列表如下 優(yōu)選的,上述三個列表的權(quán)重值,是通過使用遺傳算法對已知的樣本進行學習來 獲得的。需要說明的是,本發(fā)明實施例將圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信 IP的聲譽值進行分段,是為了減少后續(xù)處理的計算量,所定義的段數(shù)(即將“圖片為垃圾郵 件的概率”定義為10段,將“圖片重復(fù)發(fā)送次數(shù)”定義為6段,將“發(fā)信IP聲譽值”定義為 10段)只是經(jīng)驗數(shù)字,本發(fā)明并不限于此。具體的,經(jīng)過上述的步驟S102、S103、S104的處理,獲得圖片為垃圾郵件的概率、 圖片重復(fù)發(fā)送次數(shù)、發(fā)信IP聲譽值之后,在步驟S105中,進行如下處理根據(jù)所述圖片為垃 圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值查詢預(yù)置的權(quán)重值列表,分別獲得三 者的權(quán)重值;再將三者的權(quán)重值相加,獲到所述圖片的權(quán)重和;判斷所述圖片的權(quán)重和是 否大于預(yù)定的門限值,若是,則確定所述圖片為垃圾郵件;若否,則確定所述圖片為正常郵 件。舉例如下假設(shè)對于一封包含有圖片的郵件,經(jīng)過上述步驟SlOl S104的處理后,得出該郵 件中的圖片為垃圾郵件的概率為95%,被重復(fù)發(fā)送次數(shù)為2,發(fā)信IP的聲譽值為78,分別 查詢權(quán)重列表中的BAYES 90 (假定權(quán)重值為0. 5),REPUTATION 010 (假定權(quán)重值為0. 1), REPUTATION 7080 (假定權(quán)重值為0. 3),計算得出該郵件圖片的權(quán)重和為0. 5+0. 1+0. 3 = 0. 9,權(quán)重和小于1. 0(1. 0為門限值),則該郵件被判定為正常郵件。進一步的,本發(fā)明實施例提供的識別圖片垃圾郵件的方法還包括在判定郵件中 的圖片為垃圾郵件后,重新計算所述圖片的發(fā)信IP的聲譽值,并對聲譽值數(shù)據(jù)庫中的相應(yīng) 的聲譽值進行更新。此外,本發(fā)明實施例還可以采用SVM(Support Vector Machine,支持向量機)算法 計算圖片為垃圾圖片的概率。SVM算法可以比較直觀地通過圖2來解釋,具體如下定義一個函數(shù)f (X,y) = al*X+a2*y+b ;其中χ是郵件的一個固有特征,y是郵件 的另一個與X無關(guān)的固有特征,al、a2、b是常量,al,a2控制圖2可以切分兩類點的平面的 斜率。假如圖2中的叉點表示垃圾郵件,圓點表示正常郵件,則郵件是否為垃圾郵件僅僅和 x、y有關(guān),只要f(x)大于某個值,即可認為郵件是垃圾郵件。在實際應(yīng)用中,對樣本進行分類通常需要抽取幾百到一千個特征才可能有比較好 的效果。而對于如此多維度的模型,本實施例無法在三維圖中表達出來。但是,可以推導(dǎo)出 最終的SVM公式就是一個多項式:f(x, y, ζ, ...) = al*x+a2*y+a3*z+· · · · +b ;只要將未知 樣本的x、y、z...等特征的值代入SVM公式中,即可根據(jù)其結(jié)果是否大于0來判斷樣本是否 為垃圾郵件。SVM模型的一個關(guān)鍵是要通過未知樣本,學習出上述公式的al、a2、a3. . .,b等參 數(shù)。具體實施時,只要提供了足夠多的樣本(正常郵件和垃圾郵件各一千左右即可),就 可以通過特定的數(shù)學方法,獲取上述的參數(shù),由此獲得SVM公式。需要說明的是,現(xiàn)有技術(shù) 中已經(jīng)有很多成熟的數(shù)學方法用于獲取上述的參數(shù),例如可以采用找邊緣關(guān)鍵點擬合的方 法,在此不再贅述。SVM模型的另外一個關(guān)鍵是所提取的“特征”是否可以較好的描述問題,即上述 的X,1,Z等參數(shù)所代表的“特征值”是否可以較好的區(qū)分兩類樣本。本發(fā)明實施例的解決 方案是使用每個圖片特征項在垃圾郵件中出現(xiàn)的概率來作為SVM的輸入特征。在學習過程中,統(tǒng)計出每個特征值在垃圾郵件中出現(xiàn)概率之后,則按照特征值出現(xiàn)的順序,構(gòu)造出一 個特征值概率序列,通過學習程序獲得上述的SVM公式(即獲取上述的al,a2, a3. . . b參 數(shù))。舉例說明有一個圖片,根據(jù)從圖片文件中分解出來的順序排列,有4個(實際可能 有很多)特征值Tl、T2、T3、T4,經(jīng)統(tǒng)計可知其在垃圾郵件中出現(xiàn)的概率分別為Gl、G2、G3、 G4,則將此Gl、G2、G3、G4作為向量輸入SVM學習程序,通過對一批正常郵件和垃圾郵件的 學習,即可獲得適合學習樣本的SVM公式。在評估未知樣本是否為垃圾郵件的時候,同樣按照從圖片文件分解出來的順序, 排列特征值T1、T2、T3、T4的概率Gl、G2、G3、G4,把Gl、G2、G3、G4代入SVM公式中,即可計 算出此序列為垃圾郵件的概率。Bayes算法與SVM算法相比,簡而言之,在學習已知正常和垃圾郵件樣本的時候, Bayes方法生成的是每個特征項為垃圾郵件的概率,而SVM方法生成的是每個特征項為垃 圾郵件的概率以及SVM公式的參數(shù)。判斷未知樣本的時候,Bayes方法輸入的是未知樣本 特征項,通過查表獲知特征項是垃圾郵件的概率,然后通過Bayes公式計算郵件是垃圾郵 件的概率;SVM方法輸入的同樣是未知樣本的特征項,通過查表獲知特征項是垃圾郵件的 概率,然后通過學習過程生成的SVM公式計算郵件是垃圾郵件的概率。參見圖3,是本發(fā)明提供的識別圖片垃圾郵件的方法的第二實施例的流程示意圖。 在第二實施例中,應(yīng)用支持向量機(SVM)公式計算圖片為垃圾郵件的概率。所述方法包括 以下步驟S201,根據(jù)郵件中的圖片的壓縮率分布特性,提取所述圖片的特征值。本步驟S201與上述第一實施例的步驟SlOl完全相同,在此不再贅述。S202,根據(jù)所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率,應(yīng)用支持向量機公 式計算獲得所述圖片為垃圾郵件的概率;步驟S202具體包括根據(jù)所述圖片的特征值查詢樣本數(shù)據(jù)庫,獲得所述圖片的每 個特征值在垃圾圖片中出現(xiàn)的概率;將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率構(gòu) 造成特征向量,并代入支持向量機公式中進行計算,獲得第二概率;所述第二概率就是所述 圖片為垃圾郵件的概率。其中,所述樣本數(shù)據(jù)庫中保存有垃圾圖片樣本和正常圖片樣本的所有特征值,以 及每個特征值在垃圾圖片中出現(xiàn)的概率。S203,應(yīng)用哈希算法計算所述圖片的哈希值,將所述哈希值和已接收的郵件圖片 的哈希值進行比較,得出所述圖片被重復(fù)發(fā)送的次數(shù)。S204,根據(jù)所述圖片的發(fā)信IP查詢聲譽值數(shù)據(jù)庫,獲得所述發(fā)信IP的聲譽值。S205,根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值查 詢預(yù)置的權(quán)重值列表,計算所述圖片的權(quán)重和,并根據(jù)所述權(quán)重和判定所述圖片是否為垃 圾郵件。步驟S203 S205與上述第一實施例的步驟S103 S105完全相同,在此不再贅 述。參見圖4,是本發(fā)明提供的識別圖片垃圾郵件的方法的第三實施例的流程示意圖。 在第三實施例中,同時應(yīng)用Bayes公式和SVM公式計算圖片為垃圾郵件的概率。所述方法 包括以下步驟
14
S301,根據(jù)郵件中的圖片的壓縮率分布特性,提取所述圖片的特征值。本步驟S301與上述第一實施例的步驟SlOl完全相同,在此不再贅述。S302,根據(jù)所述圖片的特征值查詢樣本數(shù)據(jù)庫,獲得所述圖片的每個特征值在垃 圾圖片中出現(xiàn)的概率;其中,所述樣本數(shù)據(jù)庫中保存有垃圾圖片樣本和正常圖片樣本的所有特征值,以 及每個特征值在垃圾圖片中出現(xiàn)的概率。S303,將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率代入貝葉斯公式中進行
計算,獲得第一概率;本步驟S303與上述第一實施例的步驟S102完全相同,在此不再贅述。S304,將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率構(gòu)造成特征向量,并代 入支持向量機公式中進行計算,獲得第二概率;所述圖片為垃圾郵件的概率包括所述第一概率和所述第二概率。S305,應(yīng)用哈希算法計算所述圖片的哈希值,將所述哈希值和已接收的郵件圖片 的哈希值進行比較,得出所述圖片被重復(fù)發(fā)送的次數(shù)。本步驟S305與上述第一實施例的步驟S103完全相同,在此不再贅述。S306,根據(jù)所述圖片的發(fā)信IP查詢聲譽值數(shù)據(jù)庫,獲得所述發(fā)信IP的聲譽值。本步驟S306與上述第一實施例的步驟S 104完全相同,在此不再贅述。S307,根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值查 詢預(yù)置的權(quán)重值列表,計算所述圖片的權(quán)重和,并根據(jù)所述權(quán)重和判定所述圖片是否為垃 圾郵件。本步驟S307與上述第一實施例的步驟S105基本相同,其不同點在于,所述圖片為 垃圾郵件的概率包括第一概率和第二概率,且分別對應(yīng)于一個權(quán)重值列表。因此,在查詢預(yù) 置的權(quán)重值列表時,將分別獲得“第一概率”對應(yīng)的權(quán)重值、“第二概率”對應(yīng)的權(quán)重值、“被 重復(fù)發(fā)送的次數(shù)”對應(yīng)的權(quán)重值和“發(fā)信IP的聲譽值”對應(yīng)的權(quán)重值,共四個權(quán)重值。將四 個權(quán)重值相加,得到圖片的權(quán)重和,再根據(jù)所述權(quán)重和判定所述圖片是否為垃圾郵件。本發(fā)明實施例提供的識別圖片垃圾郵件的方法,基于圖片的壓縮率分布特性提取 郵件中的圖片的特征值,應(yīng)用概率統(tǒng)計公式計算獲得所述圖片為垃圾郵件的概率;再根據(jù) 所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值三者的權(quán)重值計算所述 圖片的權(quán)重和,根據(jù)所述權(quán)重和判定所述圖片是否為垃圾郵件。本發(fā)明基于圖片的壓縮率 分布識別圖片垃圾郵件,效率高,并且能夠識別扭曲變形的或者背景包含噪音信息的圖片。 此外,本發(fā)明應(yīng)用哈希算法判斷圖片的相似度,并統(tǒng)計相似圖片被重復(fù)發(fā)送的次數(shù),而根據(jù) 這一特征可以很好地判斷發(fā)信者的行為是否與垃圾郵件的發(fā)信行為相似,從而提高了識別 圖片垃圾郵件的準確率。相應(yīng)地,本發(fā)明實施例還提供了一種郵件系統(tǒng),能夠?qū)崿F(xiàn)上述實施例中的識別圖 片垃圾郵件的方法的所有步驟。參見圖5,是本發(fā)明實施例提供的郵件系統(tǒng)的結(jié)構(gòu)示意圖,該郵件系統(tǒng)包括圖片特征提取模塊1,用于根據(jù)郵件中的圖片的壓縮率分布特性,提取所述圖片的 特征值;垃圾郵件概率獲取模塊2,用于根據(jù)所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率,應(yīng)用概率統(tǒng)計公式計算獲得所述圖片為垃圾郵件的概率;圖片發(fā)送次數(shù)獲取模塊3,應(yīng)用哈希算法計算所述圖片的哈希值,將所述哈希值和 已接收的郵件圖片的哈希值進行比較,得出所述圖片被重復(fù)發(fā)送的次數(shù);聲譽值獲取模塊4,用于根據(jù)所述郵件的發(fā)信IP查詢聲譽值數(shù)據(jù)庫,獲得所述發(fā) 信IP的聲譽值;垃圾郵件判定模塊5,用于根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、 發(fā)信IP的聲譽值查詢預(yù)置的權(quán)重值列表,計算所述圖片的權(quán)重和,并根據(jù)所述權(quán)重和判定 所述圖片是否為垃圾郵件。如圖6所示,所述圖片特征提取模塊1具體包括圖片掃描單元11,用于對郵件中的圖片進行掃描,獲得所述圖片的每一個子塊的 壓縮率;圖片特征生成單元12,用于將每N個連續(xù)的子塊的壓縮率合并成一個新的壓縮率 變化元素,并將每一個壓縮率變化元素和它所在圖片中的位置編碼進行組合,獲得所述圖 片的特征值;其中,N是大于1的自然數(shù)。如圖7所示,所述垃圾郵件概率獲取模塊2具體包括概率查詢單元21,用于根據(jù)所述圖片的特征值查詢樣本數(shù)據(jù)庫,獲得所述圖片的 每個特征值在垃圾圖片中出現(xiàn)的概率;貝葉斯計算單元22,用于將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率代入 貝葉斯公式中進行計算,獲得第一概率;支持向量機計算單元23,用于將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率 構(gòu)造成特征向量,并代入支持向量機公式中進行計算,獲得第二概率;所述圖片為垃圾郵件的概率為所述第一概率和/或所述第二概率。如圖8所示,所述圖片發(fā)送次數(shù)獲取模塊3具體包括哈希值計算單元31,應(yīng)用哈希算法對所述圖片的特征值進行處理,獲得所述圖片 的哈希值;相似度判斷單元32,用于將所述圖片的哈希值和已接收的郵件圖片的哈希值進行 比較,得出所述圖片和已接收的郵件圖片的相似度;重復(fù)發(fā)送次數(shù)確定單元32,用于根據(jù)所述圖片和已接收的郵件圖片的相似度,得 出所述圖片被重復(fù)發(fā)送的次數(shù)。如圖9所示,所述垃圾郵件判定模塊5具體包括權(quán)重查詢單元51,用于根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信 IP的聲譽值查詢預(yù)置的權(quán)重值列表,分別獲得三者的權(quán)重值;郵件識別單元52,用于將三者的權(quán)重值相加,獲到所述圖片的權(quán)重和;判斷所述 圖片的權(quán)重和是否大于預(yù)定的門限值,若是,則確定所述圖片為垃圾郵件;若否,則確定所 述圖片為正常郵件。進一步的,如圖5所示,所述郵件系統(tǒng)還包括樣本數(shù)據(jù)庫6,用于保存垃圾圖片樣本和正常圖片樣本的所有特征值,以及每個特 征值在垃圾圖片中出現(xiàn)的概率;聲譽值數(shù)據(jù)庫7,用于保存發(fā)信IP的聲譽值;所述聲譽值是發(fā)信IP所發(fā)送的正常郵件在其所有已發(fā)送的郵件中所占的比例;聲譽值更新模塊8,用于在所述垃圾郵件判定模塊判定圖片為垃圾郵件后,重新計 算所述圖片的發(fā)信IP的聲譽值,并對聲譽值數(shù)據(jù)庫中的相應(yīng)的聲譽值進行更新。需要說明的是,本發(fā)明實施例提供的郵件系統(tǒng),其識別圖片垃圾郵件的流程與上 述實施例相同,在此不再贅述。本發(fā)明實施例提供的郵件系統(tǒng),基于圖片的壓縮率分布特性提取郵件中的圖片的 特征值,應(yīng)用概率統(tǒng)計公式計算獲得所述圖片為垃圾郵件的概率;再根據(jù)所述圖片為垃圾 郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值三者的權(quán)重值計算所述圖片的權(quán)重和, 根據(jù)所述權(quán)重和判定所述圖片是否為垃圾郵件。本發(fā)明基于圖片的壓縮率分布識別圖片垃 圾郵件,效率高,并且能夠識別扭曲變形的或者背景包含噪音信息的圖片。此外,本發(fā)明應(yīng) 用哈希算法判斷圖片的相似度,并統(tǒng)計相似圖片被重復(fù)發(fā)送的次數(shù),而根據(jù)這一特征可以 很好地判斷發(fā)信者的行為是否與垃圾郵件的發(fā)信行為相似,從而提高了識別圖片垃圾郵件 的準確率。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以 通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì) 中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁 碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random Access Memory, RAM)等。以上所述是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員 來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為 本發(fā)明的保護范圍。
1權(quán)利要求
一種識別圖片垃圾郵件的方法,其特征在于,包括根據(jù)郵件中的圖片的壓縮率分布特性,提取所述圖片的特征值;根據(jù)所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率,應(yīng)用概率統(tǒng)計公式計算獲得所述圖片為垃圾郵件的概率;應(yīng)用哈希算法計算所述圖片的哈希值,將所述哈希值和已接收的郵件圖片的哈希值進行比較,得出所述圖片被重復(fù)發(fā)送的次數(shù);根據(jù)所述圖片的發(fā)信IP查詢聲譽值數(shù)據(jù)庫,獲得所述發(fā)信IP的聲譽值;根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值查詢預(yù)置的權(quán)重值列表,計算所述圖片的權(quán)重和,并根據(jù)所述權(quán)重和判定所述圖片是否為垃圾郵件。
2.如權(quán)利要求1所述的識別圖片垃圾郵件的方法,其特征在于,所述根據(jù)郵件中的圖 片的壓縮率分布特性,提取所述圖片的特征值,具體包括對郵件中的圖片進行掃描,獲得所述圖片的每一個子塊的壓縮率; 將每N個連續(xù)的子塊的壓縮率合并成一個新的壓縮率變化元素,其中,N是大于1的自 然數(shù);將每一個壓縮率變化元素和它所在圖片中的位置編碼進行組合,獲得所述圖片的特征值。
3.如權(quán)利要求2所述的識別圖片垃圾郵件的方法,其特征在于,所述概率統(tǒng)計公式為 貝葉斯公式;則所述根據(jù)所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率,應(yīng)用概率統(tǒng)計公式計算 獲得所述圖片為垃圾郵件的概率,具體包括根據(jù)所述圖片的特征值查詢樣本數(shù)據(jù)庫,獲得所述圖片的每個特征值在垃圾圖片中出 現(xiàn)的概率;其中,所述樣本數(shù)據(jù)庫中保存有垃圾圖片樣本和正常圖片樣本的所有特征值,以 及每個特征值在垃圾圖片中出現(xiàn)的概率;將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率代入貝葉斯公式中進行計算,獲得 第一概率;所述圖片為垃圾郵件的概率為所述第一概率。
4.如權(quán)利要求2所述的識別圖片垃圾郵件的方法,其特征在于,所述概率統(tǒng)計公式為 支持向量機公式;則所述根據(jù)所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率,應(yīng)用概率統(tǒng)計公式計算 獲得所述圖片為垃圾郵件的概率,具體包括根據(jù)所述圖片的特征值查詢樣本數(shù)據(jù)庫,獲得所述圖片的每個特征值在垃圾圖片中出 現(xiàn)的概率;其中,所述樣本數(shù)據(jù)庫中保存有垃圾圖片樣本和正常圖片樣本的所有特征值,以 及每個特征值在垃圾圖片中出現(xiàn)的概率;將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率構(gòu)造成特征向量,并代入支持向量 機公式中進行計算,獲得第二概率;所述圖片為垃圾郵件的概率為所述第二概率。
5.如權(quán)利要求2所述的識別圖片垃圾郵件的方法,其特征在于,所述概率統(tǒng)計公式包 括貝葉斯公式和支持向量機公式;則所述根據(jù)所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率,應(yīng)用概率統(tǒng)計公式計算獲得所述圖片為垃圾郵件的概率,具體包括根據(jù)所述圖片的特征值查詢樣本數(shù)據(jù)庫,獲得所述圖片的每個特征值在垃圾圖片中出 現(xiàn)的概率;其中,所述樣本數(shù)據(jù)庫中保存有垃圾圖片樣本和正常圖片樣本的所有特征值,以 及每個特征值在垃圾圖片中出現(xiàn)的概率;將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率代入貝葉斯公式中進行計算,獲得 第一概率;將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率構(gòu)造成特征向量,并代入支持向量 機公式中進行計算,獲得第二概率;所述圖片為垃圾郵件的概率包括所述第一概率和所述第二概率。
6.如權(quán)利要求3 5任一項所述的識別圖片垃圾郵件的方法,其特征在于,所述應(yīng)用哈 希算法計算所述圖片的哈希值,將所述哈希值和已接收的郵件圖片的哈希值進行比較,得 出所述圖片被重復(fù)發(fā)送的次數(shù),具體包括應(yīng)用哈希算法對所述圖片的特征值進行處理,獲得所述圖片的哈希值; 將所述圖片的哈希值和已接收的郵件圖片的哈希值進行比較,得出所述圖片和已接收 的郵件圖片的相似度;根據(jù)所述圖片和已接收的郵件圖片的相似度,得出所述圖片被重復(fù)發(fā)送的次數(shù)。
7.如權(quán)利要求6所述的識別圖片垃圾郵件的方法,其特征在于,所述根據(jù)所述圖片為 垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值查詢預(yù)置的權(quán)重值列表,計算所述 圖片的權(quán)重和,并根據(jù)所述權(quán)重和判定所述圖片是否為垃圾郵件,具體包括根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值查詢預(yù)置的權(quán) 重值列表,分別獲得三者的權(quán)重值;將三者的權(quán)重值相加,獲到所述圖片的權(quán)重和;判斷所述圖片的權(quán)重和是否大于預(yù)定的門限值,若是,則確定所述圖片為垃圾郵件;若 否,則確定所述圖片為正常郵件。
8.如權(quán)利要求7所述的識別圖片垃圾郵件的方法,其特征在于,所述聲譽值數(shù)據(jù)庫保 存有發(fā)信IP的聲譽值,所述聲譽值是發(fā)信IP所發(fā)送的正常郵件在其所有已發(fā)送的郵件中 所占的比例;則在判定所述圖片為垃圾郵件后,還包括重新計算所述圖片的發(fā)信IP的聲譽值,并對聲譽值數(shù)據(jù)庫中的相應(yīng)的聲譽值進行更新。
9.一種郵件系統(tǒng),其特征在于,包括圖片特征提取模塊,用于根據(jù)郵件中的圖片的壓縮率分布特性,提取所述圖片的特征值;垃圾郵件概率獲取模塊,用于根據(jù)所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率, 應(yīng)用概率統(tǒng)計公式計算獲得所述圖片為垃圾郵件的概率;圖片發(fā)送次數(shù)獲取模塊,應(yīng)用哈希算法計算所述圖片的哈希值,將所述哈希值和已接 收的郵件圖片的哈希值進行比較,得出所述圖片被重復(fù)發(fā)送的次數(shù);聲譽值獲取模塊,用于根據(jù)所述郵件的發(fā)信IP查詢聲譽值數(shù)據(jù)庫,獲得所述發(fā)信IP的垃圾郵件判定模塊,用于根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP 的聲譽值查詢預(yù)置的權(quán)重值列表,計算所述圖片的權(quán)重和,并根據(jù)所述權(quán)重和判定所述圖 片是否為垃圾郵件。
10.如權(quán)利要求9所述的郵件系統(tǒng),其特征在于,所述圖片特征提取模塊具體包括 圖片掃描單元,用于對郵件中的圖片進行掃描,獲得所述圖片的每一個子塊的壓縮率;圖片特征生成單元,用于將每N個連續(xù)的子塊的壓縮率合并成一個新的壓縮率變化元 素,并將每一個壓縮率變化元素和它所在圖片中的位置編碼進行組合,獲得所述圖片的特 征值;其中,N是大于1的自然數(shù)。
11.如權(quán)利要求10所述的郵件系統(tǒng),其特征在于,所述垃圾郵件概率獲取模塊具體包括概率查詢單元,用于根據(jù)所述圖片的特征值查詢樣本數(shù)據(jù)庫,獲得所述圖片的每個特 征值在垃圾圖片中出現(xiàn)的概率;貝葉斯計算單元,用于將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率代入貝葉斯 公式中進行計算,獲得第一概率;支持向量機計算單元,用于將所述圖片的每個特征值在垃圾圖片中出現(xiàn)的概率構(gòu)造成 特征向量,并代入支持向量機公式中進行計算,獲得第二概率;所述圖片為垃圾郵件的概率為所述第一概率和/或所述第二概率。
12.如權(quán)利要求11所述的郵件系統(tǒng),其特征在于,所述圖片發(fā)送次數(shù)獲取模塊具體包括哈希值計算單元,應(yīng)用哈希算法對所述圖片的特征值進行處理,獲得所述圖片的哈希值;相似度判斷單元,用于將所述圖片的哈希值和已接收的郵件圖片的哈希值進行比較, 得出所述圖片和已接收的郵件圖片的相似度;重復(fù)發(fā)送次數(shù)確定單元,用于根據(jù)所述圖片和已接收的郵件圖片的相似度,得出所述 圖片被重復(fù)發(fā)送的次數(shù)。
13.如權(quán)利要求12所述的郵件系統(tǒng),其特征在于,所述垃圾郵件判定模塊具體包括 權(quán)重查詢單元,用于根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值查詢預(yù)置的權(quán)重值列表,分別獲得三者的權(quán)重值;由P件識別單元,用于將三者的權(quán)重值相加,獲到所述圖片的權(quán)重和;判斷所述圖片的權(quán) 重和是否大于預(yù)定的門限值,若是,則確定所述圖片為垃圾郵件;若否,則確定所述圖片為 正常郵件。
14.如權(quán)利要求13所述的郵件系統(tǒng),其特征在于,所述郵件系統(tǒng)還包括樣本數(shù)據(jù)庫,用于保存垃圾圖片樣本和正常圖片樣本的所有特征值,以及每個特征值 在垃圾圖片中出現(xiàn)的概率;聲譽值數(shù)據(jù)庫,用于保存發(fā)信IP的聲譽值;所述聲譽值是發(fā)信IP所發(fā)送的正常郵件在 其所有已發(fā)送的郵件中所占的比例;聲譽值更新模塊,用于在所述垃圾郵件判定模塊判定圖片為垃圾郵件后,重新計算所 述圖片的發(fā)信IP的聲譽值,并對聲譽值數(shù)據(jù)庫中的相應(yīng)的聲譽值進行更新。
全文摘要
本發(fā)明公開了一種識別圖片垃圾郵件的方法及系統(tǒng),該方法包括根據(jù)郵件中的圖片的壓縮率分布特性,提取所述圖片的特征值;將每個特征值在垃圾圖片中出現(xiàn)的概率代入概率統(tǒng)計公式中,計算獲得所述圖片為垃圾郵件的概率;再根據(jù)所述圖片為垃圾郵件的概率、被重復(fù)發(fā)送的次數(shù)、發(fā)信IP的聲譽值查詢預(yù)置的權(quán)重值列表,計算所述圖片的權(quán)重和,并根據(jù)所述權(quán)重和判定所述圖片是否為垃圾郵件。本發(fā)明識別圖片垃圾郵件的效率高,并且能夠識別扭曲變形的或者背景包含噪音信息的圖片。
文檔編號H04L29/06GK101917352SQ20101020173
公開日2010年12月15日 申請日期2010年6月12日 優(yōu)先權(quán)日2010年6月12日
發(fā)明者林延中, 潘慶峰, 陳磊華 申請人:盈世信息科技(北京)有限公司