一種垃圾郵件檢測方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種垃圾郵件檢測方法及裝置,該方法包括:針對一個待檢測郵件,確定該郵件對應的表征郵件屬性信息的第一特征向量值與每個郵件樣本對應的第二特征向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本;根據確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本;確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應的相似度值大于所述相似度均值的相似郵件樣本的數量;分別確定該郵件歸屬于垃圾郵件類別和歸屬于正常郵件類別的權重值;根據所述權重值,確定該待檢測郵件的類型。采用本發(fā)明這里提出的技術方案,能夠較好地提高垃圾郵件歸類的準確性。
【專利說明】一種垃圾郵件檢測方法及裝置
【技術領域】
[0001]本發(fā)明涉及業(yè)務支撐【技術領域】,尤其是涉及一種垃圾郵件檢測方法及裝置。
【背景技術】
[0002]自從1994年出現了第一封以Spam為代表的垃圾郵件開始,垃圾郵件檢測方法也應運而生。垃圾郵件檢測方法經歷了不同的發(fā)展階段:
[0003]第一階段:基于黑白名單的垃圾郵件檢測方法,該方法通過判斷當前郵件是否是黑白名單中的郵件來檢測垃圾郵件。例如在黑名單中的任何郵件都是垃圾郵件,可以直接刪除或者歸類至垃圾郵件類別中,反之,在白名單中的任何郵件都是正常郵件,允許通過。該方法的優(yōu)點是簡單明確,能最大程度的節(jié)省垃圾郵件檢測過程中占用的系統(tǒng)資源。其缺點是當接收到的郵件不在黑白名單中,該方法就失去了判斷力,容易造成誤判,因此基于黑白名單的垃圾郵件檢測方法準確性較低。
[0004]第二階段:基于人工規(guī)則的垃圾郵件檢測方法,該方法根據一定的規(guī)則對垃圾郵件檢測系統(tǒng)進行預先設置,根據設置的規(guī)則對接收到的郵件進行檢測。其中,檢測規(guī)則主要根據關鍵詞匹配、信頭分析、群發(fā)策略和郵件內容的其它特征等幾個方面來進行設置,該方法的缺點是受人為因素影響比較大。
[0005]第三階段:基于內容的垃圾郵件檢測方法,該方法是將機器學習中的一些算法應用到對垃圾郵件的檢測中,一般分為基于規(guī)則和基于統(tǒng)計的兩種檢測算法。基于內容的垃圾郵件檢測方法主要是通過分析垃圾郵件的主題和正文,獲得垃圾郵件具備的相關特征,將這些特征作為訓練樣本,對垃圾郵件進行檢測。該方法優(yōu)點是在識別垃圾郵件方面有較高的準確率和召回率,但是該方法的準確性依賴于大量的訓練樣本。
[0006]在現有技術中,一般米用基于K最近鄰(KNN, K-Nearest Neighbor)分類算法實現對垃圾郵件的檢測。KNN算法基本理論是:對于給定文本,如果該文本在特征空間中的K個最近或最相似的文本中的大多數屬于一個類別,則可以判定該文本也屬于這個類別。例如圖1所示,圖1中所示的三角形是等待歸類處理的形狀,正方形和圓形是兩個已知的類另U,若K=3,由于圓形所占比例為2/3,則等待歸類處理的三角形將被歸類到圓形類別中,若Κ=5,由于正方形所占比例為3/5,因此三角形被歸類到正方形類別中?;谏鲜鲈?,現有技術中基于KNN算法實現垃圾郵件檢測方法流程具體如下述:
[0007]步驟一:選取訓練樣本集合,其中,訓練樣本集合中包括垃圾郵件樣本和正常郵件樣本。在訓練樣本集合中,分別確定表征垃圾郵件樣本和正常郵件樣本的屬性信息的特征
向量值。
[0008]步驟二:對于等待歸類確認的每一個郵件,獲得表征該郵件屬性信息的特征向量值。
[0009]步驟三:根據夾角余弦法,分別計算該郵件對應的特征向量值與訓練樣本集合中所有樣本對應的特征向量值之間的相似度,將確定出的所有相似度按照大小排序,選取出與該等待歸類的郵件比較相似、比較接近的K個樣本。[0010]步驟四:對選取出的K個樣本,分別計算該待確定的郵件歸屬垃圾郵件和歸屬正常郵件的權重值,根據確定出的權重值,判斷該郵件是否是垃圾郵件,如果是將該郵件濾除,反之不做處理。
[0011]現有技術中提出的基于KNN算法實現垃圾郵件檢測的方法,對等待歸類確認的郵件進行歸類確認時,僅通過比較與垃圾郵件和正常郵件兩類的相似度之和來確定權重值,未考慮到其它因素等也會影響最終的歸類結果,因此準確性較低。
【發(fā)明內容】
[0012]本發(fā)明實施例提供一種垃圾郵件檢測方法及裝置,能夠較好地提高垃圾郵件檢測的準確性。
[0013]一種垃圾郵件檢測方法,包括:針對一個待檢測郵件,確定該郵件對應的表征郵件屬性信息的第一特征向量值與郵件樣本集合中的每個郵件樣本對應的表征郵件屬性信息的第二特征向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本;根據確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本;確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應的相似度值大于所述相似度均值的相似郵件樣本的數量;根據所述相似度均值和數量,分別確定該待檢測郵件歸屬于垃圾郵件類別和歸屬于正常郵件類別的權重值;根據垃圾郵件類別的權重值和正常郵件類別的權重值,確定該待檢測郵件的類型。
[0014]一種垃圾郵件檢測裝置,包括:相似度值確定單元,用于針對一個待檢測郵件,確定該郵件對應的表征郵件屬性信息的第一特征向量值與郵件樣本集合中的每個郵件樣本對應的表征郵件屬性信息的第二特征向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本;獲得單元,用于根據確定單元確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本;相似度均值確定單元,還用于確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應的相似度值大于所述相似度均值的相似郵件樣本的數量;權重值確定單元,用于根據所述相似度均值確定出的相似度均值和數量,分別確定該待檢測郵件歸屬于垃圾郵件類別和歸屬于正常郵件類別的權重值;郵件類型確認單元,用于根據權重值確定單元確定出的垃圾郵件類別的權重值和正常郵件類別的權重值,確定該待檢測郵件的類型。
[0015]采用本發(fā)明上述提出的技術方案,對于一個待檢測郵件,通過確定該郵件對應的第一特征向量值與郵件樣本集合中的每個郵件樣本對應的第二特征向量值之間的相似度值,獲得該郵件與郵件樣本集合中的相似郵件樣本,然后再確定該郵件和獲得的相似郵件樣本之間的相似度均值,以及獲得相似度值大于相似度均值的相似郵件樣本的數量,根據相似度均值和數量,分別確定該郵件歸屬垃圾郵件類別的權重值和歸屬正常郵件樣本的權重值,最后根據歸屬不同類別的權重值,確定該待檢測郵件的類型。從而實現將待檢測郵件歸類為垃圾郵件或者歸類為正常郵件,本發(fā)明提出的技術方案中,引入了相似度均值作為參考,較好地提高了確定待檢測郵件類型的準確性。
【專利附圖】
【附圖說明】
[0016]圖1為現有技術中,提出的KNN算法示意圖;[0017]圖2為本發(fā)明實施例一中,提出的垃圾郵件檢測方法流程圖;
[0018]圖3為本發(fā)明實施例一中,提出的訓練樣本的偽聚類示意圖;
[0019]圖4為本發(fā)明實施例一中,提出的原始樣本分成小類過程示意圖;
[0020]圖5為本發(fā)明實施例一中,提出的APC-KNN分類器的訓練流程圖;
[0021]圖6為本發(fā)明實施例一中,提出的不同特征維數三組實驗的Fl值對比示意圖;
[0022]圖7為本發(fā)明實施例一中,提出的不同特征維數對分類結果的影響對比示意圖;
[0023]圖8為本發(fā)明實施例一中,提出的不同K值三組實驗的Fl值對比示意圖;
[0024]圖9為本發(fā)明實施例一中,提出的不同K值對分類結果的影響對比示意圖;
[0025]圖10為本發(fā)明實施例二中,提出的倆及郵件檢測裝置結構示意圖。
【具體實施方式】
[0026]針對現有技術中垃圾郵件檢測方法,僅根據待檢測郵件與郵件樣本集合中的郵件樣本之間的相似度值之和來確定權重值,然后對待檢測郵件進行歸類,使得對郵件檢測的準確性較低的問題,本發(fā)明實施例這里提出的技術方案,結合改進的KNN算法和預先設置的郵件樣本集合,綜合考慮影響歸類結果的條件來確定待檢測的郵件類型,能夠較好地提高垃圾郵件檢測的準確性。
[0027]下面將結合各個附圖對本發(fā)明實施例技術方案的主要實現原理、【具體實施方式】及其對應能夠達到的有益效果進行詳細地闡述。
[0028]實施例一
[0029]本發(fā)明實施例一這里提出一種垃圾郵件檢測方法,如圖2所示,具體處理過程如下:
[0030]步驟21,選取郵件樣本集合,郵件樣本集合也可以稱之為訓練樣本集合。
[0031]其中,郵件樣本集合中包括垃圾郵件樣本和正常郵件樣本,垃圾郵件樣本的數量和正常郵件樣本的數量可以相同,也可以不相同。在敏感度要求較高的應用環(huán)境中,在選取的郵件樣本集合中,包含的垃圾郵件樣本的數量可以大于正常郵件樣本的數量,反之,在敏感度要求較低的場合中,在選取的郵件樣本集合中,包含的垃圾郵件樣本的數量可以小于正常郵件樣本的數量。基于公平的原則,本發(fā)明實施例一這里提出的技術方案,在選取的郵件樣本集合中,包含相同數量的垃圾郵件樣本和正常郵件樣本。
[0032]步驟22,針對一個待檢測郵件,確定該郵件對應的表征郵件屬性信息的第一特征向量值以及確定選取的郵件樣本集合中每個郵件樣本對應的表征郵件屬性信息的第二特征向量值。
[0033]其中,每個郵件都具備表征郵件屬性信息的特征向量值,為便于闡述,本發(fā)明實施例一這里待檢測郵件對應的表征郵件屬性信息的特征向量值規(guī)定為第一特征向量值,將郵件樣本對應的表征郵件屬性信息的特征向量值規(guī)定為第二特征向量值。具體地,第一特征向量值的選取和第二特征向量值的選取方法是相同的。
[0034]步驟23,根據確定出的第一特征向量值和第二特征向量值,計算二者之間的相似度值。
[0035]其中,可以基于夾角余弦算法,根據確定出的第一特征向量值和第二特征向量值,計算相似度值,該相似度值可以表征待檢測郵件和郵件樣本集合中包含的郵件樣本之間的相似度。
[0036]具體地,可以采用下述公式I來計算相似度值:
【權利要求】
1.一種垃圾郵件檢測方法,其特征在于,包括: 針對一個待檢測郵件,確定該郵件對應的表征郵件屬性信息的第一特征向量值與郵件樣本集合中的每個郵件樣本對應的表征郵件屬性信息的第二特征向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本; 根據確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本; 確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應的相似度值大于所述相似度均值的相似郵件樣本的數量; 根據所述相似度均值和數量,分別確定該待檢測郵件歸屬于垃圾郵件類別和歸屬于正常郵件類別的權重值; 根據垃圾郵件類別的權重值和正常郵件類別的權重值,確定該待檢測郵件的類型。
2.如權利要求1所述的方法,其特征在于,采用下述公式確定所述正常郵件類別的權重值:
3.如權利要求1所述的方法,其特征在于,采用下述公式確定所述正常郵件類別的權重值:
4.如權利要求1所述的方法,其特征在于,采用下述方式確定郵件樣本集合: 基于聚類算法,將正常郵件樣本和垃圾郵件樣本分別進行聚類,得到至少一個正常郵件樣本簇和至少一個垃圾郵件樣本簇; 在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本; 將選擇出的第一中心樣本和第二中心樣本組成郵件樣本集合。
5.如權利要求4所述的方法,其特征在于,所述將正常郵件樣本進行聚類,得到至少一個正常郵件樣本簇,包括: 確定每個正常郵件樣本對應的第一特征權重值; 根據確定的所述第一特征權重值,按照預設的步進值將所有正常郵件樣本劃分為至少一個正常郵件樣本簇。
6.如權利要求5所述的 方法,其特征在于,采用下述公式確定第一特征權重值:
其中,D1是第一特征權重值,Xi是每個正常郵件樣本對應的正常郵件樣本特征向量值,Wi是預設的對應正常郵件樣本的參數值。
7.如權利要求4所述的方法,其特征在于,所述將垃圾郵件樣本進行聚類,得到至少一個垃圾郵件樣本簇,包括: 確定每個垃圾郵件樣本對應的第二特征權重值; 根據所述第二特征權重值,按照預設的步進值將垃圾郵件樣本劃分為至少一個垃圾郵件樣本簇。
8.如權利要求7所述的方法,其特征在于,采用下述公式確定第二特征權重值:
η D2 =η = \,2…N
J=I 其中,D2是第二特征權重值,Xj是每個垃圾郵件樣本對應的垃圾郵件樣本特征向量值,Wj是預設的對應垃圾郵件樣本的參數值。
9.如權利要求4所述的方法,其特征在于,所述在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本,包括: 基于平均中心算法,在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本。
10.一種垃圾郵件檢測裝置,其特征在于,包括: 相似度值確定單元,用于針對一個待檢測郵件,確定該郵件對應的表征郵件屬性信息的第一特征向量值與郵件樣本集合中的每個郵件樣本對應的表征郵件屬性信息的第二特征向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本; 獲得單元,用于根據確定單元確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本; 相似度均值確定單元,還用于確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應的相似度值大于所述相似度均值的相似郵件樣本的數量; 權重值確定單元,用于根據所述相似度均值確定出的相似度均值和數量,分別確定該待檢測郵件歸屬于垃圾郵件類別和歸屬于正常郵件類別的權重值; 郵件類型確認單元,用于根據權重值確定單元確定出的垃圾郵件類別的權重值和正常郵件類別的權重值,確定該待檢測郵件的類型。
11.如權利要求10所述的裝置,其特征在于,所述權重值確定單元,具體采用下述公式確定所述正常郵件類別的權重值:
12.如權利要求10所述的裝置,其特征在于,所述權重值確定單元,具體采用下述公式確定所述正常郵件類別的權重值:
所述權重值確定單元具體采用下述公式確定所述垃圾郵件類別的權重值:
13.如權利要求10所述的裝置,其特征在于,還包括郵件樣本集合確定單元,具體用于采用下述方式確定郵件樣本集合: 基于聚類算法,將正常郵件樣本和垃圾郵件樣本分別進行聚類,得到至少一個正常郵件樣本簇和至少一個垃圾郵件樣本簇;在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本;將選擇出的第一中心樣本和第二中心樣本組成郵件樣本集合。
14.如權利要求13所述的裝置,其特征在于,所述郵件樣本集合確定單元,具體用于確定每個正常郵件樣本對應的第一特征權重值;根據確定的所述第一特征權重值,按照預設的步進值將所有正常郵件樣本劃分為至少一個正常郵件樣本簇。
15.如權利要求14所述的裝置,其特征在于,所述郵件樣本集合確定單元,具體采用下述公式確定第一特征權重值: 其中,D1是第一特征權重值,Xi是每個正常郵件樣本對應的正常郵件樣本特征向量值,Wi是預設的對應正常郵件樣本的參數值。
16.如權利要求13所述的裝置,其特征在于,所述郵件樣本集合確定單元,具體用于確定每個垃圾郵件樣本對應的第二特征權重值;根據所述第二特征權重值,按照預設的步進值將垃圾郵件樣本劃分為至少一個垃圾郵件樣本簇。
17.如權利要求16所述的裝置,其特征在于,所述郵件樣本集合確定單元,具體用于采用下述公式確定第二特征權重值: P =乞WjXi η = \.2…N
J=I 其中,D2是第二特征權重值,Xj是每個垃圾郵件樣本對應的垃圾郵件樣本特征向量值,Wj是預設的對應垃圾郵件樣本的參數值。
18.如權利要求13所述的裝置,其特征在于,郵件樣本集合確定單元,具體用于基于平均中心算法,在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本。
【文檔編號】H04L12/24GK103490974SQ201210195957
【公開日】2014年1月1日 申請日期:2012年6月14日 優(yōu)先權日:2012年6月14日
【發(fā)明者】韋媚, 劉曉峰, 梁耿, 陳陽, 凌俊民 申請人:中國移動通信集團廣西有限公司