一種基于用戶反饋的垃圾郵件檢測(cè)方法
【專利摘要】本發(fā)明提出了一種基于用戶反饋的垃圾郵件檢測(cè)方法,該方法首先收集用戶反饋信息,用來(lái)更新垃圾郵件數(shù)據(jù)庫(kù);然后提取郵件的發(fā)件人郵箱號(hào),判斷該郵箱號(hào)或者它所在郵箱服務(wù)器的可信度是否小于某一閾值,若是,則認(rèn)為該郵件為垃圾郵件;否則,提取郵件內(nèi)容的簽名;通過(guò)與數(shù)據(jù)庫(kù)中已知垃圾郵件計(jì)算漢明距離,若距離小于某一閾值,則認(rèn)為該郵件為垃圾郵件;否則,認(rèn)為該郵件為正常郵件;它包括收集用戶反饋信息、讀取郵件、判斷發(fā)件人郵箱號(hào)是否為垃圾制造者、獲取郵件內(nèi)容簽名、檢測(cè)郵件內(nèi)容是否為垃圾郵件等步驟。本發(fā)明可提高垃圾郵件的識(shí)別范圍和準(zhǔn)確度,具有識(shí)別范圍廣、準(zhǔn)確度高、自學(xué)習(xí)能力強(qiáng)等特點(diǎn)。
【專利說(shuō)明】一種基于用戶反饋的垃圾郵件檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及ー種電子郵件的處理方法,特別是涉及ー種基于用戶反饋的垃圾郵件檢測(cè)方法。
【背景技術(shù)】
[0002]電子郵件是ー種用電子手段提供信息交換的通信方式,是Internet應(yīng)用最廣泛的服務(wù)之一。隨著網(wǎng)絡(luò)電子郵件的日益普及,越來(lái)越多的帶有廣告性質(zhì)、政治目的和惡意連接的垃圾郵件數(shù)量也在急速增長(zhǎng),其中來(lái)自個(gè)人或者小単位的郵件服務(wù)器更成為垃圾郵件的主要來(lái)源。垃圾郵件的泛濫不僅給用戶造成極大的干擾,帶來(lái)不友好的用戶體驗(yàn),而且大量的垃圾郵件占用了巨大的網(wǎng)絡(luò)帶寬。目前,針對(duì)垃圾郵件的檢測(cè)已經(jīng)有了不少相關(guān)研究,主要分為基于黑白名單的過(guò)濾方法、基于規(guī)則的過(guò)濾方法和基于內(nèi)容的過(guò)濾方法。這三種方法都是在電子郵件層面對(duì)電子郵件的識(shí)別處理,對(duì)于制造垃圾郵件的個(gè)人或小単位的小型郵件服務(wù)器沒(méi)有有效的處理辦法,而且都忽視了用戶在檢測(cè)垃圾郵件中的重要作用。而目前垃圾郵件大量存在的事實(shí)也說(shuō)明垃圾郵件處理策略還需要改進(jìn)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明要解決的技術(shù)問(wèn)題是:提供一種基于用戶反饋的垃圾郵件檢測(cè)方法,以解決現(xiàn)有技術(shù)中存在的忽視用戶反饋而造成垃圾郵件識(shí)別準(zhǔn)確度欠缺、識(shí)別范圍小以及對(duì)小型垃圾郵件服務(wù)器無(wú)力的不足之處。
[0004]為解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案是:
[0005]一種基于用戶反饋的垃圾郵件檢測(cè)方法,所述方法包括如下步驟:
[0006]S1、收集用戶反饋信息,更新垃圾郵件數(shù)據(jù)庫(kù);
[0007]S2、接收郵件:接收全部的郵件數(shù)據(jù),分別對(duì)每一封郵件處理,轉(zhuǎn)向步驟S3 ;
[0008]S3、獲取發(fā)件人郵箱號(hào)及所屬郵箱服務(wù)器,并根據(jù)數(shù)據(jù)庫(kù)中可信度判斷是否為垃圾郵件制造者:
[0009]根據(jù)郵箱服務(wù)器預(yù)先設(shè)定好的可信度閾值e,若是可信度小于e,則轉(zhuǎn)向步驟S6 ;若否,則轉(zhuǎn)向步驟S4,所述可信度閾值0 —般取0.2?0.8 ;
[0010]S4、獲取郵件內(nèi)容的簽名:
[0011]根據(jù)郵件內(nèi)容的文本特征集,采用SMHASH算法生成該郵件的簽名
算法的計(jì)算公式為:S = SMHASH(MAIL-TEXT),其中SMHASH表示SMHASH算法,MAIL TEXT表示郵件內(nèi)容中的文本特征集和權(quán)重信息,S為輸出的64位的郵件簽名;
[0012]S5、檢測(cè)郵件內(nèi)容是否為垃圾郵件:
[0013]根據(jù)步驟S4得到的郵件內(nèi)容簽名S,通過(guò)與數(shù)據(jù)庫(kù)中已知垃圾郵件計(jì)算漢明距離,當(dāng)簽名差距小于預(yù)先設(shè)定好的某ー閾值U吋,則認(rèn)為當(dāng)前郵件與已知垃圾郵件相似,從而斷定其為垃圾郵件;否則,認(rèn)為當(dāng)前郵件為正常郵件,所述U —般取3 ;
[0014]S6、處理郵件:[0015]根據(jù)前面步驟的判斷,如果當(dāng)前郵件為垃圾郵件,則根據(jù)收件人預(yù)先設(shè)定好的策略進(jìn)行處理;如果為正常郵件,則將其放入收件箱未讀郵件中。
[0016]本發(fā)明的再進(jìn)ー步技術(shù)方案是:所述的步驟S1、收集用戶反饋信息包括如下步驟:
[0017]S1.1、用戶登錄郵箱,記錄用戶對(duì)每封郵件的操作日志;
[0018]S1.2、判斷用戶對(duì)未讀郵件的操作:
[0019]當(dāng)用戶登錄郵箱后,監(jiān)聽用戶的操作,如果用戶打開了未讀郵件,則期待用戶的后續(xù)操作,轉(zhuǎn)向步驟S1.3:如果用戶刪除了未讀郵件,則認(rèn)為該郵件為垃圾郵件,轉(zhuǎn)向步驟S1.7:
[0020]S1.3、用戶是否評(píng)級(jí):
[0021]如果用戶對(duì)郵件進(jìn)行評(píng)級(jí),則轉(zhuǎn)向步驟S1.4 ;否則,則轉(zhuǎn)向步驟S1.5 ;
[0022]S1.4、用戶評(píng)級(jí)處理:
[0023]如果用戶給與郵件差評(píng),則認(rèn)為是垃圾郵件,轉(zhuǎn)入步驟S1.7 ;否則,認(rèn)為是正常郵件,轉(zhuǎn)入步驟S1.6 ;
[0024]S1.5、根據(jù)用戶對(duì)該郵件的操作響應(yīng)判斷是否為垃圾郵件:
[0025]檢查當(dāng)前郵件的操作日志,如果發(fā)現(xiàn)操作順序?yàn)椤按蜷_、查閱時(shí)間過(guò)短、刪除”,則認(rèn)為當(dāng)前郵件為垃圾郵件;否則,則認(rèn)為當(dāng)前郵件為正常郵件;所述操作“查閱時(shí)間”是指查閱時(shí)間t小于預(yù)先設(shè)定好的閾值小,所述查閱時(shí)間t是指用戶打開郵件并且活動(dòng)窗ロ為郵件所在窗ロ所持續(xù)的時(shí)間,所述小一般取0.1ms?2s:
[0026]S1.6、正常郵件處理:
[0027]檢索垃圾郵件數(shù)據(jù)庫(kù),查看該郵件是否存在數(shù)據(jù)庫(kù)中,如果存在,好評(píng)數(shù)增加1,分別重新計(jì)算該郵件發(fā)件人、郵箱服務(wù)器和郵件內(nèi)容的可信度b ;否則,則結(jié)束。所述可信度b的計(jì)算公式為:b = good/total,其中g(shù)ood為好評(píng)數(shù),total為好評(píng)數(shù)與差評(píng)數(shù)的總和。
[0028]S1.7、垃圾郵件處理:
[0029]檢索垃圾郵件數(shù)據(jù)庫(kù),查看該郵件是否存在數(shù)據(jù)庫(kù)中,如果存在,差評(píng)數(shù)增加1,分別重新計(jì)算該郵件發(fā)件人、郵箱服務(wù)器和郵件內(nèi)容的可信度b ;否則,則在垃圾郵件數(shù)據(jù)庫(kù)中添加該郵件的信息。
[0030]作為本發(fā)明的一種優(yōu)選方案,垃圾郵件數(shù)據(jù)庫(kù)中的信息包含有:垃圾郵件發(fā)件人、垃圾郵件郵箱服務(wù)器、垃圾郵件內(nèi)容簽名以及它們各自的可信度。
[0031]作為本發(fā)明的一種優(yōu)選方案,垃圾郵件數(shù)據(jù)庫(kù)應(yīng)能夠在可信郵件提供商間共享。
[0032]作為本發(fā)明的一種優(yōu)選方案,垃圾郵件數(shù)據(jù)庫(kù)的更新方式應(yīng)包括本地收集用戶反饋的自我更新方式和從信任郵件服務(wù)器獲取數(shù)據(jù)的更新方式。
[0033]作為本發(fā)明的一種優(yōu)選方案,用戶反饋包括用戶對(duì)郵件評(píng)級(jí)、打開郵件、查閱郵件時(shí)間和刪除郵件操作。
[0034]作為本發(fā)明的一種優(yōu)選方案,用戶預(yù)先設(shè)定的策略應(yīng)包括拒收垃圾郵件和設(shè)置用戶預(yù)設(shè)可信度。
[0035]作為本發(fā)明的一種優(yōu)選方案,用戶操作日志記錄的操作包括打開郵件、查閱時(shí)間和刪除郵件。
[0036]本發(fā)明的有益效果在干:本發(fā)明提出的基于用戶反饋的垃圾郵件檢測(cè)方法,保障了用戶反映在垃圾郵件檢測(cè)中重要的積極作用,能夠準(zhǔn)確的檢測(cè)出垃圾郵件,識(shí)別范圍廣,并且能夠識(shí)別出小型垃圾郵件服務(wù)器,從而在服務(wù)器層面抵制垃圾郵件,更加高效。
【專利附圖】
【附圖說(shuō)明】
[0037]圖1為本發(fā)明提供的基于用戶反饋的垃圾郵件檢測(cè)方法流程圖;
[0038]圖2為本發(fā)明提供的收集用戶反饋信息流程圖;
【具體實(shí)施方式】
[0039]下面結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明,其作為本說(shuō)明書的一部分,通過(guò)實(shí)施例來(lái)說(shuō)明本發(fā)明的原理,本發(fā)明的其他方面,特征及其優(yōu)點(diǎn)通過(guò)該詳細(xì)說(shuō)明將會(huì)變得一目了然。
[0040]本發(fā)明提供的基于用戶反饋的垃圾郵件檢測(cè)方法的具體步驟(參見圖1)如下:
[0041]S1、收集用戶反饋信息,更新垃圾郵件數(shù)據(jù)庫(kù);
[0042]S2、接收郵件:接收全部的郵件數(shù)據(jù),分別對(duì)每一封郵件處理,轉(zhuǎn)向步驟S3 ;
[0043]S3、獲取發(fā)件人郵箱號(hào)及所屬郵箱服務(wù)器,并根據(jù)數(shù)據(jù)庫(kù)中可信度判斷是否為垃圾郵件制造者:
[0044]根據(jù)郵箱服務(wù)器預(yù)先設(shè)定好的可信度閾值e,若是可信度小于e,則轉(zhuǎn)向步驟S6 ;若否,則轉(zhuǎn)向步驟S4,所述可信度閾值0 —般取0.2?0.8 ;
[0045]S4、獲取郵件內(nèi)容的簽名:
[0046]根據(jù)郵件內(nèi)容的文本特征集,采用SMHASH算法生成該郵件的簽名;所述SMHASH算法的計(jì)算公式為:S = SMHASH(MAIL_TEXT),其中 SMHASH 表示 SMHASH算法,MAIL_TEXT表示郵件內(nèi)容中的文本特征集和權(quán)重信息,S為輸出的64位的郵件簽名;
[0047]S5、檢測(cè)郵件內(nèi)容是否為垃圾郵件:
[0048]根據(jù)步驟S4得到的郵件內(nèi)容簽名S,通過(guò)與數(shù)據(jù)庫(kù)中已知垃圾郵件計(jì)算漢明距離,當(dāng)簽名差距小于預(yù)先設(shè)定好的某ー閾值U吋,則認(rèn)為當(dāng)前郵件與已知垃圾郵件相似,從而斷定其為垃圾郵件;否則,認(rèn)為當(dāng)前郵件為正常郵件,所述U-般取3 ;
[0049]S6、處理郵件:
[0050]根據(jù)前面步驟的判斷,如果當(dāng)前郵件為垃圾郵件,則根據(jù)收件人預(yù)先設(shè)定好的策略進(jìn)行處理;如果為正常郵件,則將其放入收件箱未讀郵件中。
[0051]上述的步驟S1、收集用戶反饋信息包括如下步驟(參見圖2):
[0052]S1.1、用戶登錄郵箱,記錄用戶對(duì)每封郵件的操作日志;
[0053]S1.2、判斷用戶對(duì)未讀郵件的操作:
[0054]當(dāng)用戶登錄郵箱后,監(jiān)聽用戶的操作,如果用戶打開了未讀郵件,則期待用戶的后續(xù)操作,轉(zhuǎn)向步驟S1.3:如果用戶刪除了未讀郵件,則認(rèn)為該郵件為垃圾郵件,轉(zhuǎn)向步驟S1.7 ;
[0055]S1.3、用戶是否評(píng)級(jí):
[0056]如果用戶對(duì)郵件進(jìn)行評(píng)級(jí),則轉(zhuǎn)向步驟S1.4 ;否則,則轉(zhuǎn)向步驟S1.5 ;
[0057]S1.4、用戶評(píng)級(jí)處理:
[0058]如果用戶給與郵件差評(píng),則認(rèn)為是垃圾郵件,轉(zhuǎn)入步驟S1.7 ;否則,認(rèn)為是正常郵件,轉(zhuǎn)入步驟S1.6 ;[0059]S1.5、根據(jù)用戶對(duì)該郵件的操作響應(yīng)判斷是否為垃圾郵件:
[0060]檢查當(dāng)前郵件的操作日志,如果發(fā)現(xiàn)操作順序?yàn)椤按蜷_、查閱時(shí)間過(guò)短、刪除”,則認(rèn)為當(dāng)前郵件為垃圾郵件;否則,則認(rèn)為當(dāng)前郵件為正常郵件;所述操作“查閱時(shí)間”是指查閱時(shí)間t小于預(yù)先設(shè)定好的閾值小,所述查閱時(shí)間t是指用戶打開郵件并且活動(dòng)窗ロ為郵件所在窗ロ所持續(xù)的時(shí)間,所述小一般取0.1ms?2s ;
[0061]S1.6、正常郵件處理:
[0062]檢索垃圾郵件數(shù)據(jù)庫(kù),查看該郵件是否存在數(shù)據(jù)庫(kù)中,如果存在,好評(píng)數(shù)增加1,分別重新計(jì)算該郵件發(fā)件人、郵箱服務(wù)器和郵件內(nèi)容的可信度b ;否則,則結(jié)束。所述可信度b的計(jì)算公式為:b = good/total,其中g(shù)ood為好評(píng)數(shù),total為好評(píng)數(shù)與差評(píng)數(shù)的總和。
[0063]S1.7、垃圾郵件處理:
[0064]檢索垃圾郵件數(shù)據(jù)庫(kù),查看該郵件是否存在數(shù)據(jù)庫(kù)中,如果存在,差評(píng)數(shù)增加1,分別重新計(jì)算該郵件發(fā)件人、郵箱服務(wù)器和郵件內(nèi)容的可信度b ;否則,則在垃圾郵件數(shù)據(jù)庫(kù)中添加該郵件的信息。
[0065]本發(fā)明提供的一種基于用戶反饋的垃圾郵件檢測(cè)方法,能夠根據(jù)用戶對(duì)于郵件的反饋信息判斷郵件是否為垃圾郵件,并且能夠識(shí)別出垃圾郵件服務(wù)器,從而更加高效、準(zhǔn)確地抵制垃圾郵件。
[0066]以上所揭露的僅為本發(fā)明的優(yōu)選實(shí)施例而已,當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明申請(qǐng)專利范圍所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【權(quán)利要求】
1.一種基于用戶反饋的垃圾郵件檢測(cè)方法,其特征在于,該方法包括如下步驟: 51、收集用戶反饋信息,更新垃圾郵件數(shù)據(jù)庫(kù); 52、接收郵件:接收全部的郵件數(shù)據(jù),分別對(duì)每一封郵件處理,轉(zhuǎn)向步驟S3; 53、獲取發(fā)件人郵箱號(hào)及所屬郵箱服務(wù)器,并根據(jù)數(shù)據(jù)庫(kù)中可信度判斷是否為垃圾郵件制造者: 根據(jù)郵箱服務(wù)器預(yù)先設(shè)定好的可信度閾值e,若是可信度小于0,則轉(zhuǎn)向步驟36;若否,則轉(zhuǎn)向步驟S4,所述可信度閾值0 —般取0.2~0.8; 54、獲取郵件內(nèi)容的簽名: 根據(jù)郵件內(nèi)容的文本特征集,采用SMHASH算法生成該郵件的簽名;所述SMHASH算法的計(jì)算公式為:S = SMHASH(MAIL_TEXT),其中 SMHASH 表示 SMHASH 算法,MAIL-TEXT 表示郵件內(nèi)容中的文本特征集和權(quán)重信息,S為輸出的64位的郵件簽名; 55、檢測(cè)郵件內(nèi)各是否為垃圾郵件: 根據(jù)步驟S4得到的郵 件內(nèi)容簽名S,通過(guò)與數(shù)據(jù)庫(kù)中已知垃圾郵件計(jì)算漢明距離,當(dāng)簽名差距小于預(yù)先設(shè)定好的某ー閾值U吋,則認(rèn)為當(dāng)前郵件與已知垃圾郵件相似,從而斷定其為垃圾郵件;否則,認(rèn)為當(dāng)前郵件為正常郵件,所述U —般取3; 56、處理郵件: 根據(jù)前面步驟的判斷,如果當(dāng)前郵件為垃圾郵件,則根據(jù)收件人預(yù)先設(shè)定好的策略進(jìn)行處理;如果為正常郵件,則將其放入收件箱未讀郵件中。
2.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測(cè)方法,其特征在于,所述的步驟S1、收集用戶反饋信息包括如下步驟: S1.1、用戶登錄郵箱,記錄用戶對(duì)每封郵件的操作日志; S1.2、判斷用戶對(duì)未讀郵件的操作: 當(dāng)用戶登錄郵箱后,監(jiān)聽用戶的操作,如果用戶打開了未讀郵件,則期待用戶的后續(xù)操作,轉(zhuǎn)向步驟S1.3:如果用戶刪除了未讀郵件,則認(rèn)為該郵件為垃圾郵件,轉(zhuǎn)向步驟S1.7 ; S1.3、用戶是否評(píng)級(jí): 如果用戶對(duì)郵件進(jìn)行評(píng)級(jí),則轉(zhuǎn)向步驟S1.4 ;否則,則轉(zhuǎn)向步驟S1.5 ; S1.4、用戶評(píng)級(jí)處理: 如果用戶給與郵件差評(píng),則認(rèn)為是垃圾郵件,轉(zhuǎn)入步驟S1.7;否則,認(rèn)為是正常郵件,轉(zhuǎn)入步驟S1.6 ; S1.5、根據(jù)用戶對(duì)該郵件的操作響應(yīng)判斷是否為垃圾郵件: 檢查當(dāng)前郵件的操作日志,如果發(fā)現(xiàn)操作順序?yàn)椤按蜷_、查閱時(shí)間過(guò)短、刪除”,則認(rèn)為當(dāng)前郵件為垃圾郵件;否則,則認(rèn)為當(dāng)前郵件為正常郵件;所述操作“查閱時(shí)間”是指查閱時(shí)間t小于預(yù)先設(shè)定好的閾值小,所述查閱時(shí)間t是指用戶打開郵件并且活動(dòng)窗ロ為郵件所在窗ロ所持續(xù)的時(shí)間,所述小一般取0.1ms~2s ; S1.6、正常郵件處理: 檢索垃圾郵件數(shù)據(jù)庫(kù),查看該郵件是否存在數(shù)據(jù)庫(kù)中,如果存在,好評(píng)數(shù)增加1,分別重新計(jì)算該郵件發(fā)件人、郵箱服務(wù)器和郵件內(nèi)容的可信度b ;否則,則結(jié)束。所述可信度b的計(jì)算公式為:b = good/total,其中g(shù)ood為好評(píng)數(shù),total為好評(píng)數(shù)與差評(píng)數(shù)的總和。 S1.7、垃圾郵件處理:檢索垃圾郵件數(shù)據(jù)庫(kù),查看該郵件是否存在數(shù)據(jù)庫(kù)中,如果存在,差評(píng)數(shù)增加1,分別重新計(jì)算該郵件發(fā)件人、郵箱服務(wù)器和郵件內(nèi)容的可信度b ;否則,則在垃圾郵件數(shù)據(jù)庫(kù)中添加該郵件的信息。
3.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測(cè)方法,其特征在于,所述的垃圾郵件數(shù)據(jù)庫(kù)中的信息包含有:垃圾郵件發(fā)件人、垃圾郵件郵箱服務(wù)器、垃圾郵件內(nèi)容簽名以及它們各自的可信度。
4.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測(cè)方法,其特征在于,所述的垃圾郵件數(shù)據(jù)庫(kù)應(yīng)能夠在可信郵件提供商間共享。
5.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測(cè)方法,其特征在于,所述的垃圾郵件數(shù)據(jù)庫(kù)的更新方式應(yīng)包括本地收集用戶反饋的自我更新方式和從信任郵件服務(wù)器獲取數(shù)據(jù)的更新方式。
6.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測(cè)方法,其特征在于,所述的用戶反饋包括用戶對(duì)郵件評(píng)級(jí)、打開郵件、查閱郵件時(shí)間和刪除郵件操作。
7.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測(cè)方法,其特征在于,所述的用戶預(yù)先設(shè)定的策略應(yīng)包括拒收垃圾郵件和設(shè)置用戶預(yù)設(shè)可信度。
8.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測(cè)方法,其特征在于,所述的用戶操作日志記錄的操作包括打開郵件、查閱時(shí)間和刪除郵件。
【文檔編號(hào)】H04L29/06GK103595614SQ201210290542
【公開日】2014年2月19日 申請(qǐng)日期:2012年8月16日 優(yōu)先權(quán)日:2012年8月16日
【發(fā)明者】李朋飛, 崔可想, 耿振民, 楊磊, 戴偉強(qiáng) 申請(qǐng)人:無(wú)錫華御信息技術(shù)有限公司