两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于多屬性的誤發(fā)郵件檢測方法

文檔序號:8473009閱讀:366來源:國知局
一種基于多屬性的誤發(fā)郵件檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于隱私保護(hù)領(lǐng)域,涉及一種基于多屬性的誤發(fā)郵件檢測方法。
【背景技術(shù)】
[0002] 電子郵件是是Internet應(yīng)用最廣泛的服務(wù)之一,具有快速方便、價格低廉、用途 廣泛等特點。由于電子郵件作用巨大,稍有不慎就可能造成敏感數(shù)據(jù)泄露,給數(shù)據(jù)安全帶 來了嚴(yán)重威脅。目前電子郵件泄露造成的安全事故屢屢發(fā)生,在互聯(lián)網(wǎng)上大行其道的內(nèi)部 郵件泄密消息不絕于耳,其中由用戶失誤或內(nèi)部攻擊者造成的泄密更為嚴(yán)重。Infowatch 的調(diào)研報告顯示電子郵件泄露在無意識的泄露事件中和有意識泄露事件中分別占9. 9% 和4. 4%。大部分的無意識郵件泄密是由用戶誤發(fā)郵件造成的,如用戶Alice本來打算向 johnOcorpa.com發(fā)一封敏感郵件,卻由于疏忽發(fā)給了joanOcorpb.com,導(dǎo)致信息泄露或造 成惡劣影響。2011年,曼城CEOCook將一封發(fā)給曼城足球總監(jiān)Marwood的郵件誤發(fā)給曼城 隊后衛(wèi)NedumOnuoha身患癌癥的母親DrAnthoniaOnuoha。郵件中對DrAnthoniaOnuoha 進(jìn)行了"嘲諷和侮辱",Cook因此被推到了輿論風(fēng)暴中心,直接導(dǎo)致他辭職。此類事件發(fā)生 次數(shù)還很多,造成的影響也更加嚴(yán)重。因此必須在源頭監(jiān)控敏感郵件的流通,防止誤發(fā)事件 發(fā)生。
[0003] 誤發(fā)郵件實際上與用戶的意圖相悖的,表現(xiàn)在用戶的通信行為出現(xiàn)了異常,即與 以前的行為存在較大偏差,而正常用戶行為的偏差常在一定范圍內(nèi)波動。因此可以將誤發(fā) 郵件檢測看成一種分類問題:行為差異較小的正常郵件和行為差異較大的誤發(fā)郵件。已有 的檢測方法多關(guān)注單個用戶行為,建立單用戶模型以檢測誤發(fā)郵件,且提取屬性不全面,準(zhǔn) 確率不高。

【發(fā)明內(nèi)容】

[0004] 針對上述現(xiàn)有技術(shù)不足,本發(fā)明將誤發(fā)郵件檢測看成一個二值分類問題,從內(nèi)容 特征、社會關(guān)系和通信行為等多種屬性對用戶的通信行為偏差建立通用檢測模型,當(dāng)用戶 通信行為偏差超過正常的范圍時,則很可能是一封誤發(fā)郵件。
[0005] 為了準(zhǔn)確地檢測誤發(fā)郵件,本發(fā)明提出了一種基于多屬性的誤發(fā)郵件檢測方法, 包括以下步驟:
[0006] 1)從標(biāo)記的多個郵件中提取內(nèi)容特征屬性、社會關(guān)系屬性及通信行為屬性;
[0007] 2)根據(jù)所述內(nèi)容特征屬性、社會關(guān)系屬性及通信行為屬性建立基于SVM分類模 型;
[0008] 3)提取一封新郵件的內(nèi)容屬性、社會關(guān)系屬性及通信行為屬性,并用所述基于 SVM分類模型進(jìn)行檢測,判斷所述新郵件是否為誤發(fā)郵件。
[0009] 進(jìn)一步地,提取所述內(nèi)容特征屬性包括,在郵件集合E中,查找與郵件集合E中的 郵件e最相似的K個郵件組成集合Esub={ee2,…,eK},并計算每個收件人的得分1^作 為其文本特征;若收件人A曾經(jīng)發(fā)送或接收過ep則&獲得值為sim(ei,e)的得分;其中 sim(ej,e)為ej和e的相似度,采用BM25算法計算得到;ti的值越小,則新郵件為誤發(fā)郵件 的可能性越大。
【主權(quán)項】
1. 一種基于多屬性的誤發(fā)郵件檢測方法,包括w下步驟: 1) 從標(biāo)記的多個郵件中提取內(nèi)容特征屬性、社會關(guān)系屬性及通信行為屬性; 2) 根據(jù)所述內(nèi)容特征屬性、社會關(guān)系屬性及通信行為屬性建立基于SVM分類模型; 3) 提取一新郵件的內(nèi)容屬性、社會關(guān)系屬性及通信行為屬性,并用所述基于SVM分類 模型進(jìn)行檢測,判斷所述新郵件是否為誤發(fā)郵件。
2. 根據(jù)權(quán)利要求1所述的基于多屬性的誤發(fā)郵件檢測方法,其特征在于,提取所述內(nèi) 容特征屬性包括,在一郵件集合E中,查找與郵件集合E中的一郵件e最相似的K個郵件組 成集合氏ub=ie1,e,,…,ej,并計算每個收件人的得分ti作為其文本特征;若收件人ri曾 經(jīng)發(fā)送或接收過6j,則r;獲得值為sim(e。e)的得分;其中sim(ej,e)為6j和e的相似度, 采用BM25算法計算得到。
3. 根據(jù)權(quán)利要求2所述的基于多屬性的誤發(fā)郵件檢測方法,其特征在于,所述 sim(ej,e)的計算公式為
其中Qi為Sj中的關(guān)鍵 詞,f(qi,e)為關(guān)鍵詞Qi在郵件e中的頻率,|e|是e中的詞的數(shù)量,avgdl是所有郵件平均 詞數(shù)量,ki和b是參數(shù),取值為kiG[1.2,2.0],b= 0. 75,n為ej中的詞數(shù)量,IDFhi)是 關(guān)鍵詞Qi的倒排文檔頻率權(quán)重。
4. 根據(jù)權(quán)利要求3所述的基于多屬性的誤發(fā)郵件檢測方法,其特征在于,所述IDF(q1) 的計算公式為:
其中N為集合中郵件總數(shù),nhi)是包含關(guān)鍵詞di的 郵件數(shù)量。
5. 根據(jù)權(quán)利要求4所述的基于多屬性的誤發(fā)郵件檢測方法,其特征在于,所述ti的計 算公式為
妻中,isReckj,ui)為指示函數(shù),如果郵件6j是Ui 接收或發(fā)送的郵件,返回1,否則返回0。
6. 根據(jù)權(quán)利要求1所述的基于多屬性的誤發(fā)郵件檢測方法,其特征在于,所述社會關(guān) 系屬性包括,發(fā)件人U。的發(fā)送率r,、收件人Ui的接收率rt、最近t時間內(nèi)U。向Ui發(fā)送郵件 數(shù)和Ui接收的郵件數(shù)mail_count(U。, t)、mail_count相,U。,t)、U。和Ui的關(guān)系距離。
7. 根據(jù)權(quán)利要求1所述的基于多屬性的誤發(fā)郵件檢測方法,其特征在于,所述通信 行為屬性包括,發(fā)送時間比例time_rate、發(fā)送日期比例date_rate、附件比例attached_ rate、會話狀態(tài)比例state_rate、發(fā)送類型比例send_rate、單發(fā)與群發(fā)比例bidk_rate、郵 件大小差異size_rate。
8. 根據(jù)權(quán)利要求1所述的基于多屬性的誤發(fā)郵件檢測方法,其特征在于,所述建立基 于SVM分類模型包括采用基于RBF核的SVM算法建立分類模型。
9. 根據(jù)權(quán)利要求1所述的基于多屬性的誤發(fā)郵件檢測方法,其特征在于,用所述基于 SVM分類模型進(jìn)行檢測,判斷所述新郵件是否為誤發(fā)郵件包括;基于SVM分類模型對當(dāng)前郵 件進(jìn)行分類,若分到誤發(fā)郵件一類,則認(rèn)為是誤發(fā)郵件。
【專利摘要】本發(fā)明提出了一種基于多屬性的誤發(fā)郵件檢測方法,包括以下步驟:從標(biāo)記的多個郵件中提取內(nèi)容特征屬性、社會關(guān)系屬性及通信行為屬性;根據(jù)所述內(nèi)容特征屬性、社會關(guān)系屬性及通信行為屬性建立基于SVM分類模型;提取新郵件的內(nèi)容屬性、社會關(guān)系屬性及通信行為屬性,并用所述基于SVM分類模型進(jìn)行檢測,判斷所述新郵件是否為誤發(fā)郵件。本發(fā)明從內(nèi)容特征、社會關(guān)系和通信行為等多種屬性對用戶的通信行為偏差建立通用檢測模型,具有實施簡單、準(zhǔn)確率較高等優(yōu)點。
【IPC分類】G06F17-30, G06Q10-10
【公開號】CN104794176
【申請?zhí)枴緾N201510154872
【發(fā)明人】蒲以國, 陳小軍, 時金橋, 郭莉, 柳廳文, 文新, 徐睿
【申請人】中國科學(xué)院信息工程研究所
【公開日】2015年7月22日
【申請日】2015年4月2日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
陇川县| 中江县| 宁陵县| 大渡口区| 绥滨县| 江城| 茌平县| 遵义县| 论坛| 竹溪县| 肃宁县| 温州市| 洛浦县| 深泽县| 惠来县| 汾阳市| 高碑店市| 宁德市| 西畴县| 金门县| 乌审旗| 高雄市| 兴城市| 通海县| 张家界市| 罗定市| 台前县| 尚志市| 丹江口市| 绥芬河市| 佳木斯市| 封开县| 新密市| 疏勒县| 兴业县| 延长县| 来安县| 云安县| 定兴县| 岳池县| 桂东县|