两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于興趣認(rèn)知的垃圾郵件識別方法及其系統(tǒng)的制作方法

文檔序號:6561468閱讀:253來源:國知局
專利名稱:一種基于興趣認(rèn)知的垃圾郵件識別方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)信息處理領(lǐng)域,具體說是一種在個(gè)人計(jì)算機(jī)中用于識別和過濾垃圾郵件的方法及其系統(tǒng)。本技術(shù)用于個(gè)人計(jì)算機(jī)中對垃圾郵件識別和進(jìn)行相應(yīng)處理。
背景技術(shù)
近年來垃圾郵件激增,不但占用網(wǎng)絡(luò)資源,影響郵件系統(tǒng)的正常運(yùn)行,也大大浪費(fèi)郵件用戶的資源和時(shí)間。當(dāng)前,對垃圾郵件的過濾技術(shù)主要有行為過濾(白名單和黑名單過濾)、規(guī)則過濾以及內(nèi)容過濾。其中,白名單和黑名單過濾技術(shù)簡單易行,但是需要實(shí)時(shí)更新白名單和黑名單,而且很難保證只有有限、固定的幾個(gè)用戶在發(fā)送垃圾郵件?;谝?guī)則的過濾方法,即設(shè)置一些規(guī)則,只要符合這些規(guī)則的一條或幾條,就認(rèn)為是垃圾郵件;這些規(guī)則通常有信頭分析、群發(fā)過濾、關(guān)鍵字匹配、郵件內(nèi)容的其他特征等;采用基于規(guī)則的過濾技術(shù),確實(shí)能夠在一定時(shí)間內(nèi)很好地防范了垃圾郵件,但其不足之處在于規(guī)則都是人工指定的,需要人們不斷去發(fā)現(xiàn)和總結(jié)、更新,人為因素比較多,一些沒有經(jīng)驗(yàn)的用戶可能很難提供有效的規(guī)則;而且,手工制定規(guī)則比較耗時(shí),準(zhǔn)確率也受到了限制。內(nèi)容過濾主要是文本分類,所謂文本分類,就是通過一定的算法,對輸入文本進(jìn)行分析,并根據(jù)結(jié)果將文本劃分為正常郵件或者是垃圾郵件。在文本分類中,較多采用關(guān)鍵詞過濾,即文件中包含有某些關(guān)鍵詞,即認(rèn)為該文件是垃圾郵件或者是正常郵件。更加先進(jìn)的技術(shù)也開始用于反垃圾郵件。
申請?zhí)枮?00410009854的中國發(fā)明專利申請公開了一種“垃圾郵件過濾的方法和系統(tǒng)”,這種技術(shù)將原始郵件庫中的垃圾郵件和合法郵件分別表示為通用后綴樹(GST)結(jié)構(gòu)。對于新到達(dá)的郵件,通過每個(gè)文本位置的不定長統(tǒng)計(jì),自動(dòng)獲得其在垃圾郵件集和合法郵件集中的出現(xiàn)頻率,計(jì)算其與垃圾郵件集和合法郵件集的近似度,最終確定新到達(dá)郵件是垃圾郵件或者是正常郵件的屬性。
申請?zhí)枮?00410018327的中國發(fā)明專利申請公開了“一種自適應(yīng)、安全過濾垃圾郵件的方法”,這種方法建立中央和本地兩個(gè)規(guī)則庫;其中,中央規(guī)則庫在服務(wù)器上自動(dòng)形成,本地規(guī)則庫在用戶PC機(jī)上自動(dòng)形成。在用戶PC機(jī)上利用郵件處理系統(tǒng)根據(jù)中央規(guī)則庫和本地規(guī)則庫計(jì)算所接收的郵件分值,判斷接收的郵件是否為垃圾郵件。中央規(guī)則庫和本地規(guī)則庫自動(dòng)學(xué)習(xí)更新,即在服務(wù)器上中央規(guī)則庫自動(dòng)更新,在用戶PC機(jī)上本地規(guī)則庫自動(dòng)更新,用戶PC機(jī)自動(dòng)定期獲得最新的中央規(guī)則庫。對用戶所接受的郵件內(nèi)容經(jīng)過智能分析,自動(dòng)將合法郵件保留在收件箱,將垃圾郵件存放隔離區(qū),在提高垃圾郵件識別率的同時(shí)降低合法郵件的誤判率,從而使用戶節(jié)省時(shí)間和精力。
申請?zhí)枮?00510114440的中國發(fā)明專利申請公開了“一種過濾垃圾郵件的方法”,先用DNA模式識別模塊對輸入的正常郵件和垃圾郵件集合進(jìn)行模式識別,存入DNA模式庫;再利用特征模式分詞模塊對郵件進(jìn)行檢測,檢測流程依次為對經(jīng)過一定算法編碼的被檢郵件正文進(jìn)行解碼,識別其所包含的模式;對被檢郵件進(jìn)行DNA輔助分詞,根據(jù)DNA模式庫識別郵件正文及標(biāo)題中所包含的特征模式,并將其標(biāo)識出來;將經(jīng)過上述處理的郵件正文及標(biāo)題重新組裝成滿足特定要求的郵件,送至貝葉斯檢測系統(tǒng);由貝葉斯檢測系統(tǒng)將經(jīng)過上述處理的郵件進(jìn)行識別,將不符合分類條件的郵件攔截下來。
本申請人認(rèn)為垃圾郵件是一種對接收者無用的郵件或者是接收者不感興趣的郵件,但同樣的一封郵件,對于不同的接收者可能具有不同的屬性,一些接收者認(rèn)為是有用的正常郵件,而另外一些接收者認(rèn)為是垃圾郵件。遺憾的是截止目前的反垃圾郵件技術(shù),包括上述提及的專利申請技術(shù)方案,都沒有對接收者的工作和生活興趣進(jìn)行識別,不能形成一種基于興趣認(rèn)知的智能化垃圾郵件處理技術(shù)。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)和不足,提供一種基于興趣認(rèn)知的垃圾郵件識別方法;本方法從認(rèn)知機(jī)理出發(fā),通過對客戶發(fā)送的郵件和對接收郵件的處理來認(rèn)知客戶的工作和生活興趣,并根據(jù)該客戶的上述工作和生活興趣來過濾掉垃圾郵件,保存正常郵件。也可以和具它反垃圾郵件結(jié)合使用,在這種情況下,本方法輸出一個(gè)代表郵件屬性的指紋,以便系統(tǒng)決策判斷作為依據(jù)。
本發(fā)明的另一目的在于提供一種實(shí)現(xiàn)上述方法的基于興趣認(rèn)知的垃圾郵件識別系統(tǒng)。
本發(fā)明的目的通過下技術(shù)方案實(shí)現(xiàn)一種基于興趣認(rèn)知的垃圾郵件識別方法,包括下述步驟——1.個(gè)人興趣認(rèn)知知識庫的建立和維護(hù)1.1通過最大限度地收集客戶往來的郵件,包括客戶發(fā)送出去的郵件和接收的郵件中已經(jīng)被其它過濾系統(tǒng)定性為垃圾郵件的郵件,以便認(rèn)知客戶的生活和工作興趣。本發(fā)明首先將客戶發(fā)送和接收的郵件的郵件主題、郵件內(nèi)容采用自然語言理解的人工智能技術(shù)——分詞技術(shù)分解為單詞(中文分詞)。
1.2以由1.1得到的單詞為索引建立、更新和擴(kuò)充知識庫,對沒有的單詞進(jìn)行添加并按1.3登記屬性概率;對知識庫中已經(jīng)有的單詞只是考慮新的事件重新計(jì)算并刷新其屬性概率,實(shí)現(xiàn)知識庫的積累和更新。在開始使用本發(fā)明時(shí),知識庫中的內(nèi)容為零,通過對用戶郵件的收集,在用戶的指導(dǎo)下,建立知識庫。并隨著用戶郵件的增加而逐步積累和更新知識。
1.3知識庫中的屬性概率按照如下規(guī)律確定并刷新對發(fā)送出去的郵件中所有的單詞,均記為出現(xiàn)在正常郵件中的樣本;對接收郵件中的單詞,在訓(xùn)練期內(nèi),按照客戶確定的屬性記錄樣本數(shù),在訓(xùn)練期完成以后,按照系統(tǒng)決策的屬性記入樣本數(shù)。
1.4對知識庫單詞出現(xiàn)的總樣本數(shù)設(shè)定有閾值,以便對該單詞的屬性成熟度進(jìn)行標(biāo)識。僅當(dāng)各個(gè)分詞的總樣本數(shù)高于這個(gè)閾值時(shí),才容許結(jié)束訓(xùn)練期。
2.郵件屬性概率計(jì)算和郵件屬性評價(jià)2.1按照1.1中得出的單詞總數(shù)和1.2及1.3中得出的屬性概率分別計(jì)算各單詞在待評價(jià)郵件中出現(xiàn)的條件概率。
2.2利用2.1的結(jié)果利用貝葉斯分類公式計(jì)算郵件的屬性概率。
2.3根據(jù)給定的閾值進(jìn)行屬性評價(jià)。
2.4在訓(xùn)練期內(nèi),將評價(jià)決策結(jié)果與客戶的決策結(jié)果進(jìn)行比較并修改決策閾值。僅當(dāng)決策結(jié)果與客戶決策結(jié)果達(dá)到接近時(shí),才能結(jié)束訓(xùn)練期。
3.結(jié)果輸出3.1在本發(fā)明單獨(dú)使用時(shí),在訓(xùn)練期內(nèi)顯示評價(jià)的郵件屬性指紋(屬性概率)。在訓(xùn)練期結(jié)束后將垃圾郵件放入隔離區(qū)。
3.2在本發(fā)明與其它反垃圾郵件技術(shù)聯(lián)合使用時(shí),向指定接口輸出郵件屬性指紋(屬性概率)。
步驟1.1中,將所述客戶發(fā)送的郵件作為正常郵件且具有最高的權(quán)重;由于客戶發(fā)送的郵件在一定程度上反映了該客戶的工作和社會(huì)生活興趣,所以本技術(shù)將客戶的個(gè)人興趣(語言特征分詞)進(jìn)行分析并建立相應(yīng)的指紋庫,同一分詞的再次出現(xiàn)或多次出現(xiàn)將對該分詞的指紋進(jìn)行修正。
步驟1.1中,所述客戶接收的郵件包括兩類,一種是感興趣的正常郵件,一種是不感興趣的垃圾郵件。本發(fā)明采用有導(dǎo)師的訓(xùn)練學(xué)習(xí),在訓(xùn)練期內(nèi),所述客戶接收的郵件將要求用戶給予定性,訓(xùn)練期結(jié)束后,將由系統(tǒng)自動(dòng)進(jìn)行計(jì)算和評價(jià)來予以定性。被定性郵件的單詞對將作為事件去重新計(jì)算該單詞的屬性概率。
步驟1.1中,所述分解為單詞的步驟是將客戶發(fā)送和接收的郵件的郵件主題、郵件內(nèi)容關(guān)鍵字的詞組、短語、句子、文段中的詞分開。將中文詞組、短語、句子、文段中的詞分開技術(shù)稱為中文分詞技術(shù)。
步驟1.2中,所述知識積累和更新包括兩個(gè)方面(A)詞的添加;當(dāng)新的郵件進(jìn)入時(shí),系統(tǒng)迅速按新郵件的詞對詞庫進(jìn)行檢索,當(dāng)詞庫中沒有檢索的詞時(shí),就將該詞及其概率添加到知識庫中。(B)詞的屬性概率更新;當(dāng)新的郵件進(jìn)入時(shí),系統(tǒng)迅速按新郵件的詞對詞庫進(jìn)行檢索,當(dāng)詞庫中已有檢索的詞時(shí),就先前的概率調(diào)出,結(jié)合本次事件重新計(jì)算概率并按此刷新庫中該詞的概率。無論是哪種郵件(發(fā)送的郵件、接收的正常郵件和垃圾郵件)輸入,在分詞的過程中都要對庫中的詞進(jìn)行檢索,對特征庫中沒有的詞,添加到庫中;對庫中已有的分詞,將根據(jù)郵件的性質(zhì)對該分詞的概率進(jìn)行重新計(jì)算并進(jìn)行庫維護(hù)。
步驟1.3中所述訓(xùn)練期,是從用戶開始使用本發(fā)明的時(shí)刻開始的,所謂訓(xùn)練期的結(jié)束,有兩個(gè)標(biāo)志一是一封郵件中的所有單詞,出現(xiàn)次數(shù)(總樣本數(shù))最少的單詞的總次數(shù)大于某一預(yù)先設(shè)定的閾值;二是系統(tǒng)評價(jià)與訓(xùn)練期人為評價(jià)結(jié)果近似度超過另一預(yù)先設(shè)定的閾值。當(dāng)一封郵件滿足上述兩個(gè)條件時(shí),系統(tǒng)將不提示客戶自動(dòng)進(jìn)行定性。當(dāng)用戶有新的社會(huì)生活愛好或者是工作變換是,郵件中出現(xiàn)的單詞不能滿足上述條件,系統(tǒng)自動(dòng)進(jìn)入訓(xùn)練期一種實(shí)現(xiàn)上述方法的基于興趣認(rèn)知的垃圾郵件識別系統(tǒng),包括分詞部件、垃圾郵件概率計(jì)算部件、知識庫部件、分類評價(jià)部件、屬性評價(jià)輸出部件,所述分詞部件同時(shí)與垃圾郵件概率計(jì)算部件及分類評價(jià)部件相連接,垃圾郵件概率計(jì)算部件與分類評價(jià)部件相互連接,兩者同時(shí)與知識庫部件連接,所述屬性評價(jià)輸出部件與分類評價(jià)部件相連接。
本發(fā)明的出發(fā)點(diǎn)是本發(fā)明認(rèn)為垃圾郵件是因人而異的。例如,對于一個(gè)關(guān)于人力資源培訓(xùn)的廣告性宣傳郵件對于從事人力資源管理的人是合法郵件,他們可以從中獲得相應(yīng)的信息和知識,而對于技術(shù)人員、財(cái)務(wù)人員和其它人員則是無用的垃圾郵件。同樣,股票知識和信息的郵件對于股民是有用信息,是合法郵件;而對于非股民和對股市沒有興趣的人就是垃圾郵件。因此,判斷一封郵件是否是垃圾郵件,就應(yīng)該對客戶的工作和生活興趣進(jìn)行認(rèn)知。電子郵件中的郵件主題、郵件內(nèi)容都是由詞來表達(dá)的,本發(fā)明采用中文分詞技術(shù)將郵件的主題、內(nèi)容部分的關(guān)鍵字分開成單詞,那么這些單詞將反映客戶的工作和生活的興趣特征,如果某些詞在客戶發(fā)出和接收的正常郵件中出現(xiàn)的頻率高,而在客戶定性的垃圾郵件中出現(xiàn)的頻率低,若在該客戶再次接收的郵件中出現(xiàn)這個(gè)或這些詞,則表明該郵件是合法郵件的可能性較大。因而,本發(fā)明的應(yīng)用的程度取決于對個(gè)人興趣認(rèn)知的程度,而本發(fā)明采用與人的認(rèn)知相同的機(jī)理來積累知識庫,當(dāng)采用本發(fā)明后,知識庫里的知識像嬰兒一樣開始積累,并逐漸累積成可有效評價(jià)郵件并形成郵件指紋的詞庫,利用所述郵件指紋能夠描述郵件的性質(zhì)(垃圾郵件或正常郵件)。
本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果(1)本發(fā)明最大的優(yōu)點(diǎn)是切合客戶的實(shí)際,對郵件使用客戶的個(gè)人生活和工作興趣進(jìn)行智能認(rèn)知,本發(fā)明不要求一定采用垃圾郵件語料庫(也可以采用作為初始的單詞屬性),而是由個(gè)人進(jìn)行訓(xùn)練形成知識庫,因此人性化特點(diǎn)突出。從效果上講,就能有效地過濾垃圾郵件和有效地保存合法郵件。
(2)本發(fā)明的個(gè)人生活和工作興趣知識庫,采用適時(shí)的學(xué)習(xí)和刷新方法,對客戶接受和發(fā)送的每一封郵件都作為學(xué)習(xí)的過程,對上述每一封郵件所包含的單詞的出現(xiàn),都作為事件予以統(tǒng)計(jì)。因此知識庫是一個(gè)連續(xù)學(xué)習(xí)和刷新的知識庫,這將使得垃圾郵件的過濾效果在不斷提高的基礎(chǔ)上持續(xù)保持。
(3)本發(fā)明對知識庫采用有導(dǎo)師的機(jī)器學(xué)習(xí),在開始使用本發(fā)明時(shí),用戶就象沒有使用本發(fā)明一樣進(jìn)行操作,不同的是對每一封接受的郵件,系統(tǒng)都將向用戶提問其屬性,接受用戶導(dǎo)師的指導(dǎo)。當(dāng)對一封接收的郵件已經(jīng)達(dá)到結(jié)束訓(xùn)練期的要求時(shí),系統(tǒng)會(huì)自動(dòng)過濾掉評價(jià)為垃圾郵件的郵件,對合法的郵件予以保存,但不在向用戶提問。在本發(fā)明過濾器已經(jīng)評價(jià)為合法而獲得通過的郵件,用戶認(rèn)為是過濾漏掉的垃圾郵件,則可以在刪除時(shí)注明,系統(tǒng)會(huì)自動(dòng)接受指導(dǎo)改變知識庫中的事件屬性。這種方式更加貼近客戶,保證了過濾的效果。
(4)本發(fā)明對于訓(xùn)練期和工作期的界線是誠實(shí)和智能的,系統(tǒng)不是截然分為訓(xùn)練期和工作期,而是誠實(shí)地知之為知之,不知為不知。當(dāng)一封郵件的內(nèi)容,系統(tǒng)知識庫有足夠的知識予以評價(jià)和決策時(shí),系統(tǒng)就決策和處理;當(dāng)一封郵件的內(nèi)容,系統(tǒng)知識庫沒有足夠的知識予以評價(jià)和決策時(shí),系統(tǒng)就通過向用戶提問來進(jìn)行學(xué)習(xí)。其突出的優(yōu)點(diǎn)在于,更加細(xì)致地保證了過濾效果。同時(shí)當(dāng)客戶的生活和工作興趣變化時(shí),能夠與客戶一道適應(yīng)新的環(huán)境。即便在客戶的生活和工作興趣變化時(shí),也能保證反映客戶興趣的過濾效果。
(5)本發(fā)明是基于郵件內(nèi)容的過濾方法,且在其中又屬于基于統(tǒng)計(jì)的過濾方法,但本發(fā)明不排斥其它的方法,可以與其它的過濾方法結(jié)合使用。例如,利用黑名單和白名單等規(guī)則的方法過濾后,本發(fā)明再對通過上述過濾的郵件進(jìn)行內(nèi)容過濾,在原有的基礎(chǔ)上大大提高了過濾的效果。


圖1是本發(fā)明方框流程圖。
具體實(shí)施例方式
下面結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
實(shí)施例圖1示出了本發(fā)明系統(tǒng)的結(jié)構(gòu),由圖1可見,本基于個(gè)人興趣認(rèn)知的垃圾郵件識別系統(tǒng)包括分詞部件(4)、垃圾郵件概率計(jì)算部件(5)、知識庫(6)、分類評價(jià)部件(7)、屬性評價(jià)輸出部件(8),所述分詞部件同時(shí)與垃圾郵件概率計(jì)算部件及分類評價(jià)部件相連接,垃圾郵件概率計(jì)算部件與分類評價(jià)部件相互連接,兩者同時(shí)與知識庫連接,所述屬性評價(jià)輸出部件與分類評價(jià)部件相連接。
本系統(tǒng)實(shí)現(xiàn)的基于興趣認(rèn)知的垃圾郵件識別方法的實(shí)施過程具體如下1、郵件采集本發(fā)明將客戶通過客戶郵箱發(fā)送和接收的郵件全部采樣,用作認(rèn)知和積累客戶的生活和工作興趣知識。顯然,客戶發(fā)出的的郵件對該客戶來說是合法郵件,如果對事件要加權(quán),則客戶發(fā)送的郵件具有最高的權(quán)重。如果客戶已經(jīng)使用了其它垃圾郵件過濾器,則接收的郵件也將分成兩種已經(jīng)定性為垃圾郵件的郵件和待定性的郵件。圖1中部件1接收已經(jīng)定性為垃圾郵件的這類郵件,如果客戶沒有使用其它垃圾郵件過濾器,則系統(tǒng)中就沒有部件1。部件2接收未被其它垃圾郵件過濾器過濾掉的郵件,或者說是其它過濾器通過的正常郵件。如果客戶沒有使用其它垃圾郵件過濾器,則部件2要接收全部接收的郵件。部件3是接收客戶發(fā)送的郵件。上述三個(gè)部件接收上述三種來源的郵件后,都將收到的郵件送到分詞部件4。上述三種郵件接收采用相應(yīng)的復(fù)制技術(shù)。
2、知識庫的建立和維護(hù)本發(fā)明將利用認(rèn)知機(jī)理建立符合客戶工作和生活興趣的知識庫,客戶的上述興趣將反映在其發(fā)送和接收的郵件中,而反映郵件內(nèi)容的是組成郵件頭和郵件體的句子、短語的詞在合法郵件和在垃圾郵件中出現(xiàn)的頻率。本發(fā)明首先將上述接收和發(fā)送的郵件經(jīng)過分詞處理而成為單詞,然后統(tǒng)計(jì)這些詞分別出現(xiàn)在垃圾郵件和合法郵件中出現(xiàn)的頻率,形成該詞的屬性概率。在運(yùn)行過程中,上述知識庫隨著郵件的增加不斷學(xué)習(xí)和更新。
部件4是分詞部件,其功能是將由部件1、部件2和部件3送來的郵件的郵件主題、郵件內(nèi)容的詞組、短語、句子、文段中的詞分開成為單詞。然后將上述郵件的單詞一一送入部件5進(jìn)行處理。
部件5是單詞屬性計(jì)算部件,它主要根據(jù)部件4提供的單詞的屬性概率進(jìn)行計(jì)算并對知識庫進(jìn)行維護(hù)。具體的維護(hù)操作包括(A)詞的添加;系統(tǒng)按分詞處理得到的單詞對知識庫6進(jìn)行檢索,當(dāng)詞庫中沒有檢索的詞時(shí),就將該詞及其概率添加到知識庫6中。(B)單詞屬性概率的更新;當(dāng)知識庫6中已有被檢索的詞時(shí),就將先前的概率調(diào)出,結(jié)合本次事件重新計(jì)算概率并按此刷新庫中該詞的概率。要建立或是維護(hù)知識庫中的概率時(shí),對發(fā)送郵件中出現(xiàn)的單詞,當(dāng)前事件的屬性為合法,對已經(jīng)由其它過濾器定性的垃圾郵件,當(dāng)前事件的屬性為非法,對于接收的未定性郵件的屬性,將根據(jù)決策部件7的評價(jià)決策結(jié)果進(jìn)行事件的定性。因此,部件5的輸入來自部件4、6和7。輸出到部件6。
部件5在計(jì)算每一個(gè)單詞的概率的同時(shí),還對該詞出現(xiàn)的總次數(shù)進(jìn)行標(biāo)識,該標(biāo)識能夠表明該詞出現(xiàn)的總次數(shù)是否達(dá)到預(yù)先設(shè)定的結(jié)束訓(xùn)練期的次數(shù)并存入單詞屬性知識庫6。
部件6是單詞屬性知識庫,其功能是存儲(chǔ)基于個(gè)人興趣的知識。實(shí)際上就是存儲(chǔ)單詞及其屬性概率。部件6接受部件5和部件7的查詢,也接受部件5的信息寫入。
3、分類評價(jià)決策本發(fā)明利用分類評價(jià)部件7對郵件的內(nèi)容的屬性進(jìn)行計(jì)算和屬性決策。分類評價(jià)部件7的功能是對郵件進(jìn)行分類決策。具體操作流程為對接收的郵件(來自部件1和部件2),經(jīng)分詞部件4分成單詞后,進(jìn)入分類評價(jià)部件7,分類評價(jià)部件7首先從知識庫中調(diào)出各個(gè)單詞詞的屬性概率,然后按照統(tǒng)計(jì)決策方法貝葉斯(Bayes)等分類方法(也可以是如KNN、SVM、Winnow、Rocchio、)計(jì)算郵件的屬性。屬性是以概率的形式來表示的,部件7中有一個(gè)預(yù)先設(shè)定的評價(jià)標(biāo)準(zhǔn),當(dāng)計(jì)算的概率達(dá)到該評價(jià)標(biāo)準(zhǔn)時(shí)決策為合法郵件,否則為垃圾郵件。因此,部件7接收部件4送來的單詞和從知識庫部件6提取單詞的屬性概率。部件7的評價(jià)結(jié)果分別送到部件5和部件8,部件5根據(jù)部件7的評價(jià)結(jié)果重新計(jì)算單詞的屬性概率并刷新知識庫。部件8將分類評價(jià)結(jié)果以適當(dāng)?shù)男问捷敵觥?br> 4、分類評價(jià)輸出分類評價(jià)輸出由評價(jià)輸出部件8實(shí)現(xiàn)。評價(jià)輸出部件8的功能是將分類評價(jià)部件7的決策結(jié)果以適當(dāng)?shù)男问捷敵觥?br> 對于已被過濾掉的郵件的評價(jià)是復(fù)核,要根據(jù)一定的權(quán)重考慮過濾結(jié)果,只有當(dāng)本次決策計(jì)算屬于正常郵件的概率達(dá)到較高的程度(概率閾值預(yù)先設(shè)定)時(shí)才給予提示,否則不作實(shí)質(zhì)性輸出。
對接收郵件中尚未定性郵件的輸出處理是部件8的主要功能。從系統(tǒng)構(gòu)成方面,本發(fā)明可以分為單獨(dú)使用和與其它過濾方法集成使用。單獨(dú)使用或者與其它過濾器以串行方式使用時(shí)輸出為決策結(jié)果,即是合法郵件或者垃圾郵件。所述與其它過濾器串行方式使用中的過濾器是指在郵件進(jìn)入本發(fā)明的過濾器之前的過濾器或本過濾器過濾之后再進(jìn)入的過濾器。集成使用方式是指多種過濾方法分別進(jìn)行計(jì)算,集成過濾器根據(jù)各種方法計(jì)算結(jié)果再按一定規(guī)則綜合進(jìn)行屬性決策評價(jià)的使用方式。在集成使用方式中,本發(fā)明過濾器輸出的是屬性概率或?qū)傩灾讣y。
從本發(fā)明過濾器的工作狀態(tài)看,本發(fā)明過濾器可以分為訓(xùn)練期和工作期兩種狀態(tài)。進(jìn)入工作期有兩個(gè)條件,一是一封郵件中所有單詞出現(xiàn)的總次數(shù)將超過預(yù)先設(shè)定的最少次數(shù)即從知識庫中檢索的概率中有沒有總樣本數(shù)尚未達(dá)到預(yù)先設(shè)定的最少次數(shù)的概率,二是本發(fā)明過濾器的評價(jià)結(jié)果與客戶評價(jià)結(jié)果已經(jīng)達(dá)到預(yù)先設(shè)定的近似度。本部件在每一次從部件4接收郵件單詞時(shí)都對這兩個(gè)標(biāo)志進(jìn)行檢測。
在訓(xùn)練期,本部件的功能是向客戶提問并記錄并將客戶決策與部件7的決策進(jìn)行比較,確定是否進(jìn)入工作期的第二個(gè)標(biāo)志。按照客戶的選擇輸出。單獨(dú)使用本發(fā)明過濾器時(shí)刪除或隔離垃圾郵件,保存合法郵件。在集成使用時(shí)輸出最高權(quán)重的指紋分?jǐn)?shù)。
在工作期,本部件的功能是不再向客戶提問,直接輸出部件7的決策結(jié)果。單獨(dú)使用本發(fā)明過濾器時(shí)刪除或隔離垃圾郵件,保存合法郵件。在集成使用時(shí)輸出部件7所計(jì)算的指紋分?jǐn)?shù)。
權(quán)利要求
1.一種基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于包括下述步驟1.個(gè)人興趣認(rèn)知知識庫的建立和維護(hù)1.1通過最大限度地收集客戶往來的郵件,認(rèn)知客戶的生活和工作興趣;將客戶郵件的郵件主題、郵件內(nèi)容分解為單詞;1.2以由1.1得到的單詞為索引建立、更新和擴(kuò)充知識庫,對沒有的單詞進(jìn)行添加并按1.3登記屬性概率;對知識庫中已經(jīng)有的單詞只是考慮新的事件重新計(jì)算并刷新其屬性概率,實(shí)現(xiàn)知識庫的積累和更新;1.3知識庫中的屬性概率按照如下規(guī)律確定并刷新對發(fā)送出去的郵件中所有的單詞,均記為出現(xiàn)在正常郵件中的樣本;對接收郵件中的單詞,在訓(xùn)練期內(nèi),按照客戶確定的屬性記錄樣本數(shù),在訓(xùn)練期完成以后,按照系統(tǒng)決策的屬性記入樣本數(shù);1.4對知識庫單詞出現(xiàn)的總樣本數(shù)設(shè)定有閾值,僅當(dāng)各個(gè)分詞的總樣本數(shù)高于這個(gè)閾值時(shí),才容許結(jié)束訓(xùn)練期;2.概率計(jì)算和郵件屬性評價(jià)2.1按照1.1中得出的單詞總數(shù)和1.2及1.3中得出的屬性概率分別計(jì)算各單詞在待評價(jià)郵件中出現(xiàn)的條件概率;2.2利用2.1的結(jié)果利用貝葉斯分類公式計(jì)算郵件的屬性概率;2.3根據(jù)給定的閾值進(jìn)行屬性評價(jià);2.4在訓(xùn)練期內(nèi),將評價(jià)決策結(jié)果與客戶的決策結(jié)果進(jìn)行比較并修改決策閾值,僅當(dāng)決策結(jié)果與客戶決策結(jié)果達(dá)到接近時(shí),才能結(jié)束訓(xùn)練期;3.結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于所述步驟1.1中,客戶往來的郵件包括客戶發(fā)送出去的郵件和接收的郵件中已經(jīng)被其它過濾系統(tǒng)定性為垃圾郵件的郵件,將客戶發(fā)送的郵件作為正常郵件且具有最高的權(quán)重;對客戶的個(gè)人興趣進(jìn)行分析并建立相應(yīng)的指紋庫,同一分詞的再次出現(xiàn)或多次出現(xiàn)將對該分詞的指紋進(jìn)行修正。
3.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于步驟1.1中,客戶接收的郵件包括兩類,一種是感興趣的正常郵件,一種是不感興趣的垃圾郵件;采用有導(dǎo)師的訓(xùn)練學(xué)習(xí)對接收的郵件進(jìn)行處理,在訓(xùn)練期內(nèi),所述客戶接收的郵件將要求用戶給予定性,訓(xùn)練期結(jié)束后,由系統(tǒng)自動(dòng)進(jìn)行計(jì)算和評價(jià)來予以定性;被定性郵件的單詞對將作為事件去重新計(jì)算該單詞的屬性概率。
4.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于步驟1.1中,所述分解為單詞的步驟是將客戶發(fā)送和接收的郵件的郵件主題、郵件內(nèi)容關(guān)鍵字的詞組、短語、句子、文段中的詞分開。
5.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于步驟1.2中,所述知識庫的積累和更新包括兩個(gè)方面(A)詞的添加;當(dāng)新的郵件進(jìn)入時(shí),系統(tǒng)迅速按新郵件的詞對詞庫進(jìn)行檢索,當(dāng)詞庫中沒有檢索的詞時(shí),就將該詞及其概率添加到知識庫中;(B)詞的屬性概率更新;當(dāng)新的郵件進(jìn)入時(shí),系統(tǒng)迅速按新郵件的詞對詞庫進(jìn)行檢索,當(dāng)詞庫中已有檢索的詞時(shí),就先前的概率調(diào)出,結(jié)合本次事件重新計(jì)算概率并按此刷新庫中該詞的概率。
6.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于步驟1.3中所述訓(xùn)練期,是從用戶開始使用本發(fā)明的時(shí)刻開始的,所謂訓(xùn)練期的結(jié)束,有兩個(gè)標(biāo)志一是一封郵件中的所有單詞,出現(xiàn)次數(shù)最少的單詞的總次數(shù)大于某一預(yù)先設(shè)定的閾值;二是系統(tǒng)評價(jià)與訓(xùn)練期人為評價(jià)結(jié)果近似度超過另一預(yù)先設(shè)定的閾值;當(dāng)一封郵件滿足上述兩個(gè)條件時(shí),系統(tǒng)將不提示客戶自動(dòng)進(jìn)行定性;當(dāng)用戶有新的社會(huì)生活愛好或者是工作變換是,郵件中出現(xiàn)的單詞不能滿足上述條件,系統(tǒng)自動(dòng)進(jìn)入訓(xùn)練期。
7.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于步驟3.結(jié)果輸出包括下述步驟3.1在本發(fā)明單獨(dú)使用時(shí),在訓(xùn)練期內(nèi)顯示評價(jià)的郵件屬性指紋;在訓(xùn)練期結(jié)束后將垃圾郵件放入隔離區(qū);3.2在本發(fā)明與其它反垃圾郵件技術(shù)聯(lián)合使用時(shí),向指定接口輸出郵件屬性指紋。
8.一種實(shí)現(xiàn)權(quán)利要求1~7任一項(xiàng)所述方法的基于興趣認(rèn)知的垃圾郵件識別系統(tǒng),其特征在于包括分詞部件、垃圾郵件概率計(jì)算部件、知識庫部件、分類評價(jià)部件、屬性評價(jià)輸出部件,所述分詞部件同時(shí)與垃圾郵件概率計(jì)算部件及分類評價(jià)部件相連接,垃圾郵件概率計(jì)算部件與分類評價(jià)部件相互連接,兩者同時(shí)與知識庫部件連接,所述屬性評價(jià)輸出部件與分類評價(jià)部件相連接。
全文摘要
本發(fā)明提供一種基于興趣認(rèn)知的垃圾郵件識別方法,包括下述步驟1.個(gè)人興趣認(rèn)知知識庫的建立和維護(hù);2.概率計(jì)算和郵件屬性評價(jià);3.結(jié)果輸出;一種實(shí)現(xiàn)上述方法的垃圾郵件識別系統(tǒng),包括分詞部件、垃圾郵件概率計(jì)算部件、知識庫部件、分類評價(jià)部件、屬性評價(jià)輸出部件等。本發(fā)明精確度好,智能化程度高,可達(dá)到較好的垃圾郵件過濾效果。
文檔編號G06Q10/10GK1976323SQ20061012417
公開日2007年6月6日 申請日期2006年12月12日 優(yōu)先權(quán)日2006年12月12日
發(fā)明者皮佑國 申請人:華南理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
阳信县| 永川市| 隆尧县| 绥中县| 重庆市| 和田市| 大竹县| 锦屏县| 五台县| 慈溪市| 如皋市| 福建省| 钟祥市| 五华县| 阿坝县| 汤原县| 闽清县| 元氏县| 新乡县| 胶州市| 新郑市| 原阳县| 苗栗市| 宜宾县| 繁昌县| 辉南县| 保定市| 五指山市| 梅河口市| 专栏| 晋宁县| 于都县| 邢台县| 天长市| 本溪| 滕州市| 福鼎市| 玛沁县| 樟树市| 油尖旺区| 钦州市|