两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置的制作方法

文檔序號:6610887閱讀:312來源:國知局
專利名稱:郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置的制作方法
技術領域
本發(fā)明涉及互聯(lián)網(wǎng)技術,具體涉及郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置。
背景技術
電子郵件作為互聯(lián)網(wǎng)的第一大應用,一直受到廣大網(wǎng)民的青睞。但是,近些年來,垃圾郵件問題日益嚴重。垃圾郵件的基本特征是“不請自來”,而且大部分垃圾郵件都帶有商業(yè)或者其他宣傳目的。同時,垃圾郵件的判定和郵件的接收者有很大關系,不同用戶對同一郵件的判斷結果可能會存在差異。隨著技術的進步,垃圾郵件的過濾技術正由單一基于靜態(tài)規(guī)則和統(tǒng)計分類向著基于行為的過濾技術方向轉變。
現(xiàn)有的主流的垃圾郵件過濾方法都是基于郵件內(nèi)容的,一種垃圾郵件的過濾方法是基于學習矢量量化(Learning Vector Quantization,LVQ)的,LVQ是一種由芬蘭學者提出的有監(jiān)督神經(jīng)網(wǎng)絡,是一種在監(jiān)督狀態(tài)下對競爭層進行訓練的一種學習方法,通過學習,LVQ將輸入向量中與目標向量相近的分離出來。LVQ是一種根據(jù)樣本模式的特性進行“獎/懲”的迭代學習算法。
其基本思想是先要設置一個訓練集,訓練集的數(shù)據(jù)是由分類已知郵件的郵件體部分向量化后得到的,對于來自訓練集中的矢量,如果與最近神經(jīng)元屬同一類,則無需學習,具體過程是這樣的將來自訓練集中的向量作為輸入,采用LVQ算法進行計算,如果計算結果符合預置的要求,則說明與最近神經(jīng)元屬同一類,則不用對算法的參數(shù)進行修改。否則將懲罰分類錯誤的神經(jīng)元,獎勵分類正確的神經(jīng)元,如果計算結果不符合預置的規(guī)定,則需要對LVQ算法中的參數(shù)進行修改,神經(jīng)網(wǎng)絡是由多個神經(jīng)元構成的,對于計算結果正確的神經(jīng)元,則可以對其進行獎勵,采用與獎勵對應的迭代公式進行迭代;如果計算結果錯誤,則對其進行懲罰,采用與懲罰對應的迭代公式進行迭代。經(jīng)若干次迭代,所得矢量集合不再有明顯變化,即計算結果都符合預置要求,說明對這個訓練集的訓練完成。
在對郵件進行過濾時,對郵件內(nèi)容進行分詞,計算每個詞的詞頻,然后以每個詞的詞頻作為輸入值,使用訓練得到的參數(shù),采用LVQ算法進行計算,對計算得到的值進行判斷,如果值與1相近則該郵件為垃圾郵件,反之如果與0接近則該郵件為非垃圾郵件,從而完成對垃圾郵件的過濾。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術至少存在如下缺陷郵件體內(nèi)容多,且變化多,將會導致訓練慢且訓練集不完整等問題,可能導致過濾得準確率不高;并且,由于郵件體的內(nèi)容及格式都是不定的,可能會造成郵件判斷速度慢;進一步,非中文郵件等郵件的郵件體會被表示成零向量,從而認為該郵件為正常郵件,因而當垃圾郵件也被表示成零向量時,無法對其進行過濾,進一步降低了過濾的正確率。

發(fā)明內(nèi)容
本發(fā)明實施例提供郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置,提高對郵件的郵件類型判斷的速度。
本發(fā)明實施例的目的是通過以下技術方案實現(xiàn)的本發(fā)明實施例提供了一種郵件類型判斷方法,包括讀取分類未知郵件的郵件頭;從所述郵件頭提取符合預置條件一的字段一;將所述字段一與其表現(xiàn)形式組合向量化,得到預置數(shù)量一的特征向量一;以所述特征向量一為輸入,采用預先建立的行為模型保存的數(shù)據(jù),使用預置預測算法進行計算,得到計算結果;根據(jù)所述計算結果對所述分類未知郵件的郵件類型進行判斷。
本發(fā)明實施例還提供了一種行為模型建立裝置,包括郵件頭讀取單元,用于讀取分類已知郵件的郵件頭;
字段提取單元,用于從所述郵件頭提取符合預置條件的字段;向量化單元,用于將所述字段向量化得到預置數(shù)量的特征向量;行為模型建立單元,用于將所述特征向量按預置學習算法建立行為模型。
與方法實施例對應的,本發(fā)明實施例還提供了一種郵件類型判斷裝置,包括郵件頭讀取單元,用于讀取分類未知郵件的郵件頭;字段一提取單元,用于從所述郵件頭提取符合預置條件一的字段一;第一向量化單元,用于將所述字段一向量化得到預置數(shù)量一的特征向量一;計算單元,用于以所述特征向量一作為輸入,采用預先建立的行為模型保存的數(shù)據(jù),使用預置預測算法進行計算,得到計算結果;判斷單元,用于根據(jù)所述計算結果對所述分類未知郵件的郵件類型進行判斷。
相應的,本發(fā)明實施例還提供了一種郵件類型判斷系統(tǒng),包括行為模型建立裝置,用于建立用于郵件類型判斷的行為模型,所述行為模型的建立是通過讀取分類已知郵件的郵件頭,從所述分類已知郵件的郵件頭中提取符合預置條件的字段,將所述字段向量化后得到的預置數(shù)量的特征向量,按照預置的學習算法建立的;郵件類型判斷裝置,用于讀取分類未知郵件的郵件頭,從所述分類未知郵件的郵件頭提取符合所述預置條件的字段,將所述字段向量化得到所述預置數(shù)量的特征向量,以所述特征向量作為輸入,采用所述行為模型保存的數(shù)據(jù)使用預置預測算法進行計算,根據(jù)計算結果對郵件類型進行判斷。
從本發(fā)明實施例提供的以上技術方案可以看出,本發(fā)明實施例采用分類已知郵件的郵件頭建立行為模型,并且使用該行為模型對分類未知郵件的郵件類型進行判斷,由于是將郵件頭中特定字段向量化,而郵件頭需要符合SMTP協(xié)議,所以在郵件類型判斷時,需要判斷的字段都是預先設定的,對郵件類型進行判斷時,判斷速度較快;進一步,因為是采用郵件頭建立的行為模型,因而不管郵件體是采用哪種語言,都可以采用該行為模型進行判斷。


圖1為本發(fā)明實施例中行為模型建立裝置實施例一的結構圖;圖2為本發(fā)明實施例中郵件類型判斷方法實施例一的流程圖;圖3為本發(fā)明實施例中郵件類型判斷方法實施例三的流程圖;圖4為本發(fā)明實施例中郵件類型判斷裝置實施例一的結構圖;圖5為本發(fā)明實施例中郵件類型判斷裝置實施例二的結構圖;圖6為本發(fā)明實施例中郵件類型判斷系統(tǒng)實施例一的結構圖。
具體實施例方式
為使本發(fā)明的目的、技術方案、及優(yōu)點更加清楚明白,以下參照附圖并舉實施例,對本發(fā)明進一步詳細說明。
如圖1所示,本發(fā)明提供的行為模型建立裝置實施例一包括郵件頭讀取單元101,用于讀取分類已知郵件的郵件頭;先介紹郵件頭,郵件頭是在郵件傳遞過程中,按照簡單郵件傳輸協(xié)議(SMTPSimple Message Transfer Protocol)由郵件服務器之間傳輸?shù)囊恍┬帕罱换?,一般情況下,這些內(nèi)容對郵件撰寫者和郵件接收者是不可見的;因為是按照SMTP協(xié)議傳輸,因而為了保證郵件的正常傳遞,郵件頭部分的內(nèi)容是格式化的,并且其中的一些字段也是按照SMTP協(xié)議要求預先設置好的;分類已知郵件是指郵件的分類是已知的,也就是該郵件是正常郵件還是垃圾郵件是已經(jīng)確定的;字段提取單元102,用于從郵件頭提取符合預置條件的字段;郵件頭都是符合SMTP協(xié)議要求的,因而一些字段是在每一個郵件的郵件頭中都有的,按照SMTP協(xié)議,在郵件頭中如下一些字段是容易被偽造的來自域字段(From field)、接收域字段(To field)、應答地址域字段(Reply-Tofield)、傳輸域字段(Delivered-To field)、回復路徑域字段(Return-Path field)、接收地址域字段(Received field)和時間域字段(Date field);其中From Field包括發(fā)送人郵件地址,To Field包括接收人郵件地址,Reply-To Field包括答復郵件地址(即讓收件人應答的郵件地址),Return-Path Field包括由郵件轉發(fā)過程中由最后一個服務器添加的最終發(fā)信人的郵件地址;因為這些字段容易被偽造,所以在對郵件分類的時候使用的預置條件就可以全部或部分選取這些字段,當然也不僅限于這些字段;向量化單元103,用于將字段向量化得到預置數(shù)量的特征向量;在提取了符合預置條件的字段后,根據(jù)每個字段不同情況組合得到若干種組合,例如,對于一封郵件,如果其某些字段滿足某個組合,則這個組合的值就為1,否則為0;這樣每封郵件都得到一系列的值,這一系列的值就是特征向量值,這個計算過程為向量化的過程;例如,在郵件頭中的前述字段可能會出現(xiàn)如下情況,即表現(xiàn)形式1)沒有這個字段;2)有這個字段,但是該字段的值為空;3)發(fā)送人郵件地址的用戶名為空,比如@zhangsan.com;4)發(fā)送人郵件地址的域名為空;5)發(fā)送人郵件地址的格式不正確,比如包含“*”,等非法字符;6)根據(jù)其郵件地址域名查不到其DNS記錄;7)發(fā)送人郵件地址中包含有兩個@符號;8)發(fā)送人郵件地址中沒有@符號;9)發(fā)送人郵件地址中只有@符號,而沒有用戶名和域名;10)Date里面的數(shù)據(jù)值過老;11)Received個數(shù)太多,也就是經(jīng)過的路由太多;這樣就有11種情況,再對應7個字段,這樣就可以組合成77種特征,因而可以將這些字段向量化可以得到77個特征向量,但是,在實際應用中,有的字段并不會出現(xiàn)上述的全部11種情況,例如Date Field只能對應上面的1)、2)和10)這三種情況;并且,對有的字段進行組合判斷的效果更好;因而77種的效果不一定是最好,可以根據(jù)具體的情況確定應該選取多少種;行為模型建立單元104,用于將特征向量按預置學習算法建立行為模型;
在得到了字段向量化的特征向量后,就可以將這些特征向量組成一個特征向量組作為輸入,采用預置的學習算法進行計算,從而得到參數(shù),將這些參數(shù)保存在行為模型中,行為模型可見的是一個文件,保存了在郵件類型判斷過程中需要用到的參數(shù),這些參數(shù)是與預置算法相關的,使用預置預測算法對郵件類型進行判斷時就會調(diào)用這些參數(shù);這些參數(shù)是在建立該行為模型時保存的,即在使用預置學習算法學習的過程中計算得到的,隨著學習過程中的輸入數(shù)據(jù)不斷的改變,這些參數(shù)也是不斷的改變的,隨著學習樣本的不斷完善,輸入數(shù)據(jù)的不斷合理化,這些參數(shù)的準確性及有效性會不斷的提高,因而相應的提高預置預測算法計算的準確率。
從上可知,采用本發(fā)明實施例提供的行為模型的建立裝置,可以采用郵件頭的信息建立起進行郵件類型判斷時需要的行為模型,由于郵件頭需要符合SMTP協(xié)議,不會出現(xiàn)建立行為模型是訓練慢或訓練集不完整等問題;進一步,在郵件類型判斷時,需要判斷的字段都是可以預先設定的,因而對郵件類型進行判斷時,速度較快;進一步,因為是采用郵件頭建立行為模型,因而不管郵件體是采用哪種語言,都可以采用該行為模型進行判斷。
本發(fā)明進一步提供了一種采用支持向量機(SVMSupport VectorMachine)建立行為模型的實施例,先介紹一下SVM,SVM是一種基于數(shù)據(jù)的機器學習方法,是建立在統(tǒng)計學習理論的VC維(Vapnik-ChervonenkisDimension)理論和結構風險最小原理(Structural Risk Minimization InductivePrinciple)基礎上的,根據(jù)有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度,Accuracy)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(Generalization Ability),主要有如下優(yōu)點首先,它是專門針對有限樣本情況的,其目標是得到現(xiàn)有信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無窮大時的最優(yōu)值;其次,算法最終將轉化成為一個二次型尋優(yōu)問題,從理論上說,得到的將是全局最優(yōu)點,解決了在神經(jīng)網(wǎng)絡方法中無法避免的局部極值問題;再次,算法將實際問題通過非線性變換轉換到高維的特征空間(Feature Space),在高維空間中構造線性判別函數(shù)來實現(xiàn)原空間中的非線性判別函數(shù),特殊性質(zhì)能保證機器有較好的推廣能力,同時它巧妙地解決了維數(shù)問題,其算法復雜度與樣本維數(shù)無關;在SVM方法中,只要定義不同的內(nèi)積函數(shù),就可以實現(xiàn)多項式逼近、貝葉斯分類器、徑向基函數(shù)(Radial Basic Function或RBF)方法、多層感知器網(wǎng)絡等許多現(xiàn)有學習算法,能較好地解決小樣本、非線性、高維數(shù)和局部極小點等實際問題。
在采用SVM建立行為模型的本實施例中,采用實施例一中描述的7個字段,因為From field、To field、Reply-To field、Delivered-To field和Return-Pathfield的表示格式相同,在此我們可以將這5個字段兩兩結合成十種組合;加上上述的7個字段就是17個組合,再與實施例一中描述的11種情況結合就可以提取若干種特征;當然在實際應用中可能不止有上述的11種情況,同時也可以根據(jù)具體應用情況選取不同的特征數(shù)量。在本實例中,經(jīng)過不斷的測試,選取的特征數(shù)量為106。
這樣在建立行為模型時,從郵件頭中提取出上述的7個字段,組成17種組合,然后與11種情況結合就可以將郵件頭拆分成106種特征向量;然后就可以使用拆分成的106種特征向量采用SVM學習算法建立行為模型。
如圖2所示,本發(fā)明提供的郵件類型判斷的實施例一包括步驟201、讀取分類未知郵件的郵件頭;步驟202、從郵件頭提取符合預置條件一的字段一;字段一可以是From field、To field、Reply-To field、Delivered-To field、Return-Path field、Received field和Date field中任一及其組合,當然也可以不限于這些字段,而為了能夠準確的識別出分類未知郵件的郵件類型,需要對提取的字段一設置預置條件一,即要與建立行為模型時所提取的字段相同;步驟203、將字段一與其表現(xiàn)形式組合向量化,得到預置數(shù)量一的特征向量一;向量化的過程與建立行為模型時一樣,當然得到的特征向量的數(shù)量也與建立行為模型時一樣,從而能夠與行為模型對應,保證判斷的正確率;步驟204、以特征向量一為輸入,采用預先建立的行為模型保存的數(shù)據(jù),使用預置預測算法進行計算,得到計算結果;在得到郵件頭向量化后得到的向量后,將這些特征向量組成一個特征向量組作為輸入,采用預置的預測算法計算得到計算結果,其中預測算法的參數(shù)是采用行為模型中的參數(shù),因為行為模型是經(jīng)過不斷的訓練得出的,并且其中的參數(shù)是隨著訓練不斷的優(yōu)化,因而采用這些參數(shù)可以正確的進行計算;進一步,使行為模型中經(jīng)過優(yōu)化的特征向量組的各個特征向量值參與預測算法運算,從而使計算結果更為準確;其中預置的預測算法要與建立行為模型時采用的學習算法對應,例如建立行為模型時采用的是SVM學習算法,那么該預測算法可以采用SVM預測算法;當建立行為模型時采用基于徑向基函數(shù)(RBFRadial Basis Function)學習算法,相應的,該預測算法也可以采用RBF預測算法;當然,在實際應用中,學習算法和預測算法并不一定需要對應,例如采用SVM學習算法建立了行為模型,在實際應用中如果有一種預測算法的計算效果比SVM預測算法的效果更好,就可以在判斷時采用這種預測算法;以只將郵件分為垃圾郵件和非垃圾郵件這兩個類型為例,以SVM預測算法進行計算的主要過程是這樣的因為只有兩個類型,所以將數(shù)據(jù)分為兩類,數(shù)據(jù)所屬的類標號被重新標記為1或0,針對這兩類訓練出一個模型。預測時,將測試樣本用所有訓練好的模型進行預測,根據(jù)預測值為0還是1,表明測試樣本的歸屬;用數(shù)學問題表示如下目標找到一個超平面,使得它能夠盡可能多的將兩類數(shù)據(jù)點正確的分開,同時使分開的兩類數(shù)據(jù)點距離分類面最遠;假設該平面方程為y=wx+b。則最主要是求出w和b;解決方法構造一個在約束條件下的優(yōu)化問題,具體的說是一個受限二次規(guī)劃問題(constrained quadratic programming),求解該問題,得到分類器;模型建立子模塊先對訓練集中的郵件進行郵件向量化,然后利用支持向量機的思想進行建模;具體可以采用C-支持向量(c-svc)分類機,利用該分類機的對偶函數(shù)計算以下主要參數(shù);r1=Σ0<α<C,yi=1▿f(α)iΣ0<α<C,yi=11]]>ρ=r1+r22]]>最后得到分類機的決策函數(shù),并將主要參數(shù)和決策信息存入模型文件中,供后面的判斷模塊調(diào)用;其中模型文件中的內(nèi)容包括主要參數(shù)即為行為模型中的參數(shù),決策信息為經(jīng)過修改的郵件特征向量的值;預測過程首先對待處理的郵件進行郵件向量化,然后讀取模型文件中的上述兩部分內(nèi)容,并將其代入決策函數(shù)f(x)=sgn(Σi=0lαiyiK(x,xi)+b)]]>其中K(xi,xj)=exp(-γ‖xi-xj‖2),γ>0最后根據(jù)獲得的f(x)的值來確定分類結果;步驟205、根據(jù)計算結果對分類未知郵件的郵件類型進行判斷;通過預測算法計算后,就可以得到一個值,根據(jù)預置行為模型中的郵件頭向量化時的規(guī)定,可以得到該郵件的分類。例如,在建立行為模型時正常郵件的值為1,則當計算結果為1是認定分類未知郵件為正常郵件;反之,當計算結果為0是認定分類未知郵件為垃圾郵件;當然,也可以任意選取其他整數(shù)值進行分類標識,主要由建立行為模型時正常郵件和垃圾郵件所采用的值確定。
從上可知,本實施例在將郵件頭向量化后,使用預先訓練建立的行為模型保存的數(shù)據(jù),采用與建立行為模型采用的學習算法對應的預測算法進行計算,得出計算結果,從而根據(jù)計算結果對郵件類型進行判斷,由于郵件頭需要符合SMTP協(xié)議,所以在郵件類型判斷時,需要判斷的字段都是預先設定的,對郵件類型進行判斷時,判斷速度較快;進一步,因為是采用郵件頭建立的行為模型,因而不管郵件體是采用哪種語言,都可以采用該行為模型進行判斷。
與建立行為模型的實施例二對應,本發(fā)明也提供了判斷郵件類型的方法實施例二在接收到一個郵件后,從郵件頭中提取對應的7個字段,將這些字段向量化得到106個特征向量,然后將這些向量作為輸入,使用建立好的行為模型保存的數(shù)據(jù),采用SVM預測算法進行計算,然后對計算結果進行判斷,如果為1,則說明該郵件為正常郵件,反之為垃圾郵件。
如圖3所示,本發(fā)明提供的判斷郵件類型的方法實施例三包括步驟301、讀取分類未知郵件的郵件頭和郵件體;步驟302、從郵件頭提取符合預置條件一的字段一,從郵件體提取符合預置條件二的字段二;郵件體的操作與郵件頭的操作過程類似,但是對郵件體所選取的字段是與現(xiàn)有技術相類似的,即從郵件體中選取相應的關鍵字;步驟303、將字段一與其表現(xiàn)形式組合向量化,得到預置數(shù)量一的特征向量一,將字段二與其表現(xiàn)形式組合向量化,得到預置數(shù)量二的特征向量二;關鍵字的表現(xiàn)形式有有這個關鍵字,沒有這個關鍵字,這個關鍵字出現(xiàn)的次數(shù)等;步驟304、以特征向量一和特征向量二為輸入,采用預先建立的行為模型保存的數(shù)據(jù),使用預置預測算法進行計算,得到計算結果;步驟305、根據(jù)計算結果對分類未知郵件的郵件類型進行判斷;在本實施例中,增加了對分類未知郵件的郵件體的處理,使對郵件類型進行判斷時,可以綜合郵件頭和郵件體的內(nèi)容進行判斷,從而使判斷更加準確。
圖4描述的是本發(fā)明提供的郵件類型判斷裝置的實施例一,包括郵件頭讀取單元401,用于讀取分類未知郵件的郵件頭;字段一提取單元402,用于從郵件頭提取符合預置條件一的字段一;這些字段也可以是From field、To field、Reply-To field、Delivered-To field、Return-Path field、Received field和Date field中任一及其組合,當然也可以不限于這些字段,但是要與建立行為模型時提取的字段相同;第一向量化單元403,用于將字段一向量化得到預置數(shù)量一的特征向量一;向量化的過程與建立行為模型時一樣,得到的特征向量的數(shù)量也與建立行為模型時相同;計算單元404,用于以特征向量一作為輸入,采用預先建立的行為模型保存的數(shù)據(jù),使用預置預測算法進行計算,得到計算結果;其中預置的預測算法的相關信息是由建立行為模型時采用的學習算法決定的,保存在行為模型中,在得到郵件頭向量化后得到的向量后,將這些向量作為輸入,使用預先建立的行為模型保存的數(shù)據(jù),采用預置的預測算法計算得到計算結果;判斷單元405,用于根據(jù)計算結果對所述分類未知郵件的郵件類型進行判斷;通過預測算法計算后,就可以得到一個值,一般情況下,這個值可以是1或0,根據(jù)行為模型中參數(shù)的不同,當計算結果為1是認定該郵件為正常郵件,也可以當計算結果為0時認定該郵件為垃圾郵件,當然在實際應用中也可以不限于1或0,具體如何取值由建立行為模型時正常郵件和垃圾郵件所采用的值確定;從上可知,本實施例在將郵件頭向量化后,使用預先訓練建立的行為模型保存的數(shù)據(jù),采用與建立行為模型采用的學習算法對應的預測算法進行計算,得出計算結果,從而根據(jù)計算結果對郵件類型進行判斷,由于郵件頭需要符合SMTP協(xié)議,所以在郵件類型判斷時,需要判斷的字段都是預先設定的,對郵件類型進行判斷時,速度不會很慢;進一步,因為是采用郵件頭建立的行為模型,因而不管郵件體是采用哪種語言,都可以采用該行為模型進行判斷。
進一步,本發(fā)明還提供了判斷郵件類型的裝置實施例二,如圖5所示,包括郵件頭讀取單元501,用于讀取分類未知郵件的郵件頭;郵件體讀取單元502,用于讀取分類未知郵件的郵件體;字段一提取單元503,用于從郵件頭提取符合預置條件一的字段一;字段二提取單元504,用于從郵件體提取符合預置條件二的字段二;第一向量化單元505,用于將字段一向量化得到預置數(shù)量一的特征向量一;第二向量化單元506,用于將字段二向量化得到預置數(shù)量二的特征向量二;計算單元507,用于以特征向量一和特征向量二為輸入,采用行為模型保存的數(shù)據(jù)使用預置預測算法進行計算,得到計算結果;判斷單元508,用于根據(jù)計算結果對所述分類未知郵件的郵件類型進行判斷;在本實施例中,增加了對分類未知郵件的郵件體的處理,使對郵件類型進行判斷時,可以綜合郵件頭和郵件體的內(nèi)容進行判斷,從而使判斷更加準確。
進一步,本發(fā)明提供了郵件類型判斷系統(tǒng)的實施例一,如圖6所示,包括行為模型建立裝置601,用于建立用于郵件類型判斷的行為模型,所述行為模型的建立是通過讀取分類已知郵件的郵件頭,從所述分類已知郵件的郵件頭中提取符合預置條件的字段,將所述字段向量化后得到的預置數(shù)量的特征向量,按照預置的學習算法建立的;郵件類型判斷裝置602,用于讀取分類未知郵件的郵件頭,從所述分類未知郵件的郵件頭提取符合所述預置條件的字段,將所述字段向量化得到所述預置數(shù)量的特征向量,以所述特征向量作為輸入,采用所述行為模型保存的數(shù)據(jù)使用預置預測算法進行計算,根據(jù)計算結果對郵件類型進行判斷;在實際應用中,行為模型建立裝置和郵件類型判斷裝置中的提取郵件頭、提取字段、以及向量化所采用的功能單元可以共用,從而減少郵件類型判斷系統(tǒng)的投入;使用郵件類型判斷系統(tǒng)的該實施例,可以采用分類已知郵件的郵件頭建立行為模型,并且可以采用該行為模型對分類未知郵件的郵件類型進行判斷,由于是將郵件頭中特定字段向量化,而郵件頭需要符合SMTP協(xié)議,所以在郵件類型判斷時,需要判斷的字段都是預先設定的,對郵件類型進行判斷時,速度不會很慢;進一步,因為是采用郵件頭建立的行為模型,因而不管郵件體是采用哪種語言,都可以采用該行為模型進行判斷。
以上對本發(fā)明實施例所提供的郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置進行了詳細介紹,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。
權利要求
1.一種郵件類型判斷方法,其特征在于,包括讀取分類未知郵件的郵件頭;從所述郵件頭提取符合預置條件一的字段一;將所述字段一與其表現(xiàn)形式組合向量化,得到預置數(shù)量一的特征向量一;以所述特征向量一為輸入,采用預先建立的行為模型保存的數(shù)據(jù),使用預置預測算法進行計算,得到計算結果;根據(jù)所述計算結果對所述分類未知郵件的郵件類型進行判斷。
2.如權利要求1所述的郵件類型判斷方法,其特征在于進一步讀取所述分類未知郵件的郵件體;從所述郵件體提取符合預置條件二的字段二;將所述字段二向量化得到預置數(shù)量二的特征向量二;以所述特征向量一為輸入時,進一步以所述特征向量二為輸入,采用所述行為模型保存的數(shù)據(jù),使用預置預測算法進行計算,得到所述計算結果。
3.如權利要求1所述的郵件類型判斷方法,其特征在于,所述行為模型是采用如下步驟建立的讀取分類已知郵件的郵件頭;從所述分類已知郵件的郵件頭提取符合預置條件三的字段三;將所述字段三向量化得到預置數(shù)量三的特征向量三;將所述特征向量三按預置學習算法一建立所述行為模型。
4.如權利要求3所述的郵件類型判斷方法,其特征在于,所述字段三與所述字段一相同。
5.如權利要求1至4任一所述的郵件類型判斷方法,其特征在于,所述字段一包括來自域字段、接收域字段、應答地址域字段、傳輸域字段、回復路徑域字段、接收地址域字段和時間域字段中任一或其組合。
6.如權利要求3或4所述的郵件類型判斷方法,其特征在于,所述數(shù)量三與所述數(shù)量一相同。
7.一種行為模型建立裝置,其特征在于,包括郵件頭讀取單元,用于讀取分類已知郵件的郵件頭;字段提取單元,用于從所述郵件頭提取符合預置條件的字段;向量化單元,用于將所述字段向量化得到預置數(shù)量的特征向量;行為模型建立單元,用于將所述特征向量按預置學習算法建立行為模型。
8.一種郵件類型判斷裝置,其特征在于,包括郵件頭讀取單元,用于讀取分類未知郵件的郵件頭;字段一提取單元,用于從所述郵件頭提取符合預置條件一的字段一;第一向量化單元,用于將所述字段一向量化得到預置數(shù)量一的特征向量一;計算單元,用于以所述特征向量一作為輸入,采用預先建立的行為模型保存的數(shù)據(jù),使用預置預測算法進行計算,得到計算結果;判斷單元,用于根據(jù)所述計算結果對所述分類未知郵件的郵件類型進行判斷。
9.如權利要求8所述的郵件類型判斷裝置,其特征在于,還包括郵件體讀取單元,用于讀取所述分類未知郵件的郵件體;字段二提取單元,用于從所述郵件體提取符合預置條件二的字段二;第二向量化單元,用于將所述字段二向量化得到預置數(shù)量二的特征向量二;所述計算單元,用于以所述特征向量一和特征向量二為輸入,采用所述行為模型保存的數(shù)據(jù)使用預置預測算法進行計算,得到計算結果。
10.一種郵件類型判斷系統(tǒng),其特征在于,包括行為模型建立裝置,用于建立用于郵件類型判斷的行為模型,所述行為模型的建立是通過讀取分類已知郵件的郵件頭,從所述分類已知郵件的郵件頭中提取符合預置條件的字段,將所述字段向量化后得到的預置數(shù)量的特征向量,按照預置的學習算法建立的;郵件類型判斷裝置,用于讀取分類未知郵件的郵件頭,從所述分類未知郵件的郵件頭提取符合所述預置條件的字段,將所述字段向量化得到所述預置數(shù)量的特征向量,以所述特征向量作為輸入,采用所述行為模型保存的數(shù)據(jù)使用預置預測算法進行計算,根據(jù)計算結果對郵件類型進行判斷。
全文摘要
本發(fā)明涉及互聯(lián)網(wǎng)技術,公開了郵件類型判斷方法、裝置及系統(tǒng)和行為模型建立裝置,其中郵件類型判斷方法,其特征在于,包括讀取分類未知郵件的郵件頭;從所述郵件頭提取符合預置條件一的字段一;將所述字段一與其表現(xiàn)形式組合向量化,得到預置數(shù)量一的特征向量一;以所述特征向量一為輸入,采用預先建立的行為模型保存的數(shù)據(jù),使用預置預測算法進行計算,得到計算結果;根據(jù)所述計算結果對所述分類未知郵件的郵件類型進行判斷。與方法對應的,本發(fā)明實施例還提供了相應的裝置、系統(tǒng)。使用本發(fā)明提供的實施例,提高對郵件的郵件類型判斷的速度。
文檔編號G06F17/30GK101079851SQ20071012808
公開日2007年11月28日 申請日期2007年7月9日 優(yōu)先權日2007年7月9日
發(fā)明者劉竟, 劉嶠, 秦志光, 鄭志彬 申請人:華為技術有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
陆丰市| 健康| 抚州市| 顺义区| 南宁市| 花莲县| 南丰县| 宁明县| 五家渠市| 五大连池市| 马山县| 西平县| 防城港市| 崇阳县| 花垣县| 岑溪市| 玛曲县| 甘孜| 达尔| 探索| 通渭县| 聂荣县| 南召县| 宁远县| 犍为县| 南昌县| 林甸县| 罗山县| 平潭县| 黄骅市| 拉萨市| 尉氏县| 蒙阴县| 卓资县| 柯坪县| 德格县| 云和县| 二手房| 长乐市| 区。| 万年县|