專利名稱:一種基于潛在語(yǔ)義索引的垃圾郵件判斷、分類、過(guò)濾方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),具體涉及一種垃圾郵件過(guò)濾的技術(shù)及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,電子郵件已經(jīng)成為人們?cè)谌粘I钪行畔⒔换サ闹匾ぞ?。與 此同時(shí),垃圾郵件在網(wǎng)絡(luò)上也逐漸呈現(xiàn)泛濫之勢(shì)。大量的商業(yè)郵件、政治宣傳郵件在沒(méi)有得 到用戶許可的情況下發(fā)送到用戶的郵箱中,耗費(fèi)了大量的網(wǎng)絡(luò)資源、增加了用戶的使用成本。 尤其近年來(lái)通過(guò)電子郵件傳播計(jì)算機(jī)病毒的情況不斷出現(xiàn),更是增加了垃圾郵件的危害性。 中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)負(fù)責(zé)人表示,根據(jù)有關(guān)統(tǒng)計(jì)調(diào)査,我國(guó)網(wǎng)民平均每周收到16封電子郵件,其 中垃圾郵件占8.3封,垃圾郵件數(shù)量已經(jīng)與正常郵件數(shù)量相當(dāng),并大有超過(guò)正常郵件的趨勢(shì)。
目前基于內(nèi)容的垃圾郵件過(guò)濾主要包括基于規(guī)則的方法和基于概率統(tǒng)計(jì)的方法?;谝?guī) 則的方法主要有決策樹(shù)方法、粗糙集(Rough Sets)方法?;谝?guī)則的方法通過(guò)訓(xùn)練得到顯式 規(guī)則。規(guī)則方法學(xué)習(xí)的過(guò)程實(shí)際上是歸納總結(jié)的過(guò)程,通過(guò)考查一個(gè)個(gè)的訓(xùn)練樣本,歸納總結(jié) 出其中規(guī)律性的東西來(lái)形成規(guī)則。規(guī)則方法的主要優(yōu)點(diǎn)是可以生成人類理解的規(guī)則。缺點(diǎn)是 在規(guī)律性不明顯的應(yīng)用領(lǐng)域效果較差?;诮y(tǒng)計(jì)的方法主要有Bayes統(tǒng)計(jì)方法和支持向量機(jī) (Support Vector Machine ,簡(jiǎn)稱SVM)
目前大多數(shù)反垃圾郵件所使用的技術(shù)都是"靜態(tài)"的,也就是說(shuō)只需把信息做少許改變 就很容易避過(guò)這些反垃圾郵件軟件。為了更有力地抗擊垃圾郵件,我們需要一種可以自適應(yīng) 的新技術(shù)。這種技術(shù)必須能夠適應(yīng)垃圾郵件制造者不斷變化的策略。它同樣也應(yīng)適合對(duì)垃圾 郵件進(jìn)行保護(hù)的特殊組織。基于潛在語(yǔ)義索引的實(shí)時(shí)分類垃圾郵件技,具有智能學(xué)習(xí)功能, 在過(guò)濾垃圾郵件方面能表現(xiàn)出高準(zhǔn)確率和高速度。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的是提供一種基于潛在語(yǔ)義索引垃圾郵件過(guò)濾垃圾郵件的技術(shù)、方法 及系統(tǒng)。使用基于潛在語(yǔ)義索引的垃圾郵件過(guò)濾技術(shù)能夠很好的判斷、分類、過(guò)濾垃圾郵件。
為了解決現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明的實(shí)施方式提出了一種基于潛在語(yǔ)義索引的垃圾 郵件過(guò)濾方法和系統(tǒng),該系統(tǒng)分成兩個(gè)子系統(tǒng)潛在語(yǔ)義空間生成系統(tǒng)和郵件判斷、分類、 過(guò)濾系統(tǒng)
(一)潛在語(yǔ)義空間生成系統(tǒng)的步驟包括
1、 中文和英文分詞模塊;
2、 詞語(yǔ)文檔矩陣生成模塊
43、 權(quán)重計(jì)算模塊;
4、 詞語(yǔ)文檔矩陣奇異值分解模塊;
5、 語(yǔ)義空間更新模塊。
(二)郵件判斷、分類、過(guò)濾系統(tǒng)的步驟包括
1、 待判斷的郵件中文和英文分詞模塊;
2、 將文本郵件映射到潛在語(yǔ)義空間;
3、 語(yǔ)義空間中文檔向量之間的相似度計(jì)算;
4、 根據(jù)相似度判斷、分類、過(guò)濾郵件。
從本發(fā)明實(shí)施例提供的以上技術(shù)方案可以看出,本發(fā)明實(shí)施例通過(guò)訓(xùn)練已知的正?;蛘?垃圾郵件集,生成潛在語(yǔ)義空間。并且隨著時(shí)間的推移,收集到的更多更好的郵件集之后通 過(guò)某種算法實(shí)現(xiàn)及時(shí)的更新。不斷更新的語(yǔ)義空間更加能夠判斷垃圾郵件,保證潛在語(yǔ)義空 間的實(shí)時(shí)性。
圖1為本發(fā)明潛在語(yǔ)義空間生成系統(tǒng)。
圖2為本發(fā)明潛在語(yǔ)義判斷、分類、過(guò)濾垃圾郵件郵件系統(tǒng)。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案、及優(yōu)點(diǎn)更加清楚明白,以下參照附圖并舉實(shí)施例,對(duì)本 發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
如圖1所示,本發(fā)明為潛在語(yǔ)義空間生成系統(tǒng),它的具體流程包括-
步驟IOI、對(duì)于收到的郵件內(nèi)容分詞
郵件內(nèi)容分詞分為了中文郵件分詞和英文郵件分詞,英文郵件分詞根據(jù)郵件內(nèi)容中英文 單詞之間的空格來(lái)分,分成一個(gè)一個(gè)的單詞后,并且過(guò)濾掉一些沒(méi)有意義的詞語(yǔ),保存到一
個(gè)hash鏈表中。中文郵件分詞則相對(duì)復(fù)雜,先對(duì)其進(jìn)行中文分句,按照正向最大匹配的原則 就中文內(nèi)容進(jìn)行分詞,生成的詞語(yǔ)保存到一個(gè)hash鏈表中。潛在語(yǔ)義索引是將郵件訓(xùn)練集合 中的郵件做奇異值分解來(lái)生成潛在語(yǔ)義空間,因此分詞效果對(duì)潛在予以空間的生成有非常大 的影響。為此,必須對(duì)郵件訓(xùn)練集做一些預(yù)處理。首先提取文檔集中所用到的所有詞語(yǔ),建 立詞語(yǔ)表,以提供給下一步進(jìn)行篩選。其次、自動(dòng)排除掉"停用詞",如部分冠詞、介詞、連 詞、感嘆詞或者其它在描述文本語(yǔ)義中沒(méi)有意義或意義不大的詞語(yǔ),例如"的"、"了"、"于"、 "啊"。再次、通過(guò)人工篩選掉一些沒(méi)有用的詞語(yǔ)。然后把剩下的詞語(yǔ)建立詞語(yǔ)的hash鏈表。最后,統(tǒng)計(jì)詞頻。在以上步驟的基礎(chǔ)上再次掃描文檔集中各個(gè)文檔,統(tǒng)計(jì)各個(gè)詞語(yǔ)在每個(gè)文 檔中出現(xiàn)頻數(shù)。此外還需統(tǒng)計(jì)詞語(yǔ)出現(xiàn)的文檔數(shù)和文檔集中出現(xiàn)的總次數(shù),以及各個(gè)文檔中 包含有效詞語(yǔ)(即出現(xiàn)在保留詞表中的詞語(yǔ))的個(gè)數(shù),這些統(tǒng)計(jì)結(jié)果是下一步term-doc matrix權(quán)重計(jì)算的關(guān)鍵。
步驟102、詞語(yǔ)一文檔矩陣生成(term-doc matrix)
假設(shè)有一個(gè)文本集,包含n個(gè)文檔,用到了m個(gè)詞語(yǔ),構(gòu)造"詞語(yǔ)一文檔矩陣" I詞^、X^oCpi/oc2,…,^Kg—fem,,^W2,…,^cg,其中 表示詞語(yǔ)!在文檔j中
出現(xiàn)的頻數(shù),有時(shí)^還加入了權(quán)重,^""'和^^分別是代表詞語(yǔ)和文檔的列向量矩陣分 為行和列,潛在語(yǔ)義索引就是利用矩陣的奇異值分解得到潛在語(yǔ)義空間。把上一步所收集到 的文本郵件訓(xùn)練集合中的所有出現(xiàn)的詞語(yǔ)對(duì)應(yīng)^^',文檔郵件集中的每一份郵件對(duì)應(yīng)A^ , 這樣就生成了詞語(yǔ)一文檔矩陣。
步驟103、詞語(yǔ)一文檔矩陣添加權(quán)重
統(tǒng)計(jì)詞頻后,生成詞語(yǔ)——文檔矩陣,然后進(jìn)行奇異值分解。但是在大多數(shù)情況下,潛 在語(yǔ)義索引并非直接對(duì)詞語(yǔ)一文檔矩陣進(jìn)行奇異值分解,為了突出各個(gè)詞語(yǔ)和文檔對(duì)語(yǔ)義空 間不同程度的貢獻(xiàn),需要定義一種權(quán)重函數(shù)W (i, j)對(duì)詞語(yǔ)一文檔矩陣M進(jìn)行加權(quán)轉(zhuǎn)換,得 出一個(gè)加權(quán)后的矩陣M'。在潛在語(yǔ)義索引中定義權(quán)重,體現(xiàn)出一種信息規(guī)約的作用,會(huì)使 潛在語(yǔ)義空間更能呈現(xiàn)主要的語(yǔ)義結(jié)構(gòu)。LSI的主要任務(wù)就是提取語(yǔ)義結(jié)構(gòu),即詞語(yǔ)之間潛 在的語(yǔ)義關(guān)系。在目前的一些研究中定義了三種權(quán)重計(jì)算方法。分別是詞語(yǔ)局部權(quán)重 (LW(i,j))、詞語(yǔ)全局權(quán)重GWT(i)和文檔全局權(quán)重GWD(j)。三種權(quán)重計(jì)算公式相乘作為詞語(yǔ) 的總的權(quán)重。
步驟104、對(duì)加權(quán)重后的詞語(yǔ)一文檔矩陣做奇異值分解
奇異值分解的任務(wù)是把詞語(yǔ)一文檔關(guān)系矩陣分解為三個(gè)矩陣的乘積形式,即T'x", S"x",
% - 7""'x"tS"x"COdxw) (1.1)
其中,n=min(t,d) 。
T'x"是奇異值分解后的詞語(yǔ)向量矩陣,""x"是奇異值分解后的文檔向量矩陣。對(duì) 角矩陣5^"的對(duì)角線元素實(shí)際上是j^4的特征值、并且是按照降序順序排列的。根據(jù)SVD公 式,詞語(yǔ)一文檔矩陣可以用下式表達(dá)<formula>formula see original document page 7</formula>
經(jīng)過(guò)奇異值分解(SVD)處理后,可以把矩陣("dx")和對(duì)角矩陣S閥的乘積生成新的
矩陣的行視為代表文檔的向量,即文檔空間。同樣把矩陣T'x"和對(duì)角矩陣S"x"的乘積生成新
的矩陣的列視為代表詞語(yǔ)的向量,即詞語(yǔ)空間。通常把上述文檔空間、詞語(yǔ)空間統(tǒng)稱為潛在 語(yǔ)義空間(LSA Space )。
步驟105潛在語(yǔ)義空間的更新
潛在語(yǔ)義分析的目標(biāo)是建立一個(gè)合理的、再現(xiàn)詞語(yǔ)間語(yǔ)義結(jié)構(gòu)的潛在語(yǔ)義空間。根據(jù)前 文討論的"詞語(yǔ)—文檔"雙重概率關(guān)系,潛在語(yǔ)義空間中呈現(xiàn)出的詞語(yǔ)間語(yǔ)義關(guān)系是否合理 很大程度上依賴于所選用的訓(xùn)練文檔集。但是由于文本中詞語(yǔ)使用的隨機(jī)性,很難一次就選 擇一個(gè)優(yōu)秀的訓(xùn)練文檔集,進(jìn)而在LSA后能很好的再現(xiàn)詞語(yǔ)間語(yǔ)義關(guān)系。如何更新訓(xùn)練集是 一個(gè)目前有待解決的問(wèn)題。目前一個(gè)辦法就是重建訓(xùn)練文檔集,擴(kuò)充一些包含關(guān)鍵詞語(yǔ)描述 的文檔,再計(jì)算一次截?cái)嗟钠娈愔捣纸?,獲得一個(gè)新潛在語(yǔ)義空間,這種方法被稱為SVD
重算(SVD Recomputing) 。 SVD重算的缺點(diǎn)重新計(jì)算數(shù)據(jù)量太大。本發(fā)明引入了一種新的 更新算法。這種算法基于已有的潛在語(yǔ)義空間中大多數(shù)詞語(yǔ)的語(yǔ)義關(guān)系是準(zhǔn)確的,因此一部 分計(jì)算是不必要的,只要充分利用己有的SVD結(jié)果,就可以避免這一部分的重復(fù)計(jì)算這樣一 種思想。這種方法能夠?qū)崿F(xiàn)潛在語(yǔ)義空間快速,近似地更新。
X的SVD式為X = 7^Zy ,其秩為k的近似陣為
令A(yù)為新添加文檔的集合,由p個(gè)文檔向量組成,每個(gè)文檔向量仍由原潛在語(yǔ)義空間 中詞語(yǔ)在該文檔中出現(xiàn)的頻數(shù)加權(quán)計(jì)算后得到。由于這些詞語(yǔ)未必在每篇文檔當(dāng)中都出現(xiàn), 因此A為mX p的稀疏矩陣。將A添加在mX n的秩為k近似陣^^后面,得到矩陣Y 。
<formula>formula see original document page 7</formula>(1.4)
Y是一個(gè)r^(n+p)的矩陣,若對(duì)矩陣Y進(jìn)行奇異值分解計(jì)算,假設(shè)可以得到-7 (15)
由公式(2.16)和(2.17)得到
<formula>formula see original document page 7</formula> (1.6)
此式可以化作K^^(&Am7^),繼續(xù)進(jìn)行線性變換,將矩降(&d/i ;^)的左半部分化為對(duì)角陣,而保留右半部分不變。為此,在上式兩邊同乘矩陣
A 0、
.o ^
則
A卞
n o
o /
=(&|r/」)
單獨(dú)考慮上式的右半部分,將其記作z
這里z是一個(gè)k x (k + )矩陣。對(duì)z作奇異值分解,得到svd式:
因此有
(1.7)
0 /
(1.8)
公式(L8)的左邊也可以看作奇異值分解式,原因是 是對(duì)角矩陣,〃~和
A 0、
'p乂
仍然是正交矩陣,可以視作左右奇異矩陣。由奇異值分解定理可知, 一個(gè)矩陣svd
式是唯一的(除了正負(fù)號(hào)上的差異),因此可得:
議 0
(1.9) (1. 10)
(1.11)
通過(guò)公式(1.9) (1.10) (l.ll)可獲得矩陣y的svd式。類似于對(duì)矩陣C^M)進(jìn)行 了 svd重算的過(guò)程。
如圖2所示,郵件判斷、分類、過(guò)濾系統(tǒng)子系統(tǒng),它的具體流程包括 步驟201、待判斷的郵件中文和英文分詞
對(duì)于要待判斷的郵件首先進(jìn)行中英文分詞處理具體方法和之前的訓(xùn)練子系統(tǒng)的中英文分 詞方法是相同的。這里不再闡述。
步驟202、文檔向量的表現(xiàn)形式及相關(guān)度計(jì)算
對(duì)于要判斷的郵件doc并沒(méi)有包含在生成的潛在語(yǔ)義空間X中,因此若要比較待郵件doc 與X中的郵件向量相關(guān)度,那就必須把待判斷的郵件doc映射到潛在語(yǔ)義空間X中去。而 CC^")中并沒(méi)有代表待判斷郵件doc的行。可以有下述方法計(jì)算對(duì)應(yīng)doc的等價(jià)于("^")中
行向量的向量可以看出,公式(2. l)將未參加SVD的文檔根據(jù)其所包含的詞語(yǔ)在潛在語(yǔ)義空間中的向量 (以詞頻為權(quán)重)加權(quán)的和作為其潛在語(yǔ)義空間向量表示形式。這種文檔向量表現(xiàn)形式被稱 為"term to term"方式。
潛在語(yǔ)義分析的一個(gè)特點(diǎn)是,由訓(xùn)練文檔集建立起一個(gè)優(yōu)良的潛在語(yǔ)義空間后,可以被 應(yīng)用于多種應(yīng)用系統(tǒng)中。有了 "term to term"方式,就可以避開(kāi)反復(fù)地、計(jì)算量巨大的奇 異值分解運(yùn)算,而使未參與SVD的文檔也能以低維向量的表現(xiàn)形式參與和其它文檔的相關(guān)度 對(duì)比。
潛在語(yǔ)義空間中的文本郵件的語(yǔ)義是通過(guò)它與同一潛在語(yǔ)義空間中的其它文本郵件文檔 之間的相關(guān)性呈現(xiàn)出來(lái)的。度量郵件文檔之間相關(guān)度的方法有很多,本發(fā)明使用的是余弦相 關(guān)度的計(jì)算公式。
設(shè)^foc,' ^A",…,^c,、"'f和fl^/ ...,A。, *)r表示文檔在CCU")的向量。
余弦相關(guān)度的計(jì)算公式
通過(guò)本公式的計(jì)算我們可以計(jì)算得到待判斷郵件文本與訓(xùn)練集生成的潛在語(yǔ)義空間中的 其他郵件的相關(guān)度。
步驟205、根據(jù)相關(guān)度判斷、分類、過(guò)濾郵件
判斷垃圾郵件有兩種方法第一種方法首先把訓(xùn)練集合分成明顯的兩類正常郵件集合 和垃圾郵件集合。再根據(jù)之前余弦相關(guān)度分別計(jì)算出來(lái)待判斷的郵件文本與正常郵件集合的 每一文檔向量的相關(guān)度值和垃圾郵件集合中的每一文檔向量的相關(guān)度值,分別選取正常郵件 集合中的郵件相關(guān)度值和垃圾郵件集合中的郵件相關(guān)度值中的最大值。再比較選取的兩個(gè)值 的大小。如果最大值屬于正常郵件集合的最大值,那么就表示待判斷的郵件與正常郵件集合 中的最大值所代表的郵件語(yǔ)義上更加相識(shí)。如果最大值屬于垃圾郵件集合中的最大值,那么 表示待判斷的郵件與垃圾郵件集合中的某封郵件更加相似。這樣就達(dá)到了判斷、分類、過(guò)濾 郵件的目的。第二種方法也是先根據(jù)之前的余弦相關(guān)度分別計(jì)算出來(lái)待判斷的郵件文本與正 常郵件集合的每一文檔向量的相關(guān)度值,和垃圾郵件集合中的每一文檔向量的相關(guān)度值,接著分別選擇正常郵件集合和垃圾郵件集合所有相關(guān)度值中最大的前r個(gè)值,分別計(jì)算最大的 前r個(gè)值的數(shù)學(xué)期望,分別得到各自的數(shù)學(xué)期望值之后再比較大小。如果最大值屬于正常郵 件結(jié)合的最大值,那么就表示待判斷的郵件與正常郵件集合中的最大值所代表的郵件語(yǔ)義上 更加相似。如果最大值屬于垃圾郵件集合中的最大值,那么表示待判斷的郵件與垃圾郵件集 合中的某一封郵件更加相似。
以上對(duì)本發(fā)明實(shí)施例自學(xué)習(xí)的基于潛在語(yǔ)義索引的垃圾郵件判斷、分類、過(guò)濾方法及系 統(tǒng)進(jìn)行了詳細(xì)介紹,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其思想;同時(shí),對(duì) 于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之 處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1、一種基于潛在語(yǔ)義索引的垃圾郵件判斷、分類、過(guò)濾方法及系統(tǒng),其特征在于,包括中文和英文分詞;詞語(yǔ)--文檔矩陣生成;權(quán)重計(jì)算;詞語(yǔ)文檔矩陣奇異值分解;語(yǔ)義空間更新;將文本郵件映射到潛在語(yǔ)義空間;語(yǔ)義空間中文檔向量之間的相似度計(jì)算;對(duì)待判斷的郵件進(jìn)行判斷、分類、過(guò)濾。
2、 如權(quán)利要求1所述的一種基于潛在語(yǔ)義索引的垃圾郵件判斷、分類、過(guò)濾方法, 其特征在于,所述中英文分詞包括英文郵件分詞根據(jù)郵件內(nèi)容中英文單詞之間的空格或 空格來(lái)分,分成一個(gè)一個(gè)的單詞后,并且過(guò)濾掉一些沒(méi)有意義的詞語(yǔ),保存到一個(gè)hash鏈 表中。將中文郵件體的內(nèi)容進(jìn)行一些預(yù)處理,去掉一些沒(méi)有用的詞語(yǔ)。將中文文本郵件內(nèi) 容提取出來(lái),先進(jìn)行分句處理,再進(jìn)行分詞處理。
3、 如權(quán)利要求1所述的一種基于潛在語(yǔ)義索引的垃圾郵件判斷、分類、過(guò)濾方法, 其特征在于,所述詞語(yǔ)一文檔矩陣包括收集到的文本郵件訓(xùn)練集合中的所有出現(xiàn)的詞語(yǔ) 對(duì)應(yīng)Termi,文檔郵件集中的每一份郵件對(duì)應(yīng)doCj,這樣就生成了詞語(yǔ)一文檔矩陣。
4、 如權(quán)利要求1所述的一種基于潛在語(yǔ)義索引的垃圾郵件判斷、分類、過(guò)濾方法, 所述詞語(yǔ)一文檔矩陣添加權(quán)重包括詞語(yǔ)局部權(quán)重(LW(i, j));詞語(yǔ)全局權(quán)重GWT(i);文檔 全局權(quán)重GWD(j);三種權(quán)重計(jì)算公式相乘作為詞語(yǔ)的總的權(quán)重。
5、 如權(quán)利要求1所述的一種基于潛在語(yǔ)義索引的垃圾郵件判斷、分類、過(guò)濾方法, 所述對(duì)加權(quán)重后的詞語(yǔ)一文檔矩陣做奇異值分解包括經(jīng)過(guò)奇異值分解方法(SVD)處理后,可以把矩陣(Dd^;T和對(duì)角矩陣5^"的乘積生成新的矩陣的行視為代表文檔的向量,即文 檔空間。同樣把矩陣;r^和對(duì)角矩陣5^"的乘積生成新的矩陣的列視為代表詞語(yǔ)的向量,即詞語(yǔ)空間。通常把上述文檔空間、詞語(yǔ)空間統(tǒng)稱為潛在語(yǔ)義空間(LSA Space)。
6、 如權(quán)利要求1所述的一種基于潛在語(yǔ)義索引的垃圾郵件判斷、分類、過(guò)濾方法, 所述潛在語(yǔ)義空間的更新方法包括利用數(shù)學(xué)條件分布公式,可以在之前訓(xùn)練集合中已經(jīng) 生成的潛在語(yǔ)義空間的基礎(chǔ)上生成新的潛在語(yǔ)義空間,實(shí)現(xiàn)語(yǔ)義空間的實(shí)時(shí)、快速、準(zhǔn)確 更新。
7、 如權(quán)利要求1所述的一種基于潛在語(yǔ)義索引的垃圾郵件判斷、分類、過(guò)濾方法, 所述將文本郵件映射到潛在語(yǔ)義空間包括使未參與SVD的文檔能以低維向量的表現(xiàn)形式 參與與其它文檔的相關(guān)度對(duì)比;潛在語(yǔ)義空間中的文本郵件的語(yǔ)義是通過(guò)它與同一潛在予以空間中的其它文本郵件文檔之間的相關(guān)性呈現(xiàn)出來(lái)的;利用余弦相關(guān)度的計(jì)算公式計(jì)算 郵件文檔之間的相關(guān)度。
8、如權(quán)利要求1所述的一種基于潛在語(yǔ)義索引的垃圾郵件判斷、分類、過(guò)濾方法, 所述對(duì)待判斷的郵件進(jìn)行判斷、分類、過(guò)濾包括選取正常郵件和垃圾郵件文本相關(guān)度之 中最大的一個(gè),待判斷的郵件與正常郵件的相關(guān)度大,就表明待判斷的郵件更像是正常郵 件;與垃圾郵件的相關(guān)度大,就表明待判斷的郵件更像是垃圾郵件。選取正常郵件和垃圾 郵件文本相關(guān)度之中最大的前r個(gè)最大值。分別計(jì)算正常郵件相關(guān)度和垃圾郵件相關(guān)度最大 值之間的數(shù)學(xué)期望,得到數(shù)學(xué)期望值,根據(jù)數(shù)學(xué)期望值來(lái)判斷待判斷的郵件是正常郵件還 是垃圾郵件。
全文摘要
本發(fā)明涉及文本處理技術(shù)領(lǐng)域,尤其是一種垃圾郵件的判斷、分類、過(guò)濾方法及系統(tǒng)。此系統(tǒng)分成兩個(gè)子系統(tǒng),包括潛在語(yǔ)義空間生成子系統(tǒng)和郵件判斷、分類、過(guò)濾子系統(tǒng)。其中潛在語(yǔ)義空間子系統(tǒng)包括中文和英文分詞模塊;詞語(yǔ)文檔矩陣生成模塊、權(quán)重計(jì)算模塊、詞語(yǔ)文檔矩陣奇異值分解模塊、語(yǔ)義空間更新模塊。郵件判斷、分類、過(guò)濾子系統(tǒng)的包括待判斷的郵件中文和英文分詞模塊、將文本郵件映射到潛在語(yǔ)義空間、語(yǔ)義空間中文檔向量之間的相似度計(jì)算、根據(jù)相似度判斷、分類、過(guò)濾郵件。使用本發(fā)明提供的實(shí)施例可以對(duì)垃圾郵件進(jìn)行判斷,從而過(guò)濾垃圾郵件,并且能夠快速、高效的過(guò)濾垃圾郵件。
文檔編號(hào)H04L12/58GK101594313SQ20081004448
公開(kāi)日2009年12月2日 申請(qǐng)日期2008年5月30日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者何興高, 黨建軍, 偉 劉, 周俊怡, 曾志華, 程紅蓉 申請(qǐng)人:電子科技大學(xué)