專利名稱:過濾非訓練語言的內容中的貝葉斯擔保校驗以減少假陽性的制作方法
技術領域:
本發(fā)明通常涉及電子內容的貝葉斯過濾,并更具體地涉及當處理以非訓 練語言記載的電郵時,在貝葉斯垃圾電郵過濾中使用擔保校驗以減少假陽 性。
背景技術:
當前統(tǒng)計垃圾電郵的檢測技術主要依靠在分類電子信息時尋找已知詞 匯的能力。垃圾電郵的發(fā)布者已意識到這一點,并經(jīng)常在他們的信息中包
括無意義(nonsense)的詞匯。使用無意義的詞匯以欺騙垃圾檢測采取兩種 主要形式。第一種是向電郵中插入少量(例如, 一或二個)的無意義詞匯。 這用于阻礙單個信息的復制備份(發(fā)送到一個因特網(wǎng)服務運營商的許多用 戶)的簡單哈希檢測。通過將不同的無意義詞匯插入信息的每個備份,簡 單哈希檢測程序不能確定該信息是復制的。這種無意義的詞匯插入的形式 稱為"哈希破壞法"。第二種形式由向電郵中插入更多的無意義詞匯所組成。 該詞匯作為組合造成整體信息的誤分類。
垃圾電郵分類引擎基于諸如貝葉斯分析的各種統(tǒng)計技術來分析電郵信 息的內容并試圖確定哪些郵件是垃圾。貝葉斯垃圾過濾是基于出現(xiàn)在垃圾 或合法電郵中的具體詞匯的已建立的概率。例如,上述的無意義詞匯以及 諸如"偉哥(Viagra)"、"再籌款(Refinance)"、"抵押(Mortgage)"等的
特定詞匯頻繁出現(xiàn)在垃圾中,而很少或不常出現(xiàn)在合法電郵中。因此,這 些術語的出現(xiàn)增加了電郵成為垃圾的概率。貝葉斯垃圾分類引擎對這些概 率沒有原有的知識,而相反通過由電郵信息集合訓練而建立這些概率。
當使用諸如貝葉斯法的統(tǒng)計方法分類文檔時,分類輸出的可靠性只和輸 入一樣(output is as good as i叩ut)。這在統(tǒng)計分類器遇到以該分類器沒有受
訓的語言記載的信息時(例如,當以英語受訓的分類器試圖分類德文文檔 時),就產(chǎn)生了問題。更具體地,與無意義詞匯相反或除了無意義詞匯以外, 垃圾郵件發(fā)布者在垃圾電郵中插入外語詞匯或短語已變得很普遍。這經(jīng)常
導致某些常用的外語詞匯(例如,"el"、 "los"、 "der"、 "die"、 "und"等)被
分類引擎分類為與垃圾電郵相關。因為這些詞匯出現(xiàn)在許多垃圾電郵中但 實際上不出現(xiàn)在以英語寫成的合法電郵中,用英語數(shù)據(jù)集訓練的貝葉斯分 類引擎將把它們在電郵信息中的出現(xiàn)解釋為包括垃圾的信息的強烈指示。
過去,已提出兩種不同方式用于非訓練語言中的內容的問題。 一種方法 是使用能確定文檔語言的二級分類器。對貝葉斯垃圾過濾器的輸入隨后被 限制為以其已經(jīng)被訓練的語言記載的內容。第二種方法是使貝葉斯過濾器 嘗試分類每個文檔而不論語言。
第一種方法在金錢和計算效率上都是昂貴的。為了通過語言分類每個文 檔,必須注冊或構建昂貴的語言分類引擎以僅僅確定垃圾引擎是否應監(jiān)視 輸入的信息。而且,用其他引擎分類每個輸入的電郵是耗時的,并減慢垃 圾過濾處理。
在垃圾的范圍中,當過濾以貝葉斯過濾器沒有受訓的語言記載的電郵 時,第二種方法通常導致極高的假陽性率。如上所指出,以未訓練的外語 記載的非常常用的詞匯可能在垃圾的訓練數(shù)據(jù)中很普遍。例如,當用英語 記載的電郵集訓練時,類似"und"和"der"的詞匯經(jīng)常出現(xiàn)在垃圾中并幾乎不 出現(xiàn)在合法電郵中。然而,當處理德文電郵時,這些詞匯幾乎出現(xiàn)在無論 是垃圾或合法的每個信息中。因此,以英語而不是德語訓練的分類器會將 所有或大多數(shù)德文電郵分類為垃圾。
當處理以貝葉斯過濾器沒有受訓的語言記載的內容時,期望能不必須使 用能確定文檔語言的昂貴的二級分類器而避免該過量的假陽性率。
特殊處理允許極大地改進以外語記載的電郵信息的貝葉斯垃圾過濾。貝 葉斯垃圾過濾器確定輸入的電郵信息中由訓練知道的內容量。如果過濾器 了解該內容的閾值量,則過濾器將該將電郵信息進行分類為垃圾或合法。 另一方面,如果過濾器經(jīng)訓練所知道的電郵中的詞匯不夠,則過濾器不能
準確確定該信息是否是垃圾。當電郵信息是以過濾器沒有被訓練的語言寫 成時通常是這一情形。對該情形,分類器分類該信息為類型未知。按需要 可以使用不同的閾值矩陣,諸如已知電郵中詞匯的百分比,以及在電郵的 貝葉斯處理中使用的最大校正值的百分比。
在該概述和如下詳細說明中記載的特點和優(yōu)點并非包括一切,并尤其 是,許多其他特點和優(yōu)點通過附圖、說明書、和其權利要求對于本領域技 術人員將變的顯而易見。而且,應該注意,說明書中使用的語言主要用于 可讀性和指導目的,并不用于勾畫或限制發(fā)明的主題,權利要求用于確定 該發(fā)明的主題。
附圖的簡要說明
圖1是框圖,說明根據(jù)本發(fā)明的一些實施例的系統(tǒng),其中當處理以非訓 練語言記載的電郵時,在貝葉斯垃圾電郵過濾中使用擔保校驗以減少假陽 性。
本圖描繪本發(fā)明的實施例只用于說明。本領域技術人員將從如下討論中 輕易理解到,可以使用本文說明的結構和方法的其他實施例而不不背離本 文所述的發(fā)明的原理。
詳細說明
圖1說明根據(jù)本發(fā)明的一些實施例的系統(tǒng)ioo,其中當處理以非訓練語
言記載的電郵時,在貝葉斯垃圾電郵過濾中使用擔保校驗105以減少假陽 性。應該理解,雖然圖1所示的各種組件為單獨實體,每個所示組件表示 能以軟件、硬件、固件或這些的任何組合實施的功能體的組合。組件以軟 件實施時,其可以以孤立程序實施,但也可以以其他方式實施,例如作為 較大程序的一部分、作為多個單獨程序、作為內核可加載模塊、作為一個 或多個設備驅動或作為一個或多個靜止或動態(tài)鏈接庫。
如圖1所示,貝葉斯垃圾過濾器101接收輸入的電郵信息103。標準貝 葉斯垃圾過濾器101的實施機制對本領域技術人員是已知的,并在本發(fā)明 的范圍內其用法對于該技術水平的人員根據(jù)本說明書是很明顯的。在使用 貝葉斯法以瀏覽輸入電郵103時,貝葉斯垃圾過濾器101分析這些電郵信息103的內容。除了標準貝葉斯處理,貝葉斯垃圾過濾器101對輸入的電
郵103執(zhí)行擔保校驗105。本文的擔保校驗105指分析以確定是否已知大于 閾值107量的內容。例如,為了對輸入電郵信息103執(zhí)行擔保校驗105,貝 葉斯垃圾過濾器101根據(jù)對其訓練的數(shù)據(jù),分析電郵信息103的內容,并 確定其中哪些詞匯是貝葉斯垃圾過濾器101已知的。換而言之,如果貝葉 斯垃圾過濾器101在訓練期間遇到特定詞匯并且該詞匯與分類概率相關, 則該詞匯是已知的。如果貝葉斯垃圾過濾器101在訓練期間沒有遇到詞匯 從而不與設定的概率相關,則該詞匯是未知的。如下文的更詳細描述,電 郵103中未知內容的量幫助貝葉斯垃圾過濾器101分類電郵103。
更具體地,如果大于閾值107量的電郵內容103是未知的,貝葉斯垃圾 過濾器101分類該文檔為未知106類型。換而言之,由于太多內容對于過 濾器101是未知的,所以不能可靠地將電郵103分類為垃圾102或合法104。 因為過濾器101沒有對電郵103中的足夠詞匯受訓,不能根據(jù)它知道的詞 匯的概率數(shù)據(jù)對于電郵103的特性得出可靠的結論。另一方面,如果貝葉 斯垃圾過濾器101確定少于閾值107量的電郵103的內容是已知的,則過 濾器101有足夠信息以執(zhí)行文檔的標準貝葉斯概率分類。
例如,如果貝葉斯垃圾過濾器101已對英語電郵集而不是德語電郵集受 訓,由于大多數(shù)德語詞匯對于過濾器101是未知的,過濾器101將錯誤地 將所有或大多數(shù)德語電郵103分類為垃圾102,但一些常用的德語詞匯(例 如,定冠詞和常用連詞)與垃圾102的高概率相關,因為它們在英語訓練 數(shù)據(jù)中只出現(xiàn)在垃圾102中。擔保校驗105將表征這樣的事實過濾器101 不知道德語電郵中的大多數(shù)詞匯,并因此過濾器不能得出該電郵不是包括 垃圾102而是包括未知內容的結論。另一方面,包含一些德語詞匯的英語 垃圾102將被標記為垃圾102,因為過濾器101知道電郵103中的大多數(shù)(英 語)詞匯,并因此實質分類該電郵103。
可以根據(jù)本發(fā)明的不同實施例進行不同形式的擔保校驗105。在一個實 施例中,過濾器101僅計算由貝葉斯過濾訓練已知的輸入電郵信息103中 的詞匯的概率。在該實施例中,過濾器101只在所需的內容量是已知時才 進行實質分類電郵103。當然應該理解,使用的閾值107是變量設計參數(shù)。 在一個實施例中,85%用作已知詞匯閾值107,而在其他實施例中使用其他
值(例如,80%, 90%, 95%等)。
在一些實施例中,用于電郵信息103的擔保校驗105是在電郵信息103 的貝葉斯過濾期間使用的最大校正值111的百分比。為了 一般了解校正并具 體了解最大校正,首先注意在貝葉斯過濾中,過濾器101對在訓練中沒有 遇到的詞匯使用特別的概率值。在沒有調整的情況下,電郵103中出現(xiàn)一 個或多個訓練中沒有遇到的詞匯會不恰當?shù)赜绊戨娻]101的貝葉斯分類。 為此,貝葉斯處理可以對該詞匯使用默認概率。該默認概率用在本發(fā)明的 許多實施例中,包括但不限于使用用作擔保校驗105的最大校正111的百分 比。
在貝葉斯處理中對訓練中沒有遇到的詞匯使用的默認概率在本文中被 稱為零計數(shù)109。零計數(shù)109可以在本發(fā)明的不同實施例中按照需要以不同 方式計算。在一個實施例中,根據(jù)下面表1中的公式計算零計數(shù)109,其中 總詞匯表示來自訓練集的詞匯數(shù)
表1:
<formula>formula see original document page 10</formula>
現(xiàn)在繼續(xù)解釋校正,注意一般在貝葉斯分類中,當分類詞匯集(例如, 電郵103中的詞匯)時,通過為該集中每個詞匯計算P (類別l詞匯)的總 和向每個類別(例如,垃圾102和合法電郵104)給出原始分數(shù)(即,假定 出現(xiàn)詞匯時,文檔是該類別的概率)。在該步驟中,也能計算誤差(校正) 值113,該值可以用于避免單個詞匯超過(overpower)文檔(例如,電郵 信息103)中的其他詞匯。該校正值用在本發(fā)明的許多實施例中。
校正值113可以按需要以不同形式計算。在本發(fā)明的一些實施例中,根 據(jù)下表2中的數(shù)學計算校正值
表2:CC=類別數(shù) 詞匯數(shù)
原始分數(shù)=^ F (類別間匯s ) 計數(shù)j
校正值=Z (max( f (類別。k B I詞匯j》—ln( CC))計數(shù)2
現(xiàn)在繼續(xù)討論最大校正,在一些實施例中,貝葉斯過濾器101計算對于 給定的電郵信息103能發(fā)生的最大可能校正111。它能按需以不同形式計算。 在本發(fā)明的一些實施例中,根據(jù)下表3中的公式計算用于電郵信息103的 最大校正值111:
表3:
最大校正=零計數(shù)/2*電郵中的詞匯
最后,通過將校正113 (例如,如根據(jù)表2計算的)除以最大校正lll (例如,根據(jù)表3計算的)然后可以計算實際使用的最大校正的量115。該 結果115在本發(fā)明的-些實施例中的擔保校驗105中用作閾值107矩陣。 當然,要使用的具體閾值107是變量設計參數(shù)。在一些實施例中,如果所 用的校正115大于最大的95%,過濾器101調整電郵為類型未知106。其他 閾值107值也是可能的(例如,>98%,〉卯%等)。
在本發(fā)明的一些實施例中,由過濾器101檢查多個閾值107矩陣。例如, 在一個實施例中,貝葉斯過濾器101只有當a)電郵中小于15%的詞匯是已 知的以及b)貝葉斯過濾器101對電郵103使用的校正115大于最大校正111 的95%才調整電郵為類型未知106。按需要在其他實施例中使用其他特定閾 值107值和矩陣。
擔保校驗105的應用在貝葉斯垃圾過濾器101的范圍內運行良好。它也 很快適應在部署點執(zhí)行的其他訓練,從而允許發(fā)布者在僅對英語電郵信息 103訓練之后就裝載(ship)反垃圾產(chǎn)品。當產(chǎn)品在基于非訓練語言的環(huán)境 中使用時,貝葉斯過濾器101迅速對該語言(例如,借助接收(inbound) 信息103的自動發(fā)送(outbound)訓練和再分類)受訓,并因此擔保校驗 105不再宣布以那些語言寫成的郵件為類型未知106。
本發(fā)明也允許反垃圾方法在沒有訓練數(shù)據(jù)的區(qū)域中快速配置。此外,本
發(fā)明使得反垃圾軟件的發(fā)布者通過不注冊昂貴語言分類引擎而僅以確定垃 圾引擎是否應監(jiān)視信息103而節(jié)省金錢。
也應進一步理解,雖然本說明書已討論將電郵信息103分類為垃圾102、 合法104或未知106,本發(fā)明并不受限于此。雖然垃圾分類對本發(fā)明具有很 大用處,其也能用在將任何文檔類型貝葉斯分類為任何數(shù)量的合適類別的 范圍內。
如本領域技術人員所理解的,在不背離其精神或實質特性的情況下本發(fā) 明可體現(xiàn)為其他特定形式。類似地,部分、模塊、引擎(agent)、管理器、 組件、函數(shù)、過程、操作、層、特性、屬性、方法以及其他方面的特定命 令和劃分不是強制的或有影響的,并且實施本發(fā)明或其特性的機制可具有 不同的名稱、劃分和/或格式。此外,對本領域技術人員明顯的是,本發(fā)明 的部分、模塊、引擎、管理器、組件、函數(shù)、過程、操作、層、特性、屬 性、方法和其他方面可以實施為軟件、硬件、固件或這三類的任意組合。 當然,在本發(fā)明的組件實施為軟件時,該組件可以實施為腳本、孤立程序、 較大程序的一部分、多個獨立腳本和/或程序、靜止或動態(tài)的鏈接庫、內核 可加載模塊、設備驅動、和/或現(xiàn)在或將來對計算機編程領域的技術人員所 公知的每種以及任何其他形式。此外,本發(fā)明并不限于任何特定的編程語 言、或任何特定的操作系統(tǒng)或環(huán)境。而且,對相關領域技術人員明顯的是, 在本發(fā)明整體或部分實施為軟件時,其軟件組件可以作為計算機程序產(chǎn)品 存儲在計算機可讀介質上。任何形式的計算機可讀介質都能用于此,例如 磁性或光學存儲介質。此外,可以在任何可編程計算設備的內存中例示本 發(fā)明的軟件部分(例如,作為對象編碼或可執(zhí)行圖像)。因此,本發(fā)明的說 明書意圖用于說明而非限制在隨后的權利要求書中提出的本發(fā)明的范圍。
權利要求
1.一種用于在貝葉斯過濾中減少假分類的計算機實施的方法,所述方法包括如下步驟在貝葉斯過濾的范圍中,分析至少一個要被分類的文檔的內容;確定所述至少一個文檔中是否已知大于閾值量的內容;以及響應所述確定的結果來分類所述文檔。
2、 根據(jù)權利要求1所述的方法,其中所述響應所述確定的結果來分類所述文檔進一步包括執(zhí)行來自下述步驟組的步驟,包括響應大于閾值量的文檔內容是未知的確定,分類所述文檔為未知類型;以及響應少于閾值量的文檔內容是未知的確定,根據(jù)標準貝葉斯過濾的結果分類 所述文檔。
3、 根據(jù)權利要求1所述的方法,其中所述確定所述至少一個文檔中是否大 于閾值量的內容是已知的進一步包括執(zhí)行來自下述步驟組的至少一個步驟,所述步驟組包括確定至少一個文檔中由貝葉斯過濾訓練已知的詞匯的百分比;以及 確定在至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比。
4、 根據(jù)權利要求3所述的方法,其中所述確定在至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比進一步包括作為至少一個文檔中零計數(shù)值和若干詞匯的變量計算至少一個文檔的最大校正值;以及作為至少一個文檔的貝葉斯過濾中使用的校正值和至少一個文檔的最大校 正值的變量計算至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比。
5、 根據(jù)權利要求4所述的方法,其中所述零計數(shù)值進一步包括貝葉斯過濾中對貝葉斯訓練中沒有遇到的詞匯所使用的特定值,該方法進一步包括以訓練數(shù)據(jù)集中的詞匯數(shù)與常數(shù)的乘積被一除后的自然對數(shù)計算零計數(shù)值。
6、 根據(jù)權利要求4所述的方法,其中所述在至少一個文檔的貝葉斯過濾中 使用的校正值進一步包括特定值,經(jīng)計算以避免任何單個詞匯不適當?shù)赜绊懼辽僖粋€文檔的分類。
7、 根據(jù)權利要求1所述的方法,其中所述至少一個文檔包括至少一個電郵 信息,以及貝葉斯過濾分類所述至少一個電郵信息為歸屬于下述類別組的單個類 別,該類別組包括 垃圾;合法電郵;以及 未知。
8、 至少一個計算禾幾可讀介質,其含有用于減少貝葉斯過濾中的假分類計算 機程序產(chǎn)品,所述計算機程序產(chǎn)品包括程序代碼,用于在貝葉斯過濾的范圍內,分析至少一個要被分類的文檔的內容;程序代碼,用于確定至少一個文檔中是否大于閾值量的內容是已知的;以及 程序代碼,用于響應所述確定的結果來分類所述文檔。
9、 根據(jù)權利要求8所述的計算機程序產(chǎn)品,其中所述用于響應所述確定的 結果來分類文檔的程序編碼進一步包括用于執(zhí)行下述步驟組的步驟的程序編碼, 所述步驟組包括響應大于閾值量的文檔內容是未知的確定,分類文檔為未知類型;以及 響應少于閾值量的文檔內容是未知的確定,根據(jù)標準貝葉斯過濾的結果分類 所述文檔。
10、 根據(jù)權利要求8所述的計算機程序產(chǎn)品,其中所述用于確定至少一個文 檔中是否超過閾值量的內容是已知的程序編碼進一步包括執(zhí)行下述步驟組的至 少一個步驟的程序編碼,所述步驟組包括-確定至少一個文檔中由貝葉斯過濾訓練已知的詞匯的百分比;以及 確定在至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比。
11、 根據(jù)權利要求IO所述的計算機程序產(chǎn)品,其中所述用于確定在至少一 個文檔的貝葉斯過濾中使用的最大校正值的百分比的程序編碼進一步包括程序編碼,用于計算作為至少一個文檔中零計數(shù)值和若干詞匯的變量的至少 一個文檔的最大校正值;以及程序編碼,用于計算作為至少一個文檔的貝葉斯過濾中使用的校正值和至少 一個文檔的最大校正值的變量的至少一個文檔的貝葉斯過濾中使用的最大校正 值的百分比。
12、 根據(jù)權利要求11所述的計算機程序產(chǎn)品,其中所述零計數(shù)值進一步包 括貝葉斯過濾中對貝葉斯訓練中沒有遇到的詞匯使用的特定值,該方法進一步包 括用于計算零計數(shù)值的程序編碼,所述零計數(shù)值是訓練數(shù)據(jù)集中的詞匯數(shù)與常 數(shù)的乘積被一除后的自然對數(shù)。
13、 根據(jù)權利要求11所述的計算機程序產(chǎn)品,其中所述在至少一個文檔的 貝葉斯過濾中使用的校正值進一步包括特定值,經(jīng)計算以避免任何單個詞匯不適當?shù)赜绊懼辽僖粋€文檔的分類。
14、 根據(jù)權利要求8所述的計算機程序產(chǎn)品,進一步包括程序編碼,用于將 至少一個電郵信息分類為歸屬于下述類別組的單個類別,該類別組包括垃圾;合法電郵;以及未知。
15、 一種在貝葉斯過濾中減少假分類的計算機系統(tǒng),所述計算機系統(tǒng)包括 方法,在貝葉斯過濾的范圍中,分析至少一個要被分類的文檔的內容; 方法,用于確定至少一個文檔中是否超過閾值量的內容是已知的;以及 方法,用于響應所述確定的結果來分類文檔。
16、 根據(jù)權利要求15所述的計算機系統(tǒng),其中所述響應所述確定的結果來分類文檔的方法進一步包括執(zhí)行下述步驟組的步驟的方法,所述步驟組包括響應超過閾值量的文檔內容是未知的確定,分類文檔為未知類型;以及 響應少于閾值量的文檔內容是未知的確定,根據(jù)標準貝葉斯過濾的結果分類 所述文檔。
17、 根據(jù)權利要求15所述的計算機系統(tǒng),其中所述用于確定至少一個文檔 中是否超過閾值量的內容是已知的方法進一步包括執(zhí)行下述步驟組的至少一個 步驟的方法,該步驟組包括確定至少一個文檔中由貝葉斯過濾訓練已知的詞匯的百分比;以及 確定在至少一個文檔的貝葉斯過濾中使用的最大校正值的百分比。
18、 根據(jù)權利要求17所述的計算機系統(tǒng),其中所述用于確定在至少一個文 檔的貝葉斯過濾中使用的最大校正值的百分比的方法進一步包括用于計算作為至少一個文檔中零計數(shù)值和若干詞匯的變量的至少一個文檔 的最大校正值的方法;以及 用于計算作為至少一個文檔的貝葉斯過濾中使用的校正值和至少一個文檔 的最大校正值的變量的至少一個文檔的貝葉斯過濾中使用的最大校正值的百分 比的方法。 '
19、 根據(jù)權利要求18所述的計算機系統(tǒng),其中所述零計數(shù)值進一步包括貝 葉斯過濾中對于貝葉斯訓練中沒有遇到的詞匯使用的特定值,該方法進一步包括用于計算零計數(shù)值的方法,所述零計數(shù)值是訓練數(shù)據(jù)集中的詞匯數(shù)與常數(shù)的 乘積被一除后的自然對數(shù)。
20、 根據(jù)權利要求15所述的計算機系統(tǒng),進一步包括用于分類至少一個電郵信息為歸屬于下述類別組的單個類別的方法,所述類別組包括 垃圾;合法電郵;以及 未知。
全文摘要
一種貝葉斯垃圾過濾器,確定由訓練知道的輸入電郵信息中的內容量。如果過濾器熟悉閾值量的內容,則過濾器處理以分類電郵信息為垃圾或合法。另一方面,如果過濾器經(jīng)訓練沒有知道電郵中的足夠詞匯,則過濾器不能準確確定信息是否是垃圾。對該情形,過濾器分類該信息為未知類型??梢允褂貌煌拈撝稻仃嚕T如已知詞匯的百分比和在處理中使用的最大校正值的百分比。這極大的改進了對以過濾器未被訓練的語言記載的電郵的處理。
文檔編號G06Q10/00GK101374122SQ200810135499
公開日2009年2月25日 申請日期2008年8月12日 優(yōu)先權日2007年8月24日
發(fā)明者肖恩·庫利 申請人:賽門鐵克公司