两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

電子信息比較系統(tǒng)和方法以及反垃圾郵件系統(tǒng)的制作方法

文檔序號:7956853閱讀:254來源:國知局
專利名稱:電子信息比較系統(tǒng)和方法以及反垃圾郵件系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,更具體地說,涉及一種電子信息比較系統(tǒng)和方法以及反垃圾郵件系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的人開始使用電子郵件進(jìn)行相互通信。隨之而來也出現(xiàn)了大量的垃圾郵件(例如惡意騷擾郵件和廣告郵件等)充斥使用者的電子郵箱,造成了使用者使用的不便。
垃圾郵件的一個重要特征就是發(fā)送大量的雷同郵件。雖然垃圾郵件發(fā)送者正逐步改變發(fā)送的策略,并改變發(fā)送郵件的內(nèi)容格式等細(xì)節(jié),但大量而且雷同的特征仍然無法改變。這樣垃圾郵件識別已經(jīng)越來越依賴于對大量具有相似內(nèi)容郵件的快速識別。同時在識別相似內(nèi)容郵件時,效率是該類技術(shù)的一個重要考慮點,尤其是應(yīng)用在大型郵件服務(wù)器上的反垃圾郵件系統(tǒng)。
基于MD5校驗的郵件比較技術(shù)是目前使用較多的反垃圾郵件方案。該方案通過將任意長度的數(shù)據(jù)字符串執(zhí)行散列運算,轉(zhuǎn)化成短的固定長度的值。由于任意兩個不同字符串的MD5值不相同,因此可通過比較兩個字符串的MD5值來判斷兩個字符串是相同。
然而目前的基于MD5校驗方法雖然快速,但其還具有致命的缺點如果郵件內(nèi)容非嚴(yán)格相同,出現(xiàn)任何變化時都會導(dǎo)致MD5值的不同,從而影響判斷結(jié)果。因為MD5值相同是識別相同內(nèi)容郵件的前提,只要垃圾郵件發(fā)送者稍微改變郵件內(nèi)容,就可避開MD5校驗。而繞過MD5校驗已經(jīng)是垃圾郵件發(fā)送者可輕易解決的問題。
此外還有采用一般的字符串/文本相似性方法來判斷郵件相似性。這類方法往往使用編輯距離,即計算從原串(s)轉(zhuǎn)換到目標(biāo)串(t)所需要的最少的插入、刪除和替換的數(shù)目來判斷相似性,其在NLP(自然語言處理)中應(yīng)用比較廣泛,同時也常用來計算對原文本所作的改動數(shù)。然而這種方法往往需要遞歸實現(xiàn),雖然對于短字符串快速而有效,但對于大量的郵件正文來說,運算代價過高。
此外,隨著電子信息的增加,越來越多的地方需要對兩段電子信息進(jìn)行比較,從而判斷兩段電子信息的相似性。例如搜索引擎中需將相似內(nèi)容的網(wǎng)頁合并以減少搜索結(jié)果,即時通信工具或聊天室為防止刷屏而屏蔽相同內(nèi)容等。在這些應(yīng)用中現(xiàn)有的比較方法普遍存在判斷準(zhǔn)確性不高或判斷效率較低的問題。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,針對的上述現(xiàn)有電子信息比較技術(shù)中效率較低或準(zhǔn)確性不高的缺陷,提供一種電子文本比較方法和系統(tǒng)。
本發(fā)明還針對現(xiàn)有反垃圾郵件系統(tǒng)執(zhí)行效率較低和準(zhǔn)確率不高的問題,提供一種新的反垃圾郵件系統(tǒng)。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是構(gòu)造一種電子文本比較方法,包括以下步驟(a)將第一電子文本段和第二電子文本段分別按照相同的轉(zhuǎn)換規(guī)則轉(zhuǎn)換為第一矩陣和第二矩陣,所述第一矩陣和第二矩陣具有相同的尺寸;(b)依次比較所述第一矩陣和第二矩陣的相同位置的元素并根據(jù)比較結(jié)果使用指定比較函數(shù)計算相似系數(shù);(c)根據(jù)所述相似系數(shù)判斷所述第一電子文本和第二電子文本是否相似,若所述相似系數(shù)大于指定閾值則表示第一電子數(shù)據(jù)段與第二電子數(shù)據(jù)段相似。
在本發(fā)明所述的電子文本比較方法中,所述步驟(a)中將電子文本段轉(zhuǎn)換為矩陣包括以下步驟(a1)將所述電子文本段解碼為字串,所述字串根據(jù)原電子文本的結(jié)構(gòu)劃分為一個或多個段;(a2)將所述各段字串轉(zhuǎn)化為整數(shù)值序列,所述整數(shù)的數(shù)值范圍為0-256;(a3)將整數(shù)值后指定窗口范圍內(nèi)各個整數(shù)值出現(xiàn)的次數(shù)依次作為矩陣的元素,并依次對所述整數(shù)值序列中的每一整數(shù)值進(jìn)行操作組成矩陣。
在本發(fā)明所述的電子文本比較方法中,所述步驟(a3)中的指定窗口大小為10-20。
在本發(fā)明所述的電子文本比較方法中,所述步驟(b)包括以下步驟(b1)順序遍歷所述第一矩陣和第二矩陣并比較矩陣中處于相同位置的元素,并將相同位置元素值匹配的總數(shù)量記為M、將相同位置元素值不匹配的總數(shù)量記錄為D;(b2)計算相似系數(shù)S=M/(D+M)S1/S2;]]>其中S1和S2分別為第一矩陣和第二矩陣的正文長度或者為第一矩陣和第二矩陣中大于零的元素的個數(shù),且S1>S2。
在本發(fā)明所述的電子文本比較方法中,在所述步驟(b1)中進(jìn)行匹配統(tǒng)計時,將所述第一矩陣和第二矩陣對應(yīng)位置第一和第二元素的值都不為零且第一元素和第二元素的比值介于統(tǒng)計值和統(tǒng)計值的倒數(shù)之間時將該位置統(tǒng)計為匹配;否則統(tǒng)計為不匹配。
本發(fā)明還提供一種電子文本比較系統(tǒng),至少包括矩陣轉(zhuǎn)換模塊和矩陣比較模塊,所述矩陣轉(zhuǎn)換模塊用于按照轉(zhuǎn)換規(guī)則將電子文本段轉(zhuǎn)換為矩陣,所述矩陣比較模塊用于比較兩個矩陣的相同位置的元素并根據(jù)比較結(jié)果使用指定比較函數(shù)計算相似系數(shù)。
在本發(fā)明所述的電子文本比較系統(tǒng)中,所述矩陣轉(zhuǎn)換模塊包括有根據(jù)電子文本的結(jié)構(gòu)將所述電子文本段解碼為一個或多個字串段的解碼子模塊、將所述各段字串轉(zhuǎn)化為整數(shù)值序列的取整子模塊以及將所述整數(shù)值后指定窗口范圍內(nèi)各個整數(shù)值出現(xiàn)的次數(shù)依次作為矩陣的元素并依次對所述整數(shù)值序列中的每一整數(shù)值進(jìn)行操作組成矩陣的組陣子模塊。
在本發(fā)明所述的電子文本比較系統(tǒng)中,所述矩陣比較模塊包括有順序遍歷兩個待比較矩陣并比較矩陣中處于相同位置的元素并將相同位置元素值匹配的總數(shù)量記為M、將相同位置元素值不匹配的總數(shù)量記錄為D的統(tǒng)計子模塊和計算相似系數(shù)S的計算子模塊,S=M/(D+M)S1/S2;]]>其中S1和S2分別為所述待比較矩陣的正文長度或者為所述待比較矩陣中大于零的元素的個數(shù),且S1>S2。
本發(fā)明還提供一種反垃圾郵件系統(tǒng),包括有依次連接的矩陣轉(zhuǎn)換控制中心、并行處理單元、矩陣比較控制中心、垃圾郵件判定中心,所述矩陣轉(zhuǎn)換控制中心將大批量電子郵件并行轉(zhuǎn)移為多個轉(zhuǎn)移矩陣后,由所述并行處理單元進(jìn)行轉(zhuǎn)移矩陣的比較,并由所述矩陣比較控制中心統(tǒng)計整理出最終比較結(jié)論,所述垃圾郵件判定中心根據(jù)矩陣比較控制中心的最終比較結(jié)論判斷輸入矩陣對應(yīng)的電子郵件是否為垃圾郵件。
在本發(fā)明所述的反垃圾郵件系統(tǒng)中,所述并行處理單元包含多個服務(wù)器單元,每個服務(wù)器單元包含轉(zhuǎn)移矩陣數(shù)據(jù)模塊和比較模塊,其中所述轉(zhuǎn)移矩陣數(shù)據(jù)模塊用于實現(xiàn)基本的數(shù)據(jù)管理并存儲有一個或多個轉(zhuǎn)移矩陣,所述比較模塊用于實現(xiàn)對一個輸入的轉(zhuǎn)移矩陣和轉(zhuǎn)移矩陣數(shù)據(jù)模塊內(nèi)的所有矩陣的比較。
本發(fā)明的電子文本比較方法及系統(tǒng),通過比較電子文本的轉(zhuǎn)移矩陣來計算電子文本的相似性,不但能夠識別出內(nèi)容完全一致的電子文本,還能夠識別出插入了一定隨機字符的電子文本。本發(fā)明的反垃圾郵件系統(tǒng),通過識別電子郵件的相似性來識別垃圾郵件,識別的準(zhǔn)確率較高。


下面將結(jié)合附圖及實施例對本發(fā)明作進(jìn)一步說明,附圖中圖1是本發(fā)明電子文本比較系統(tǒng)的結(jié)構(gòu)示意圖;圖2是圖1中矩陣轉(zhuǎn)換模塊和矩陣比較模塊的結(jié)構(gòu)示意圖;圖3是本發(fā)明電子文本比較方法的流程圖;圖4是本發(fā)明反垃圾郵件系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式
如圖1所示,在本發(fā)明的電子文本比較系統(tǒng)中,包括有矩陣轉(zhuǎn)換模塊11和矩陣比較模塊12。其中矩陣轉(zhuǎn)換模塊11可以讀入電子文本段,在本實施例中,電子文本段可以是各種格式的文本數(shù)據(jù)以及數(shù)字?jǐn)?shù)據(jù)等。
矩陣轉(zhuǎn)換模塊11用于讀入電子文本,并將電子文本轉(zhuǎn)換為轉(zhuǎn)移矩陣。在本實施例中,矩陣轉(zhuǎn)換模塊11生成的轉(zhuǎn)移矩陣是一個最大尺寸為256x256的矩陣,而且這個矩陣為稀疏矩陣。矩陣轉(zhuǎn)換模塊11在進(jìn)行轉(zhuǎn)換時,不考慮電子文本的編碼格式和寬字符屬性,將每個字母均按照8比特(bit)對待,這樣電子文本的每個字符的整數(shù)取值范圍就是0-256,而后統(tǒng)計每一個字符和周圍其他字符同時出現(xiàn)的頻率(可以看作一個字母轉(zhuǎn)移到另一個字母的頻率,也就是轉(zhuǎn)移),這樣就得到一個最大256×256的轉(zhuǎn)移矩陣。在實際應(yīng)用中,無論多長的電子文本都可以轉(zhuǎn)化為這樣的轉(zhuǎn)移矩陣,這種規(guī)則的結(jié)構(gòu)特征也同時帶來了存儲/計算等方面的便利。
矩陣比較模塊12用于對任意兩個經(jīng)由矩陣轉(zhuǎn)換模塊11生成的轉(zhuǎn)移矩陣進(jìn)行比較,從而比較兩段對應(yīng)的電子文本的相似性。
如圖2所示,矩陣轉(zhuǎn)換模塊11包括有依次連接的解碼子模塊111、取整子模塊112以及組陣子模塊113。
解碼子模塊111根據(jù)讀入電子文本的結(jié)構(gòu)將電子文本段解碼為一個或多個字串段。其中電子文本中的二進(jìn)制部分根據(jù)需要做取舍,如圖像等文件僅保留文件名、WORD文件考慮轉(zhuǎn)換格式、HTML格式的去掉標(biāo)識(TAG)信息等,同時按照電子文本正文組織結(jié)構(gòu)劃分段塊,保留回車換行等信息。在實際應(yīng)用中,可根據(jù)具體的目標(biāo)決定是否保留二進(jìn)制部分作比較。
取整子模塊11用于將解碼子模塊111解碼所得的各段字串轉(zhuǎn)化為整數(shù)值序列,在轉(zhuǎn)化時不考慮編碼格式和寬字符屬性,均按照8比特(bit)對待,這樣轉(zhuǎn)化為整數(shù)值序列,數(shù)值范圍也就是0-256。例如“ABCDEFGB”被轉(zhuǎn)換為“65 66 67 68 69 70 71 66”。
組陣子模塊113將上述取整子模塊11獲得的整數(shù)值從作到右依次掃描,統(tǒng)計每一個整數(shù)值與其他字符在其后某窗口范圍(window)內(nèi)出現(xiàn)的次數(shù),作為轉(zhuǎn)移矩陣的元素。例如當(dāng)窗口為3的時候,表示只統(tǒng)計A(65)和其后緊隨的三個字符B(66)C(67)D(68)的出現(xiàn)次數(shù),一般采用A(65)=>B(66)C(67)D(68)表示。在本實施例中,窗口大小一般取10-20。當(dāng)窗口為10的時候依次統(tǒng)計可以得到類似下面的矩陣

這樣,用整數(shù)值作為轉(zhuǎn)移矩陣的X/Y軸,依次掃描所有字串,每個電子文本都可以獲得一個256×256的轉(zhuǎn)移矩陣。需要注意這個轉(zhuǎn)移矩陣大部分值為零(為稀疏矩陣)??捎胢atrix[x][y]=v表示上述矩陣的任意一個元素,則A其后出現(xiàn)2次B的情況就可以表示為x=65,y=66,matrix[65][66]=2。
矩陣比較模塊12包括有統(tǒng)計子模塊121和計算子模塊122。統(tǒng)計子模塊121順序遍歷兩個待比較矩陣并比較矩陣中處于相同位置的元素并將相同位置元素值匹配的總數(shù)量記為M、將相同位置元素值不匹配的總數(shù)量記錄為D。計算子模塊122用于根據(jù)統(tǒng)計子模塊121的統(tǒng)計結(jié)果,計算相似系數(shù)SS=M/(D+M)S1/S2;]]>其中S1和S2分別為所述待比較矩陣的正文長度或者為所述待比較矩陣中大于零的元素的個數(shù),且S1>S2。
如圖3所示,是本發(fā)明電子文本比較方法的流程圖。其包括以下步驟步驟S31首先將需要比較的第一電子文本段和第二電子文本段分別按照相同的轉(zhuǎn)換規(guī)則轉(zhuǎn)換為第一矩陣和第二矩陣,所述第一矩陣和第二矩陣具有相同的尺寸。在該步驟中進(jìn)行矩陣轉(zhuǎn)換時,首先根據(jù)需要將電子文本段各部分按照結(jié)構(gòu)解碼為一個或多個字串段,其中二進(jìn)制內(nèi)容根據(jù)需要做取舍,如圖像等文件僅保留文件名,WORD文件考慮轉(zhuǎn)換格式,HTML格式的去掉TAG信息;然后對解碼后的各段字串,不考慮編碼格式和寬字符屬性,均按照8bit對待,轉(zhuǎn)化為整數(shù)值序列,數(shù)值范圍也就是0-256;然后從作到右,對上述整數(shù)值序列依次掃描,統(tǒng)計每一個整數(shù)值與其他字符在其后某窗口范圍內(nèi)出現(xiàn)的次數(shù),并組合成轉(zhuǎn)移矩陣,在本實施例中窗口大小為10-20。
步驟S32依次比較所述第一矩陣和第二矩陣的相同位置的元素并根據(jù)比較結(jié)果使用指定比較函數(shù)計算相似系數(shù)。
在該步驟中,首先順序遍歷第一矩陣和第二矩陣并比較矩陣中處于相同位置的元素,并將相同位置元素值匹配的總數(shù)量記為M、將相同位置元素值不匹配的總數(shù)量記錄為D,而元素匹配率則為M/(D+M)。在上述統(tǒng)計中,將兩矩陣對應(yīng)位置元素的值都不為零且兩元素的比值介于統(tǒng)計值和統(tǒng)計值的倒數(shù)之間時將該位置統(tǒng)計為匹配;否則統(tǒng)計為不匹配。假設(shè)第一、第二矩陣分別為matrix1,matrix2,matrix[x][y]表示矩陣中x行y列的元素,則上述統(tǒng)計可表示為if(matrix1[x][y]>0&&matrix2[x][y]>0){R=matrix1[x][y]/matrix2[x][y];if(1/b<R<b)//b根據(jù)實際情況作調(diào)整,缺省為5M++;elseD++;}else{D++;}上述b的取值表示比較的嚴(yán)格程度,如果b接近1則表明郵件相似的比較較為嚴(yán)格,比較結(jié)果趨向于原始內(nèi)容完全一致的情況,相反則放松。然后計算相似系數(shù)S=M/(D+M)S1/S2,]]>其中S1和S2分別為第一矩陣和第二矩陣的正文長度或者為第一矩陣和第二矩陣中大于零的元素的個數(shù),且S1>S2。
步驟S33根據(jù)相似系數(shù)S的值判斷第一電子文本和電子文本是否相似,若相似系數(shù)S大于指定閾值則表示第一電子數(shù)據(jù)段與第二電子數(shù)據(jù)段相似;否則不相似。在實際應(yīng)用中,當(dāng)S>0.8的時候,比較結(jié)果的準(zhǔn)確率相對較高。當(dāng)然,在具體應(yīng)用中,可以適當(dāng)放松S的閾值。這里的計算公式可以采用多種變形,但主要元素均為步驟S32中統(tǒng)計出的M和D值。
上述的電子文本比較系統(tǒng)及方法,可具體應(yīng)用于電子郵件服務(wù)器中相似電子郵件的比較、搜索引擎中相似網(wǎng)頁的比較、即時通信工具中的相似消息的比較或者聊天室中的相似消息的比較等。
上述系統(tǒng)和方法可應(yīng)用到郵件系統(tǒng)中進(jìn)行垃圾郵件的識別(根據(jù)郵件相似性識別),即通過將一定時間內(nèi)(如72小時)收到的郵件的轉(zhuǎn)移矩陣保存下來作為數(shù)據(jù)庫,設(shè)定一個相似郵件的閾值(如0.75),假設(shè)新收到的郵件為M,統(tǒng)計該郵件M在數(shù)據(jù)庫內(nèi)找到的相似郵件個數(shù),如果大于閾值(如50封),則將此郵件判定為垃圾郵件,除非證明M為非垃圾郵件(如M出現(xiàn)在了白名單內(nèi))。
如圖4所示,為根據(jù)上述系統(tǒng)和方法實現(xiàn)的反垃圾郵件系統(tǒng)的實施例。在本實施例中,反垃圾郵件系統(tǒng)包括有矩陣轉(zhuǎn)換控制中心43、并行處理單元44、矩陣比較控制中心45、垃圾郵件判定中心46等。
矩陣轉(zhuǎn)換控制中心43用于將大批量電子郵件并行轉(zhuǎn)移為多個轉(zhuǎn)移矩陣。對于郵件頭的處理分兩種情況。在本實施例中,矩陣轉(zhuǎn)換控制中心43僅將電子郵件正文轉(zhuǎn)換為轉(zhuǎn)移矩陣。雖然電子郵件頭(即標(biāo)題)可以被統(tǒng)計進(jìn)入矩陣,但考慮到郵件頭結(jié)構(gòu)化信息比較明顯,因此可對郵件頭分開處理,不做轉(zhuǎn)換而直接比較。對于正文內(nèi)容較少的郵件,該方法可以顯著降低郵件頭信息的干擾,從而避免將某些因為正文文字少的郵件判斷為相似郵件。對于轉(zhuǎn)移矩陣的記錄也存在兩種方式如果采用純文本記錄完整的信息,每封郵件都需要65535字節(jié);此外也可僅記錄矩陣中值大于0的元素,因為矩陣中大部分值為0(稀疏矩陣),這樣可節(jié)約存儲空間。
并行處理單元44包含多個服務(wù)器單元,每個服務(wù)器單元包含一個轉(zhuǎn)移矩陣數(shù)據(jù)模塊和一個比較模塊。其中轉(zhuǎn)移矩陣數(shù)據(jù)模塊用于實現(xiàn)基本的數(shù)據(jù)管理,其存儲有一個或多個轉(zhuǎn)移矩陣,而比較模塊用于實現(xiàn)對一個輸入的轉(zhuǎn)移矩陣和轉(zhuǎn)移矩陣數(shù)據(jù)模塊內(nèi)的所有矩陣的比較。
矩陣比較控制中心45用于收集比較結(jié)果并整理出最終比較結(jié)論,即獲得元素匹配率M/(M+D)。垃圾郵件判定中心46用于根據(jù)矩陣比較控制中心45給出的結(jié)論,綜合判斷輸入矩陣對應(yīng)的電子郵件是否為垃圾郵件。在該垃圾郵件判定中心46中,可以結(jié)合外部信息,如黑/白名單等標(biāo)準(zhǔn)技術(shù)實現(xiàn)。例如若郵件頭沒有被統(tǒng)計進(jìn)轉(zhuǎn)移矩陣,則可對兩個待比較郵件逐條對郵件頭進(jìn)行比較,獲得郵件頭的相似參考值,然后與正文比較的結(jié)果按照某種公式綜合后作為相似參考值。同樣,也可以將附件比較單獨實現(xiàn),如下面兩個常用公式Sall=k1*SH+k2*S+k3*SA;
Sall=k*SH*S*SA;其中的k1、k2、k3、k均為系數(shù),可根據(jù)不同應(yīng)用靈活設(shè)置,而SH、S和SA分別為郵件頭相似系數(shù)、郵件正文相似系數(shù)和郵件附件相似系數(shù)。
上述的反垃圾郵件系統(tǒng)不但能夠識別出內(nèi)容完全一致的垃圾郵件,還能夠識別出插入了一定隨機字符的垃圾郵件,此外還可識別出具有合法帳號(垃圾郵件發(fā)送者通過病毒、木馬控制僵尸電腦發(fā)送)垃圾郵件。
為滿足郵件系統(tǒng)的實時性要求,還可以通過分布式結(jié)構(gòu)來加速垃圾郵件的識別。例如假設(shè)有m+1臺服務(wù)器可供使用(每臺服務(wù)器處理性能相同),則將所有轉(zhuǎn)移矩陣按照服務(wù)器數(shù)量平均存儲到m臺服務(wù)器上,每個轉(zhuǎn)移矩陣唯一存儲在一臺服務(wù)器上,剩下的一臺為總控服務(wù)器,對于一個輸入的未知郵件X,獲得他的轉(zhuǎn)移矩陣,同時送交給m臺服務(wù)器并收集比較結(jié)果的數(shù)目,總控服務(wù)器將m臺的結(jié)果相加就是最終的相似郵件數(shù)量。垃圾郵件判定中心46根據(jù)這個數(shù)量決定此郵件是否為垃圾郵件。可見,上述方案的性能隨服務(wù)器數(shù)量的增加而增加。如果考慮冗余存儲、災(zāi)難恢復(fù)等情況,對上面方案稍加修改即可。同樣道理,郵件到轉(zhuǎn)移矩陣的轉(zhuǎn)換過程也可以做成分布式的結(jié)構(gòu)。
此外在反垃圾郵件系統(tǒng)中還可包括用于實現(xiàn)收發(fā)郵件等常規(guī)功能的標(biāo)準(zhǔn)郵件系統(tǒng)41、實現(xiàn)對郵件服務(wù)系統(tǒng)41內(nèi)的郵件的內(nèi)部訪問控制等的郵件存儲、訪問控制中心42以及實現(xiàn)對垃圾郵件的所有處理如轉(zhuǎn)發(fā)、丟棄、返回給發(fā)件人、打上垃圾標(biāo)記等的垃圾郵件后續(xù)處理系統(tǒng)47等。
本發(fā)明的系統(tǒng)及方法還可應(yīng)用于搜索引擎中以識別相同內(nèi)容網(wǎng)頁,只顯示具有相同內(nèi)容網(wǎng)頁中的一個,從而減少了重復(fù)的搜索結(jié)果。本發(fā)明還可應(yīng)用于在搜索引擎中尋找相似網(wǎng)頁,例如搜索引擎google中的“類似網(wǎng)頁”。此外,本發(fā)明還可應(yīng)用于即時通信工具及聊天室中,防止用戶惡意刷屏等。
以上所述,僅為本發(fā)明較佳的具體實施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種電子文本比較方法,其特征在于,包括以下步驟(a)將第一電子文本段和第二電子文本段分別按照相同的轉(zhuǎn)換規(guī)則轉(zhuǎn)換為第一矩陣和第二矩陣,所述第一矩陣和第二矩陣具有相同的尺寸;(b)依次比較所述第一矩陣和第二矩陣的相同位置的元素并根據(jù)比較結(jié)果使用指定比較函數(shù)計算相似系數(shù);(c)根據(jù)所述相似系數(shù)判斷所述第一電子文本和第二電子文本是否相似,若所述相似系數(shù)大于指定閾值則表示第一電子數(shù)據(jù)段與第二電子數(shù)據(jù)段相似。
2.根據(jù)權(quán)利要求1所述的電子文本比較方法,其特征在于,所述步驟(a)中將電子文本段轉(zhuǎn)換為矩陣包括以下步驟(a1)將所述電子文本段解碼為字串,所述字串根據(jù)原電子文本的結(jié)構(gòu)劃分為一個或多個段;(a2)將所述各段字串轉(zhuǎn)化為整數(shù)值序列,所述整數(shù)的數(shù)值范圍為0-256;(a3)將整數(shù)值后指定窗口范圍內(nèi)各個整數(shù)值出現(xiàn)的次數(shù)依次作為矩陣的元素,并依次對所述整數(shù)值序列中的每一整數(shù)值進(jìn)行操作組成矩陣。
3.根據(jù)權(quán)利要求2所述的電子文本比較方法,其特征在于,所述步驟(a3)中的指定窗口大小為10-20。
4.根據(jù)權(quán)利要求1所述的電子文本比較方法,其特征在于,所述步驟(b)包括以下步驟(b1)順序遍歷所述第一矩陣和第二矩陣并比較矩陣中處于相同位置的元素,并將相同位置元素值匹配的總數(shù)量記為M、將相同位置元素值不匹配的總數(shù)量記錄為D;(b2)計算相似系數(shù)S=M/(D+M)S1+S2;]]>其中S1和S2分別為第一矩陣和第二矩陣的正文長度或者為第一矩陣和第二矩陣中大于零的元素的個數(shù),且S1>S2。
5.根據(jù)權(quán)利要求4所述的電子文本比較方法,其特征在于,在所述步驟(b1)中進(jìn)行匹配統(tǒng)計時,將所述第一矩陣和第二矩陣對應(yīng)位置第一和第二元素的值都不為零且第一元素和第二元素的比值介于統(tǒng)計值和統(tǒng)計值的倒數(shù)之間時將該位置統(tǒng)計為匹配;否則統(tǒng)計為不匹配。
6.一種電子文本比較系統(tǒng),其特征在于,至少包括矩陣轉(zhuǎn)換模塊和矩陣比較模塊,所述矩陣轉(zhuǎn)換模塊用于按照轉(zhuǎn)換規(guī)則將電子文本段轉(zhuǎn)換為矩陣,所述矩陣比較模塊用于比較兩個矩陣的相同位置的元素并根據(jù)比較結(jié)果使用指定比較函數(shù)計算相似系數(shù)。
7.根據(jù)權(quán)利要求6所述的電子文本比較系統(tǒng),其特征在于,所述矩陣轉(zhuǎn)換模塊包括有根據(jù)電子文本的結(jié)構(gòu)將所述電子文本段解碼為一個或多個字串段的解碼子模塊、將所述各段字串轉(zhuǎn)化為整數(shù)值序列的取整子模塊以及將所述整數(shù)值后指定窗口范圍內(nèi)各個整數(shù)值出現(xiàn)的次數(shù)依次作為矩陣的元素并依次對所述整數(shù)值序列中的每一整數(shù)值進(jìn)行操作組成矩陣的組陣子模塊。
8.根據(jù)權(quán)利要求6所述的電子文本比較系統(tǒng),其特征在于,所述矩陣比較模塊包括有順序遍歷兩個待比較矩陣并比較矩陣中處于相同位置的元素并將相同位置元素值匹配的總數(shù)量記為M、將相同位置元素值不匹配的總數(shù)量記錄為D的統(tǒng)計子模塊和計算相似系數(shù)S的計算子模塊,S=M/(D+M)S1+S2;]]>其中S1和S2分別為所述待比較矩陣的正文長度或者為所述待比較矩陣中大于零的元素的個數(shù),且S1>S2。
9.一種反垃圾郵件系統(tǒng),其特征在于,包括有依次連接的矩陣轉(zhuǎn)換控制中心、并行處理單元、矩陣比較控制中心、垃圾郵件判定中心,所述矩陣轉(zhuǎn)換控制中心將大批量電子郵件并行轉(zhuǎn)移為多個轉(zhuǎn)移矩陣后,由所述并行處理單元進(jìn)行轉(zhuǎn)移矩陣的比較,并由所述矩陣比較控制中心統(tǒng)計整理出最終比較結(jié)論,所述垃圾郵件判定中心根據(jù)矩陣比較控制中心的最終比較結(jié)論判斷輸入矩陣對應(yīng)的電子郵件是否為垃圾郵件。
10.根據(jù)權(quán)利要求9所述的反垃圾郵件系統(tǒng),其特征在于,所述并行處理單元包含多個服務(wù)器單元,每個服務(wù)器單元包含轉(zhuǎn)移矩陣數(shù)據(jù)模塊和比較模塊,其中所述轉(zhuǎn)移矩陣數(shù)據(jù)模塊用于實現(xiàn)基本的數(shù)據(jù)管理并存儲有一個或多個轉(zhuǎn)移矩陣,所述比較模塊用于實現(xiàn)對一個輸入的轉(zhuǎn)移矩陣和轉(zhuǎn)移矩陣數(shù)據(jù)模塊內(nèi)的所有矩陣的比較。
全文摘要
本發(fā)明公開了一種電子文本比較方法,包括以下步驟(a)將第一電子文本段和第二電子文本段分別按照相同的轉(zhuǎn)換規(guī)則轉(zhuǎn)換為第一矩陣和第二矩陣,所述第一矩陣和第二矩陣具有相同的尺寸;(b)依次比較第一矩陣和第二矩陣的相同位置的元素并根據(jù)比較結(jié)果使用指定比較函數(shù)計算相似系數(shù);(c)根據(jù)相似系數(shù)判斷所述第一電子文本和第二電子文本是否相似,若所述相似系數(shù)大于指定閾值則表示第一電子數(shù)據(jù)段與第二電子數(shù)據(jù)段相似。本發(fā)明還公開了一種對應(yīng)的電子文本比較系統(tǒng)及反垃圾郵件系統(tǒng)。本發(fā)明通過比較電子文本的轉(zhuǎn)移矩陣來計算電子文本的相似性,不但能夠識別出內(nèi)容完全一致的電子文本,還能夠判斷插入了一定隨機字符的電子文本的相似性。
文檔編號H04L12/58GK101046858SQ20061006009
公開日2007年10月3日 申請日期2006年3月29日 優(yōu)先權(quán)日2006年3月29日
發(fā)明者王暉 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
连州市| 炎陵县| 铜陵市| 综艺| 涟水县| 东乡族自治县| 安岳县| 临澧县| 扬州市| 什邡市| 盐池县| 依兰县| 社旗县| 陆丰市| 礼泉县| 石林| 张家港市| 利津县| 林州市| 乐至县| 嘉祥县| 平阴县| 石门县| 沭阳县| 弥勒县| 古丈县| 津市市| 古交市| 灵寿县| 温宿县| 新龙县| 绥芬河市| 怀来县| 康乐县| 马山县| 丰顺县| 江阴市| 汝南县| 射洪县| 临西县| 民权县|