專利名稱:不良報文的檢測方法及不良報文的檢測裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及移動通信技術(shù)領(lǐng)域,尤其涉及一種不良報文的檢測方法、一種不良對象集合的建立方法及一種不良報文的檢測裝置。
背景技術(shù):
隨著移動通信技術(shù),特別是最近幾年能夠支持高速數(shù)據(jù)業(yè)務(wù)的3G網(wǎng)絡(luò)、3G移動終端技術(shù)的快速發(fā)展,彩信業(yè)務(wù)、移動互聯(lián)網(wǎng)業(yè)務(wù)逐步成為繼傳統(tǒng)的語音業(yè)務(wù)、短消息業(yè)務(wù)之后,獲得廣泛應(yīng)用的移動業(yè)務(wù)。彩信業(yè)務(wù)使得不同用戶之間發(fā)送的消息中不僅可以包含文本內(nèi)容,還可以包含圖片內(nèi)容。移動互聯(lián)網(wǎng)業(yè)務(wù)使得人們可以隨時隨地的訪問互聯(lián)網(wǎng),獲取最新的資訊、觀看圖片、視頻等。彩信業(yè)務(wù)和移動互聯(lián)網(wǎng)業(yè)務(wù)之間的共同點在于不同移動通信網(wǎng)絡(luò)實體之間 (包括兩個移動終端之間、或網(wǎng)絡(luò)接入設(shè)備與移動終端之間)交互的消息中不僅包含文本、 還包含圖片和視頻內(nèi)容。彩信業(yè)務(wù)、移動互聯(lián)網(wǎng)業(yè)務(wù)等數(shù)據(jù)業(yè)務(wù)在為人們的生活帶來便利的同時,也為不法分子提供了可乘之機。惡意用戶利用彩信業(yè)務(wù)、移動互聯(lián)網(wǎng)業(yè)務(wù)等數(shù)據(jù)業(yè)務(wù)傳播非法廣告、淫穢色情、反動言論等不良信息的現(xiàn)象給人們的日常生活帶來了困擾。針對上述問題,現(xiàn)有技術(shù)提出了以下幾類解決方案1、基于字符串匹配的方法,其基本原理為在通信終端安裝檢測客戶端,當(dāng)檢測客戶端發(fā)現(xiàn)接收到的報文內(nèi)容中包含設(shè)定的敏感字符串集合中的字符串時,確定該報文為非法報文;2、基于黑白名單的方法,其基本原理為在個人計算機、調(diào)制解調(diào)器等設(shè)備中安裝內(nèi)容過濾代理CFA,當(dāng)用戶發(fā)出對某個URL進行訪問的請求時,CFA根據(jù)用戶設(shè)置的黑白名單,允許或禁止該訪問請求。如果該URL不在CFA的黑白名單中,CFA則向查詢服務(wù)器QS發(fā)出查詢請求。QS在存儲的URL庫中查詢該URL的分級信息并將結(jié)果返回給CFA,CFA根據(jù)接收到的結(jié)果確定允許或禁止該訪問請求。QS定期從內(nèi)容分析與管理服務(wù)器CAMS中下載更新的URL分級信息;3、基于內(nèi)容指紋過濾的方法,其基本原理為接收來自用戶的內(nèi)容和偏好;不帶有任何可用標(biāo)識信息地將該內(nèi)容編碼;針對一個或多個技術(shù)屬性對已編碼內(nèi)容執(zhí)行技術(shù)分析;將可用標(biāo)識信息與技術(shù)屬性配對以形成內(nèi)容指紋,用形成的內(nèi)容指紋來標(biāo)識該內(nèi)容; 將內(nèi)容指紋與偏好結(jié)合以創(chuàng)建內(nèi)容指紋過濾器,內(nèi)容指紋過濾器用于過濾可用內(nèi)容塊,其中每一塊可用內(nèi)容都具有相關(guān)聯(lián)的內(nèi)容指紋。對于基于黑白名單和字符串匹配的方案而言,只能在非法用戶已經(jīng)通過移動業(yè)務(wù)實施了大量非法行動之后,才能將該非法用戶識別出來并添加到黑名單中、或者將敏感字符串添加到敏感字符串集合中,無法做到實時檢測,并且字符串匹配方案只適用于非法短信的識別,無法識別出彩信或者移動互聯(lián)網(wǎng)業(yè)務(wù)報文是否為不良報文。對于基于內(nèi)容指紋過濾的方法而言,在過濾之前必須將報文內(nèi)容和用戶偏好進行編碼,所需的處理資源和處理時間都較多,難以滿足實時性的要求。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種不良報文的檢測方法,用以解決現(xiàn)有技術(shù)無法有效檢測出彩信、移動互聯(lián)網(wǎng)等移動業(yè)務(wù)相關(guān)報文是否為不良報文的問題。對應(yīng)地,本發(fā)明實施例還提供了一種不良報文的檢測裝置。本發(fā)明實施例提供的技術(shù)方案如下一種不良報文的檢測方法,包括分別建立至少兩類不良對象的集合,所述集合中每個對象分別對應(yīng)一個特征向量,所述特征向量是根據(jù)預(yù)設(shè)的該類對象對應(yīng)的判別規(guī)則確定的;從獲取到的報文中提取對象;針對提取到的每個對象,執(zhí)行基于各對象類別對應(yīng)的判別規(guī)則,確定該對象的特征向量;根據(jù)該對象所屬類別的不良對象集合中的不良對象的特征向量和確定出的該對象的特征向量,確定該對象為不良對象的概率;根據(jù)確定出的從所述報文中提取的對象為不良對象的概率,確定所述報文為不良報文的概率。一種不良對象集合的建立方法,包括接收輸入的不良文本對象、不良圖片對象或不良視頻對象;根據(jù)各類對象對應(yīng)的判別規(guī)則,確定輸入的不良對象對應(yīng)的特征向量;存儲輸入的不良對象以及確定出的該不良對象對應(yīng)的特征向量。一種不良報文的檢測裝置,包括不良對象集合構(gòu)建單元,用于分別建立至少兩類不良對象的集合,所述集合中每個對象分別對應(yīng)一個特征向量,所述特征向量是根據(jù)預(yù)設(shè)的該類對象對應(yīng)的判別規(guī)則確定的,所述對象包括文本對象、圖片對象或視頻對象;對象提取單元,用于從獲取到的報文中提取對象;第一確定單元,用于針對對象提取單元提取到的每個對象,基于各對象類別對應(yīng)的判別規(guī)則,確定該對象的特征向量;并根據(jù)該對象所屬類別的不良對象集合中的不良對象的特征向量和確定出的該對象的特征向量,確定該對象為不良對象的概率;第二確定單元,用于根據(jù)第一確定單元確定出的從所述報文中提取的對象為不良對象的概率,確定所述報文為不良報文的概率。本發(fā)明實施例預(yù)先分別建立不同類別不良對象的集合,該集合中每個對象分別對應(yīng)一個特征向量;在對從網(wǎng)絡(luò)中獲取的報文進行檢測時,從該報文中提取對象,并針對提取的每個對象,確定該對象的特征向量,并結(jié)合該對象所屬類別的不良對象集合中的不良對象的特征向量,確定該對象為不良對象的概率;繼而根據(jù)從報文中提取的對象為不良對象的概率,確定所述報文為不良報文的概率。通過上述方案能夠檢測包含不同對象的數(shù)據(jù)業(yè)務(wù)報文為不良報文的概率,在此基礎(chǔ)上執(zhí)行區(qū)分的過濾處理。
圖1為本發(fā)明實施例的主要實現(xiàn)原理流程圖2為本發(fā)明實施例提供的不良報文檢測系統(tǒng)的原理圖;圖3a為本發(fā)明實施例中每類對象樣本的特征向量的示意圖;圖北為本發(fā)明實施例中每類對象樣本的特征向量的第一種存儲方式的示意圖;圖3c為本發(fā)明實施例中每類對象樣本的特征向量的第二種存儲方式的示意圖;圖4為本發(fā)明實施例提供的不良報文檢測方案的流程圖;圖5為本發(fā)明實施例提供的不良報文的檢測裝置的結(jié)構(gòu)示意圖;圖6為本發(fā)明實施例提供的不良報文的檢測裝置中不良對象集合構(gòu)建單元的結(jié)構(gòu)示意圖。
具體實施例方式發(fā)明人發(fā)現(xiàn)現(xiàn)有的不良報文檢測方案均無法有效、高效地檢測包含圖片對象和視頻對象的數(shù)據(jù)業(yè)務(wù)報文是否為不良報文。本發(fā)明的基本思路為首先分別建立三類不良對象(不良文本對象、不良圖片對象和不良視頻對象)分別對應(yīng)的樣本集合,樣本集合中的不良對象分別對應(yīng)一個特征向量,特征向量中元素的值是根據(jù)該元素對應(yīng)的判別規(guī)則確定出的;對接收到的報文進行檢測時,先從接收報文中提取包含的文本對象、圖片對象或視頻對象;針對提取的每個對象,根據(jù)該對象所屬類別對應(yīng)的判別規(guī)則,確定提取到的對象的特征向量,進而根據(jù)對應(yīng)類型的不良對象樣本集合中不良對象的特征向量,確定該提取到的對象為不良對象的概率;根據(jù)確定出的從接收報文中提取到的對象為不良對象的概率,確定該接收報文的危險等級,將危險等級超過預(yù)定閾值的報文判定為不良報文,執(zhí)行對應(yīng)的過濾處理。下面結(jié)合各個附圖對本發(fā)明實施例技術(shù)方案的主要實現(xiàn)原理具體實施方式
及其對應(yīng)能夠達到的有益效果進行詳細(xì)的闡述。如圖1所示,本發(fā)明實施例的主要實現(xiàn)原理流程如下步驟10,分別建立不良文本對象、不良圖片對象和不良視頻對象的樣本集合,樣本集合中每個對象樣本分別對應(yīng)一個的特征向量,每類不良對象的特征向量中的元素值是根據(jù)該元素對應(yīng)的判別規(guī)則來確定的(每個元素值也可以理解為表明該對象是否具備該元素對應(yīng)的判定規(guī)則所描的特征),每個所述判別規(guī)則包含至少一個該類對象的預(yù)定屬性值的判別閾值;步驟20,從接收報文中提取包含的文本對象、圖片對象或視頻對象;步驟30,逐一確定步驟20提取到的每個對象對應(yīng)的特征向量,針對每個提取到的對象,根據(jù)確定出的該對象的特征向量,以及對應(yīng)類型樣本集合中不良對象的特征向量,確定該提取到的對象為不良對象的概率;其中,確定每個提取到的對象對應(yīng)的特征向量的過程為首先,針對該對象所屬對象類型對應(yīng)的用于確定特征向量中每個元素的元素值的判別規(guī)則,計算該對象對應(yīng)的該規(guī)則包含的預(yù)定屬性的屬性值;然后,根據(jù)計算出的預(yù)定屬性的屬性值和該判別規(guī)則中包含的該預(yù)定屬性值的判別閾值,確定該對象特征向量中與該規(guī)則對應(yīng)的元素的值,基于此構(gòu)建該對象的特征向量。步驟40,根據(jù)步驟30確定出的報文中提取到的對象為不良對象的概率,確定該報文的危險等級,在確定出的危險等級超過預(yù)定閾值時,確定該報文為不良報文,執(zhí)行確定出的危險等級對應(yīng)的過濾處理。下面將依據(jù)本發(fā)明上述發(fā)明原理,詳細(xì)介紹一個實施例來對本發(fā)明方法的主要實現(xiàn)原理進行詳細(xì)的闡述和說明。附圖2為本發(fā)明實施例中不良報文檢測系統(tǒng)的原理圖。其中,不良對象集合構(gòu)建模塊,用于基于管理員輸入的不良文本對象、不良圖片對象和不良視頻對象樣本,構(gòu)建三類不良對象的樣本集合,以及根據(jù)每類不良對象對應(yīng)的判別規(guī)則,確定每個不良對象樣本分別對應(yīng)的特征向量,樣本集合中的每個不良對象對應(yīng)的特征向量包含的元素數(shù)量表明該類對象對應(yīng)的判別規(guī)則的數(shù)量,每個對象對應(yīng)的特征向量中的元素值是根據(jù)該元素對應(yīng)的判別規(guī)則中包含至少一個預(yù)定屬性值的判別閾值來確定的,每個判別規(guī)則中的預(yù)定屬性值的判別閾值都分別存儲于數(shù)據(jù)庫中的至少一個數(shù)據(jù)表中。下面通過幾個實例來對特征向量、以及判別規(guī)則進行介紹。對于文本對象來說對應(yīng)的特征向量為Al = [all, al2, . . . , aln] (η為自然數(shù)),其中all、al2的取值分別根據(jù)表1所示的文本對象對應(yīng)的判定規(guī)則1和判定規(guī)則2來確定,其他元素值的確定方法也類似,在這里不再一一詳述。用于確定特征向量中的元素值的判別規(guī)則中包含的預(yù)定屬性為預(yù)定關(guān)鍵詞的出現(xiàn)頻次,該預(yù)定屬性值的判別閾值即為所述預(yù)定關(guān)鍵詞的出現(xiàn)次數(shù)值,例如該規(guī)則為關(guān)鍵詞“走私”的出現(xiàn)次數(shù)高于5次時,特征向量中該規(guī)則對應(yīng)的元素的元素值為1,否則為0 ;更進一步,為了避免非法用戶通過在關(guān)鍵詞中插入無意義字符來逃避被檢測出不良信息,可以將上述預(yù)定關(guān)鍵詞的出現(xiàn)頻次改進為在連續(xù)長度的預(yù)定字符中出現(xiàn)組成預(yù)定關(guān)鍵詞的各字符的頻率,例如假定預(yù)定關(guān)鍵詞為“法輪功”,編碼時被編為對應(yīng)的6 個字節(jié)的2進制數(shù),如果非法用戶在其中插入了無意義字符后為“法,輪功”、“法_輪_功”, 則對應(yīng)的編碼變?yōu)?位或8位,按照傳統(tǒng)的檢測關(guān)鍵詞的方法將無法檢測出,因此改進為檢測連續(xù)的10位編碼中包含“法”、“輪”、“功”分別對應(yīng)的編碼的出現(xiàn)頻次,如表1所示。表1不良文本對象判別規(guī)則示例
權(quán)利要求
1.一種不良報文的檢測方法,其特征在于,包括分別建立至少兩類不良對象的集合,所述集合中每個對象分別對應(yīng)一個特征向量,所述特征向量是根據(jù)預(yù)設(shè)的該類對象對應(yīng)的判別規(guī)則確定的; 從獲取到的報文中提取對象; 針對提取到的每個對象,執(zhí)行基于各對象類別對應(yīng)的判別規(guī)則,確定該對象的特征向量;根據(jù)該對象所屬類別的不良對象集合中的不良對象的特征向量和確定出的該對象的特征向量,確定該對象為不良對象的概率;根據(jù)確定出的從所述報文中提取的對象為不良對象的概率,確定所述報文為不良報文的概率。
2.如權(quán)利要求1所述的方法,其特征在于,所述不良對象包括不良文本對象、不良圖片對象和不良視頻對象。
3.如權(quán)利要求2所述的方法,其特征在于,建立至少兩類不良對象的集合,具體包括 接收輸入的不良文本對象、不良圖片對象或不良視頻對象;根據(jù)各類對象對應(yīng)的判別規(guī)則,確定接收到的每個不良對象對應(yīng)的特征向量; 存儲接收到的不良對象以及確定出的該不良對象對應(yīng)的特征向量。
4.如權(quán)利要求3所述的方法,其特征在于,根據(jù)預(yù)設(shè)的各類對象對應(yīng)的判別規(guī)則,確定輸入的不良對象對應(yīng)的特征向量,具體包括根據(jù)所述輸入的不良對象所屬對象類別對應(yīng)的每個判別規(guī)則中包含的預(yù)定屬性,確定該輸入的不良對象的所述預(yù)定屬性的屬性值,并根據(jù)所述判別規(guī)則中包含的所述預(yù)定屬性的判別閾值和確定出的所述預(yù)定屬性的屬性值,確定該輸入的不良對象對應(yīng)的特征向量中所述判別規(guī)則對應(yīng)的元素的元素值。
5.如權(quán)利求3所述的方法,其特征在于,存儲輸入的不良對象對應(yīng)的特征向量,具體包括將每類不良對象集合中各不良對象的特征向量中同一元素的元素值存儲在數(shù)據(jù)表同一列中、且將每類不良對象中各不良對象的特征向量中的不同元素的元素值存儲在同一數(shù)據(jù)表中;或?qū)⒚款惒涣紝ο蠹现懈鞑涣紝ο蟮奶卣飨蛄恐型辉氐脑刂荡鎯υ跀?shù)據(jù)表同一列中、且將每類不良對象中各不良對象的特征向量中的不同元素的元素值存儲在不同數(shù)據(jù)表中。
6.如權(quán)利要求1所述的方法,其特征在于,基于提取到的每個對象所屬對象類別對應(yīng)的判別規(guī)則,確定該提取到的對象的特征向量,具體包括根據(jù)該提取到的對象所屬對象類別對應(yīng)的每個判別規(guī)則中包含的預(yù)定屬性,確定該提取到的對象的所述預(yù)定屬性的屬性值,并根據(jù)所述判別規(guī)則中包含的所述預(yù)定屬性的判別閾值和確定出的所述預(yù)定屬性的屬性值,確定該提取到的對象對應(yīng)的特征向量中所述判別規(guī)則對應(yīng)的元素的元素值。
7.如權(quán)利要求1所述的方法,其特征在于,根據(jù)該對象所屬類別的不良對象集合中的不良對象的特征向量和確定出的該對象的特征向量,確定該對象為不良對象的概率,具體包括
8.如權(quán)利要求1所述的方法,其特征在于,根據(jù)確定出的從所述報文中提取的對象為不良對象的概率,確定所述報文為不良報文的概率,具體為從確定出的從所述報文中提取的各對象分別為不良對象的概率中,選擇出最高的概率值作為所述報文為不良報文的概率。
9.如權(quán)利要求1所述的方法,其特征在于,確定所述報文為不良報文的概率之后,還包括 在所述報文為不良報文的概率超過預(yù)定閾值時,執(zhí)行對應(yīng)的預(yù)定處理。
10.如權(quán)利要求9所述的方法,其特征在于,所述預(yù)定處理包括以下至少一種 對該報文進行屏蔽;或?qū)⒃搱笪牡陌l(fā)送方標(biāo)識存入黑名單中,或關(guān)閉該報文的發(fā)送方的業(yè)務(wù)功能;或?qū)脑搱笪奶崛〉降膶ο蟠嫒雽?yīng)類型的所述不良對象集合中。
11.一種不良對象集合的建立方法,其特征在于,包括 接收輸入的不良文本對象、不良圖片對象或不良視頻對象;根據(jù)各類對象對應(yīng)的判別規(guī)則,確定接收到的每個不良對象對應(yīng)的特征向量; 存儲接收到的不良對象以及確定出的該不良對象對應(yīng)的特征向量。
12.—種不良報文的檢測裝置,其特征在于,包括不良對象集合構(gòu)建單元,用于分別建立至少兩類不良對象的集合,所述集合中每個對象分別對應(yīng)一個特征向量,所述特征向量是根據(jù)預(yù)設(shè)的該類對象對應(yīng)的判別規(guī)則確定的, 所述對象包括文本對象、圖片對象或視頻對象;對象提取單元,用于從獲取到的報文中提取對象;第一確定單元,用于針對對象提取單元提取到的每個對象,基于各對象類別對應(yīng)的判別規(guī)則,確定該對象的特征向量;并根據(jù)該對象所屬類別的不良對象集合中的不良對象的特征向量和確定出的該對象的特征向量,確定該對象為不良對象的概率;第二確定單元,用于根據(jù)第一確定單元確定出的從所述報文中提取的對象為不良對象的概率,確定所述報文為不良報文的概率。
13.如權(quán)利要求12所述的裝置,其特征在于,所述不良對象集合構(gòu)建單元具體包括 接收子單元,用于接收輸入的不良文本對象、不良圖片對象或不良視頻對象;確定子單元,用于根據(jù)各類對象對應(yīng)的判別規(guī)則,確定接收子單元接收的每個不良對象對應(yīng)的特征向量;存儲單元,用于存儲接收子單元接收到的不良對象以及確定子單元確定出的該不良對象對應(yīng)的特征向量。
全文摘要
本發(fā)明公開了一種不良報文的檢測方法及不良報文的檢測裝置,用以解決現(xiàn)有技術(shù)無法有效檢測出彩信、移動互聯(lián)網(wǎng)等移動業(yè)務(wù)相關(guān)報文是否為不良報文的問題。該方法包括分別建立至少兩類不良對象的集合,所述集合中每個對象分別對應(yīng)一個特征向量,所述特征向量是根據(jù)預(yù)設(shè)的該類對象對應(yīng)的判別規(guī)則確定的;從獲取到的報文中提取對象;針對提取到的每個對象,執(zhí)行基于各對象類別對應(yīng)的判別規(guī)則,確定該對象的特征向量;根據(jù)該對象所屬類別的不良對象集合中的不良對象的特征向量和確定出的該對象的特征向量,確定該對象為不良對象的概率;根據(jù)確定出的從所述報文中提取的對象為不良對象的概率,確定所述報文為不良報文的概率。
文檔編號H04L12/26GK102340424SQ201010235698
公開日2012年2月1日 申請日期2010年7月21日 優(yōu)先權(quán)日2010年7月21日
發(fā)明者崔可升, 曹璐, 趙建福 申請人:中國移動通信集團山東有限公司