惡意文本的檢測識別方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及信息技術領域,特別涉及一種惡意文本的檢測識別方法及裝置。
【背景技術】
[0002]隨著互聯(lián)網(wǎng)的不斷發(fā)展,社交媒體產(chǎn)品的種類也越來越多,其中,微博作為一種社交平臺被用戶廣泛的應用。微博的消息長度通常較短,而微博中的用戶昵稱、話題等消息的長度更短,因此,如何針對這種長度較短的消息文本進行惡意文本識別已經(jīng)成為需要解決的關鍵技術問題。
[0003]目前,通常是通過基于關鍵詞的匹配算法來進行長度較短的惡意文本檢測識別,即根據(jù)線上的一些投訴情況或者惡意案例來選定關鍵詞,然后基于選定的關鍵詞進行惡意文本匹配。然而由于根據(jù)線上的一些投訴情況或者惡意案例選定的關鍵詞的準確率和精度較低,并且攻擊方只需對惡意文本中的詞語進行微調,即可避免與選定的關鍵詞相同或相似,從而造成現(xiàn)有針對長度較短的惡意文本識別方法的準確率和精度較低。
【發(fā)明內容】
[0004]本發(fā)明實施例提供一種惡意文本的檢測識別方法及裝置,可以提高針對長度較短的惡意文本的檢測識別準確率和精度。
[0005]本發(fā)明實施例采用的技術方案為:
[0006]一種惡意文本的檢測識別方法,包括:
[0007]獲取文本對應的SimHash值;
[0008]根據(jù)所述文本對應的SimHash值和惡意文本數(shù)據(jù)庫中保存的各個惡意文本分別對應的SimHash值,獲取所述文本與所述各個惡意文本之間的漢明距離;
[0009]若所述漢明距離中存在小于或等于預設閾值的漢明距離,則確定所述文本為惡意文本。
[0010]一種惡意文本的檢測識別裝置,包括:
[0011]獲取單元,用于獲取文本對應的SimHash值;
[0012]所述獲取單元,還用于根據(jù)所述文本對應的SimHash值和惡意文本數(shù)據(jù)庫中保存的各個惡意文本分別對應的SimHash值,獲取所述文本與所述各個惡意文本之間的漢明距離;
[0013]確定單元,用于若所述漢明距離中存在小于或等于預設閾值的漢明距離,則確定所述文本為惡意文本。
[0014]本發(fā)明實施例提供的惡意文本的檢測識別方法及裝置,首先獲取文本對應的SimHash值,然后根據(jù)所述文本對應的SimHash值和惡意文本數(shù)據(jù)庫中保存的各個惡意文本分別對應的SimHash值,獲取所述文本與所述各個惡意文本之間的漢明距離,若所述漢明距離中存在小于或等于預設閾值的漢明距離,則確定所述文本為惡意文本。與目前通過基于關鍵詞的匹配算法來進行惡意文本檢測識別相比,本發(fā)明基于文本對應的SimHash值進行惡意文本檢測識別,可以提高針對長度較短的惡意文本的檢測識別準確率和精度。
【附圖說明】
[0015]為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
[0016]圖1為本發(fā)明實施例提供的一種惡意文本的檢測識別方法流程圖;
[0017]圖2為本發(fā)明實施例提供的另一種惡意文本的檢測識別方法流程圖;
[0018]圖3為本發(fā)明實施例提供的一種惡意文本的檢測識別裝置結構示意圖;
[0019]圖4為本發(fā)明實施例提供的另一種惡意文本的檢測識別裝置結構示意圖。
【具體實施方式】
[0020]下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
[0021]為使本發(fā)明技術方案的優(yōu)點更加清楚,下面結合附圖和實施例對本發(fā)明作詳細說明。
[0022]本發(fā)明實施例提供一種惡意文本的檢測識別方法,如圖1所示,所述方法包括:
[0023]101、獲取文本對應的SimHash值。
[0024]對于本發(fā)明實施例,步驟101具體可以包括對文本包含的特征進行SimHash計算,從而獲取文本對應的SimHash值。其中,文本通常為長度較短的消息文本,可以為長度在15個漢字以內的微博昵稱、微博話題等。文本包含的特征可以為文本包含的每個中文字和每個中文字分別對應的漢語拼音,例如,對于文本查看減肥方法,文本包含的特征為查、cha、看、kan、減、jian、月巴、fe1、方、fang、法、fa。
[0025]其中,SimHash算法是一種用于網(wǎng)頁去重最常用的哈希算法,SimHash算法不同于傳統(tǒng)的哈希算法,對于兩個相似的文本內容,通過SimHash算法能夠提供差異不大的語義指紋哈希值。
[0026]優(yōu)選地,步驟101之前還可以包括:對文本進行預處理,預處理可以為對文本進行繁簡轉換,或者將文本中包含的英文、阿拉伯數(shù)字、中文數(shù)字等進行過濾。通過在獲取文本對應的SimHash值之前,對文本進行預處理,可以將文本中包含的不相關信息過濾掉,進一步提高針對長度較短的惡意文本的檢測識別效率。例如,對于文本點擊查看瘦三十斤,經(jīng)過預處理后的文本為點擊查看瘦斤。
[0027]102、根據(jù)所述文本對應的SimHash值和惡意文本數(shù)據(jù)庫中保存的各個惡意文本分別對應的SimHash值,獲取所述文本與所述各個惡意文本之間的漢明距離。
[0028]其中,兩個等長字符串之間的漢明距離是兩個字符串對應位置的不同字符的個數(shù),即將一個字符串變換成另外一個字符串所需要替換的字符個數(shù)。例如:對于二進制字符串1011101與1001001之間的漢明距離是2,對于字符串2143896與2233796之間的漢明距離是3。
[0029]優(yōu)選地,可以采用抽屜原理將各個惡意文本分別對應的SimHash值保存在惡意文本數(shù)據(jù)庫中,從而可以降低文本與所述各個惡意文本之間的漢明距離的獲取復雜度,進一步提高針對長度較短的惡意文本的檢測識別效率。
[0030]103、若所述漢明距離中存在小于或等于預設閾值的漢明距離,則確定所述文本為惡意文本。
[0031]其中,預設閾值可以根據(jù)實際需求進行設定,例如,將預設閾值設定為5,則此時漢明距離小于5時,則確定文本與惡意文本相似,即將該文本確定為惡意文本。
[0032]本發(fā)明實施例提供的一種惡意文本的檢測識別方法,首先獲取文本對應的SimHash值,然后根據(jù)所述文本對應的SimHash值和惡意文本數(shù)據(jù)庫中保存的各個惡意文本分別對應的SimHash值,獲取所述文本與所述各個惡意文本之間的漢明距離,若所述漢明距離中存在小于或等于預設閾值的漢明距離,則確定所述文本為惡意文本。與目前通過基于關鍵詞的匹配算法來進行惡意文本檢測識別相比,本發(fā)明基于文本對應的SimHash值進行惡意文本檢測識別,可以提高針對長度較短的惡意文本的檢測識別準確率和精度。
[0033]進一步地,本發(fā)明實施例提供另一種惡意文本的檢測識別方法,如圖2所示,所述方法包括:
[0034]201、建立所述惡意文本數(shù)據(jù)庫。
[0035]其中,所述惡意文本數(shù)據(jù)庫中保存有多個惡意文本和與所述多個惡意文本分別對應的SimHash值。
[0036]對于本發(fā)明實施例,步驟201具體可以包括:首先將任意一個文本劃分為多個特征詞,然后分別計算所述多個特征詞在各個預置惡意類別