两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

惡意文本的檢測識別方法及裝置的制造方法_2

文檔序號:8543678閱讀:來源:國知局
中分別對應(yīng)的概率,再根據(jù)所述多個特征詞在各個預(yù)置惡意類別中分別對應(yīng)的概率,獲取所述文本在各個預(yù)置惡意類別中分別對應(yīng)的概率,若所述文本在各個預(yù)置惡意類別分別對應(yīng)的概率中,存在大于或等于預(yù)設(shè)概率閾值的概率,則將所述文本和所述文本對應(yīng)的SimHash值保存在所述惡意文本數(shù)據(jù)庫中,并且將所述文本包含的多個特征詞保存在對應(yīng)的預(yù)置惡意類別中,其中,預(yù)設(shè)概率閾值可以根據(jù)實(shí)際需求進(jìn)行設(shè)定,本發(fā)明實(shí)施例不做限定。將所述文本包含的多個特征詞保存在對應(yīng)的預(yù)置惡意類別中具體可以包括:若對應(yīng)的預(yù)置惡意類別中已保存有文本包含的多個特征詞,則將多個特征詞在該預(yù)置惡意類別中分別對應(yīng)的出現(xiàn)頻數(shù)累計加1,若多個特征詞中存在未在預(yù)置惡意類別中保存過的特征詞,則在該預(yù)置惡意類別中增加未保存過的特征詞,并將該特征詞的出現(xiàn)頻數(shù)標(biāo)記為1.
[0037]其中,可以采用w-singling方式將文本劃分為多個特征詞,w可以配置為任意數(shù)字。例如對于文本我喜歡使用微博,若采用3-singling方式進(jìn)行劃分,劃分后的特征詞分別為我喜歡、喜歡使、歡使用、使用微、用微博。預(yù)置惡意類別的個數(shù)可以根據(jù)實(shí)際需求進(jìn)行配置,預(yù)置惡意類別具體可以為廣告、團(tuán)購、色情等類別,本發(fā)明實(shí)施例不做限定。進(jìn)一步地,還可以額外配置一個非惡意類別。
[0038]上述分別計算所述多個特征詞在各個預(yù)置惡意類別中分別對應(yīng)的概率的步驟可以包括:根據(jù)所述惡意文本數(shù)據(jù)庫中保存的所述多個特征詞在各個預(yù)置惡意類別中分別對應(yīng)的出現(xiàn)頻數(shù),計算所述多個特征詞在各個預(yù)置惡意類別中分別對應(yīng)的概率。例如,某一特征詞查看在類別I中出現(xiàn)的頻數(shù)為16,在類別2中出現(xiàn)的頻數(shù)為14,則特征詞查看在類別I中對應(yīng)的概率為16/30,在類別2中對應(yīng)的概率為14/30。
[0039]上述根據(jù)所述多個特征詞在各個預(yù)置惡意類別中分別對應(yīng)的概率,獲取所述文本在各個預(yù)置惡意類別中分別對應(yīng)的概率的步驟可以包括:根據(jù)公式Px = Pr(類別χ|特征A)*Pr (類別x|特征B)*...Pr (類別X I特征N)獲取所述文本在各個預(yù)置惡意類別中分別對應(yīng)的概率。其中,Px為文本在類別X中對應(yīng)的概率,Pr (類別XI特征N)為文本包含的特征詞N在類別X中對應(yīng)的概率。
[0040]優(yōu)選地,將任意一個文本劃分為多個特征詞的步驟之前還可以包括:對文本進(jìn)行預(yù)處理,預(yù)處理可以為過濾掉文本中的英文、阿拉數(shù)字、中文數(shù)字、非中文等,從而可以進(jìn)一步降低計算復(fù)雜度,提高惡意文本數(shù)據(jù)庫的訓(xùn)練效率。例如,對于文本點(diǎn)擊查看瘦十二 kg方法,經(jīng)過預(yù)處理后的文本為點(diǎn)擊查看瘦方法。
[0041]202、獲取文本對應(yīng)的SimHash值。
[0042]對于本發(fā)明實(shí)施例中的文本,通常為長度較短的消息文本,例如,長度在15個漢字以內(nèi)的微博昵稱、微博話題等。
[0043]對于本發(fā)明實(shí)施例,步驟202具體可以包括:首先獲取所述文本中包含的各個中文字分別對應(yīng)的漢語拼音,然后計算所述各個中文字分別對應(yīng)的哈希值和所述漢語拼音分別對應(yīng)的哈希值,最后根據(jù)所述各個中文字分別對應(yīng)的哈希值和所述漢語拼音分別對應(yīng)的哈希值,獲取所述文本對應(yīng)的SimHash值。其中,可以采用Wang/Jenkins哈希算法計算所述各個中文字分別對應(yīng)的哈希值和所述漢語拼音分別對應(yīng)的哈希值。
[0044]優(yōu)選地,步驟202之前還可以包括:對文本進(jìn)行預(yù)處理,預(yù)處理可以為對文本進(jìn)行繁簡轉(zhuǎn)換,或者將文本中包含的英文、阿拉伯?dāng)?shù)字、中文數(shù)字等進(jìn)行過濾。通過在獲取文本對應(yīng)的SimHash值之前,對文本進(jìn)行預(yù)處理,可以將文本中包含的不相關(guān)信息過濾掉,進(jìn)一步提高惡意文本的檢測識別效率。例如,對于文本點(diǎn)擊查看瘦三十斤,經(jīng)過預(yù)處理后的文本為點(diǎn)擊查看瘦斤。
[0045]203、根據(jù)所述文本對應(yīng)的SimHash值和惡意文本數(shù)據(jù)庫中保存的各個惡意文本分別對應(yīng)的SimHash值,獲取所述文本與所述各個惡意文本之間的漢明距離。
[0046]優(yōu)選地,可以采用抽屜原理將各個惡意文本分別對應(yīng)的SimHash值保存在惡意文本數(shù)據(jù)庫中,從而可以降低文本與所述各個惡意文本之間的漢明距離的獲取復(fù)雜度,進(jìn)一步提高針對長度較短的惡意文本的檢測識別效率。
[0047]204、若所述漢明距離中存在小于或等于預(yù)設(shè)閾值的漢明距離,則確定所述文本為惡意文本。
[0048]其中,預(yù)設(shè)閾值可以根據(jù)實(shí)際需求進(jìn)行設(shè)定,例如,將預(yù)設(shè)閾值設(shè)定為6,則此時漢明距離小于6時,則確定文本與惡意文本相似,即將該文本確定為惡意文本。
[0049]本發(fā)明實(shí)施例提供的另一種惡意文本的檢測識別方法,首先獲取文本對應(yīng)的SimHash值,然后根據(jù)所述文本對應(yīng)的SimHash值和惡意文本數(shù)據(jù)庫中保存的各個惡意文本分別對應(yīng)的SimHash值,獲取所述文本與所述各個惡意文本之間的漢明距離,若所述漢明距離中存在小于或等于預(yù)設(shè)閾值的漢明距離,則確定所述文本為惡意文本。與目前通過基于關(guān)鍵詞的匹配算法來進(jìn)行惡意文本檢測識別相比,本發(fā)明基于文本對應(yīng)的SimHash值進(jìn)行惡意文本檢測識別,可以提高針對長度較短的惡意文本的檢測識別準(zhǔn)確率和精度。
[0050]再進(jìn)一步地,作為圖1所示方法的具體實(shí)現(xiàn),本發(fā)明實(shí)施例提供一種惡意文本的檢測識別裝置,所述裝置的實(shí)體可以為服務(wù)器,如圖3所示,所述裝置可以包括:獲取單元31、確定單元32。
[0051]獲取單元31,可以用于獲取文本對應(yīng)的SimHash值。
[0052]獲取單元31,還可以用于根據(jù)所述文本對應(yīng)的SimHash值和惡意文本數(shù)據(jù)庫中保存的各個惡意文本分別對應(yīng)的SimHash值,獲取所述文本與所述各個惡意文本之間的漢明距離。
[0053]確定單元32,可以用于若所述漢明距離中存在小于或等于預(yù)設(shè)閾值的漢明距離,則確定所述文本為惡意文本。
[0054]需要說明的是,本發(fā)明實(shí)施例提供的裝置所涉及各功能單元的其他相應(yīng)描述,可以參考圖1中的對應(yīng)描述,在此不再贅述。
[0055]再進(jìn)一步地,作為圖2所示方法的具體實(shí)現(xiàn),本發(fā)明實(shí)施例提供一種惡意文本的檢測識別裝置,所述裝置的實(shí)體可以為服務(wù)器,如圖4所示,所述裝置可以包括:獲取單元41、確定單元42、建立單元43。
[0056]獲取單元41,可以用于獲取文本對應(yīng)的SimHash值。
[0057]獲取單元41,還可以用于根據(jù)所述文本對應(yīng)的SimHash值和惡意文本數(shù)據(jù)庫中保存的各個惡意文本分別對應(yīng)的SimHash值,獲取所述文本與所述各個惡意文本之間的漢明距離。
[0058]確定單元42,可以用于若所述漢明距離中存在小于或等于預(yù)設(shè)閾值的漢明距離,則確定所述文本為惡意文本。
[0059]獲取單元41,可以用于獲取所述文本中包含的各個中文字分別對應(yīng)的漢語拼音。
[0060]獲取單元41,還可以用于計算所述各個中文字分別對應(yīng)的哈希值和所述漢語拼音分別對應(yīng)的哈希值。
[0061]獲取單元41,還可以用于根據(jù)所述各個中文字分別對應(yīng)的哈希值和所述漢語拼音分別對應(yīng)的哈希值,獲取所述文本對應(yīng)的SimHash值。
[0062]建立單元43,可以用于建立所述惡意文本數(shù)據(jù)庫,所述惡意文本數(shù)據(jù)庫中保存有多個惡意文本和所述多個惡意文本分別對應(yīng)的SimHash值。
[0063]建立單元43可以包括:劃分模塊4301、計算模塊4302、獲取模塊4303、保存模塊4304。
[0064]劃分模塊4301,可以用于將任意一個文本劃分為多個特征詞。
[0065]計算模塊4302,可以用于分別計算所述劃分模塊4301劃分的多個特征詞
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
关岭| 红安县| 南涧| 湘乡市| 泽库县| 遂川县| 香河县| 葵青区| 三亚市| 瓮安县| 阳江市| 晋城| 楚雄市| 河池市| 博客| 靖宇县| 舞钢市| 临汾市| 新余市| 郑州市| 府谷县| 余姚市| 琼结县| 萨嘎县| 昌图县| 青州市| 波密县| 炉霍县| 万荣县| 呼伦贝尔市| 延安市| 定襄县| 凤庆县| 井研县| 顺义区| 聊城市| 西青区| 沾化县| 乐亭县| 尼木县| 黎平县|