本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種垃圾文本息識(shí)別方法和裝置。
背景技術(shù):
隨著現(xiàn)在通信技術(shù)的迅猛發(fā)展和互聯(lián)網(wǎng)的普及,在帶給用戶更多方便的同時(shí),垃圾文本問題也充斥著人們的視野。具體來說,一些不良用戶在互聯(lián)網(wǎng)上發(fā)布大量涉政、涉黃、涉賭、虛假廣告、不文明用語等垃圾信息,給互聯(lián)網(wǎng)的健康發(fā)展帶來嚴(yán)重的不利影響。因此,有必要對互聯(lián)網(wǎng)上的垃圾文本進(jìn)行識(shí)別,以便對這些垃圾文本進(jìn)行過濾或者刪除。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種垃圾文本識(shí)別方法和裝置,用于對用戶上傳的文本是否垃圾文本進(jìn)行識(shí)別,以避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。
為了解決上述問題,本發(fā)明公開了一種垃圾文本識(shí)別方法,應(yīng)用于互聯(lián)網(wǎng),所述方法具體包括步驟:
獲取互聯(lián)網(wǎng)的用戶輸入的文本;
對所述文本的特征進(jìn)行特征提取,得到所述文本的多個(gè)文本特征;
利用預(yù)設(shè)的垃圾文本識(shí)別模型對所述文本特征進(jìn)行識(shí)別,得到所述文本的垃圾概率。
優(yōu)選的,所述對所述文本的特征進(jìn)行特征提取,包括:
利用預(yù)先構(gòu)建的語料庫、停用詞表、關(guān)鍵詞表和變異詞表對所述文本進(jìn)行特征提取,得到所述多個(gè)文本特征。
優(yōu)選的,所述關(guān)鍵詞表的構(gòu)建方法包括如下步驟:
根據(jù)所述語料庫對所述文本進(jìn)行分詞處理,并統(tǒng)計(jì)所述分詞處理得到的每個(gè)詞或字符所出現(xiàn)的頻次;
將通過分詞處理提取出的各個(gè)類別的詞、字符和詞組合作為關(guān)鍵詞;
根據(jù)所述關(guān)鍵詞和所述頻次得到所述關(guān)鍵詞的垃圾概率;
將所述關(guān)鍵詞及其對應(yīng)的所述垃圾概率加入預(yù)設(shè)的表格,得到所述關(guān)鍵詞表。
優(yōu)選的,所述文本特征包括語義文本特征和非語義文本特征,所述利用預(yù)設(shè)的垃圾文本識(shí)別模型對所述文本特征進(jìn)行識(shí)別,包括:
將所述語義文本特征輸入預(yù)設(shè)的語義特征垃圾文本識(shí)別模型進(jìn)行識(shí)別,得到第一概率;
進(jìn)一步,將所述非語義文本特征輸入預(yù)設(shè)的非語義特征垃圾文本識(shí)別模型進(jìn)行識(shí)別,得到第二概率;
對所述第一概率和所述第二概率進(jìn)行綜合處理,最終得到所述垃圾概率。
優(yōu)選的,所述非語義特征垃圾文本識(shí)別模型為根據(jù)預(yù)設(shè)的多個(gè)關(guān)鍵詞表、運(yùn)用機(jī)器學(xué)習(xí)模型訓(xùn)練得到。
優(yōu)選的,所述多個(gè)非語義文本特征包括關(guān)鍵詞垃圾概率、變異詞垃圾概率、標(biāo)點(diǎn)符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實(shí)體詞個(gè)數(shù)占比和連續(xù)n個(gè)及以上重復(fù)字符出現(xiàn)次數(shù)中的部分或全部,n為正整數(shù)。
優(yōu)選的,在所述對所述文本的特征進(jìn)行計(jì)算步驟之前,還包括:
對所述文本進(jìn)行預(yù)處理,剔除其中無益于垃圾識(shí)別的字符。
相應(yīng)的,為了保證上述方法的實(shí)施,本發(fā)明還提供了一種垃圾文本識(shí)別系統(tǒng),應(yīng)用于互聯(lián)網(wǎng),所述系統(tǒng)具體包括:
文本獲取模塊,用于獲取互聯(lián)網(wǎng)的用戶輸入的文本;
特征提取模塊,用于對所述文本的特征進(jìn)行特征提取,得到所述文本的多個(gè)文本特征;
垃圾識(shí)別模塊,用于利用預(yù)設(shè)的垃圾文本識(shí)別模型對用戶輸入的文本進(jìn)行識(shí)別,得到所述文本的垃圾概率。
優(yōu)選的,所述特征提取模塊包括:
文本特征提取單元,用于利用預(yù)先構(gòu)建的語料庫、停用詞表、關(guān)鍵詞表和變異詞表對所述文本進(jìn)行特征提取,得到所述多個(gè)文本特征。
優(yōu)選的,所述特征提取模塊還包括關(guān)鍵詞表構(gòu)建單元,所述關(guān)鍵詞表構(gòu)建單元包括:
分詞處理子單元,用于根據(jù)所述語料庫對所述文本進(jìn)行分詞處理,并統(tǒng)計(jì)所述分詞處理得到的每個(gè)詞或字符所出現(xiàn)的頻次;
關(guān)鍵詞歸類子單元,用于將通過分詞處理提取出的各個(gè)類別的詞、字符和詞組合作為關(guān)鍵詞;
垃圾概率計(jì)算子單元,用于根據(jù)所述關(guān)鍵詞和所述頻次得到所述關(guān)鍵詞的垃圾概率;
關(guān)鍵詞表構(gòu)建子單元,用于將所述關(guān)鍵詞及其對應(yīng)的所述垃圾概率加入預(yù)設(shè)的表格,得到所述關(guān)鍵詞表。
優(yōu)選的,所述文本特征包括語義文本特征和非語義文本特征,所述特征識(shí)別模塊包括:
第一識(shí)別單元,用于將所述語義文本特征輸入預(yù)設(shè)的語義特征垃圾文本識(shí)別模型,得到第一概率;
第二識(shí)別單元,用于進(jìn)一步,將所述非語義文本特征輸入預(yù)設(shè)的非語義特征垃圾文本識(shí)別模型進(jìn)行識(shí)別,得到第二概率;
綜合處理單元,用于對所述第一概率和所述第二概率進(jìn)行綜合處理,最終得到所述垃圾概率。
優(yōu)選的,還包括:
模型訓(xùn)練模塊,用于通過根據(jù)預(yù)設(shè)的多個(gè)非語義文本特征、并運(yùn)用機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,得到所述非語義特征垃圾文本識(shí)別模型。
優(yōu)選的,所述多個(gè)非語義文本特征包括關(guān)鍵詞垃圾概率、變異詞垃圾概率、標(biāo)點(diǎn)符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實(shí)體詞個(gè)數(shù)占比和連續(xù)n個(gè)及以上重復(fù)字符出現(xiàn)次數(shù)中的部分或全部,n為正整數(shù)。
優(yōu)選的,還包括:
文本預(yù)處理模塊,用于對所述文本進(jìn)行預(yù)處理,剔除其中無益于垃圾識(shí)別的字符。
從上述技術(shù)方案可以看出,本發(fā)明提供了一種垃圾文本識(shí)別方法和系統(tǒng),該方法和系統(tǒng)應(yīng)用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本的特征進(jìn)行特征提取,得到文本的多個(gè)文本特征;利用預(yù)設(shè)的垃圾文本識(shí)別模型對用于輸入的文本進(jìn)行識(shí)別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預(yù)設(shè)標(biāo)準(zhǔn)可以確定出該文本是否為垃圾文本,并可進(jìn)一步對判定的垃圾文本采取一定的預(yù)防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明提供的一種垃圾文本識(shí)別方法實(shí)施例的步驟流程圖;
圖2為本發(fā)明提供的另一種垃圾文本識(shí)別方法實(shí)施例的步驟流程圖;
圖3為本發(fā)明提供的一種垃圾文本識(shí)別系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖;
圖4為本發(fā)明提供的垃圾文本識(shí)別系統(tǒng)實(shí)施例的另一結(jié)構(gòu)框圖;
圖5為本發(fā)明提供的另一種垃圾文本識(shí)別系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例一
圖1為本發(fā)明提供的一種垃圾文本識(shí)別方法實(shí)施例的步驟流程圖。
參照圖1所示,本實(shí)施例提供的垃圾文本識(shí)別方法應(yīng)用于互聯(lián)網(wǎng),用于在用戶輸入文本時(shí)對其是否垃圾文本進(jìn)行判斷。該識(shí)別方法具體包括如下步驟:
s101:獲取互聯(lián)網(wǎng)的用戶輸入的文本。
用戶在使用互聯(lián)網(wǎng)過程中,經(jīng)常會(huì)利用相應(yīng)網(wǎng)絡(luò)工具的輸入界面輸入相應(yīng)的文本,例如通過即時(shí)通軟件的輸入窗口、論壇或微博的回復(fù)窗口等輸入文本。當(dāng)用戶通過相應(yīng)的操作,產(chǎn)生發(fā)帖事件、回帖事件、評論事件、即時(shí)通訊事件、彈幕事件等事件時(shí),獲取上述事件產(chǎn)生的輸入數(shù)據(jù),即這里的文本。
s102:對獲取的文本進(jìn)行特征提取,得到多個(gè)文本特征。
在獲取上述用戶輸入的文本后,對該文本進(jìn)行特征提取,得到文本的多個(gè)文本特征,這里的文本特征包括語義文本特征和非語義文本特征。在對文本進(jìn)行特征提取時(shí),利用預(yù)先構(gòu)建的語料庫、停用詞表、關(guān)鍵詞表和變異詞表對文本進(jìn)行提前,得到上述的語義文本特征和非語義文本特征。
值得指出的是,本發(fā)明中僅選取一些典型的詞匯作為上述語義文本特征。同時(shí),由于任何一種語言都具備海量的詞匯,但是詞性的個(gè)數(shù)且較為有限,為此,在選取非語義文本特征時(shí),對于詞語本身的特征,我們將其詞性作為非語義文本特征予以提取,而不是將其本身作為特征,這樣就能夠大大降低上述非語義文本特征的維度,較好地規(guī)避了維度災(zāi)難。
例如,當(dāng)用戶輸入的文本為“我愛爸爸媽媽”,進(jìn)行分詞處理后可以得到“我”、“愛”、“爸爸”和“媽媽”這四個(gè)詞匯,對應(yīng)的詞性分別為代詞、動(dòng)詞、名詞和名詞,則用戶傳入的文本中攜帶有代詞、動(dòng)詞和名詞這三個(gè)非語義文本特征。
在預(yù)構(gòu)相應(yīng)語料庫時(shí),需預(yù)先收集大量的文本數(shù)據(jù),并經(jīng)過自動(dòng)或者人工標(biāo)注,給每條文本數(shù)據(jù)打上相應(yīng)的標(biāo)簽,如涉黃、涉政、涉毒、涉賭、含不文明用語、廣告、灌水等,從而得到上述的語料庫。
在預(yù)構(gòu)相應(yīng)停用詞表時(shí),依據(jù)上述構(gòu)建好的語料庫,對文本進(jìn)行分詞處理,并統(tǒng)計(jì)出每個(gè)詞或字符的頻次,自動(dòng)或人工提取出高頻且無實(shí)際意義的詞或字符,將提取出的詞或字符做為停用詞,從而構(gòu)建出上述停用詞表。
在預(yù)構(gòu)相應(yīng)關(guān)鍵詞表時(shí),依據(jù)上述構(gòu)建的語料庫,對文本進(jìn)行分詞處理,并統(tǒng)計(jì)出得到的每個(gè)詞和字符出現(xiàn)的頻次,同時(shí)用關(guān)聯(lián)分析得出詞組合;例如,例如對于“制造&10&氣槍”,表示某一文本同時(shí)出現(xiàn)“制造”和“氣槍”兩個(gè)詞,且兩個(gè)詞之間的距離小于10個(gè)字符,則認(rèn)為該文本為垃圾文本。將上述詞、字符和詞組合作為關(guān)鍵詞;進(jìn)一步,依據(jù)上述詞、字符和詞組合的頻次,得到每個(gè)詞、字符和詞組合的垃圾概率;從而最終將上述詞、字符和詞組合以及相應(yīng)的垃圾概率代入預(yù)設(shè)的表格中,最終得到相應(yīng)的關(guān)鍵詞表。
在預(yù)構(gòu)相應(yīng)的變異詞表時(shí),依據(jù)上述構(gòu)建的語料庫,找出目前已經(jīng)發(fā)現(xiàn)的關(guān)鍵詞的形近詞和同音詞,確定相應(yīng)的垃圾概率,從而構(gòu)建出關(guān)鍵詞的變異詞表。
s103:利用預(yù)設(shè)的垃圾文本識(shí)別模型對文本特征進(jìn)行識(shí)別。
鑒于上述的文本特征包括語義文本特征和非語義文本特征,因此,這里的垃圾文本識(shí)別模型分別為語義特征垃圾文本識(shí)別模型和非語義特征垃圾文本識(shí)別模型,利用相應(yīng)的識(shí)別模型對分別對語義文本特征和非語義文本特征進(jìn)行識(shí)別,從而最終的到用戶輸入的文本的垃圾概率,以供決策者根據(jù)該垃圾概率確定相應(yīng)的對策。
在對用戶輸入的文本進(jìn)行識(shí)別時(shí),首先將語義文本特征輸入上述語義特征垃圾文本識(shí)別模型進(jìn)行識(shí)別,從而得到對應(yīng)語義文本特征的垃圾概率,這里描述為第一概率;
然后,將非語義文本特征輸入上述非語義特征垃圾文本識(shí)別模型進(jìn)行識(shí)別,從而得到對應(yīng)于非語義文本特征的垃圾概率,這里描述為第二概率;
在得到上述分別對應(yīng)于語義文本特征和非語義文本特征的第一概率和第二概率后,通過預(yù)設(shè)的計(jì)算規(guī)律,例如直接平均或者加權(quán)平均方法,得到用戶輸入的文本的垃圾概率。
上述的非語義特征垃圾文本識(shí)別模型是通過利用多個(gè)非語義文本特征進(jìn)行訓(xùn)練得到的,上述訓(xùn)練類似于對數(shù)學(xué)模型的訓(xùn)練,即將歷史數(shù)據(jù)代入預(yù)設(shè)的數(shù)學(xué)模型對其進(jìn)行訓(xùn)練,最終得到相應(yīng)的模型。本發(fā)明中的非語義文本特征可達(dá)79個(gè)之多,例如:關(guān)鍵詞垃圾概率、變異詞垃圾概率、標(biāo)點(diǎn)符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實(shí)體詞個(gè)數(shù)占比和連續(xù)n個(gè)及以上重復(fù)字符出現(xiàn)次數(shù),其中n為正整數(shù),例如可選擇5。
上述的關(guān)鍵詞垃圾概率用于判斷文本中關(guān)鍵詞的垃圾概率,文本中的關(guān)鍵詞的垃圾概率越高,則文本為垃圾文本的概率越大,具體垃圾概率的計(jì)算方法如下,且與變異詞垃圾概率相似:
步驟一:匹配出用戶輸入的文本中所有的關(guān)鍵詞,構(gòu)建關(guān)鍵詞集合;
{w1,w2,…,wn}
步驟二:根據(jù)事先構(gòu)建好的關(guān)鍵詞表,找出對應(yīng)的垃圾概率集合;
{pl,p2,…,pn}
步驟三:計(jì)算依據(jù)如下文本關(guān)鍵詞垃圾概率公式,得到關(guān)鍵詞垃圾概率。
變異詞垃圾概率的作用同上述的關(guān)鍵詞垃圾概率,即變異詞的垃圾概率越高,則用戶輸入的文本的垃圾概率越大。其計(jì)算過程同關(guān)鍵詞垃圾概率的過程一致,只是其中使用的詞表為變異詞表。
在許多灌水的文本中,標(biāo)點(diǎn)符號的使用常常不規(guī)范,常見的情況是過多重復(fù)地使用某一個(gè)或幾個(gè)標(biāo)點(diǎn)符號。另外,在廣告的文本中,不良分子為了規(guī)避現(xiàn)有的垃圾識(shí)別方法,常常在聯(lián)系方式內(nèi)容中加入無關(guān)的標(biāo)點(diǎn)符號,例如“加扣扣2.3.5,32,1,3《7》”。因此,標(biāo)點(diǎn)符號照壁這一特征在一定程度上能夠識(shí)別用戶輸入的文本是否為垃圾文本。
本發(fā)明中,將字符分為漢字、字幕、數(shù)字、標(biāo)點(diǎn)符號、其他符號等五大類。字符類型變換此時(shí)是指文本中不同類型的字符兩兩相互變換的總次數(shù)。計(jì)算公式如下:
其中counti,j表示類型i與類型j的變換次數(shù)。
例如:在文本“加扣扣2.3.5,32,1,3《7》”中,漢字與數(shù)字的變換次數(shù)為1,數(shù)字與標(biāo)點(diǎn)符號的變換次數(shù)為7,標(biāo)點(diǎn)符號與數(shù)字的變換次數(shù)為6,其他兩兩變換的次數(shù)為0,因此,該文本的字符類型變換次數(shù)為1+7+6=14。
在實(shí)際中,灌水的文本內(nèi)容常常實(shí)體詞較少,即能夠表達(dá)實(shí)際意義的詞較少。這里的實(shí)體詞包括名詞、動(dòng)詞、形容詞等在句子中有實(shí)際含義的詞。
從上述技術(shù)方案中可以看出,本實(shí)施例提供了一種垃圾文本識(shí)別方法,該方法應(yīng)用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本的特征進(jìn)行特征提取,得到文本的多個(gè)文本特征;利用預(yù)設(shè)的垃圾文本識(shí)別模型對用戶輸入的文本進(jìn)行識(shí)別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預(yù)設(shè)標(biāo)準(zhǔn)可以確定出該文本是否為垃圾文本,并可進(jìn)一步對判定的垃圾文本采取一定的預(yù)防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。
實(shí)施例二
圖2為本發(fā)明提供的另一種垃圾文本識(shí)別方法實(shí)施例的步驟流程圖。
參照圖2所示,本實(shí)施例提供的垃圾文本識(shí)別方法應(yīng)用于互聯(lián)網(wǎng),用于在用戶輸入文本時(shí)對其是否垃圾文本進(jìn)行判斷。該識(shí)別方法具體包括如下步驟:
s201:獲取互聯(lián)網(wǎng)的用戶輸入的文本。
用戶在使用互聯(lián)網(wǎng)過程中,經(jīng)常會(huì)利用相應(yīng)網(wǎng)絡(luò)工具的輸入界面輸入相應(yīng)的文本,例如通過即時(shí)通軟件的輸入窗口、論壇或微博的回復(fù)窗口等輸入文本。當(dāng)用戶通過相應(yīng)的操作,產(chǎn)生發(fā)帖事件、回帖事件、評論事件、即時(shí)通訊事件、彈幕事件等事件時(shí),獲取上述事件產(chǎn)生的輸入數(shù)據(jù),即這里的文本。
s202:對獲取的文本進(jìn)行預(yù)處理。
通過預(yù)處理,將用戶輸入的文本中無益于垃圾識(shí)別的字符予以剔除,例如http標(biāo)簽、表情符號、停用詞等,通過減少需要辨識(shí)的字符能夠減少整個(gè)識(shí)別所需的計(jì)算量,從而一定意義上能夠提高識(shí)別效率。
s203:對獲取的文本進(jìn)行特征提取,得到多個(gè)文本特征。
在獲取上述用戶輸入的文本后,對該文本進(jìn)行特征提取,得到文本的多個(gè)文本特征,這里的文本特征包括語義文本特征和非語義文本特征。在對文本進(jìn)行特征提取時(shí),利用預(yù)先構(gòu)建的語料庫、停用詞表、關(guān)鍵詞表和變異詞表對文本進(jìn)行提前,得到上述的語義文本特征和非語義文本特征。
值得指出的是,本發(fā)明中僅選取一些典型的詞匯作為上述語義文本特征。同時(shí),由于任何一種語言都具備海量的詞匯,但是詞性的個(gè)數(shù)且較為有限,為此,在選取非語義文本特征時(shí),對于詞語本身的特征,我們將其詞性作為非語義文本特征予以提取,而不是將其本身作為特征,這樣就能夠大大降低上述非語義文本特征的維度,較好地規(guī)避了維度災(zāi)難。
例如,當(dāng)用戶輸入的文本為“我愛爸爸媽媽”,進(jìn)行分詞處理后可以得到“我”、“愛”、“爸爸”和“媽媽”這四個(gè)詞匯,對應(yīng)的詞性分別為代詞、動(dòng)詞、名詞和名詞,則用戶傳入的文本中攜帶有代詞、動(dòng)詞和名詞這三個(gè)非語義文本特征。
在預(yù)構(gòu)相應(yīng)語料庫時(shí),需預(yù)先收集大量的文本數(shù)據(jù),并經(jīng)過自動(dòng)或者人工標(biāo)注,給每條文本數(shù)據(jù)打上相應(yīng)的標(biāo)簽,如涉黃、涉政、涉毒、涉賭、含不文明用語、廣告、灌水等,從而得到上述的語料庫。
在預(yù)構(gòu)相應(yīng)停用詞表時(shí),依據(jù)上述構(gòu)建好的語料庫,對文本進(jìn)行分詞處理,并統(tǒng)計(jì)出每個(gè)詞或字符的頻次,自動(dòng)或人工提取出高頻且無實(shí)際意義的詞或字符,將提取出的詞或字符做為停用詞,從而構(gòu)建出上述停用詞表。
在預(yù)構(gòu)相應(yīng)關(guān)鍵詞表時(shí),依據(jù)上述構(gòu)建的語料庫,對文本進(jìn)行分詞處理,并統(tǒng)計(jì)出得到的每個(gè)詞和字符出現(xiàn)的頻次,同時(shí)用關(guān)聯(lián)分析得出詞組合;例如,例如對于“制造&10&氣槍”,表示某一文本同時(shí)出現(xiàn)“制造”和“氣槍”兩個(gè)詞,且兩個(gè)詞之間的距離小于10個(gè)字符,則認(rèn)為該文本為垃圾文本。將上述詞、字符和詞組合作為關(guān)鍵詞;進(jìn)一步,依據(jù)上述詞、字符和詞組合的頻次,得到每個(gè)詞、字符和詞組合的垃圾概率;從而最終將上述詞、字符和詞組合以及相應(yīng)的垃圾概率代入預(yù)設(shè)的表格中,最終得到相應(yīng)的關(guān)鍵詞表。
在預(yù)構(gòu)相應(yīng)的變異詞表時(shí),依據(jù)上述構(gòu)建的語料庫,找出目前已經(jīng)發(fā)現(xiàn)的關(guān)鍵詞的形近詞和同音詞,確定相應(yīng)的垃圾概率,從而構(gòu)建出關(guān)鍵詞的變異詞表。
s204:利用預(yù)設(shè)的垃圾文本識(shí)別模型對文本特征進(jìn)行識(shí)別。
鑒于上述的文本特征包括語義文本特征和非語義文本特征,因此,這里的垃圾文本識(shí)別模型分別為語義特征垃圾文本識(shí)別模型和非語義特征垃圾文本識(shí)別模型,利用相應(yīng)的識(shí)別模型分別對語義文本特征和非語義文本特征進(jìn)行識(shí)別,從而最終的到用戶輸入的文本的垃圾概率,以供決策者根據(jù)該垃圾概率確定相應(yīng)的對策。
在對用戶輸入的文本進(jìn)行識(shí)別時(shí),首先將語義文本特征輸入上述語義特征垃圾文本識(shí)別模型進(jìn)行識(shí)別,從而得到對應(yīng)語義文本特征的垃圾概率,這里描述為第一概率;
然后,將非語義文本特征輸入上述非語義特征垃圾文本識(shí)別模型進(jìn)行識(shí)別,從而得到對應(yīng)于非語義文本特征的垃圾概率,這里描述為第二概率;
在得到上述分別對應(yīng)于語義文本特征和非語義文本特征的第一概率和第二概率后,通過預(yù)設(shè)的計(jì)算規(guī)律,例如直接平均或者加權(quán)平均方法,得到用戶輸入的文本的垃圾概率。
上述的非語義特征垃圾文本識(shí)別模型是通過利用多個(gè)非語義文本特征進(jìn)行訓(xùn)練得到的,上述訓(xùn)練類似于對數(shù)學(xué)模型的訓(xùn)練,即將歷史數(shù)據(jù)代入預(yù)設(shè)的數(shù)學(xué)模型對其進(jìn)行訓(xùn)練,最終得到相應(yīng)的模型。本發(fā)明中的多個(gè)關(guān)鍵詞可達(dá)79個(gè)之多,其中的關(guān)鍵詞例如:關(guān)鍵詞垃圾概率、變異詞垃圾概率、標(biāo)點(diǎn)符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實(shí)體詞個(gè)數(shù)占比和連續(xù)n個(gè)及以上重復(fù)字符出現(xiàn)次數(shù),其中n為正整數(shù),例如可選擇5。
上述的關(guān)鍵詞垃圾概率用于判斷文本中關(guān)鍵詞的垃圾概率,文本中的關(guān)鍵詞的垃圾概率越高,則文本為垃圾文本的概率越大。
從上述技術(shù)方案中可以看出,本實(shí)施例提供了另一種垃圾文本識(shí)別方法,該方法應(yīng)用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本進(jìn)行預(yù)處理,剔除其中無益于垃圾識(shí)別的字符;對文本的特征進(jìn)行特征提取,得到文本的多個(gè)文本特征;利用預(yù)設(shè)的垃圾文本識(shí)別模型對文本特征進(jìn)行識(shí)別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預(yù)設(shè)標(biāo)準(zhǔn)可以確定出該文本是否為垃圾文本,并可進(jìn)一步對判定的垃圾文本采取一定的預(yù)防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。
需要說明的是,對于方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。
實(shí)施例三
圖3為本發(fā)明提供的一種垃圾文本識(shí)別系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。
參照圖3所示,本實(shí)施例提供的垃圾文本識(shí)別系統(tǒng)應(yīng)用于互聯(lián)網(wǎng),用于在用戶輸入文本時(shí)對其是否垃圾文本進(jìn)行判斷。該識(shí)別系統(tǒng)具體包括文本獲取模塊10、特征提取模塊20和垃圾識(shí)別模塊30。
文本獲取模塊用于獲取互聯(lián)網(wǎng)的用戶輸入的文本。
用戶在使用互聯(lián)網(wǎng)過程中,經(jīng)常會(huì)利用相應(yīng)網(wǎng)絡(luò)工具的輸入界面輸入相應(yīng)的文本,例如通過即時(shí)通軟件的輸入窗口、論壇或微博的回復(fù)窗口等輸入文本。當(dāng)用戶通過相應(yīng)的操作,產(chǎn)生發(fā)帖事件、回帖事件、評論事件、即時(shí)通訊事件、彈幕事件等事件時(shí),獲取上述事件產(chǎn)生的輸入數(shù)據(jù),即這里的文本。
特征提取模塊用于對獲取的文本進(jìn)行特征提取,得到多個(gè)文本特征。
在獲取上述用戶輸入的文本后,對該文本進(jìn)行特征提取,得到文本的多個(gè)文本特征,這里的文本特征包括語義文本特征和非語義文本特征。相應(yīng)的,該模塊包括文本特征提取單元21,用于在對文本進(jìn)行特征提取時(shí),利用預(yù)先構(gòu)建的語料庫、停用詞表、關(guān)鍵詞表和變異詞表對文本進(jìn)行提前,得到上述的語義文本特征和非語義文本特征。
值得指出的是,本發(fā)明中僅選取一些典型的詞匯作為上述語義文本特征。同時(shí),由于任何一種語言都具備海量的詞匯,但是詞性的個(gè)數(shù)且較為有限,為此,在選取非語義文本特征時(shí),對于詞語本身的特征,我們將其詞性作為非語義文本特征予以提取,而不是將其本身作為特征,這樣就能夠大大降低上述非語義文本特征的維度,較好地規(guī)避了維度災(zāi)難。
例如,當(dāng)用戶輸入的文本為“我愛爸爸媽媽”,進(jìn)行分詞處理后可以得到“我”、“愛”、“爸爸”和“媽媽”這四個(gè)詞匯,對應(yīng)的詞性分別為代詞、動(dòng)詞、名詞和名詞,則用戶傳入的文本中攜帶有代詞、動(dòng)詞和名詞這三個(gè)非語義文本特征。
本模塊還包括語料庫構(gòu)建單元(未示出)、停用詞表構(gòu)建單元(未示出)、關(guān)鍵詞表構(gòu)建單元22和變異詞表構(gòu)建單元(未示出)。
語料庫構(gòu)建單元用于構(gòu)建語料庫,在預(yù)構(gòu)相應(yīng)語料庫時(shí),需預(yù)先收集大量的文本數(shù)據(jù),并經(jīng)過自動(dòng)或者人工標(biāo)注,給每條文本數(shù)據(jù)打上相應(yīng)的標(biāo)簽,如涉黃、涉政、涉毒、涉賭、含不文明用語、廣告、灌水等,從而得到上述的語料庫。
停用詞表構(gòu)建單元用于構(gòu)建停用詞表,在預(yù)構(gòu)相應(yīng)停用詞表時(shí),依據(jù)上述構(gòu)建好的語料庫,對文本進(jìn)行分詞處理,并統(tǒng)計(jì)出每個(gè)詞或字符的頻次,自動(dòng)或人工提取出高頻且無實(shí)際意義的詞或字符,將提取出的詞或字符作為停用詞,從而構(gòu)建出上述停用詞表。
關(guān)鍵詞表構(gòu)建單元具體包括分詞處理子單元221、關(guān)鍵詞歸類子單元222、垃圾概率計(jì)算子單元223和關(guān)鍵詞表構(gòu)建子單元224。分詞處理子單元用于在預(yù)構(gòu)相應(yīng)關(guān)鍵詞表時(shí),依據(jù)上述構(gòu)建的語料庫,對文本進(jìn)行分詞處理,并統(tǒng)計(jì)出得到的每個(gè)詞和字符出現(xiàn)的頻次,同時(shí)用關(guān)聯(lián)分析得出詞組合;例如,例如對于“制造&10&氣槍”,表示某一文本同時(shí)出現(xiàn)“制造”和“氣槍”兩個(gè)詞,且兩個(gè)詞之間的距離小于10個(gè)字符,則認(rèn)為該文本為垃圾文本。關(guān)鍵詞歸類子單元用于將上述詞、字符和詞組合作為關(guān)鍵詞;進(jìn)一步,垃圾概率計(jì)算子單元用于依據(jù)上述詞、字符和詞組合的頻次,得到每個(gè)詞、字符和詞組合的垃圾概率;關(guān)鍵詞表構(gòu)建子單元用于將上述詞、字符和詞組合以及相應(yīng)的垃圾概率代入預(yù)設(shè)的表格中,最終得到相應(yīng)的關(guān)鍵詞表。
在預(yù)構(gòu)相應(yīng)的變異詞表時(shí),依據(jù)上述構(gòu)建的語料庫,找出目前已經(jīng)發(fā)現(xiàn)的關(guān)鍵詞的形近詞和同音詞,確定相應(yīng)的垃圾概率,從而構(gòu)建出關(guān)鍵詞的變異詞表。
垃圾識(shí)別模塊用于利用預(yù)設(shè)的垃圾文本識(shí)別模型對文本特征進(jìn)行識(shí)別。
鑒于上述的文本特征包括語義文本特征和非語義文本特征,因此,這里的垃圾文本識(shí)別模型分別為語義特征垃圾文本識(shí)別模型和非語義特征垃圾文本識(shí)別模型,利用相應(yīng)的識(shí)別模型分別對語義文本特征和非語義文本特征進(jìn)行識(shí)別,從而最終的到用戶輸入的文本的垃圾概率,以供決策者根據(jù)該垃圾概率確定相應(yīng)的對策。
該特征識(shí)別模塊包括第一識(shí)別單元31、第二識(shí)別單元32和綜合處理單元33,在對用戶輸入的文本進(jìn)行識(shí)別時(shí),第一識(shí)別單元用于將語義文本特征輸入上述語義特征垃圾文本識(shí)別模型進(jìn)行識(shí)別,從而得到對應(yīng)語義文本特征的垃圾概率,這里描述為第一概率;
第二識(shí)別單元?jiǎng)t用于將非語義文本特征輸入上述非語義特征垃圾文本識(shí)別模型進(jìn)行識(shí)別,從而得到對應(yīng)于非語義文本特征的垃圾概率,這里描述為第二概率;
綜合處理單元用于在第一識(shí)別單元和第二識(shí)別單元分別得到上述分別對應(yīng)于語義文本特征和非語義文本特征的第一概率和第二概率后,通過預(yù)設(shè)的計(jì)算規(guī)律,例如直接平均或者加權(quán)平均方法,得到用戶輸入的文本的垃圾概率。
本發(fā)明還包括模型訓(xùn)練模塊40,參照圖4所示,模型訓(xùn)練模塊用于通過利用多個(gè)非語義文本特征進(jìn)行訓(xùn)練,從而得到上述的非語義特征垃圾文本識(shí)別模型,上述訓(xùn)練類似于對數(shù)學(xué)模型的訓(xùn)練,即將歷史數(shù)據(jù)代入預(yù)設(shè)的數(shù)學(xué)模型對其進(jìn)行訓(xùn)練,最終得到相應(yīng)的模型。本發(fā)明中的多個(gè)關(guān)鍵詞可達(dá)79個(gè)之多,其中的關(guān)鍵詞例如:關(guān)鍵詞垃圾概率、變異詞垃圾概率、標(biāo)點(diǎn)符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實(shí)體詞個(gè)數(shù)占比和連續(xù)n個(gè)及以上重復(fù)字符出現(xiàn)次數(shù),其中n為正整數(shù),例如可選擇5。
上述的關(guān)鍵詞垃圾概率用于判斷文本中關(guān)鍵詞的垃圾概率,文本中的關(guān)鍵詞的垃圾概率越高,則文本為垃圾文本的概率越大,具體的垃圾概率的計(jì)算方法如下:
步驟一:匹配出用戶輸入的文本中所有的關(guān)鍵詞,構(gòu)建關(guān)鍵詞集合;
{w1,w2,…,wn}
步驟二:根據(jù)事先構(gòu)建好的關(guān)鍵詞表,找出對應(yīng)的垃圾概率集合;
{p1,p2,…,pn}
步驟三:計(jì)算依據(jù)如下文本關(guān)鍵詞垃圾概率公式,得到關(guān)鍵詞垃圾概率。
變異詞垃圾概率的作用同上述的關(guān)鍵詞垃圾概率,即變異詞的垃圾概率越高,則用戶輸入的文本的垃圾概率越大。其計(jì)算過程同關(guān)鍵詞垃圾概率的過程一致,只是其中使用的詞表為變異詞表。
在許多灌水的文本中,標(biāo)點(diǎn)符號的使用常常不規(guī)范,常見的情況是過多重復(fù)地使用某一個(gè)或幾個(gè)標(biāo)點(diǎn)符號。另外,在廣告的文本中,不良分子為了規(guī)避現(xiàn)有的垃圾識(shí)別方法,常常在聯(lián)系方式內(nèi)容中加入無關(guān)的標(biāo)點(diǎn)符號,例如“加扣扣2.3.5,32,1,3《7》”。因此,標(biāo)點(diǎn)符號照壁這一特征在一定程度上能夠識(shí)別用戶輸入的文本是否為垃圾文本。
本發(fā)明中,將字符分為漢字、字幕、數(shù)字、標(biāo)點(diǎn)符號、其他符號等五大類。字符類型變換此時(shí)是指文本中不同類型的字符兩兩相互變換的總次數(shù)。計(jì)算公式如下:
其中counti,j表示類型i與類型j的變換次數(shù)。
例如:在文本“加扣扣2.3.5,32,1,3《7》”中,漢字與數(shù)字的變換次數(shù)為1,數(shù)字與標(biāo)點(diǎn)符號的變換次數(shù)為7,標(biāo)點(diǎn)符號與數(shù)字的變換次數(shù)為6,其他兩兩變換的次數(shù)為0,因此,該文本的字符類型變換次數(shù)為1+7+6=14。
在實(shí)際中,灌水的文本內(nèi)容常常實(shí)體詞較少,即能夠表達(dá)實(shí)際意義的詞較少。這里的實(shí)體詞包括名詞、動(dòng)詞、形容詞等在句子中有實(shí)際含義的詞。
從上述技術(shù)方案中可以看出,本實(shí)施例提供了一種垃圾文本識(shí)別方法,該方法應(yīng)用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本的特征進(jìn)行特征提取,得到文本的多個(gè)文本特征;利用預(yù)設(shè)的垃圾文本識(shí)別模型對用戶輸入的文本進(jìn)行識(shí)別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預(yù)設(shè)標(biāo)準(zhǔn)可以確定出該文本是否為垃圾文本,并可進(jìn)一步對判定的垃圾文本采取一定的預(yù)防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。
實(shí)施例四
圖5為本發(fā)明提供的另一種垃圾文本識(shí)別系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。
參照圖5所示,本實(shí)施例提供的垃圾文本識(shí)別系統(tǒng)是在上一實(shí)施例的基礎(chǔ)上增設(shè)了文本預(yù)處理模塊50。
文本預(yù)處理模塊用于對文本獲取模塊獲取的文本進(jìn)行預(yù)處理。
通過該模塊的預(yù)處理,將用戶輸入的文本中無益于垃圾識(shí)別的字符予以剔除,例如http標(biāo)簽、表情符號、停用詞等,通過減少需要辨識(shí)的字符能夠減少整個(gè)識(shí)別所需的計(jì)算量,從而一定意義上能夠提高識(shí)別效率。
從上述技術(shù)方案中可以看出,本實(shí)施例提供了另一種垃圾文本識(shí)別方法,該方法應(yīng)用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本進(jìn)行預(yù)處理,剔除其中無益于垃圾識(shí)別的字符;對文本的特征進(jìn)行特征提取,得到文本的多個(gè)文本特征;利用預(yù)設(shè)的垃圾文本識(shí)別模型對文本特征進(jìn)行識(shí)別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預(yù)設(shè)標(biāo)準(zhǔn)可以確定出該文本是否為垃圾文本,并可進(jìn)一步對判定的垃圾文本采取一定的預(yù)防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。
對于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。
以上對本發(fā)明所提供的技術(shù)方案進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。