一種文本敏感詞過(guò)濾系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息過(guò)濾技術(shù)領(lǐng)域,具體涉及基于語(yǔ)音的文本敏感詞過(guò)濾系統(tǒng)和方法。
【背景技術(shù)】
[0002]目前先有的文本文件內(nèi)容主要有四種敏感詞過(guò)濾技術(shù),即基于因特網(wǎng)內(nèi)容分級(jí)平臺(tái)(PICS)過(guò)濾、敏感詞數(shù)據(jù)庫(kù)過(guò)濾、關(guān)鍵字或詞過(guò)濾以及智能內(nèi)容理解過(guò)濾。
[0003]由于信息傳送者一般不會(huì)主動(dòng)給其與發(fā)送的文本文件按照PICS標(biāo)準(zhǔn)貼標(biāo)簽,所以基于PICS過(guò)濾在實(shí)際應(yīng)用中效果不大;敏感詞數(shù)據(jù)庫(kù)過(guò)濾方式為現(xiàn)有技術(shù)中應(yīng)用作為廣泛的方式,其將長(zhǎng)期積累的敏感詞形成的敏感詞數(shù)據(jù)庫(kù)(敏感詞文本庫(kù))對(duì)文本內(nèi)容進(jìn)行逐個(gè)排查,當(dāng)與敏感詞一致時(shí),則對(duì)其進(jìn)行過(guò)濾,但是,由于敏感詞數(shù)據(jù)庫(kù)是共用或?yàn)榇蠹宜熘模虼?,信息傳送者可以采用修改待發(fā)送文本文件的方式進(jìn)行規(guī)避,例如在發(fā)送文本文件中帶有的敏感詞中間增加空格或特殊符號(hào),或者敏感詞中部分字、詞以拼音替代,這樣,敏感詞數(shù)據(jù)庫(kù)無(wú)法對(duì)其進(jìn)行識(shí)別和過(guò)濾;關(guān)鍵字或詞過(guò)濾能夠?qū)崿F(xiàn)較快的過(guò)濾速度,但是往往不考慮文本內(nèi)容,漏報(bào)、錯(cuò)報(bào)率較高,而且關(guān)鍵字詞更容易規(guī)避;智能內(nèi)容理解過(guò)濾技術(shù)發(fā)展不成熟,同時(shí)其計(jì)算量大、速度慢。
【發(fā)明內(nèi)容】
[0004]針對(duì)以上不足,本發(fā)明的目的之一在于提供一種文本敏感詞過(guò)濾系統(tǒng),其在現(xiàn)有敏感詞文本庫(kù)的基礎(chǔ)上,將待發(fā)送文本文件以及敏感詞文本庫(kù)均通過(guò)文本-語(yǔ)音轉(zhuǎn)換后形成音頻數(shù)據(jù)文件和敏感詞音頻數(shù)據(jù)庫(kù),然后再進(jìn)行比對(duì),在很大程度上滿足信息過(guò)濾的要求,而且計(jì)算量小、速度快。
[0005]為了實(shí)現(xiàn)上述目的,本發(fā)明通過(guò)下列技術(shù)方案來(lái)實(shí)現(xiàn):
[0006]一種文本敏感詞過(guò)濾系統(tǒng),其包括:
[0007]第一轉(zhuǎn)換單元,用于通過(guò)文本-語(yǔ)音轉(zhuǎn)換將敏感詞文本庫(kù)轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫(kù),所述敏感詞音頻數(shù)據(jù)庫(kù)包括若干個(gè)敏感詞音頻數(shù)據(jù)組;
[0008]接收單元,用于通過(guò)第一網(wǎng)絡(luò)接收待發(fā)送的文本文件,并存儲(chǔ)為臨時(shí)文本文件;
[0009]第二轉(zhuǎn)換單元,用于通過(guò)文本-語(yǔ)音轉(zhuǎn)換將臨時(shí)文本文件轉(zhuǎn)換成臨時(shí)音頻數(shù)據(jù)文件并存儲(chǔ),所述臨時(shí)文本文件和臨時(shí)音頻數(shù)據(jù)文件相關(guān)聯(lián);
[0010]判斷單元,用于將所述敏感詞音頻數(shù)據(jù)組分別與臨時(shí)音頻數(shù)據(jù)文件進(jìn)行比對(duì),獲得所述臨時(shí)音頻數(shù)據(jù)文件中具有的敏感詞音頻數(shù)據(jù)組,組成音頻過(guò)濾集合,并記錄這些敏感詞音頻數(shù)據(jù)組在臨時(shí)音頻數(shù)據(jù)文件中的位置;
[0011]過(guò)濾單元,用于對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾,并通過(guò)第二網(wǎng)絡(luò)將過(guò)濾后的臨時(shí)文本文件發(fā)送至接收終端,所述對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾的方法是將臨時(shí)文本文件中與所述位置相對(duì)應(yīng)的文本內(nèi)容進(jìn)行刪除。
[0012]本發(fā)明的另一目的在于提供一種文本敏感詞過(guò)濾方法,其在現(xiàn)有敏感詞文本庫(kù)的基礎(chǔ)上,將待發(fā)送文本文件以及敏感詞文本庫(kù)均通過(guò)文本-語(yǔ)音轉(zhuǎn)換后形成音頻數(shù)據(jù)文件和敏感詞音頻數(shù)據(jù)庫(kù),然后再進(jìn)行比對(duì),在很大程度上滿足信息過(guò)濾的要求,而且計(jì)算量小、速度快。
[0013]為了實(shí)現(xiàn)上述目的,本發(fā)明通過(guò)下列技術(shù)方案來(lái)實(shí)現(xiàn):
[0014]—種文本敏感詞過(guò)濾方法,其包括以下步驟:
[0015]步驟1、通過(guò)文本-語(yǔ)音轉(zhuǎn)換將敏感詞文本庫(kù)轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫(kù),所述敏感詞音頻數(shù)據(jù)庫(kù)包括若干個(gè)敏感詞音頻數(shù)據(jù)組;
[0016]步驟2、通過(guò)第一網(wǎng)絡(luò)接收待發(fā)送的文本文件,并存儲(chǔ)為臨時(shí)文本文件;
[0017]步驟3、通過(guò)文本-語(yǔ)音轉(zhuǎn)換將臨時(shí)文本文件轉(zhuǎn)換成臨時(shí)音頻數(shù)據(jù)文件并存儲(chǔ),所述臨時(shí)文本文件和臨時(shí)音頻數(shù)據(jù)文件相關(guān)聯(lián);
[0018]步驟4、將所述敏感詞音頻數(shù)據(jù)組分別與臨時(shí)音頻數(shù)據(jù)文件進(jìn)行比對(duì),獲得所述臨時(shí)音頻數(shù)據(jù)文件中具有的敏感詞音頻數(shù)據(jù)組,組成音頻過(guò)濾集合,并記錄這些敏感詞音頻數(shù)據(jù)組在臨時(shí)音頻數(shù)據(jù)文件中的位置;
[0019]步驟5、對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾,并通過(guò)第二網(wǎng)絡(luò)將過(guò)濾后的臨時(shí)文本文件發(fā)送至接收終端,所述對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾的方法是將臨時(shí)文本文件中與所述位置相對(duì)應(yīng)的文本內(nèi)容進(jìn)行刪除。
[0020]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:本發(fā)明在現(xiàn)有敏感詞文本庫(kù)的基礎(chǔ)上,將待發(fā)送文本文件以及敏感詞文本庫(kù)均通過(guò)文本-語(yǔ)音轉(zhuǎn)換后形成音頻數(shù)據(jù)文件和敏感詞音頻數(shù)據(jù)庫(kù),然后再進(jìn)行比對(duì),在很大程度上滿足信息過(guò)濾的要求,而且敏感詞音頻數(shù)據(jù)庫(kù)只需要轉(zhuǎn)換一次即可對(duì)所有文本文件進(jìn)行過(guò)濾,計(jì)算量小、速度快。
【附圖說(shuō)明】
[0021]圖1是本發(fā)明文本敏感詞過(guò)濾系統(tǒng)的結(jié)構(gòu)框圖;
[0022]圖2是本發(fā)明文本敏感詞過(guò)濾方法的流程圖。
【具體實(shí)施方式】
[0023]下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明的內(nèi)容做進(jìn)一步詳細(xì)說(shuō)明。
[0024]請(qǐng)參照?qǐng)D1和2所示,一種文本敏感詞過(guò)濾方法,其包括以下步驟:
[0025]S101、通過(guò)文本-語(yǔ)音轉(zhuǎn)換將敏感詞文本庫(kù)轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫(kù)。
[0026]敏感詞文本庫(kù)1為常規(guī)數(shù)據(jù)庫(kù),其由被視為敏感詞的若干個(gè)敏感詞組整理形成,已廣泛應(yīng)用于互聯(lián)網(wǎng)中。敏感詞文本庫(kù)1經(jīng)由代理服務(wù)器4中的文本-語(yǔ)音轉(zhuǎn)換單元42轉(zhuǎn)換形成敏感詞音頻數(shù)據(jù)庫(kù)44。該文本-語(yǔ)音轉(zhuǎn)換單元42的轉(zhuǎn)換方法有多種,其為常規(guī)技術(shù),這里不再贅述。敏感詞音頻數(shù)據(jù)庫(kù)44包括若干個(gè)敏感詞音頻數(shù)據(jù)組,敏感詞音頻數(shù)據(jù)組與敏感詞組為一一對(duì)應(yīng)關(guān)系。敏感詞音頻數(shù)據(jù)庫(kù)44存儲(chǔ)于代理服務(wù)器4中,只有在敏感詞文本庫(kù)1更新后,才進(jìn)行一次敏感詞文本庫(kù)1的音頻轉(zhuǎn)換,并且這時(shí)只需要對(duì)更新的敏感詞組進(jìn)行轉(zhuǎn)換即可,計(jì)算量小。
[0027]S102、通過(guò)第一網(wǎng)絡(luò)接收待發(fā)送的文本文件,并存儲(chǔ)為臨時(shí)文本文件。
[0028]待發(fā)送的文本文件1存儲(chǔ)于發(fā)送終端上,發(fā)送終端可以是手機(jī)、平板電腦、PC機(jī)等設(shè)備,第一網(wǎng)絡(luò)2可以為有線網(wǎng)絡(luò)或無(wú)線網(wǎng)絡(luò),臨時(shí)文本文件41存儲(chǔ)于代理服務(wù)器4中,避免了重復(fù)調(diào)用文本文件1的可能性。
[0029]S103、通過(guò)文本-語(yǔ)音轉(zhuǎn)換將臨時(shí)文本文件轉(zhuǎn)換成臨時(shí)音頻數(shù)據(jù)文件并存儲(chǔ)。
[0030]臨時(shí)文本文件41通過(guò)文本-語(yǔ)音轉(zhuǎn)換單元42轉(zhuǎn)換形成臨時(shí)音頻數(shù)據(jù)文件43,該臨時(shí)音頻數(shù)據(jù)文件43也存儲(chǔ)于代理服務(wù)器4中,同時(shí)臨時(shí)文本文件41和臨時(shí)音頻數(shù)據(jù)文件43在內(nèi)容上是相關(guān)聯(lián)的,也就是臨時(shí)文本文件41中的每個(gè)字均對(duì)應(yīng)臨時(shí)音頻數(shù)據(jù)文件43中的一個(gè)音頻數(shù)據(jù),對(duì)于臨時(shí)文本文件41中的標(biāo)點(diǎn)、特殊符號(hào)、空格以及亂碼等,則可直接忽略。
[0031]S104、將所述敏感詞音頻數(shù)據(jù)組分別與臨時(shí)音頻數(shù)據(jù)文件進(jìn)行比對(duì),獲得所述臨時(shí)音頻數(shù)據(jù)文件中具有的敏感詞音頻數(shù)據(jù)組,組成音頻過(guò)濾集合,并記錄這些敏感詞音頻數(shù)據(jù)組在臨時(shí)音頻數(shù)據(jù)文件中的位置。
[0032]通過(guò)代理服務(wù)器4中的過(guò)濾單元45在臨時(shí)音頻數(shù)據(jù)文件43中遍歷敏感詞音頻數(shù)據(jù)庫(kù)44中的每個(gè)敏感詞音頻數(shù)據(jù)組,當(dāng)臨時(shí)音頻數(shù)據(jù)文件43具有一致的敏感詞音頻數(shù)據(jù)組,則對(duì)該敏感詞音頻數(shù)據(jù)組以及其位置進(jìn)行標(biāo)記。
[0033]S105、對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾,并通過(guò)第二網(wǎng)絡(luò)將過(guò)濾后的臨時(shí)文本文件發(fā)送至接收終端,所述對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾的方法是將臨時(shí)文本文件中與所述位置相對(duì)應(yīng)的文本內(nèi)容進(jìn)行刪除。
[0034]在臨時(shí)音頻數(shù)據(jù)文件43標(biāo)記的敏感詞音頻數(shù)據(jù)組及其位置,必然在臨時(shí)文本文件41中的相應(yīng)位置具有一定與該敏感詞音頻數(shù)據(jù)組相關(guān)聯(lián)的文本內(nèi)容(該文本內(nèi)容中可能會(huì)出現(xiàn)的標(biāo)點(diǎn)、特殊符號(hào)、空格以及亂碼等),然后將這些文本內(nèi)容進(jìn)行刪除后的臨時(shí)文本文件41通過(guò)第二網(wǎng)絡(luò)5發(fā)送給接收終端6,從而完成了文本敏感詞的過(guò)濾。
[0035]上述實(shí)施例只是為了說(shuō)明本發(fā)明的技術(shù)構(gòu)思及特點(diǎn),其目的是在于讓本領(lǐng)域內(nèi)的普通技術(shù)人員能夠了解本發(fā)明的內(nèi)容并據(jù)以實(shí)施,并不能以此限制本發(fā)明的保護(hù)范圍。凡是根據(jù)本
【發(fā)明內(nèi)容】
的實(shí)質(zhì)所做出的等效的變化或修飾,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種文本敏感詞過(guò)濾系統(tǒng),其特征在于,其包括: 第一轉(zhuǎn)換單元,用于通過(guò)文本-語(yǔ)音轉(zhuǎn)換將敏感詞文本庫(kù)轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫(kù),所述敏感詞音頻數(shù)據(jù)庫(kù)包括若干個(gè)敏感詞音頻數(shù)據(jù)組; 接收單元,用于通過(guò)第一網(wǎng)絡(luò)接收待發(fā)送的文本文件,并存儲(chǔ)為臨時(shí)文本文件; 第二轉(zhuǎn)換單元,用于通過(guò)文本-語(yǔ)音轉(zhuǎn)換將臨時(shí)文本文件轉(zhuǎn)換成臨時(shí)音頻數(shù)據(jù)文件并存儲(chǔ),所述臨時(shí)文本文件和臨時(shí)音頻數(shù)據(jù)文件相關(guān)聯(lián); 判斷單元,用于將所述敏感詞音頻數(shù)據(jù)組分別與臨時(shí)音頻數(shù)據(jù)文件進(jìn)行比對(duì),獲得所述臨時(shí)音頻數(shù)據(jù)文件中具有的敏感詞音頻數(shù)據(jù)組,組成音頻過(guò)濾集合,并記錄這些敏感詞音頻數(shù)據(jù)組在臨時(shí)音頻數(shù)據(jù)文件中的位置; 過(guò)濾單元,用于對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾,并通過(guò)第二網(wǎng)絡(luò)將過(guò)濾后的臨時(shí)文本文件發(fā)送至接收終端,所述對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾的方法是將臨時(shí)文本文件中與所述位置相對(duì)應(yīng)的文本內(nèi)容進(jìn)行刪除。2.一種文本敏感詞過(guò)濾方法,其特征在于,其包括以下步驟: 步驟1、通過(guò)文本-語(yǔ)音轉(zhuǎn)換將敏感詞文本庫(kù)轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫(kù),所述敏感詞音頻數(shù)據(jù)庫(kù)包括若干個(gè)敏感詞音頻數(shù)據(jù)組; 步驟2、通過(guò)第一網(wǎng)絡(luò)接收待發(fā)送的文本文件,并存儲(chǔ)為臨時(shí)文本文件; 步驟3、通過(guò)文本-語(yǔ)音轉(zhuǎn)換將臨時(shí)文本文件轉(zhuǎn)換成臨時(shí)音頻數(shù)據(jù)文件并存儲(chǔ),所述臨時(shí)文本文件和臨時(shí)音頻數(shù)據(jù)文件相關(guān)聯(lián); 步驟4、將所述敏感詞音頻數(shù)據(jù)組分別與臨時(shí)音頻數(shù)據(jù)文件進(jìn)行比對(duì),獲得所述臨時(shí)音頻數(shù)據(jù)文件中具有的敏感詞音頻數(shù)據(jù)組,組成音頻過(guò)濾集合,并記錄這些敏感詞音頻數(shù)據(jù)組在臨時(shí)音頻數(shù)據(jù)文件中的位置; 步驟5、對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾,并通過(guò)第二網(wǎng)絡(luò)將過(guò)濾后的臨時(shí)文本文件發(fā)送至接收終端,所述對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾的方法是將臨時(shí)文本文件中與所述位置相對(duì)應(yīng)的文本內(nèi)容進(jìn)行刪除。
【專利摘要】本發(fā)明提供了一種文本敏感詞過(guò)濾系統(tǒng),其包括:第一轉(zhuǎn)換單元,用于通過(guò)文本-語(yǔ)音轉(zhuǎn)換將敏感詞文本庫(kù)轉(zhuǎn)換成敏感詞音頻數(shù)據(jù)庫(kù);接收單元,用于接收待發(fā)送的文本文件;第二轉(zhuǎn)換單元,用于通過(guò)文本-語(yǔ)音轉(zhuǎn)換將臨時(shí)文本文件轉(zhuǎn)換成臨時(shí)音頻數(shù)據(jù)文件并存儲(chǔ);判斷單元,用于將所述敏感詞音頻數(shù)據(jù)組分別與臨時(shí)音頻數(shù)據(jù)文件進(jìn)行比對(duì);過(guò)濾單元,用于對(duì)臨時(shí)文本文件進(jìn)行過(guò)濾,并發(fā)送至接收終端。本發(fā)明還公開(kāi)了一種文本敏感詞過(guò)濾方法。本發(fā)明在現(xiàn)有敏感詞文本庫(kù)的基礎(chǔ)上,將待發(fā)送文本文件以及敏感詞文本庫(kù)均通過(guò)文本-語(yǔ)音轉(zhuǎn)換后形成音頻數(shù)據(jù)文件和敏感詞音頻數(shù)據(jù)庫(kù),然后再進(jìn)行比對(duì),在很大程度上滿足信息過(guò)濾的要求,而且計(jì)算量小、速度快。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN105335483
【申請(qǐng)?zhí)枴緾N201510662461
【發(fā)明人】楊晨陽(yáng)
【申請(qǐng)人】廣州市暢運(yùn)信息科技有限公司
【公開(kāi)日】2016年2月17日
【申請(qǐng)日】2015年10月14日