本技術(shù)涉及內(nèi)容檢測,尤其涉及一種廣播內(nèi)容異常檢測方法及設(shè)備
背景技術(shù):
1、有些不良信息會隨著經(jīng)過授權(quán)的信息在固定頻率上廣播。相對經(jīng)過授權(quán)的信息的廣播來說,不良信息的廣播也稱為異常廣播。異常廣播,例如虛假廣告、詐騙類信息、低俗節(jié)目等的廣播。一旦發(fā)現(xiàn)異常廣播,相關(guān)部門則會嚴(yán)厲打擊。為了躲避打擊,異常廣播的內(nèi)容更加零散且形式多樣多變。例如,通常會在廣播的內(nèi)容中插入音樂等無關(guān)信息,增加了識別廣播內(nèi)容是否異常的難度。如何高效準(zhǔn)確地識別廣播內(nèi)容是否異常是亟需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種廣播內(nèi)容異常檢測方法及電子設(shè)備,能夠高效且準(zhǔn)確地識別廣播內(nèi)容是否包括異常信息。
2、第一方面,提供一種廣播內(nèi)容異常檢測方法,該方法的執(zhí)行主體為具有計算能力電子裝置,該電子裝置可以為計算機(jī)或者個人電腦等。
3、該廣播內(nèi)容異常檢測方法包括:將待檢測的廣播音頻數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù),提取本文數(shù)據(jù)所包括的多個關(guān)鍵詞;確定多個關(guān)鍵詞關(guān)聯(lián)的至少一個主題,其中,一個主題關(guān)聯(lián)一個或多個關(guān)鍵詞;針對任意一個主題,若該主題關(guān)聯(lián)的關(guān)鍵詞與關(guān)鍵詞庫中任一關(guān)鍵詞組的相似性大于預(yù)設(shè)閾值,則確定廣播內(nèi)容異常,其中,關(guān)鍵詞庫包括至少一個關(guān)鍵詞組,每個主題所對應(yīng)的關(guān)鍵詞組由分布概率大于預(yù)設(shè)閾值的一組關(guān)鍵詞組成。
4、該方案中,以廣播內(nèi)容所隱含的語義(主題)所關(guān)聯(lián)的關(guān)鍵詞作為識別廣播內(nèi)容是否異常的識別規(guī)則,相較于人工篩選關(guān)鍵詞來說,不依賴于主觀性,準(zhǔn)確率更高。
5、在可能的實(shí)現(xiàn)方式中,所述方法還包括:
6、基于異常主題和異常發(fā)布者之間的映射關(guān)系確定表征異常內(nèi)容的主題所關(guān)聯(lián)的發(fā)布者,其中,所述映射關(guān)系是基于歷史異常廣播音頻數(shù)據(jù)所關(guān)聯(lián)的發(fā)布者確定的。
7、該方案將異常廣播的主題與異常廣播的發(fā)布者進(jìn)行關(guān)聯(lián),利用所確定的異常廣播的主題,通過所述主題以及異常發(fā)布者之間的映射關(guān)系確定異常廣播對應(yīng)的異常發(fā)布者,從而實(shí)現(xiàn)對異常廣播的追溯。
8、在可能的實(shí)現(xiàn)方式中,所述方法還包括:
9、采集多條歷史異常廣播音頻數(shù)據(jù),將各條歷史異常廣播音頻數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù),并提取各個文本數(shù)據(jù)所包括的n個關(guān)鍵詞以及所關(guān)聯(lián)的k個主題,n和k均為正整數(shù);基于隱含狄利克雷分布(latent?dirichlet?allocation,lda)算法以及n個關(guān)鍵詞和k個主題建立語義分析模型,該語義分析模型用于指示關(guān)鍵詞和主題的映射關(guān)系;對語義分析模型進(jìn)行求解,獲得各個關(guān)鍵詞關(guān)聯(lián)的主題,并得到每個主題所關(guān)聯(lián)的關(guān)鍵詞的概率分布;基于每個主題所關(guān)聯(lián)的關(guān)鍵詞的概率分布建立關(guān)鍵詞庫。
10、該方案中,基于歷史異常廣播音頻數(shù)據(jù),將關(guān)鍵詞作為文本數(shù)據(jù)的特征值,關(guān)鍵詞關(guān)聯(lián)的主題表示文本數(shù)據(jù)所表達(dá)的主要內(nèi)容。通過提取主題以及每個主題下關(guān)鍵詞的概率分布可以確定與每個主題所關(guān)聯(lián)的關(guān)鍵詞,從而可以建立用于確定文本語義的關(guān)鍵詞庫。
11、在可能的實(shí)現(xiàn)方式中,所述方法還包括:
12、針對任一歷史異常廣播音頻數(shù)據(jù),基于語義分析模型確定該條歷史異常廣播音頻數(shù)據(jù)關(guān)聯(lián)的異常主題,異常主題為該條歷史異常廣播音頻數(shù)據(jù)關(guān)聯(lián)的多個異常主題中分布概率最大的主題;建立多條歷史異常廣播音頻數(shù)據(jù)的發(fā)布者與多條歷史異常廣播音頻數(shù)據(jù)的異常主題的對應(yīng)關(guān)系;基于所述對應(yīng)關(guān)系,獲得多個異常主題和異常發(fā)布者之間的映射關(guān)系。
13、可以理解的是,歷史異常廣播音頻數(shù)據(jù)的發(fā)布者已知。在該方案中,可將歷史異常廣播音頻數(shù)據(jù)的主題與發(fā)布者建立起關(guān)聯(lián)關(guān)系,從而基于該關(guān)聯(lián)關(guān)系可對異常廣播進(jìn)行追溯。
14、在可能的實(shí)現(xiàn)方式中,基于所述對應(yīng)關(guān)系,獲得多個異常主題和異常發(fā)布者之間的映射關(guān)系,包括:
15、針對任一主題,記錄所關(guān)聯(lián)的發(fā)布者的出現(xiàn)頻率;根據(jù)所述出現(xiàn)頻率確定該主題關(guān)聯(lián)的至少一個候選發(fā)布者;將所述候選發(fā)布者中大于最小支持度以及最小置信度的候選發(fā)布者確定為所述主題對應(yīng)的異常發(fā)布者;建立所述主題以及異常發(fā)布者之間的映射關(guān)系。
16、該方案中,事先可建立每條異常廣播音頻數(shù)據(jù)的主題與發(fā)布者之間的關(guān)聯(lián)關(guān)系,每條異常廣播音頻數(shù)據(jù)的主題和發(fā)布者可通過布爾變量表示,從而針對同一主題基于關(guān)聯(lián)的各個發(fā)布者出現(xiàn)的頻率確定該主題的目標(biāo)發(fā)布者。
17、在可能的實(shí)現(xiàn)方式中,在確定所廣播內(nèi)容異常與所對應(yīng)發(fā)布者之后,所述方法還包括:
18、輸出提示信息,該提示信息包括廣播內(nèi)容關(guān)聯(lián)的主題信息、廣播內(nèi)容對應(yīng)的發(fā)布者的信息等。
19、該方案中,當(dāng)確定廣播內(nèi)容異常,可輸出提示信息,以提示該廣播內(nèi)容異常。例如,該提示信息可包括廣播內(nèi)容關(guān)聯(lián)的主題信息、廣播內(nèi)容對應(yīng)的發(fā)布者的信息等。
20、第二方面,提供了一種電子設(shè)備,該電子設(shè)備包括處理模塊和通信接口,該通信接口用于收發(fā)數(shù)據(jù),所述處理模塊用于:將待檢測的廣播音頻數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù),提取本文數(shù)據(jù)所包括的多個關(guān)鍵詞;確定多個關(guān)鍵詞關(guān)聯(lián)的至少一個主題,其中,一個主題關(guān)聯(lián)一個或多個關(guān)鍵詞;針對任意一個主題,若該主題關(guān)聯(lián)的關(guān)鍵詞與關(guān)鍵詞庫中的任一關(guān)鍵詞組的相似性大于預(yù)設(shè)閾值,則確定廣播內(nèi)容異常,其中,關(guān)鍵詞庫包括至少一個關(guān)鍵詞組,每個主題所對應(yīng)的關(guān)鍵詞組由分布概率大于預(yù)設(shè)閾值的一組關(guān)鍵詞組成。
21、在可能的實(shí)現(xiàn)方式中,處理模塊還用于:
22、基于異常主題和異常發(fā)布者之間的映射關(guān)系確定表征異常內(nèi)容的主題所關(guān)聯(lián)的發(fā)布者,其中,所述映射關(guān)系是基于歷史異常廣播音頻數(shù)據(jù)所關(guān)聯(lián)的發(fā)布者確定的。
23、在可能的實(shí)現(xiàn)方式中,處理模塊還用于:
24、采集多條歷史異常廣播音頻數(shù)據(jù),將各條歷史異常廣播音頻數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù),并提取各個文本數(shù)據(jù)所包括的n個關(guān)鍵詞以及所關(guān)聯(lián)的k個主題,n和k均為正整數(shù);
25、基于隱含狄利克雷分布lda算法以及n個關(guān)鍵詞和k個主題建立語義分析模型,該語義分析模型用于指示關(guān)鍵詞和主題的映射關(guān)系;
26、對語義分析模型進(jìn)行求解,獲得各個關(guān)鍵詞關(guān)聯(lián)的主題,并獲得每個主題所關(guān)聯(lián)的關(guān)鍵詞的概率分布;
27、基于所述每個主題所關(guān)聯(lián)的關(guān)鍵詞的概率分布建立關(guān)鍵詞庫。
28、在可能的實(shí)現(xiàn)方式中,處理模塊還用于:
29、針對任一歷史異常廣播音頻數(shù)據(jù),基于語義分析模型確定該條歷史異常廣播音頻數(shù)據(jù)關(guān)聯(lián)的異常主題,該異常主題為該條歷史異常廣播音頻數(shù)據(jù)關(guān)聯(lián)的多個異常主題中分布概率最大的主題;
30、建立多條歷史異常廣播音頻數(shù)據(jù)的發(fā)布者與多條歷史異常廣播音頻數(shù)據(jù)的異常主題的對應(yīng)關(guān)系;
31、基于所述對應(yīng)關(guān)系,獲得多個異常主題和異常發(fā)布者之間的映射關(guān)系。
32、在可能的實(shí)現(xiàn)方式中,處理模塊具體用于:
33、針對任一主題,記錄所關(guān)聯(lián)的發(fā)布者的出現(xiàn)頻率;
34、根據(jù)所述出現(xiàn)頻率確定該主題關(guān)聯(lián)的至少一個候選發(fā)布者;
35、將所述候選發(fā)布者中大于最小支持度以及最小置信度的候選發(fā)布者確定為主題對應(yīng)的異常發(fā)布者;
36、建立所述主題以及異常發(fā)布者之間的映射關(guān)系。
37、在可能的實(shí)現(xiàn)方式中,在確定所廣播內(nèi)容異常與所對應(yīng)發(fā)布者之后,處理模塊還用于:
38、輸出提示信息,該提示信息包括廣播內(nèi)容關(guān)聯(lián)的主題信息、廣播內(nèi)容對應(yīng)的發(fā)布者的信息等。
39、第三方面,提供了一種電子設(shè)備,該電子設(shè)備具有實(shí)現(xiàn)上述第一方面方法實(shí)施例中的行為的功能。所述功能可以通過硬件實(shí)現(xiàn),也可以通過硬件執(zhí)行相應(yīng)的軟件實(shí)現(xiàn)。所述硬件或軟件包括一個或多個與上述功能相對應(yīng)的模塊。該電子設(shè)備包括通信接口以及處理器,可選的,還包括存儲器。其中,該存儲器用于存儲計算機(jī)程序或指令,處理器與存儲器、通信接口耦合,當(dāng)處理器執(zhí)行所述計算機(jī)程序或指令時,使電子設(shè)備執(zhí)行上述方法實(shí)施例所執(zhí)行的方法。
40、第四方面,本技術(shù)提供了一種計算機(jī)可讀存儲介質(zhì),該計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,當(dāng)該計算機(jī)程序被運(yùn)行時,實(shí)現(xiàn)上述第一方面執(zhí)行的方法。