本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種視頻的識別方法、裝置和系統(tǒng)。
背景技術(shù):
目前,在終端上實(shí)時(shí)觀看清晰流暢的視頻,已經(jīng)成為不少用戶休閑娛樂的首選,為此,市場上涌出了一大堆視頻資源,而對于這些良莠不齊的視頻資源,如何進(jìn)行識別,以避免具有不良內(nèi)容的視頻被傳播,也成為業(yè)界所關(guān)注的問題。
所謂具有不良內(nèi)容的視頻,指的是內(nèi)容涉及色情、招嫖、暴力、政治敏感等法律法規(guī)禁止收藏或傳播的視頻。在現(xiàn)有技術(shù)中,對于視頻的識別,主要依靠人工逐一進(jìn)行審查,但是,在全民直播的互聯(lián)網(wǎng)時(shí)代,直播視頻暴增,若僅僅依靠人工進(jìn)行審查,則無法及時(shí)地對視頻進(jìn)行識別,其識別結(jié)果在時(shí)間上具有較大的滯后性。針對該問題,現(xiàn)有技術(shù)又提出了文字識別方案,即通過獲取視頻中的字幕,然后,判斷獲取到的字幕中的文字是否與預(yù)設(shè)關(guān)鍵字匹配,若能匹配,則計(jì)數(shù)一次,根據(jù)匹配的數(shù)量統(tǒng)計(jì)整個視頻的匹配率,若匹配率大于預(yù)設(shè)閾值,則確定視頻中具有不良內(nèi)容。
在對現(xiàn)有技術(shù)的研究和實(shí)踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),由于現(xiàn)有識別方案的識別維度較為單一,因此,識別的準(zhǔn)確率較低,效果不佳。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種視頻的識別方法、裝置和系統(tǒng),可以提高識別的準(zhǔn)確率,改善識別效果。
本發(fā)明實(shí)施例提供一種視頻的識別方法,包括:
獲取需要進(jìn)行識別的視頻信息,所述視頻信息包括視頻內(nèi)容和視頻相關(guān)信息;
對所述視頻內(nèi)容中的圖片進(jìn)行識別,得到圖片識別結(jié)果;
對所述視頻內(nèi)容中的語音進(jìn)行識別,得到語音識別結(jié)果;
對所述視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本進(jìn)行識別,得到文本識別結(jié)果;
將所述圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果。
相應(yīng)的,本發(fā)明實(shí)施例還提供一種視頻識別裝置,包括:
獲取單元,用于獲取需要進(jìn)行識別的視頻信息,所述視頻信息包括視頻內(nèi)容和視頻相關(guān)信息;
圖片識別單元,用于對所述視頻內(nèi)容中的圖片進(jìn)行識別,得到圖片識別結(jié)果;
語音識別單元,用于對所述視頻內(nèi)容中的語音進(jìn)行識別,得到語音識別結(jié)果;
文本識別單元,用于對所述視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本進(jìn)行識別,得到文本識別結(jié)果;
融合單元,用于將所述圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果。
此外,本發(fā)明實(shí)施例還提供一種視頻識別系統(tǒng),包括本發(fā)明實(shí)施例所提供的任一種視頻識別裝置。
本發(fā)明實(shí)施例在獲取需要進(jìn)行識別的視頻信息后,可以對該視頻內(nèi)容中的圖片、語音、字幕和視頻相關(guān)信息分別進(jìn)行識別,得到多維的識別結(jié)果,即圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果等,然后,將這些識別結(jié)果進(jìn)行融合計(jì)算,得到最終的視頻識別結(jié)果;由于在該方案中,可以從多個維度對視頻進(jìn)行識別,因此,相對于現(xiàn)在技術(shù)中只是單個維度地對視頻進(jìn)行識別而言,可以提高識別的準(zhǔn)確率,大大改善識別效果。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1a是本發(fā)明實(shí)施例提供的視頻的識別方法的場景示意圖;
圖1b是本發(fā)明實(shí)施例提供的視頻的識別方法的流程圖;
圖2a是本發(fā)明實(shí)施例提供的視頻的識別方法的另一場景示意圖;
圖2b是本發(fā)明實(shí)施例提供的視頻的識別方法的另一流程圖;
圖3a是本發(fā)明實(shí)施例提供的視頻的識別裝置的結(jié)構(gòu)示意圖;
圖3b是本發(fā)明實(shí)施例提供的視頻的識別裝置的結(jié)構(gòu)示意圖;
圖4是本發(fā)明實(shí)施例提供的服務(wù)器的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提供一種視頻的識別方法、裝置和系統(tǒng)。
該視頻識別系統(tǒng)可以包括本發(fā)明實(shí)施例所提供的任一種視頻識別裝置,該視頻識別裝置可以包括多個模塊,比如圖片識別模塊、語音識別模塊、文本識別模塊、以及策略層模塊等,此外,還可以包括接入層模塊。其中,這些模塊可以集成在同一實(shí)體中,也可以分別集成在不同的實(shí)體中,該實(shí)體可以是單一的實(shí)體,比如服務(wù)器,也可以是一個服務(wù)集群,比如包括多個服務(wù)器,等等??蛇x的,該視頻識別系統(tǒng)還可以包括其他的設(shè)備,比如業(yè)務(wù)服務(wù)器,用于提供需要進(jìn)行識別的視頻信息給視頻識別裝置,其中,該視頻信息可以包括視頻內(nèi)容和視頻相關(guān)信息,視頻相關(guān)信息可以包括視頻的彈幕和/或評論等信息。
例如,參見圖1a,視頻識別裝置的接入層模塊(圖1a中簡稱接入層)接收到業(yè)務(wù)服務(wù)器發(fā)送的需要進(jìn)行識別的視頻信息后,將該視頻信息分別傳送給圖片識別模塊、語音識別模塊和文本識別模塊(圖1a中分別簡稱為圖片識別、語音識別和文本識別),由圖片識別模塊對視頻內(nèi)容中的圖片進(jìn)行識別,得到圖片識別結(jié)果,由語音識別模塊對所述視頻內(nèi)容中的語音進(jìn)行識別,得到語音識別結(jié)果,以及,由文本識別模塊對所述視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本進(jìn)行識別,得到文本識別結(jié)果,然后,再由策略層模塊(圖1a中簡稱策略層)將圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果,并將視頻結(jié)果返回給業(yè)務(wù)服務(wù)器。
可選的,為了提高識別的準(zhǔn)確性,若在識別的過程中,發(fā)現(xiàn)高危疑似惡意內(nèi)容的視頻,可以將該視頻交由人工進(jìn)行審核。
以下分別進(jìn)行詳細(xì)說明。需說明的是,以下實(shí)施例的序號不作為對實(shí)施例優(yōu)選順序的限定。
實(shí)施例一、
本實(shí)施例將從視頻識別裝置的角度進(jìn)行描述,該視頻識別裝置具體可以集成在服務(wù)器等中,該服務(wù)器可以是單一的服務(wù)器,也可以是服務(wù)集群。
一種視頻的識別方法,包括:獲取需要進(jìn)行識別的視頻信息,該視頻信息包括視頻內(nèi)容和視頻相關(guān)信息等;對該視頻內(nèi)容中的圖片進(jìn)行識別,得到圖片識別結(jié)果;對該視頻內(nèi)容中的語音進(jìn)行識別,得到語音識別結(jié)果;對該視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本進(jìn)行識別,得到文本識別結(jié)果;將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果。
如圖1b所示,該視頻的識別方法的具體流程可以如下:
101、獲取需要進(jìn)行識別的視頻信息。
其中,該視頻信息可以包括視頻內(nèi)容和視頻相關(guān)信息,視頻內(nèi)容可以包括視頻的圖片、語音和字幕等信息,而視頻相關(guān)信息可以包括視頻相關(guān)的介紹、評論和/或彈幕等信息。
此外,該視頻信息還可以包括觀看用戶信息等其他信息。其中,該觀看用戶信息可以包括視頻觀看用戶數(shù)量、以及群體分布等信息。
102、對該視頻內(nèi)容中的圖片進(jìn)行識別,得到圖片識別結(jié)果。
例如,以圖片識別結(jié)果具體為惡意圖片概率為例,則步驟“對該視頻內(nèi)容中的圖片進(jìn)行識別,得到圖片識別結(jié)果”具體可以如下:
(1)從該視頻內(nèi)容中提取圖片,得到圖片集合。
(2)對該圖片集合中的圖片分別進(jìn)行解析,以識別出惡意圖片。
比如,具體可以對該圖片集合中的圖片進(jìn)行解析,以提取圖片參數(shù),根據(jù)該圖片參數(shù)確定相應(yīng)的圖片是否含有預(yù)設(shè)不良內(nèi)容,若是,則確定該圖片為惡意圖片;若否,則確定該當(dāng)前圖片為非惡意圖片。
其中,該不良內(nèi)容的定義可以根據(jù)實(shí)際應(yīng)用的需求而定,比如,可以包括色情、暴力、政治敏感等法律法規(guī)禁止收藏或傳播的內(nèi)容?;诓煌牟涣純?nèi)容,在對圖片進(jìn)行識別的方法也會有所不同,例如,以色情為例,則此時(shí),具體可以基于該圖片參數(shù),通過進(jìn)行膚色判斷、以及人臉識別等方式,來確定相應(yīng)的圖片是否含有色情內(nèi)容,等等。
(3)確定該圖片集合中惡意圖片所占的比例,得到惡意圖片概率。
例如,可以統(tǒng)計(jì)該圖片集合中圖片的總量、以及惡意圖片的數(shù)量,然后,計(jì)算該惡意圖片的數(shù)量與該圖片的總量的比值,得到惡意圖片概率。
其中,圖片集合中圖片的總量可以直接通過統(tǒng)計(jì)圖片集合中圖片數(shù)量得到,也可以通過分別統(tǒng)計(jì)惡意圖片的數(shù)量和非惡意圖片的數(shù)量來得到,其中,該圖片集合中圖片的總量等于圖片集合中圖片數(shù)量,也等于惡意圖片的數(shù)量和非惡意圖片的數(shù)量之和。
103、對該視頻內(nèi)容中的語音進(jìn)行識別,得到語音識別結(jié)果。
例如,以語音識別結(jié)果具體為惡意語音概率為例,則步驟“該視頻內(nèi)容中的語音進(jìn)行識別,得到語音識別結(jié)果”具體可以如下:
(1)從該視頻內(nèi)容中提取語音,得到語音集合。
(2)對該語音集合中的語音分別進(jìn)行解析,以識別出惡意語音。
例如,可以將該語音集合中的語音轉(zhuǎn)換為相應(yīng)的文本信息,將該文本信息劃分為多個文本字段,確定該文本字段是否存在與預(yù)設(shè)敏感關(guān)鍵字匹配的詞匯,若是,則確定該詞匯所在文本字段所對應(yīng)的語音為惡意語音;若否,則確定該詞匯所在文本字段所對應(yīng)的語音為非惡意語音。
其中,該預(yù)設(shè)敏感關(guān)鍵字可以根據(jù)實(shí)際應(yīng)用的需求而定,例如,可以是色情、暴力、政治敏感等法律法規(guī)禁止收藏或傳播的內(nèi)容相關(guān)的關(guān)鍵字,比如,以色情為例,具體可以是“AV”、“裸露”、“情色”、和/或“性愛”等關(guān)鍵字,又比如,如果是暴力相關(guān)的,則可以是“槍殺”和/或“血腥”等關(guān)鍵字,等等。
(3)確定該語音集合中惡意語音所占的比例,得到惡意語音概率。
例如,具體可以統(tǒng)計(jì)該語音集合中語音的總量、以及惡意語音的數(shù)量,然后,計(jì)算該惡意語音的數(shù)量與該語音的總量的比值,得到惡意語音概率。
其中,語音集合中語音的總量可以直接通過統(tǒng)計(jì)語音集合中語音數(shù)量得到,也可以通過分別統(tǒng)計(jì)惡意語音的數(shù)量和非惡意語音的數(shù)量來得到,其中,該語音集合中語音的總量等于語音集合中語音數(shù)量,也等于惡意語音的數(shù)量和非惡意語音的數(shù)量之和。
104、對該視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本進(jìn)行識別,得到文本識別結(jié)果。
例如,以語音識別結(jié)果具體為惡意文本概率為例,則步驟“對該視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本進(jìn)行識別,得到文本識別結(jié)果”具體可以如下:
(1)將該視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本添加至文本集合。
(2)對文本集合中的文本進(jìn)行解析,以識別出惡意文本。
例如,可以將文本集合中的文本劃分為多個文本字段,確定該文本字段是否存在與預(yù)設(shè)敏感關(guān)鍵字匹配的詞匯,若是,則確定該詞匯所在文本字段為惡意文本;若否,則確定該詞匯所在文本字段為非惡意文本。
其中,該預(yù)設(shè)敏感關(guān)鍵字可以根據(jù)實(shí)際應(yīng)用的需求而定,例如,可以是色情、暴力、政治敏感等法律法規(guī)禁止收藏或傳播的內(nèi)容相關(guān)的關(guān)鍵字,比如,以色情為例,具體可以是“AV”、“裸露”、“情色”、和/或“性愛”等關(guān)鍵字,又比如,如果是暴力相關(guān)的,則可以是“槍殺”和/或“血腥”等關(guān)鍵字,等等。
(3)確定該文本集合中惡意文本所占的比例,得到惡意文本概率。
例如,具體可以統(tǒng)計(jì)該文本集合中文本字段的總量、以及惡意文本的數(shù)量,然后,計(jì)算該惡意文本的數(shù)量與該文本字段的總量的比值,得到惡意文本概率。
其中,文本集合中文本字段的總量可以直接通過統(tǒng)計(jì)文本集合中文本字段的數(shù)量得到,也可以通過分別統(tǒng)計(jì)惡意文本的數(shù)量和非惡意文本的數(shù)量來得到,其中,該文本集合中文本字段的總量等于文本集合中文本字段的數(shù)量,也等于惡意文本的數(shù)量和非惡意文本的數(shù)量之和。
需說明的是,步驟102~104的執(zhí)行順序可以不分先后。
105、將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果。
例如,可以為這些識別結(jié)果分別設(shè)置相應(yīng)的權(quán)重,在需要進(jìn)行融合計(jì)算時(shí),將這些識別結(jié)果分別乘以其對應(yīng)的權(quán)重,并進(jìn)行相加,即可得到該視頻識別結(jié)果,即步驟“將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果”可以包括:
將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果分別乘以相應(yīng)的權(quán)重后進(jìn)行相加,得到視頻識別結(jié)果。
比如,若圖片識別結(jié)果為惡意圖片概率Pv,語音識別結(jié)果為惡意語音概率Ps,文本識別結(jié)果為惡意文本概率Pt,惡意圖片概率Pv的權(quán)重為a,惡意語音概率Ps的權(quán)重為b,惡意文本概率Pt的權(quán)重為c,則視頻識別結(jié)果P為:
P=a*Pv+b*Ps+c*Pt;
其中,0<=a,b,c<=1,且a+b+c=1;此外,0<=Pv,Ps,Pt<=1。
其中,權(quán)重a,b和c可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,比如,在針對視頻直播色情場景,由于圖片維度識別準(zhǔn)確及可參考性最高,語音識別、以及彈幕/評論識別等維度次之,因此,可以設(shè)置圖片識別的權(quán)重最大,即可以設(shè)置a>=c>=b,等等。
可選的,若視頻信息中還攜帶了觀看用戶信息,比如攜帶了視頻觀看用戶數(shù)量、以及群體分布等信息,則此時(shí),還可以根據(jù)該觀看用戶信息對觀看用戶趨勢進(jìn)行識別,并在計(jì)算視頻識別結(jié)果時(shí),將該觀看用戶趨勢的識別結(jié)果作為考量因素之一,即在步驟“將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果”之前,該視頻的識別方法還可以包括:
根據(jù)該觀看用戶信息進(jìn)行識別,得到觀看用戶趨勢的識別結(jié)果,為了描述方便,在本發(fā)明實(shí)施例中,將該觀看用戶趨勢的識別結(jié)果稱為初始識別結(jié)果,具體可以如下:
(1)根據(jù)該觀看用戶信息確定觀看用戶數(shù)量隨時(shí)間變化的規(guī)律,得到變化特性信息。
比如,以色情為例,若某個視頻在短時(shí)間內(nèi)觀看用戶數(shù)量劇增,且觀看時(shí)間為深夜,則其存在涉黃的可能性,等等。
(2)根據(jù)該觀看用戶信息確定觀看用戶的群體分布狀況,得到群體分布信息。
比如,還是以色情為例,若某個視頻的觀看用戶為成年男性居多,則其存在涉黃的可能性,等等。
(3)根據(jù)該變化特性信息和群體分布信息計(jì)算初始識別結(jié)果。
比如,還是以色情為例,若某個視頻在短時(shí)間內(nèi)觀看用戶數(shù)量劇增,且觀看時(shí)間為深夜,且觀看用戶多數(shù)為成年男性,則該視頻為色情視頻的概率較高,等等。
若將初始識別結(jié)果(即觀看用戶趨勢的識別結(jié)果)也作為計(jì)算視頻識別結(jié)果的考量因素之一,則此時(shí),步驟“將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果”具體可以如下:
將該圖片識別結(jié)果、語音識別結(jié)果、文本識別結(jié)果和初始識別結(jié)果分別乘以相應(yīng)的權(quán)重后,進(jìn)行相加,得到視頻識別結(jié)果。
例如,若圖片識別結(jié)果為惡意圖片概率Pv,語音識別結(jié)果為惡意語音概率Ps,文本識別結(jié)果為惡意文本概率Pt,初始識別結(jié)果為Ph,惡意圖片概率Pv的權(quán)重為a,惡意語音概率Ps的權(quán)重為b,惡意文本概率Pt的權(quán)重為c,初始識別結(jié)果的權(quán)重為d,則視頻識別結(jié)果P為:
P=a*Pv+b*Ps+c*Pt+d*Ph;
其中,0<=a,b,c,d<=1,且a+b+c+d=1;此外,0<=Pv,Ps,Pt,Ph<=1。
其中,權(quán)重a,b,c和d可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,比如,在針對視頻直播色情場景,由于圖片維度識別準(zhǔn)確及可參考性最高,語音識別、彈幕/評論識別、以及觀看用變化趨勢等維度次之,因此,可以設(shè)置圖片識別的權(quán)重最大,即可以設(shè)置a>=c>=b>=d,等等。
可選的,為了提高識別的準(zhǔn)確性,若在識別的過程中,發(fā)現(xiàn)高危疑似惡意內(nèi)容的視頻,還可以將該視頻交由人工進(jìn)行審核,即在步驟“將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果”之后,該視頻識別方法還可以包括:
確定視頻識別結(jié)果滿足預(yù)設(shè)條件,比如,若該視頻識別結(jié)果表示該視頻的惡意概率大于預(yù)設(shè)閾值,則可以將該視頻信息發(fā)送給預(yù)設(shè)終端,以進(jìn)行人工審核。
其中,該預(yù)設(shè)閾值可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,在此不再贅述。
由上可知,本實(shí)施例在獲取需要進(jìn)行識別的視頻信息后,可以對該視頻內(nèi)容中的圖片、語音、字幕和視頻相關(guān)信息分別進(jìn)行識別,得到多維的識別結(jié)果,即圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果等,然后,將這些識別結(jié)果進(jìn)行融合計(jì)算,得到最終的視頻識別結(jié)果;由于在該方案中,可以從多個維度對視頻進(jìn)行識別,因此,相對于現(xiàn)在技術(shù)中只是單個維度地對視頻進(jìn)行識別而言,可以提高識別的準(zhǔn)確率,大大改善識別效果。
實(shí)施例二、
根據(jù)實(shí)施例一所描述的方法,以下將舉例作進(jìn)一步詳細(xì)說明。
在本實(shí)施例中,將以該視頻識別裝置具體集成在服務(wù)集群中為例進(jìn)行說明。
如圖2a所示,該服務(wù)集群可以包括接入層模塊(圖2a中簡稱為接入層)、圖片識別模塊、語音識別模塊、文本識別模塊、用戶趨勢分析模塊、以及策略層模塊(圖2a中簡稱為策略層層)等,具體可以如下:
(1)接入層模塊;
接入層模塊,用于接收業(yè)務(wù)服務(wù)器發(fā)送的需要進(jìn)行識別的視頻信息,比如,直播視頻的視頻信息,等等,然后,將該需要進(jìn)行識別的視頻信息分別傳送給圖片識別模塊、語音識別模塊、文本識別模塊和用戶趨勢分析模塊(圖2a中分別簡稱為圖片識別、語音識別、文本識別和觀看用戶趨勢分析)。
其中,該視頻信息可以包括視頻內(nèi)容、視頻相關(guān)信息和觀看用戶信息等。
(2)圖片識別模塊;
圖片識別模塊,用于接收接入層模塊發(fā)送的需要進(jìn)行識別的視頻信息,從該視頻信息的視頻內(nèi)容中提取出圖片,并進(jìn)行解析,以識別出惡意圖片,比如識別出色情圖片,然后,計(jì)算惡意圖片概率,將該惡意圖片概率提供給策略層模塊。
(3)語音識別模塊;
語音識別模塊,用于接收接入層模塊發(fā)送的需要進(jìn)行識別的視頻信息,從該視頻信息的視頻內(nèi)容中提取出語音,并進(jìn)行解析,以識別出惡意語音,比如識別出色情語音,然后,計(jì)算惡意語音概率,將該惡意語音概率提供給策略層模塊。
(4)文本識別模塊;
文本識別模塊,用于接收接入層模塊發(fā)送的需要進(jìn)行識別的視頻信息,從該視頻信息的視頻內(nèi)容中提取出字幕,以及從視頻相關(guān)信息中提取出文本,然后對該字幕和文本進(jìn)行解析,以識別出惡意文本,比如識別出色情文本,并計(jì)算惡意文本概率,將該惡意語音概率提供給策略層模塊。
(5)用戶趨勢分析模塊;
用戶趨勢分析模塊,用于接收接入層模塊發(fā)送的需要進(jìn)行識別的視頻信息,從該視頻信息提取出觀看用戶信息,根據(jù)該觀看用戶信息確定觀看用戶數(shù)量隨時(shí)間變化的規(guī)律,得到變化特性信息,以及,根據(jù)該觀看用戶信息確定觀看用戶的群體分布狀況,得到群體分布信息,然后,根據(jù)該變化特性信息和群體分布信息計(jì)算初始識別結(jié)果,并將該初始識別結(jié)果提供給策略層模塊。
(6)策略層模塊;
策略層模塊,用于在接收到圖片識別模塊發(fā)送的惡意圖片概率、語音識別模塊發(fā)送的惡意語音概率、文本識別模塊發(fā)送的惡意文本概率、以及用戶趨勢分析模塊發(fā)送的初始識別結(jié)果之后,將該惡意圖片概率、惡意語音概率、惡意文本概率和初始識別結(jié)果分別乘以相應(yīng)的權(quán)重后,進(jìn)行相加,得到視頻識別結(jié)果,將該視頻識別結(jié)果返回給業(yè)務(wù)服務(wù)器。
基于上述服務(wù)集群的結(jié)構(gòu),以下將以該視頻具體為直播視頻為例,對其執(zhí)行流程進(jìn)行詳細(xì)說明。
如圖2b所示,一種視頻的識別方法,具體流程可以如下:
201、業(yè)務(wù)服務(wù)器向服務(wù)集群的接入層模塊發(fā)送直播視頻的視頻信息。
其中,該視頻信息可以包括視頻內(nèi)容、視頻相關(guān)信息和觀看用戶信息等信息;其中,該視頻內(nèi)容可以包括視頻的圖片、語音和字幕等信息,視頻相關(guān)信息可以包括視頻相關(guān)的介紹、評論和/或彈幕等信息,而該觀看用戶信息可以包括視頻觀看用戶數(shù)量、以及群體分布等信息。
202、接入層模塊接收到該直播視頻的視頻信息后,分別將該視頻信息發(fā)送給該服務(wù)集群中的圖片識別模塊、語音識別模塊、文本識別模塊和用戶趨勢分析模塊。
203、圖片識別模塊在接收到該直播視頻的視頻信息后,從該視頻信息的視頻內(nèi)容中提取圖片,得到圖片集合,然后執(zhí)行步驟204。
204、圖片識別模塊對該圖片集合中的圖片分別進(jìn)行解析,以識別出惡意圖片,然后執(zhí)行步驟205。
例如,具體可以對該圖片集合中的圖片進(jìn)行解析,以提取圖片參數(shù),比如,提取圖片的色相值、亮度值、飽和度值、和/或?qū)Ρ榷戎档?,然后,根?jù)該圖片參數(shù)確定相應(yīng)的圖片是否含有預(yù)設(shè)不良內(nèi)容,若是,則確定該圖片為惡意圖片;若否,則確定該當(dāng)前圖片為非惡意圖片。
其中,該不良內(nèi)容的定義可以根據(jù)實(shí)際應(yīng)用的需求而定,比如,可以包括色情、暴力、政治敏感等法律法規(guī)禁止收藏或傳播的內(nèi)容?;诓煌牟涣純?nèi)容,在對圖片進(jìn)行識別的方法也會有所不同。
比如,以色情為例,則此時(shí),具體可以基于該圖片參數(shù),通過進(jìn)行膚色判斷、人臉識別、以及形狀識別等方式,來確定圖片中是否含有大量裸露性身體和/或性器官的內(nèi)容,從而確定相應(yīng)的圖片是否含有色情內(nèi)容,等等。
205、圖片識別模塊確定該圖片集合中惡意圖片所占的比例,得到惡意圖片概率,將該惡意圖片概率發(fā)送給策略層模塊,然后執(zhí)行步驟214。
其中,計(jì)算該惡意圖片概率的方式可以有多種,例如,可以如下:
圖片識別模塊可以統(tǒng)計(jì)該圖片集合中圖片的總量、以及惡意圖片的數(shù)量,然后,計(jì)算該惡意圖片的數(shù)量與該圖片的總量的比值,得到惡意圖片概率。
或者,圖片識別模塊也可以統(tǒng)計(jì)該圖片集合中惡意圖片的數(shù)量和非惡意圖片的數(shù)量,然后,計(jì)算惡意圖片的數(shù)量和非惡意圖片的數(shù)量的和,得到該圖片集合中圖片的總量,再然后,計(jì)算該惡意圖片的數(shù)量與該圖片的總量的比值,得到惡意圖片概率,等等。
206、語音識別模塊在接收到該直播視頻的視頻信息后,從該視頻信息的視頻內(nèi)容中提取語音,得到語音集合,然后執(zhí)行步驟207。
207、語音識別模塊對該語音集合中的語音分別進(jìn)行解析,以識別出惡意語音,然后執(zhí)行步驟208。
例如,可以將該語音集合中的語音轉(zhuǎn)換為相應(yīng)的文本信息,然后,將該文本信息劃分為多個文本字段,比如,若文本信息為“這只小貓咪好可愛”,則此時(shí),可以將其劃分為“這只”、“小貓咪”、“好”和“可愛”等文本字段,再然后,確定該文本字段是否存在與預(yù)設(shè)敏感關(guān)鍵字匹配的詞匯,若是,則確定該詞匯所在文本字段所對應(yīng)的語音為惡意語音;若否,則確定該詞匯所在文本字段所對應(yīng)的語音為非惡意語音。
其中,該預(yù)設(shè)敏感關(guān)鍵字可以根據(jù)實(shí)際應(yīng)用的需求而定,例如,可以是色情、暴力、政治敏感等法律法規(guī)禁止收藏或傳播的內(nèi)容相關(guān)的關(guān)鍵字,比如,以色情為例,該敏感關(guān)鍵字具體可以是“AV”、“裸露”、“情色”、和/或“性愛”等關(guān)鍵字,又比如,如果是暴力相關(guān)的,則該敏感關(guān)鍵字可以是“槍殺”和/或“血腥”等關(guān)鍵字,等等。
208、語音識別模塊確定該語音集合中惡意語音所占的比例,得到惡意語音概率,將該惡意語音概率發(fā)送給策略層模塊,然后執(zhí)行步驟214。
其中,計(jì)算該惡意語音概率的方式可以有多種,例如,可以如下:
語音識別模塊可以統(tǒng)計(jì)該語音集合中語音的總量、以及惡意語音的數(shù)量,然后,計(jì)算該惡意語音的數(shù)量與該語音的總量的比值,得到惡意語音概率。
或者,語音識別模塊也可以統(tǒng)計(jì)該語音集合中惡意語音的數(shù)量和非惡意語音的數(shù)量,然后,計(jì)算惡意語音的數(shù)量和非惡意語音的數(shù)量的和,得到該語音集合中語音的總量,再然后,計(jì)算該惡意語音的數(shù)量與該語音的總量的比值,得到惡意語音概率,等等。
209、文本識別模塊在接收到該直播視頻的視頻信息后,從視頻信息的視頻內(nèi)容中提取出字幕,以從視頻相關(guān)信息中提取出文本,然后,將該字幕和視頻相關(guān)信息的文本添加至文本集合,并執(zhí)行步驟210。
210、文本識別模塊對文本集合中的文本進(jìn)行解析,以識別出惡意文本。
例如,可以將文本集合中的文本劃分為多個文本字段,比如,若文本為“今天晚上吃大餐”,則此時(shí),可以將其劃分“今天”、“晚上”、“吃”和“大餐”等文本字段,然后,確定該文本字段是否存在與預(yù)設(shè)敏感關(guān)鍵字匹配的詞匯,若是,則確定該詞匯所在文本字段為惡意文本;若否,則確定該詞匯所在文本字段為非惡意文本。
其中,該預(yù)設(shè)敏感關(guān)鍵字可以根據(jù)實(shí)際應(yīng)用的需求而定,例如,可以是色情、暴力、政治敏感等法律法規(guī)禁止收藏或傳播的內(nèi)容相關(guān)的關(guān)鍵字,比如,以色情為例,具體可以是“AV”、“裸露”、“情色”、和/或“性愛”等關(guān)鍵字,又比如,如果是暴力相關(guān)的,則可以是“槍殺”和/或“血腥”等關(guān)鍵字,等等。
211、文本識別模塊確定該文本集合中惡意文本所占的比例,得到惡意文本概率,將該惡意文本概率發(fā)送給策略層模塊,然后執(zhí)行步驟214。
其中,計(jì)算該惡意文本概率的方式可以有多種,例如,可以如下:
文本識別模塊可以統(tǒng)計(jì)該文本集合中文本字段的總量、以及惡意文本的數(shù)量,然后,計(jì)算該惡意文本的數(shù)量與該文本字段的總量的比值,得到惡意文本概率。
或者,文本識別模塊也可以統(tǒng)計(jì)該文本集合中惡意文本的數(shù)量和非惡意文本的數(shù)量,然后,計(jì)算惡意文本的數(shù)量和非惡意文本的數(shù)量的和,得到該文本集合中文本字段的總量,再然后,計(jì)算該惡意文本的數(shù)量與該文本字段的總量的比值,得到惡意文本概率,等等。
212、用戶趨勢分析模塊在接收到該直播視頻的視頻信息后,根據(jù)該視頻信息中的觀看用戶信息確定觀看用戶數(shù)量隨時(shí)間變化的規(guī)律,得到變化特性信息,以及根據(jù)該觀看用戶信息確定觀看用戶的群體分布狀況,得到群體分布信息,然后執(zhí)行步驟213。
需說明的是,步驟203、206、209和212的執(zhí)行步驟可以不分先后。
213、用戶趨勢分析模塊根據(jù)該變化特性信息和群體分布信息計(jì)算初始識別結(jié)果,將該初始識別結(jié)果發(fā)送給策略層模塊,然后執(zhí)行步驟214。
比如,以色情為例,若某個直播視頻在凌晨等敏感時(shí)間段,突發(fā)性出現(xiàn)大量觀看用戶數(shù),且觀看用戶多數(shù)為成年男性,則該視頻為色情視頻的概率較高,等等。
214、策略層模塊將該惡意圖片概率、惡意語音概率、惡意文本概率和初始識別結(jié)果分別乘以相應(yīng)的權(quán)重后,進(jìn)行相加,得到視頻識別結(jié)果,用公式表示即為:
P=a*Pv+b*Ps+c*Pt+d*Ph;
其中,Pv為惡意圖片概率,Ps為惡意語音概率,Pt為惡意文本概率,Ph為初始識別結(jié)果,a為惡意圖片概率Pv的權(quán)重,b為惡意語音概率Ps的權(quán)重,c為惡意文本概率Pt的權(quán)重,d為初始識別結(jié)果的權(quán)重。
其中,0<=a,b,c,d<=1,且a+b+c+d=1;0<=Pv,Ps,Pt,Ph<=1。
需說明的是,權(quán)重a,b,c和d可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,比如,在針對視頻直播色情場景,由于圖片維度識別準(zhǔn)確及可參考性最高,語音識別、彈幕/評論識別、以及觀看用變化趨勢等維度次之,因此,可以設(shè)置圖片識別的權(quán)重最大,即可以設(shè)置a>=c>=b>=d,等等,在此不再贅述。
215、策略層模塊將視頻識別結(jié)果發(fā)送給業(yè)務(wù)服務(wù)器。
可選的,若視頻識別結(jié)果指示該直播視頻為高危惡意視頻,則可以對該直播視頻直接進(jìn)行封禁,而對于疑似惡意視頻,則可以發(fā)送給預(yù)設(shè)的終端,以進(jìn)行人工進(jìn)行審核,例如,可以如下:
策略層模塊確定視頻識別結(jié)果滿足預(yù)設(shè)條件,比如,若該視頻識別結(jié)果表示該視頻的惡意概率大于預(yù)設(shè)閾值,則可以將該視頻信息發(fā)送給預(yù)設(shè)終端,以進(jìn)行人工審核。
其中,該預(yù)設(shè)閾值可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,在此不再贅述。
由上可知,本實(shí)施例在獲取需要進(jìn)行識別的直播視頻的視頻信息后,可以對該視頻內(nèi)容中的圖片、語音、字幕、視頻相關(guān)信息、以及觀看用戶趨勢等分別進(jìn)行識別,得到多維的識別結(jié)果,即惡意圖片概率、惡意語音概率、惡意文本概率、以及初始識別結(jié)果等,然后,將這些識別結(jié)果進(jìn)行融合計(jì)算,得到最終的視頻識別結(jié)果;由于在該方案中,可以從多個維度對視頻進(jìn)行識別,因此,相對于現(xiàn)在技術(shù)中只是單個維度地對視頻進(jìn)行識別而言,可以提高識別的準(zhǔn)確率,大大改善識別效果;而且還可以大幅降低人工審核成本,大大提高審核效率。
實(shí)施例三、
為了更好地實(shí)現(xiàn)以上方法,本發(fā)明實(shí)施例還可以提供一種視頻識別裝置,如圖3a所示,該視頻識別裝置可以包括獲取單元301、圖片識別單元302、語音識別單元303、文本識別單元304和融合單元305,如下:
(1)獲取單元301;
獲取單元301,用于獲取需要進(jìn)行識別的視頻信息。
其中,該視頻信息可以包括視頻內(nèi)容和視頻相關(guān)信息,視頻內(nèi)容可以包括視頻的圖片、語音和字幕等信息,而視頻相關(guān)信息可以包括視頻相關(guān)的介紹、評論和/或彈幕等信息。
此外,該視頻信息還可以包括觀看用戶信息等其他信息。其中,該觀看用戶信息可以包括視頻觀看用戶數(shù)量、以及群體分布等信息。
(2)圖片識別單元302;
圖片識別單元302,用于對該視頻內(nèi)容中的圖片進(jìn)行識別,得到圖片識別結(jié)果。
例如,以圖片識別結(jié)果具體為惡意圖片概率為例,該圖片識別單元302可以包括圖片提取子單元、圖片解析子單元和圖片確定子單元,如下:
該圖片提取子單元,可以用于從該視頻內(nèi)容中提取圖片,得到圖片集合;
該圖片解析單元,可以用于對該圖片集合中的圖片分別進(jìn)行解析,以識別出惡意圖片。
例如,該圖片解析子單元,具體可以用于對該圖片集合中的圖片進(jìn)行解析,以提取圖片參數(shù),根據(jù)該圖片參數(shù)確定相應(yīng)的圖片是否含有預(yù)設(shè)不良內(nèi)容,若是,則確定該圖片為惡意圖片;若否,則確定該當(dāng)前圖片為非惡意圖片。
其中,該不良內(nèi)容的定義可以根據(jù)實(shí)際應(yīng)用的需求而定,比如,可以包括色情、暴力、政治敏感等法律法規(guī)禁止收藏或傳播的內(nèi)容?;诓煌牟涣純?nèi)容,在對圖片進(jìn)行識別的方法也會有所不同,例如,以色情為例,則此時(shí),具體可以基于該圖片參數(shù),通過進(jìn)行膚色判斷、以及人臉識別等方式,來確定相應(yīng)的圖片是否含有色情內(nèi)容,等等。
圖片確定子單元,可以用于確定該圖片集合中惡意圖片所占的比例,得到惡意圖片概率。
例如,該圖片確定子單元,具體可以用于統(tǒng)計(jì)該圖片集合中圖片的總量、以及惡意圖片的數(shù)量,計(jì)算該惡意圖片的數(shù)量與該圖片的總量的比值,得到惡意圖片概率。
(3)語音識別單元303;
語音識別單元303,用于對該視頻內(nèi)容中的語音進(jìn)行識別,得到語音識別結(jié)果。
例如,以語音識別結(jié)果具體為惡意語音概率為例,則該語音識別單元303可以包括語音提取子單元、語音解析子單元和語音確定子單元,如下:
該語音提取子單元,用于從該視頻內(nèi)容中提取語音,得到語音集合。
該語音解析子單元,用于對該語音集合中的語音分別進(jìn)行解析,以識別出惡意語音。
例如,該語音解析子單元,具體可以用于將該語音集合中的語音轉(zhuǎn)換為相應(yīng)的文本信息,將該文本信息劃分為多個文本字段,確定該文本字段是否存在與預(yù)設(shè)敏感關(guān)鍵字匹配的詞匯,若是,則確定該詞匯所在文本字段所對應(yīng)的語音為惡意語音;若否,則確定該詞匯所在文本字段所對應(yīng)的語音為非惡意語音。
其中,該預(yù)設(shè)敏感關(guān)鍵字可以根據(jù)實(shí)際應(yīng)用的需求而定,例如,可以是色情、暴力、政治敏感等法律法規(guī)禁止收藏或傳播的內(nèi)容相關(guān)的關(guān)鍵字,比如,以色情為例,具體可以是“AV”、“裸露”、“情色”、和/或“性愛”等關(guān)鍵字,又比如,如果是暴力相關(guān)的,則可以是“槍殺”和/或“血腥”等關(guān)鍵字,等等。
該語音確定子單元,用于確定該語音集合中惡意語音所占的比例,得到惡意語音概率。
例如,該語音確定子單元,具體可以用于統(tǒng)計(jì)該語音集合中語音的總量、以及惡意語音的數(shù)量,計(jì)算該惡意語音的數(shù)量與該語音的總量的比值,得到惡意語音概率。
(4)文本識別單元304;
文本識別單元304,用于對該視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本進(jìn)行識別,得到文本識別結(jié)果。
例如,以語音識別結(jié)果具體為惡意文本概率為例,則該文本識別單元304可以包括添加子單元、文本解析子單元和文本確定子單元,如下:
該添加子單元,用于將該視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本添加至文本集合。
該文本解析子單元,可以用于對文本集合中的文本進(jìn)行解析,以識別出惡意文本。
例如,該文本解析子單元,具體可以用于將文本集合中的文本劃分為多個文本字段,確定該文本字段是否存在與預(yù)設(shè)敏感關(guān)鍵字匹配的詞匯,若是,則確定該詞匯所在文本字段為惡意文本;若否,則確定該詞匯所在文本字段為非惡意文本。
其中,該預(yù)設(shè)敏感關(guān)鍵字可以根據(jù)實(shí)際應(yīng)用的需求而定,例如,可以是色情、暴力、政治敏感等法律法規(guī)禁止收藏或傳播的內(nèi)容相關(guān)的關(guān)鍵字,比如,以色情為例,具體可以是“AV”、“裸露”、“情色”、和/或“性愛”等關(guān)鍵字,又比如,如果是暴力相關(guān)的,則可以是“槍殺”和/或“血腥”等關(guān)鍵字,等等。
該文本確定子單元,可以用于確定該文本集合中惡意文本所占的比例,得到惡意文本概率。
(5)融合單元305;
融合單元305,用于將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果。
例如,可以為這些識別結(jié)果分別設(shè)置相應(yīng)的權(quán)重,在需要進(jìn)行融合計(jì)算時(shí),將這些識別結(jié)果分別乘以其對應(yīng)的權(quán)重,并進(jìn)行相加,即可得到該視頻識別結(jié)果,即:
該融合單元305,具體可以用于將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果分別乘以相應(yīng)的權(quán)重后,進(jìn)行相加,得到視頻識別結(jié)果。
比如,若圖片識別結(jié)果為惡意圖片概率Pv,語音識別結(jié)果為惡意語音概率Ps,文本識別結(jié)果為惡意文本概率Pt,惡意圖片概率Pv的權(quán)重為a,惡意語音概率Ps的權(quán)重為b,惡意文本概率Pt的權(quán)重為c,則視頻識別結(jié)果P為:
P=a*Pv+b*Ps+c*Pt;
其中,0<=a,b,c<=1,且a+b+c=1;此外,0<=Pv,Ps,Pt<=1。
其中,權(quán)重a,b和c可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,比如,在針對視頻直播色情場景,由于圖片維度識別準(zhǔn)確及可參考性最高,語音識別、以及彈幕/評論識別等維度次之,因此,可以設(shè)置圖片識別的權(quán)重最大,即可以設(shè)置a>=c>=b,等等。
可選的,若視頻信息中還攜帶了觀看用戶信息,比如攜帶了視頻觀看用戶數(shù)量、以及群體分布等信息,則此時(shí),還可以根據(jù)該觀看用戶信息對觀看用戶趨勢進(jìn)行識別,并在計(jì)算視頻識別結(jié)果時(shí),將該觀看用戶趨勢的識別結(jié)果作為考量因素之一,即即如圖3b所示,該視頻識別裝置還可以包括用戶趨勢分析單元306,如下:
獲取單元301,具體可以用于獲取需要進(jìn)行識別的視頻信息,該視頻信息包括視頻內(nèi)容、視頻相關(guān)信息和觀看用戶信息;
用戶趨勢分析單元306,可以用于根據(jù)該觀看用戶信息確定觀看用戶數(shù)量隨時(shí)間變化的規(guī)律,得到變化特性信息,根據(jù)該觀看用戶信息確定觀看用戶的群體分布狀況,得到群體分布信息,根據(jù)該變化特性信息和群體分布信息計(jì)算初始識別結(jié)果。
則此時(shí),融合單元305,具體可以用于將該圖片識別結(jié)果、語音識別結(jié)果、文本識別結(jié)果和初始識別結(jié)果分別乘以相應(yīng)的權(quán)重后,進(jìn)行相加,得到視頻識別結(jié)果,用公式表示即為:
P=a*Pv+b*Ps+c*Pt+d*Ph;
其中,Ph為初始識別結(jié)果,且滿足0<=Ph<=1,而d為Ph對應(yīng)的權(quán)重,0<=d<=1,且a+b+c+d=1。
其中,權(quán)重a,b,c和d可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,在此不再贅述。
可選的,為了提高識別的準(zhǔn)確性,若在識別的過程中,發(fā)現(xiàn)高危疑似惡意內(nèi)容的視頻,還可以將該視頻交由人工進(jìn)行審核,即如圖3b所示,該視頻識別裝置還可以包括處理單元307,如下:
處理單元307,用于確定視頻識別結(jié)果滿足預(yù)設(shè)條件,比如,若該視頻識別結(jié)果表示該視頻的惡意概率大于預(yù)設(shè)閾值,則可以將該視頻信息發(fā)送給預(yù)設(shè)終端,以進(jìn)行人工審核。
其中,該預(yù)設(shè)閾值可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,在此不再贅述。
具體實(shí)施時(shí),以上各個單元可以作為獨(dú)立的實(shí)體來實(shí)現(xiàn),也可以進(jìn)行任意組合,作為同一或若干個不同的實(shí)體來實(shí)現(xiàn),以上各個單元的具體實(shí)施可參見前面的實(shí)施例,在此不再贅述。
該視頻識別裝置具體可以集成在服務(wù)器等中,該服務(wù)器可以是單一的服務(wù)器,也可以是服務(wù)集群。
由上可知,本實(shí)施例在獲取需要進(jìn)行識別的視頻信息后,可以由圖片識別單元302、語音識別單元303、以及文本識別單元304等對該視頻內(nèi)容中的圖片、語音、字幕和視頻相關(guān)信息分別進(jìn)行識別,得到多維的識別結(jié)果,即圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果等,然后,由融合單元305將這些識別結(jié)果進(jìn)行融合計(jì)算,得到最終的視頻識別結(jié)果;由于在該方案中,可以從多個維度對視頻進(jìn)行識別,因此,相對于現(xiàn)在技術(shù)中只是單個維度地對視頻進(jìn)行識別而言,可以提高識別的準(zhǔn)確率,大大改善識別效果;而且還可以大幅降低人工審核成本,大大提高審核效率。
實(shí)施例四、
相應(yīng)的,本發(fā)明實(shí)施例還提供一種視頻識別系統(tǒng),可以包括本發(fā)明實(shí)施例所提供的任一種視頻識別裝置,具體可參見實(shí)施例三,例如,可以如下:
視頻識別裝置,用于獲取需要進(jìn)行識別的視頻信息,該視頻信息包括視頻內(nèi)容和視頻相關(guān)信息等;對該視頻內(nèi)容中的圖片進(jìn)行識別,得到圖片識別結(jié)果;對該視頻內(nèi)容中的語音進(jìn)行識別,得到語音識別結(jié)果;對該視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本進(jìn)行識別,得到文本識別結(jié)果;將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果。
該視頻識別系統(tǒng)還可以包括其他的設(shè)備,比如業(yè)務(wù)服務(wù)器,如下:
業(yè)務(wù)服務(wù)器,用于向視頻識別裝置發(fā)送需要進(jìn)行識別的視頻信息,其中,該視頻信息可以包括視頻內(nèi)容和視頻相關(guān)信息,視頻相關(guān)信息可以包括視頻的彈幕和/或評論等信息。
以上各個設(shè)備的具體實(shí)施可參見前面的實(shí)施例,在此不再贅述。
由于該視頻識別系統(tǒng)可以包括本發(fā)明實(shí)施例所提供的任一種視頻識別裝置,因此,可以實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的任一種視頻識別裝置所能實(shí)現(xiàn)的有益效果,詳見前面的實(shí)施例,在此不再贅述。
實(shí)施例五、
本發(fā)明實(shí)施例還提供一種服務(wù)器,如圖4所示,其示出了本發(fā)明實(shí)施例所涉及的服務(wù)器的結(jié)構(gòu)示意圖,具體來講:
該服務(wù)器可以包括一個或者一個以上處理核心的處理器401、一個或一個以上計(jì)算機(jī)可讀存儲介質(zhì)的存儲器402、射頻(Radio Frequency,RF)電路403、電源404、輸入單元405、以及顯示單元406等部件。本領(lǐng)域技術(shù)人員可以理解,圖4中示出的服務(wù)器結(jié)構(gòu)并不構(gòu)成對服務(wù)器的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
處理器401是該服務(wù)器的控制中心,利用各種接口和線路連接整個服務(wù)器的各個部分,通過運(yùn)行或執(zhí)行存儲在存儲器402內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲器402內(nèi)的數(shù)據(jù),執(zhí)行服務(wù)器的各種功能和處理數(shù)據(jù),從而對服務(wù)器進(jìn)行整體監(jiān)控??蛇x的,處理器401可包括一個或多個處理核心;優(yōu)選的,處理器401可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信??梢岳斫獾氖?,上述調(diào)制解調(diào)處理器也可以不集成到處理器401中。
存儲器402可用于存儲軟件程序以及模塊,處理器401通過運(yùn)行存儲在存儲器402的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理。存儲器402可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應(yīng)用程序(比如聲音播放功能、圖片播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)服務(wù)器的使用所創(chuàng)建的數(shù)據(jù)等。此外,存儲器402可以包括高速隨機(jī)存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應(yīng)地,存儲器402還可以包括存儲器控制器,以提供處理器401對存儲器402的訪問。
RF電路403可用于收發(fā)信息過程中,信號的接收和發(fā)送,特別地,將基站的下行信息接收后,交由一個或者一個以上處理器401處理;另外,將涉及上行的數(shù)據(jù)發(fā)送給基站。通常,RF電路403包括但不限于天線、至少一個放大器、調(diào)諧器、一個或多個振蕩器、用戶身份模塊(SIM)卡、收發(fā)信機(jī)、耦合器、低噪聲放大器(LNA,Low Noise Amplifier)、雙工器等。此外,RF電路403還可以通過無線通信與網(wǎng)絡(luò)和其他設(shè)備通信。該無線通信可以使用任一通信標(biāo)準(zhǔn)或協(xié)議,包括但不限于全球移動通訊系統(tǒng)(GSM,Global System of Mobile communication)、通用分組無線服務(wù)(GPRS,General Packet Radio Service)、碼分多址(CDMA,Code Division Multiple Access)、寬帶碼分多址(WCDMA,Wideband Code Division Multiple Access)、長期演進(jìn)(LTE,Long Term Evolution)、電子郵件、短消息服務(wù)(SMS,Short Messaging Service)等。
服務(wù)器還包括給各個部件供電的電源404(比如電池),優(yōu)選的,電源404可以通過電源管理系統(tǒng)與處理器401邏輯相連,從而通過電源管理系統(tǒng)實(shí)現(xiàn)管理充電、放電、以及功耗管理等功能。電源404還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任意組件。
該服務(wù)器還可包括輸入單元405,該輸入單元405可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設(shè)置以及功能控制有關(guān)的鍵盤、鼠標(biāo)、操作桿、光學(xué)或者軌跡球信號輸入。具體地,在一個具體的實(shí)施例中,輸入單元405可包括觸敏表面以及其他輸入設(shè)備。觸敏表面,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面上或在觸敏表面附近的操作),并根據(jù)預(yù)先設(shè)定的程式驅(qū)動相應(yīng)的連接裝置??蛇x的,觸敏表面可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點(diǎn)坐標(biāo),再送給處理器401,并能接收處理器401發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實(shí)現(xiàn)觸敏表面。除了觸敏表面,輸入單元405還可以包括其他輸入設(shè)備。具體地,其他輸入設(shè)備可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、操作桿等中的一種或多種。
該服務(wù)器還可包括顯示單元406,該顯示單元406可用于顯示由用戶輸入的信息或提供給用戶的信息以及服務(wù)器的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標(biāo)、視頻和其任意組合來構(gòu)成。顯示單元406可包括顯示面板,可選的,可以采用液晶顯示器(LCD,Liquid Crystal Display)、有機(jī)發(fā)光二極管(OLED,Organic Light-Emitting Diode)等形式來配置顯示面板。進(jìn)一步的,觸敏表面可覆蓋顯示面板,當(dāng)觸敏表面檢測到在其上或附近的觸摸操作后,傳送給處理器401以確定觸摸事件的類型,隨后處理器401根據(jù)觸摸事件的類型在顯示面板上提供相應(yīng)的視覺輸出。雖然在圖4中,觸敏表面與顯示面板是作為兩個獨(dú)立的部件來實(shí)現(xiàn)輸入和輸入功能,但是在某些實(shí)施例中,可以將觸敏表面與顯示面板集成而實(shí)現(xiàn)輸入和輸出功能。
盡管未示出,服務(wù)器還可以包括攝像頭、藍(lán)牙模塊等,在此不再贅述。具體在本實(shí)施例中,服務(wù)器中的處理器401會按照如下的指令,將一個或一個以上的應(yīng)用程序的進(jìn)程對應(yīng)的可執(zhí)行文件加載到存儲器402中,并由處理器401來運(yùn)行存儲在存儲器402中的應(yīng)用程序,從而實(shí)現(xiàn)各種功能,如下:
獲取需要進(jìn)行識別的視頻信息,該視頻信息包括視頻內(nèi)容和視頻相關(guān)信息等;對該視頻內(nèi)容中的圖片進(jìn)行識別,得到圖片識別結(jié)果;對該視頻內(nèi)容中的語音進(jìn)行識別,得到語音識別結(jié)果;對該視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本進(jìn)行識別,得到文本識別結(jié)果;將該圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果進(jìn)行融合計(jì)算,得到視頻識別結(jié)果。
例如,處理器401具體可以實(shí)現(xiàn)如下功能:
從該視頻內(nèi)容中提取圖片,得到圖片集合,對該圖片集合中的圖片分別進(jìn)行解析,以識別出惡意圖片,確定該圖片集合中惡意圖片所占的比例,得到惡意圖片概率,將該惡意圖片概率作為圖片識別結(jié)果。
從該視頻內(nèi)容中提取語音,得到語音集合,對該語音集合中的語音分別進(jìn)行解析,以識別出惡意語音,確定該語音集合中惡意語音所占的比例,得到惡意語音概率,將該惡意語音概率作為語音識別結(jié)果。
將該視頻內(nèi)容中的字幕和視頻相關(guān)信息的文本添加至文本集合,對文本集合中的文本進(jìn)行解析,以識別出惡意文本,確定該文本集合中惡意文本所占的比例,得到惡意文本概率,將該惡意文本概率作為文本識別結(jié)果。
可選的,若視頻信息中還攜帶了觀看用戶信息,比如攜帶了視頻觀看用戶數(shù)量、以及群體分布等信息,則此時(shí),還可以根據(jù)該觀看用戶信息對觀看用戶趨勢進(jìn)行識別,并在計(jì)算視頻識別結(jié)果時(shí),將該觀看用戶趨勢的識別結(jié)果作為考量因素之一,即處理器401還可以實(shí)現(xiàn)如下功能:
根據(jù)該觀看用戶信息確定觀看用戶數(shù)量隨時(shí)間變化的規(guī)律,得到變化特性信息,根據(jù)該觀看用戶信息確定觀看用戶的群體分布狀況,得到群體分布信息,根據(jù)該變化特性信息和群體分布信息計(jì)算初始識別結(jié)果。
則此時(shí),在計(jì)算視頻識別結(jié)果時(shí),具體可以為:將該圖片識別結(jié)果、語音識別結(jié)果、文本識別結(jié)果和初始識別結(jié)果分別乘以相應(yīng)的權(quán)重后,進(jìn)行相加,得到視頻識別結(jié)果。
以上各個操作的具體可參見前面的實(shí)施例,在此不再贅述。
由上可知,本實(shí)施例的服務(wù)器在獲取需要進(jìn)行識別的視頻信息后,可以對該視頻內(nèi)容中的圖片、語音、字幕和視頻相關(guān)信息分別進(jìn)行識別,得到多維的識別結(jié)果,即圖片識別結(jié)果、語音識別結(jié)果和文本識別結(jié)果等,然后,將這些識別結(jié)果進(jìn)行融合計(jì)算,得到最終的視頻識別結(jié)果;由于在該方案中,可以從多個維度對視頻進(jìn)行識別,因此,相對于現(xiàn)在技術(shù)中只是單個維度地對視頻進(jìn)行識別而言,可以提高識別的準(zhǔn)確率,大大改善識別效果。
本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計(jì)算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(ROM,Read Only Memory)、隨機(jī)存取記憶體(RAM,Random Access Memory)、磁盤或光盤等。
以上對本發(fā)明實(shí)施例所提供的一種視頻的識別方法、裝置和系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會有改變之處,綜上該,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。