本申請涉及音視頻,特別是涉及一種音視頻切分方法、裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、在一些目標(biāo)場景下(如,政務(wù)大廳、營業(yè)廳、銀行大廳、高鐵安檢處、飛機(jī)安檢處等),視頻采集裝置(如,攝像頭)持續(xù)性地對工作人員和乘客進(jìn)行視頻采集,音頻采集裝置(如,麥克風(fēng))持續(xù)性地對工作人員和乘客進(jìn)行音頻采集。后續(xù)需要逐一對各乘客進(jìn)行分析,那么就需要從持續(xù)性采集的視頻和音頻中準(zhǔn)確地確定出各乘客對應(yīng)的音頻和視頻,這樣才能準(zhǔn)確地對乘客進(jìn)行分析。
技術(shù)實(shí)現(xiàn)思路
1、本申請主要解決的技術(shù)問題是提供一種音視頻切分方法、裝置、電子設(shè)備和存儲介質(zhì),能夠提高對音視頻的切分準(zhǔn)確性。
2、為解決上述技術(shù)問題,本申請采用的一個(gè)技術(shù)方案是:提供一種音視頻切分方法,該方法包括:獲取目標(biāo)視頻和目標(biāo)音頻,其中,目標(biāo)視頻和目標(biāo)音頻是對目標(biāo)場景進(jìn)行采集得到的;利用目標(biāo)視頻,對目標(biāo)對象進(jìn)行追蹤,得到追蹤數(shù)據(jù);利用追蹤數(shù)據(jù),從目標(biāo)音頻和目標(biāo)視頻中,切分出屬于目標(biāo)對象的對象音頻和對象視頻。
3、其中,追蹤數(shù)據(jù)包括追蹤結(jié)束時(shí)刻;追蹤結(jié)束確定步驟,包括:響應(yīng)于對目標(biāo)對象的追蹤失效,確定對目標(biāo)對象的追蹤結(jié)束。
4、其中,對目標(biāo)對象的追蹤失效,包括:響應(yīng)于對目標(biāo)對象的追蹤丟失,獲取追蹤丟失后的至少兩個(gè)目標(biāo)視頻幀;對于各目標(biāo)視頻幀,獲取目標(biāo)視頻幀與追蹤丟失前的任一歷史視頻幀之間的相似度;基于各目標(biāo)視頻幀對應(yīng)的相似度,確定對目標(biāo)對象的追蹤失效。
5、其中,獲取追蹤丟失后的至少兩個(gè)目標(biāo)視頻幀,包括:獲取追蹤丟失后的若干視頻幀;從若干視頻幀中,選出質(zhì)量符合質(zhì)量要求的視頻幀,作為目標(biāo)視頻幀。
6、其中,基于各目標(biāo)視頻幀對應(yīng)的相似度,確定對目標(biāo)對象的追蹤失效,包括:對于各目標(biāo)視頻幀,對目標(biāo)視頻幀對應(yīng)的相似度進(jìn)行轉(zhuǎn)化,得到結(jié)果表征值;綜合各目標(biāo)視頻幀對應(yīng)的結(jié)果表征值,確定對目標(biāo)對象的追蹤失效。
7、其中,對目標(biāo)視頻幀對應(yīng)的相似度進(jìn)行轉(zhuǎn)化,得到結(jié)果表征值,包括:響應(yīng)于目標(biāo)視頻幀對應(yīng)的相似度大于或等于相似度閾值,將目標(biāo)視頻幀對應(yīng)的相似度,轉(zhuǎn)化為第一結(jié)果表征值;響應(yīng)于目標(biāo)視頻幀對應(yīng)的相似度小于相似度閾值,將目標(biāo)視頻幀對應(yīng)的相似度,轉(zhuǎn)化為第二結(jié)果表征值。
8、其中,第一結(jié)果表征值和第二結(jié)果表征值的正負(fù)相反且數(shù)值相等,目標(biāo)視頻幀為奇數(shù)個(gè);綜合各目標(biāo)視頻幀對應(yīng)的結(jié)果表征值,確定對目標(biāo)對象的追蹤失效,包括:對各目標(biāo)視頻幀對應(yīng)的結(jié)果表征值求和;響應(yīng)于和小于預(yù)設(shè)值,確定對目標(biāo)對象的追蹤失效。
9、其中,音視頻切分方法還包括:響應(yīng)于和大于預(yù)設(shè)值,確定對目標(biāo)對象的追蹤繼續(xù)。
10、其中,追蹤數(shù)據(jù)包括追蹤時(shí)刻,追蹤時(shí)刻包括追蹤開始時(shí)刻、追蹤中間時(shí)刻和追蹤結(jié)束時(shí)刻,追蹤中間時(shí)刻包括對目標(biāo)對象追蹤丟失的時(shí)刻和對目標(biāo)對象追蹤繼續(xù)的時(shí)刻;利用追蹤數(shù)據(jù),從目標(biāo)音頻和目標(biāo)視頻中,切分出屬于目標(biāo)對象的對象音頻和對象視頻,包括:響應(yīng)于獲取到任一非開始時(shí)刻的追蹤時(shí)刻,作為第一目標(biāo)時(shí)刻;利用目標(biāo)時(shí)間區(qū)間,對目標(biāo)音頻和目標(biāo)視頻進(jìn)行切分,得到目標(biāo)音頻片段和目標(biāo)視頻片段;其中,目標(biāo)時(shí)間區(qū)間包括第二目標(biāo)時(shí)刻、第一目標(biāo)時(shí)刻以及第一目標(biāo)時(shí)刻和第二目標(biāo)時(shí)刻之間的時(shí)刻,第二目標(biāo)時(shí)刻為位于第一目標(biāo)時(shí)刻之前的追蹤時(shí)刻;視頻切分方法還包括:響應(yīng)于對目標(biāo)對象的追蹤結(jié)束,對屬于目標(biāo)對象的各目標(biāo)音頻片段進(jìn)行合并,得到對應(yīng)目標(biāo)對象的對象音頻;以及,對屬于目標(biāo)對象的各目標(biāo)視頻片段進(jìn)行合并,得到對應(yīng)目標(biāo)對象的對象視頻。
11、其中,目標(biāo)視頻是利用視頻采集裝置采集的,目標(biāo)對象為目標(biāo)場景中,與視頻采集裝置之間的距離滿足距離預(yù)設(shè)要求的對象;和/或,目標(biāo)對象包括人臉。
12、為解決上述技術(shù)問題,本申請采用的另一個(gè)技術(shù)方案是:提供一種音視頻切分裝置,該音視頻切分裝置包括獲取模塊、追蹤模塊和切分模塊;獲取模塊用于獲取目標(biāo)視頻和目標(biāo)音頻,其中,目標(biāo)視頻和目標(biāo)音頻是對目標(biāo)場景進(jìn)行采集得到的;追蹤模塊用于利用目標(biāo)視頻,對目標(biāo)對象進(jìn)行追蹤,得到追蹤數(shù)據(jù);切分模塊用于利用追蹤數(shù)據(jù),從目標(biāo)音頻和目標(biāo)視頻中,切分出屬于目標(biāo)對象的對象音頻和對象視頻。
13、為解決上述技術(shù)問題,本申請采用的另一個(gè)技術(shù)方案是:提供一種電子設(shè)備,該電子設(shè)備包括存儲器和處理器,存儲器存儲有程序指令,程序指令能夠被執(zhí)行以實(shí)現(xiàn)上述的方法。
14、為解決上述技術(shù)問題,本申請采用的另一個(gè)技術(shù)方案是:提供一種計(jì)算機(jī)可讀存儲介質(zhì),該計(jì)算機(jī)可讀存儲介質(zhì)用于存儲有程序指令,程序指令能夠被執(zhí)行以實(shí)現(xiàn)上述的方法。
15、上述技術(shù)方案,在能夠追蹤到目標(biāo)對象的情況下,表明目標(biāo)對象正在目標(biāo)場景中完成待辦任務(wù),視頻采集裝置對應(yīng)采集的視頻為關(guān)于目標(biāo)對象的視頻,音頻采集裝置采集的音頻為關(guān)于目標(biāo)對象的音頻。所以,通過對目標(biāo)對象進(jìn)行追蹤得到的追蹤數(shù)據(jù),能夠輔助從對目標(biāo)場景進(jìn)行采集得到的目標(biāo)音頻和目標(biāo)視頻中,切分出屬于目標(biāo)對象的音頻和視頻,提高了音視頻切分的便利性和準(zhǔn)確性。
1.一種音視頻切分方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述追蹤數(shù)據(jù)包括追蹤結(jié)束時(shí)刻;所述追蹤結(jié)束確定步驟,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述目標(biāo)對象的追蹤失效,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述獲取所述追蹤丟失后的至少兩個(gè)目標(biāo)視頻幀,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于各所述目標(biāo)視頻幀對應(yīng)的相似度,確定對所述目標(biāo)對象的追蹤失效,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述對所述目標(biāo)視頻幀對應(yīng)的相似度進(jìn)行轉(zhuǎn)化,得到結(jié)果表征值,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述第一結(jié)果表征值和所述第二結(jié)果表征值的正負(fù)相反且數(shù)值相等,所述目標(biāo)視頻幀為奇數(shù)個(gè);所述綜合各所述目標(biāo)視頻幀對應(yīng)的結(jié)果表征值,確定對所述目標(biāo)對象的追蹤失效,包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述追蹤數(shù)據(jù)包括追蹤時(shí)刻,所述追蹤時(shí)刻包括追蹤開始時(shí)刻、追蹤中間時(shí)刻和追蹤結(jié)束時(shí)刻,所述追蹤中間時(shí)刻包括對所述目標(biāo)對象追蹤丟失的時(shí)刻和對所述目標(biāo)對象追蹤繼續(xù)的時(shí)刻;所述利用所述追蹤數(shù)據(jù),從所述目標(biāo)音頻和所述目標(biāo)視頻中,切分出屬于所述目標(biāo)對象的對象音頻和對象視頻,包括:
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,
11.一種音視頻切分裝置,其特征在于,所述裝置包括:
12.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括存儲器和處理器,所述存儲器存儲有程序指令,所述程序指令能夠被執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1-10任一項(xiàng)所述的方法。
13.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)用于存儲有程序指令,所述程序指令能夠被執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1-10任一項(xiàng)所述的方法。