两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種多模態(tài)融合的采訪鏡頭檢測方法

文檔序號:7652363閱讀:394來源:國知局
專利名稱:一種多模態(tài)融合的采訪鏡頭檢測方法
技術(shù)領(lǐng)域
本發(fā)明涉及視頻編輯領(lǐng)域,特別涉及一種多模態(tài)融合的采訪鏡頭檢測方法。
背景技術(shù)
在電影、新聞等視頻編輯領(lǐng)域中,大量的未經(jīng)編輯的原始素材被用于視頻制作。 這些原始素材包括以下三個主要特征
1、 包含大量的靜止場景和冗余片段;
2、 原始素材的音頻通常伴有噪聲,并且很難通過自動語音識別技術(shù)實現(xiàn)音頻到 文本的轉(zhuǎn)化;
3、 .對于原始素材的文本介紹很少,很難通過文本信息實現(xiàn)視頻內(nèi)容分析。 因此,對未經(jīng)人工編輯的原始視頻的分析不同于現(xiàn)有對已編輯視頻(如電影,
新聞,體育視頻等)的研究,是個具有挑戰(zhàn)性的新興的研究領(lǐng)域。
通常,新聞視頻原始素材包含采訪鏡頭、人物活動鏡頭、自然風(fēng)光鏡頭和一些 冗余鏡頭。對于新聞視頻制作而言,采訪鏡頭最為重要。采訪鏡頭通常記錄的是記 者和被采訪人的對話或者被釆訪人的自述, 一般具有人臉和人聲信息。目前現(xiàn)有的 人物識別方法多數(shù)是通過建立特定說話人模型進(jìn)行人物檢測,例如通過混合高斯模 型(GMM)建立新聞主播模型,在參考文獻(xiàn)1《Aaron E. Rosenberg, Ivan Magrin-Chagnolleau, S.Parthasarathy et al, "Speaker Detection in Broadcast Speech Databases", Proceeding of ICSLP'98, Sydney, Australia》中就有對如何利用混合高斯模 型建立新聞主播模型的詳細(xì)說明。但是對于未經(jīng)編輯的原始視頻而言,被采訪者的 多樣性導(dǎo)致現(xiàn)有依靠特定說話人模型的方法不具有更廣的通用性。
此外,現(xiàn)有視頻分析方法多依據(jù)特定視頻類型本身的特征,如電影分析可以依 據(jù)電影編輯手法,體育視頻分析可以依據(jù)體育視頻拍攝規(guī)則等,而新聞原始素材沒 有特定的規(guī)律可遵循,這給原始新聞的視頻分析帶來很大困難。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有的人物識別方法在檢測未經(jīng)編輯的新聞視頻時,需要依賴特定說話人模型,通用性低的缺陷,從而提供一種融合視頻和音頻信息,具有 較大通用性的采訪鏡頭檢測方法。
為了實現(xiàn)上述目的,本發(fā)明提供了一種多模態(tài)融合的采訪鏡頭檢測方法,按照 以下步驟順序執(zhí)行
步驟10)、輸入未編輯的原始視頻,對視頻進(jìn)行預(yù)處理,得到原始視頻的視頻 流和音頻流,以及視頻流中的鏡頭、各個鏡頭的關(guān)鍵幀;
步驟20)、根據(jù)所述的音頻流建立人聲模型,并依賴所述的人聲模型判斷鏡頭 是否為包含人聲的鏡頭;
步驟30)、根據(jù)所述的視頻流建立人臉模型,并依賴所述的人臉模型判斷鏡頭 是否為包含人臉的鏡頭;
步驟40)、根據(jù)步驟20)的人聲檢測結(jié)果和步驟30)的人臉檢測結(jié)果建立采訪 模型,并在所述的采訪模型中融合人聲檢測結(jié)果和人臉檢測結(jié)果,根據(jù)融合的結(jié)果 判斷鏡頭是否為采訪鏡頭,如果一個鏡頭中同時包含人聲和人臉信息,則所述鏡頭 為采訪鏡頭。
上述技術(shù)方案中,在所述的步驟IO)中,所述對輸入的原始視頻的預(yù)處理具體 包括以下步驟
步驟ll)、將輸入視頻分為視頻流和音頻流;
步驟12)、對所述視頻流進(jìn)行鏡頭邊界檢測和關(guān)鍵幀提取。
上述技術(shù)方案中,在所述的步驟20)中,所述人聲模型的建立具體包括以下步

步驟21)、從音頻流中提取基于幀的短時音頻特征;
步驟22)、根據(jù)音頻內(nèi)容,將各音頻短時幀對應(yīng)的音頻特征標(biāo)注為人聲類或非 人聲類,建立訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,并將未編輯原始視頻中的音頻流數(shù)據(jù)添加 到所述訓(xùn)練數(shù)據(jù)集或測試數(shù)據(jù)集;
步驟23)、通過支持向量機(jī)分類器和所述訓(xùn)練數(shù)據(jù)集建立人聲模型; 步驟24)、通過有限狀態(tài)機(jī)對所述測試數(shù)據(jù)集中音頻短時幀的分類結(jié)果做平滑, 得到音頻短時幀類型的檢測結(jié)果;
步驟25)、根據(jù)所述檢測結(jié)果,計算一個鏡頭中人聲類型的音頻短時幀占總幀
數(shù)的比例,并判斷所得到的比例是否大于第三閾值,如果大于,則所在鏡頭為包含 人聲的鏡頭。
在所述的步驟21)中,所述的短時音頻特征為短時音頻能量、短時過零率、美 爾倒譜系數(shù)、子帶能量和子帶能量比。在所述的步驟25)中,所述的第三閾值為0.7。 上述技術(shù)方案中,所述的步驟30)具體包括以下步驟-
步驟31)、建立人臉模型,對所述步驟IO)所得到的各鏡頭關(guān)鍵幀是否包含人
臉概念進(jìn)行判斷,并記錄包含人臉概念的關(guān)鍵幀;
步驟32)、計算一個鏡頭中包含人臉概念的關(guān)鍵幀占該鏡頭中總關(guān)鍵幀的比例; 步驟33)、根據(jù)所述比例,判斷鏡頭是否為包含人臉的鏡頭。 在所述的步驟31)中,通過AAM (Active Appearance Models,主動外觀模型)
方法建立人臉模型。
在所述的步驟32)中,對所得到的比例進(jìn)行優(yōu)化,所述優(yōu)化的具體實現(xiàn)如下
步驟32-1)、計算用于表示關(guān)鍵幀重要性的聚合度因子,并將該因子與所述步 驟32)中所得到的比例相乘,得到一個新的比例,用第三比例Rati03表示;
步驟32-2)、計算用于表示鏡頭重要性的時間因子,并將該因子與所述步驟32) 中所得到的比例相乘,得到又一個新的比例,用第四比例Ratiot表示。
在所述的步驟32-l)中,在計算所述聚合度因子時,將鏡頭的總幀數(shù)除以鏡頭 的關(guān)鍵幀數(shù)。
在所述的步驟32-2)中,在計算所述時間因子時,將鏡頭的時間除以鏡頭所在 原始視頻的時間。
在所述的步驟33)中,用Rati02表示步驟32)所得到的比例,則判斷鏡頭是否
為包含人臉概念的鏡頭的具體操作如下
如果Ratio2>Th4,則決策值DV產(chǎn)1,否則DV尸0;
如果Ratio3>Th5,則決策值DV2=1 ,否則DV2=0;
如果Ratio4>Th6,則決策值DVfl,否則DV^0;
如果DV卬DV2llDVfl,則該鏡頭包含人臉信息,否則不包含人臉信息; 其中,"II"表示"或"操作,閾值Th4, Th5, Th6由實驗決定。 所述的第四閾值Th4為0.2,所述第五閾值Ths為0.3,所述第六閾值Th6為0.3。 本發(fā)明的優(yōu)點是通過融合視頻和音頻信息,建立通用的基于鏡頭的采訪檢測模 型,并實現(xiàn)了對未經(jīng)編輯的原始視頻的概念檢測和標(biāo)注。


圖1為本發(fā)明的多模態(tài)融合的采訪鏡頭檢測方法的流程圖; 圖2為有限狀態(tài)機(jī)狀態(tài)轉(zhuǎn)移圖。
具體實施例方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步詳細(xì)描述-
如圖1所示,本發(fā)明的多模態(tài)融合的采訪鏡頭檢測方法具體包括以下步驟
步驟10、輸入未編輯的原始視頻,對視頻進(jìn)行預(yù)處理,所述的預(yù)處理操作得到
原始視頻的視頻流和音頻流,以及視頻流中的鏡頭、各個鏡頭的關(guān)鍵幀。所述的預(yù) 處理操作具體包括以下步驟-
步驟ll、將輸入視頻分為視頻流和音頻流;
步驟12、對所得到的視頻流進(jìn)行鏡頭邊界檢測和關(guān)鍵幀提取。在本申請中,所 提到的鏡頭是內(nèi)容相似、時間連續(xù)的一系列幀,對視頻流做鏡頭邊界檢測就是要將 不同內(nèi)容的視頻幀分割開來。而關(guān)鍵幀則是最能體現(xiàn)鏡頭特征的幀,在一個鏡頭中, 可以有一個以上的關(guān)鍵幀。
對鏡頭邊界的檢測和關(guān)鍵幀的提取屬于成熟的現(xiàn)有技術(shù),在參考文獻(xiàn)2 《Yueting Zhuang, Yong Rui, Thomas S. Huang et al. Adaptive key frame extraction using unsupervised clustering. Image Processing, ICIP 1998》中 有詳細(xì)的描述。
步驟20、根據(jù)視頻預(yù)處理操作所得到的音頻流建立人聲模型,并依賴所建立的
人聲模型判斷鏡頭是否為包含人聲的鏡頭。人聲模型的建立具體包括以下步驟
步驟21、從音頻流中提取基于幀的短時音頻特征。這些短時音頻特征具體包括
短時音頻能量、短時過零率、美爾倒譜系數(shù)、子帶能量和子帶能量比。其中,短時
音頻能量是指每個音頻短時幀所有樣點的能量總和;短時過零率是指每個音頻短時 幀中語音信號波形穿過零電平的次數(shù);美爾倒譜系數(shù)用來表征語音信號,其中的低 頻系數(shù)表征激勵信號(或基音頻率),高頻系數(shù)表征共振信號;子帶能量是指每個音 頻短時幀信號頻域上某一子帶的能量;子帶能量比是指每個音頻短時幀信號頻域上 某一子帶的能量占所有子帶能量和的比例。上述說明中所提到的音頻短時幀是指將 時域上連續(xù)的若干個離散的頻采樣點作為一個音頻處理的基元。
對上述短時音頻特征的提取屬于成熟的現(xiàn)有技術(shù),在參考文獻(xiàn)3《Bai Liang, Hu Yaali, Lao Songyang, et al. Feature analysis and extraction for audio automatic classification. Proc. of IEEE International Conference on System, Man and Cybernetics, 2005》中有詳細(xì)的記載。
步驟22、根據(jù)音頻內(nèi)容,將各音頻短時幀對應(yīng)的音頻特征向量標(biāo)注為人聲類或 非人聲類,建立訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,并將未編輯原始視頻中的音頻流數(shù)據(jù)添 加到訓(xùn)練數(shù)據(jù)集或測試數(shù)據(jù)集;訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)只要隨機(jī)選取音頻流數(shù)據(jù)的一部分即可,其余音頻流數(shù)據(jù)在測試數(shù)據(jù)集中,訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集之間沒有交 集。
步驟23、通過支持向量機(jī)分類器和步驟22得到的訓(xùn)練數(shù)據(jù)集建立人聲模型; 步驟24、通過步驟23得到的人聲模型檢測步驟22得到的測試數(shù)據(jù)集中音頻短 時幀的類型,并通過有限狀態(tài)機(jī)對分類結(jié)果做平滑。在本步驟中,所述的音頻短時 幀的類型是指該音頻短時幀為人聲還是非人聲。在本步驟中所采用的有限狀態(tài)機(jī)定 義如下
Cr /Y,ec/ < r & 「Coi/w^ + + j < r/z"
C*5 . 尸「,ec/z I < r、 & 「Coww/er + + j >= 7^2; C tf : = O,C 7 . ^G辦e/ = /,
Cs ..尸f wows/ eec/ 1 514 J < r、 cfe 「 Cownfer + + j < r/ 2,. C%..尸「"o"s/ eec/2 >= 77 &廣Coww&r + +」< r/ 2
Cc尸 eec/ …」 < & (Xo關(guān)/"十+ J >= r/ 2
2
其中,Q表示有限狀態(tài)機(jī)的狀態(tài)集,"表示狀態(tài)轉(zhuǎn)換集,2表示狀態(tài)轉(zhuǎn)移條件, ^表示初始狀態(tài),F(xiàn)表示終止?fàn)顟B(tài)。Label表示音頻短時幀分類結(jié)果,P(ratio|S3) and
P(ratiolS4)表示分別在狀態(tài)3和狀態(tài)4下一個鏡頭中人聲類的短時幀占總幀數(shù)的概 率,counter表示計數(shù)器,Tin和Th2表示由音頻分類實驗確定的閾值。具體狀態(tài)轉(zhuǎn) 移圖請參考圖2。
步驟25、計算一個鏡頭中人聲類型的音頻短時幀占總幀數(shù)的比例Ratio,判斷 所得到的比例是否大于指定的閾值Th3,如果Ratio〉Th3,則該鏡頭為包含人聲概念 的鏡頭。其中,Th3由音頻分類實驗確定,在本實施例中可以取0.7。
步驟30、根據(jù)視頻預(yù)處理得到的視頻流建立人臉模型,并依賴人臉模型判斷鏡 頭是否包含人臉。本步驟的具體實現(xiàn)步驟如下
步驟3K建立人臉模型,根據(jù)人臉模型檢測步驟10所得到的各鏡頭關(guān)鍵幀是 否包含人臉概念,記錄包含人臉概念的關(guān)鍵幀。建立人臉模型可采用現(xiàn)有的成熟技術(shù),在本實施例中,可采用AAM方法建立人臉模型。該方法在參考文獻(xiàn)4《Zhao Ming,Chen Chun,Li S Z,et al. Subspace analysis and optimization for AAM based face alignment [A].In Proc. of Sixth IEEE International Conference on Automatic Face and Gesture Recognition [C].Seoul,South Korea,2004.290-295.》中有詳細(xì)說明。
步驟32、計算包含人臉概念的關(guān)鍵幀占總關(guān)鍵幀的比例Rati02,并優(yōu)化該比例。 在優(yōu)化時可采用以下方法-
步驟32-1、計算聚合度因子(CD): CD表示了一個關(guān)鍵幀對該鏡頭的表征能 力,表征了每個關(guān)鍵幀的重要性,其計算公式如下
7b/a/斤歸e 7Vw附6er CD =-=^-=-
由該公式可知,在計算聚合度因子時,是將鏡頭的總幀數(shù)除以鏡頭的關(guān)鍵幀數(shù)。
求得聚合度因子后,可通過該因子優(yōu)化Rati02:
步驟32-2、計算時間因子(TF): TF表示鏡頭長度占整個視頻長度的比例,表
征了鏡頭的重要性,其計算公式如下
^幼o(hù)f &膨
7F =-=-
P7^/eo — "we
求得時間因子后,通過該因子優(yōu)化Ratio2:
步驟33、通過Rati02, Ratio3, Ratio4判斷鏡頭是否包含人臉概念 如果Ratio2>Th4,則決策值DV產(chǎn)1,否則DV產(chǎn)0; 如果Ratio3>Th5,則決策值DV2=1 ,否則DV2-0; 如果Ratio4>Th6,則決策值DVfl,否則DV3=0;
如果DV"IDV川DVfl,則該鏡頭包含人臉信息,否則不包含人臉信息。 其中,"||"表示"或"操作,閾值Th4, Th5, Th6由實驗決定,在本實施例中, Th4=0.2, Th5=0.3, Th6=0.3。
在本實施例的步驟32和步驟33中,對包含人臉概念的關(guān)鍵幀占總關(guān)鍵幀的比 例做了優(yōu)化,并根據(jù)優(yōu)化前后的比例判斷鏡頭是否包含人臉,但在其他的實施例中, 也可以不對包含人臉概念的關(guān)鍵幀占總關(guān)鍵幀的比例做優(yōu)化,直接使用該比例判斷鏡頭是否包含人臉。
步驟40、根據(jù)步驟20的人聲檢測結(jié)果和步驟30的人臉檢測結(jié)果建立采訪模型, 在該采訪模型中融合人聲檢測結(jié)果和人臉檢測結(jié)果,并按照融合的結(jié)果實現(xiàn)采訪鏡 頭的檢測。在融合時,如果一個鏡頭中同時包含人聲和人臉信息,則該鏡頭為采訪 鏡頭。
最后所應(yīng)說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管 參照實施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對本發(fā)明 的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均 應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1、一種多模態(tài)融合的采訪鏡頭檢測方法,按照以下步驟順序執(zhí)行步驟10)、輸入未編輯的原始視頻,對視頻進(jìn)行預(yù)處理,得到原始視頻的視頻流和音頻流,以及視頻流中的鏡頭、各個鏡頭的關(guān)鍵幀;步驟20)、根據(jù)所述的音頻流建立人聲模型,并依賴所述的人聲模型判斷鏡頭是否為包含人聲的鏡頭;步驟30)、根據(jù)所述的視頻流建立人臉模型,并依賴所述的人臉模型判斷鏡頭是否為包含人臉的鏡頭;步驟40)、根據(jù)步驟20)的人聲檢測結(jié)果和步驟30)的人臉檢測結(jié)果建立采訪模型,并在所述的采訪模型中融合人聲檢測結(jié)果和人臉檢測結(jié)果,根據(jù)融合的結(jié)果判斷鏡頭是否為采訪鏡頭,如果一個鏡頭中同時包含人聲和人臉信息,則所述鏡頭為采訪鏡頭。
2、 根據(jù)權(quán)利要求1所述的多模態(tài)融合的釆訪鏡頭檢測方法,其特征在于,在所 述的步驟IO)中,所述對輸入的原始視頻的預(yù)處理具體包括以下步驟步驟ll)、將輸入視頻分為視頻流和音頻流;步驟12)、對所述視頻流進(jìn)行鏡頭邊界檢測和關(guān)鍵幀提取。
3、 根據(jù)權(quán)利要求1所述的多模態(tài)融合的采訪鏡頭檢測方法,其特征在于,在所 述的步驟20)中,所述人聲模型的建立具體包括以下步驟步驟21)、從音頻流中提取基于幀的短時音頻特征;步驟22)、根據(jù)音頻內(nèi)容,將各音頻短時幀對應(yīng)的音頻特征標(biāo)注為人聲類或非 人聲類,建立訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,并將未編輯原始視頻中的音頻流數(shù)據(jù)添加 到所述訓(xùn)練數(shù)據(jù)集或測試數(shù)據(jù)集;步驟23)、通過支持向量機(jī)分類器和所述訓(xùn)練數(shù)據(jù)集建立人聲模型;步驟24)、通過有限狀態(tài)機(jī)對所述測試數(shù)據(jù)集中音頻短時幀的分類結(jié)果做平滑, 得到音頻短時幀類型的檢測結(jié)果;步驟25)、根據(jù)所述檢測結(jié)果,計算一個鏡頭中人聲類型的音頻短時幀占總幀 數(shù)的比例,并判斷所得到的比例是否大于第三閾值,如果大于,則所在鏡頭為包含 人聲的鏡頭。
4、 根據(jù)權(quán)利要求3所述的多模態(tài)融合的采訪鏡頭檢測方法,其特征在于,在所 述的步驟21)中,所述的短時音頻特征為短時音頻能量、短時過零率、美爾倒譜系數(shù)、子帶能量和子帶能量比。
5、 根據(jù)權(quán)利要求3所述的多模態(tài)融合的采訪鏡頭檢測方法,其特征在于,在所 述的步驟25)中,所述的第三閾值為0.7。
6、 根據(jù)權(quán)利要求1所述的多模態(tài)融合的采訪鏡頭檢測方法,其特征在于,所述 的步驟30)具體包括以下步驟步驟31)、建立人臉模型,對所述步驟IO)所得到的各鏡頭關(guān)鍵幀是否包含人 臉概念進(jìn)行判斷,并記錄包含人臉概念的關(guān)鍵幀;步驟32)、計算一個鏡頭中包含人臉概念的關(guān)鍵幀占該鏡頭中總關(guān)鍵幀的比例; 步驟33)、根據(jù)所述比例,判斷鏡頭是否為包含人臉的鏡頭。
7、 根據(jù)權(quán)利要求6所述的多模態(tài)融合的采訪鏡頭檢測方法,其特征在于,在所 述的步驟31)中,通過AAM方法建立人臉模型。
8、 根據(jù)權(quán)利要求6所述的多模態(tài)融合的采訪鏡頭檢測方法,其特征在于,在所 述的步驟32)中,對所得到的比例進(jìn)行優(yōu)化,所述優(yōu)化的具體實現(xiàn)如下步驟32-1)、計算用于表示關(guān)鍵幀重要性的聚合度因子,并將該因子與所述步 驟32)中所得到的比例相乘,得到一個新的比例,用第三比例Rati03表示;步驟32-2)、計算用于表示鏡頭重要性的時間因子,并將該因子與所述步驟32) 中所得到的比例相乘,得到又一個新的比例,用第四比例Rati04表示。
9、 根據(jù)權(quán)利要求8所述的多模態(tài)融合的采訪鏡頭檢測方法,其特征在于,在所 述的步驟32-l)中,在計算所述聚合度因子時,將鏡頭的總幀數(shù)除以鏡頭的關(guān)鍵幀 數(shù)。
10、 根據(jù)權(quán)利要求8所述的多模態(tài)融合的采訪鏡頭檢測方法,其特征在于,在 所述的步驟32-2)中,在計算所述時間因子時,將鏡頭的時間除以鏡頭所在原始視 頻的時間。
11、 根據(jù)權(quán)利要求8所述的多模態(tài)融合的采訪鏡頭檢測方法,其特征在于,在 所述的步驟33)中,用Rati02表示步驟32)所得到的比例,則判斷鏡頭是否為包含人臉概念的鏡頭的具體操作如下如果Ratio2>Th4,則決策值DV^1,否則DV產(chǎn)0;如果RatiopThs,則決策值DVfl,否則DV2=0;如果Ratio4>Th6,則決策值DVfl,否則DV3=0;如果DVillDV2llDV^1,則該鏡頭包含人臉信息,否則不包含人臉信息; 其中,"ll"表示"或"操作,閾值Th4, Th5, Th6由實驗決定。
12、 根據(jù)權(quán)利要求11所述的多模態(tài)融合的采訪鏡頭檢測方法,其特征在于,所述的第四閾值Th4為0.2,所述第五閾值Th5為0.3,所述第六閾值Th6為0.3。
全文摘要
本發(fā)明公開了一種多模態(tài)融合的采訪鏡頭檢測方法,包括輸入未編輯的原始視頻,對視頻進(jìn)行預(yù)處理,得到原始視頻的視頻流和音頻流,以及視頻流中的鏡頭、各個鏡頭的關(guān)鍵幀;根據(jù)視頻預(yù)處理操作所得到的音頻流建立人聲模型,并依賴所建立的人聲模型判斷鏡頭是否為包含人聲的鏡頭;根據(jù)視頻預(yù)處理操作所得到的視頻流建立人臉模型,并依賴人臉模型判斷鏡頭是否為包含人臉的鏡頭;融合人聲檢測結(jié)果和人臉檢測結(jié)果,如果一個鏡頭中同時包含人聲和人臉信息,則鏡頭為采訪鏡頭。本發(fā)明的優(yōu)點是通過融合視頻和音頻信息,建立通用的基于鏡頭的采訪檢測模型,并實現(xiàn)了對未經(jīng)編輯的原始視頻的概念檢測和標(biāo)注。
文檔編號H04N5/262GK101316327SQ20071009972
公開日2008年12月3日 申請日期2007年5月29日 優(yōu)先權(quán)日2007年5月29日
發(fā)明者劉安安, 勝 唐, 硯 宋, 張勇東, 李錦濤 申請人:中國科學(xué)院計算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
兴文县| 洛浦县| 巫溪县| 博客| 来凤县| 耒阳市| 永定县| 南京市| 陆丰市| 曲松县| 大兴区| 石门县| 铜陵市| 德保县| 潢川县| 淄博市| 济源市| 晋中市| 东兰县| 贵州省| 彰化市| 淄博市| 临西县| 会东县| 永胜县| 武宁县| 咸丰县| 勐海县| 嘉兴市| 宜君县| 佳木斯市| 玉田县| 沁水县| 耒阳市| 芦溪县| 柏乡县| 屏南县| 潜江市| 平塘县| 龙里县| 平湖市|