基于捷徑深度神經(jīng)網(wǎng)絡(luò)的視頻分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)多媒體技術(shù)領(lǐng)域,特別設(shè)及一種基于捷徑深度神經(jīng)網(wǎng)絡(luò)的視頻 分類方法。
【背景技術(shù)】
[0002] 在近年多媒體技術(shù)飛速發(fā)展,W及國(guó)家文化大發(fā)展大繁榮的要求下,視頻已經(jīng)成 為主流的內(nèi)容傳播途徑。同時(shí),隨著視頻制作技術(shù)的普及,越來越多的普通大眾參與到視頻 的制作和上傳工作上來,使得視頻內(nèi)容日漸多元化。
[0003] 該一現(xiàn)象在使得W視頻為基礎(chǔ)的媒體及平臺(tái)大發(fā)展的同時(shí),也給視頻內(nèi)容的管理 帶來的更高的要求和挑戰(zhàn)。如何給眾多視頻依據(jù)內(nèi)容等特征進(jìn)行正確的分類成為了一個(gè)非 常突出的問題。顯然,由平臺(tái)和媒體來分類是不現(xiàn)實(shí)的,龐大的視頻數(shù)量使得對(duì)視頻逐一審 查的代價(jià)過大;然而,讓視頻的上傳者來進(jìn)行分類也存在一定的問題,即其可能并不能準(zhǔn)確 把握視頻平臺(tái)對(duì)各類別的定義,該使得分類過程變得困難。
[0004] 視頻自動(dòng)分類需要首先需要借助特征工程中方法將視頻中的特征抽取出來,再將 特征和對(duì)應(yīng)的視頻類別標(biāo)簽輸入到合適的分類器中訓(xùn)練,最后將訓(xùn)練好的分類器用來給新 的視頻分類。視頻的特征抽取方法主要有基于視頻中文本的方法,基于音頻的方法和基于 視覺圖像的方法,該些方法可W單獨(dú)使用,也可W同時(shí)使用。對(duì)于每一個(gè)視頻來說,其特征 最終W-個(gè)向量的形式來表示,但不同視頻其向量的維度可能不同,還需要使用主成分分 析法(PrincipalComponentAnalysis,PCA)對(duì)其進(jìn)行特征降維和對(duì)齊。
[0005] 另外,在現(xiàn)今的各種視頻網(wǎng)站或者媒體中,往往都存在對(duì)視頻進(jìn)行評(píng)論、評(píng)分等功 能,該些屬于視頻之外但又與視頻存在強(qiáng)烈對(duì)應(yīng)關(guān)系的數(shù)據(jù)可W稱之為異構(gòu)數(shù)據(jù)。異構(gòu)數(shù) 據(jù)又往往能為視頻分類提供大量的信息,例如在某視頻基礎(chǔ)上人為加工過的視頻,單從視 頻本身的特征來分析,很有可能將其和原視頻歸為同一類別,然而事實(shí)上并不一定如此。因 此應(yīng)該將異構(gòu)數(shù)據(jù)作為視頻的重要特征予W考慮。W評(píng)論為例,可W使用潛在狄利克雷分 配(LatentDirichletAllocation,LDA)模型對(duì)其進(jìn)行特征抽取。為了區(qū)分從視頻中抽取 的特征和從異構(gòu)數(shù)據(jù)中抽取的特征,之后將用"視頻特征"和"異構(gòu)特征"該兩個(gè)詞來加W 區(qū)別。
[0006] 在獲得特征的前提下,可W使用深度神經(jīng)網(wǎng)絡(luò)值eepNeuralNetwork,DNN)作為 分類器,利用特征和其對(duì)應(yīng)的類別標(biāo)簽進(jìn)行訓(xùn)練,從而獲得最終為視頻分類的分類器。深度 信賴網(wǎng)絡(luò)值eepBeliefNetwork,DBN)是近年來提出的較為成功的D順之一,廣泛被應(yīng)用 在物體識(shí)別,語音識(shí)別,信號(hào)識(shí)別,自然語言處理等多個(gè)機(jī)器學(xué)習(xí)領(lǐng)域。在傳統(tǒng)做法中,可W 將異構(gòu)特征看作是視頻特征的簡(jiǎn)單擴(kuò)充,即將表示視頻特征的向量和表示異構(gòu)特征的向量 簡(jiǎn)單連結(jié)成一個(gè)更大的特征向量作為DBN的輸入。利用DBN給視頻分類的過程包括W下步 驟:
[0007] (1)將視頻轉(zhuǎn)化為RGB值向量。
[000引 (2)使用PCA方法將RGB值向量轉(zhuǎn)化為視頻特征。
[0009] (3)使用LDA方法將視頻對(duì)應(yīng)的評(píng)論轉(zhuǎn)化為異構(gòu)特征。
[0010] (4)將視頻特征、異構(gòu)特征W及視頻的類別標(biāo)簽輸入DBN中進(jìn)行訓(xùn)練。
[0011] (5)對(duì)于未分類的視頻,同樣經(jīng)(1) (2) (3)步處理后得到表示其特征的向量,并將 其輸入到訓(xùn)練好的DBN中,最后輸出視頻的類別標(biāo)簽。
[0012] 具體示例如圖1所示,各種特征的構(gòu)建相當(dāng)于對(duì)數(shù)據(jù)的預(yù)處理,因此在圖中省略。 雖然使用DBN對(duì)視頻進(jìn)行分類的方法達(dá)到了一定的效果,然而該種做法會(huì)使得網(wǎng)絡(luò)中存在 大量冗余的計(jì)算過程,降低訓(xùn)練的效率,且導(dǎo)致分類精度下降。更具體地來說,深度神經(jīng)網(wǎng) 絡(luò)中隱藏層可W看作是對(duì)原始數(shù)據(jù)(特征)的不同層次的抽象,越高層越抽象。同時(shí)異構(gòu)數(shù) 據(jù),例如文本,本身也存在著對(duì)原始數(shù)據(jù)不同層次的抽象,其中不同只在于異構(gòu)數(shù)據(jù)的抽象 層次并不是顯式的,而深度神經(jīng)網(wǎng)絡(luò)的層次相當(dāng)于顯式表示了數(shù)據(jù)的抽象程度。而傳統(tǒng)的 深度神經(jīng)網(wǎng)絡(luò)用于視頻分類的方法將視頻特征和異構(gòu)特征看作具有相同抽象程度的數(shù)據(jù), 即將高抽象程度的數(shù)據(jù)當(dāng)作低抽象程度的數(shù)據(jù)來進(jìn)行處理,該種做法將會(huì)導(dǎo)致兩個(gè)可能的 結(jié)果;(1)低層神經(jīng)網(wǎng)絡(luò)對(duì)異構(gòu)數(shù)據(jù)不做任何處理,直接將其當(dāng)作高抽象程度數(shù)據(jù)傳遞到 高層,該其實(shí)就是計(jì)算過程的冗余。(2)低層神經(jīng)網(wǎng)絡(luò)由于無法處理異構(gòu)數(shù)據(jù),因?yàn)槠溆懈?高抽象程度,而影響神經(jīng)網(wǎng)絡(luò)的分類效果。
【發(fā)明內(nèi)容】
[0013] 本發(fā)明的目的旨在至少解決上述的技術(shù)缺陷之一。
[0014] 為此,本發(fā)明的目的在于提出一種基于捷徑深度神經(jīng)網(wǎng)絡(luò)的視頻分類方法。該方 法具有分類過程簡(jiǎn)單,分類精度高的優(yōu)點(diǎn)。
[0015] 為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例公開了一種基于捷徑深度神經(jīng)網(wǎng)絡(luò)的視頻分 類方法,所述捷徑深度神經(jīng)網(wǎng)絡(luò)包括;第一輸入層、第二輸入層、開關(guān)節(jié)點(diǎn)層、多個(gè)隱藏層和 一個(gè)輸出層,所述第一輸入層、所述多個(gè)隱藏層和所述輸出層依次相連,所述第二輸入層通 過所述開關(guān)節(jié)點(diǎn)層與所述多個(gè)隱藏層相連,所述第一輸入層、第二輸入層、開關(guān)節(jié)點(diǎn)層、多 個(gè)隱藏層和一個(gè)輸出層分別設(shè)有預(yù)定的節(jié)點(diǎn)數(shù),所述方法包括;訓(xùn)練分類器的步驟,包括: 獲取訓(xùn)練數(shù)據(jù)的類別標(biāo)簽,并從所述訓(xùn)練數(shù)據(jù)中提取視頻特征和異構(gòu)特征,并設(shè)定開關(guān)節(jié) 點(diǎn)數(shù)值,W及將所述訓(xùn)練數(shù)據(jù)的類別標(biāo)簽、視頻特征和異構(gòu)特征輸入所述捷徑深度神經(jīng)網(wǎng) 絡(luò),W訓(xùn)練得到用于對(duì)視頻進(jìn)行分類的分類器,所述視頻的類別由所述類別標(biāo)簽表示;視 頻分類的步驟,包括;獲取測(cè)試數(shù)據(jù),并從所述測(cè)試數(shù)據(jù)中提取視頻特征和異構(gòu)特征,并將 所述測(cè)試數(shù)據(jù)的視頻特征和異構(gòu)特征輸入所述分類器,W得到所述測(cè)試數(shù)據(jù)對(duì)應(yīng)的類別標(biāo) 簽;其中,所述視頻特征由所述第一輸入層輸入,并依次通過所述多個(gè)隱藏層進(jìn)行訓(xùn)練,所 述異構(gòu)特征由所述第二輸入層輸入,并根據(jù)所述開關(guān)節(jié)點(diǎn)數(shù)值通過相應(yīng)的隱藏層進(jìn)行訓(xùn) 練。
[0016] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于捷徑深度神經(jīng)網(wǎng)絡(luò)的視頻分類方法還可W具 有如下附加的技術(shù)特征:
[0017] 在一些示例中,根據(jù)PCA方法提取所述視頻特征,根據(jù)LDA方法提取所述異構(gòu)特 征。
[001引在一些示例中,在得到所述分類器之后,還包括;利用BP算法對(duì)所述分類器進(jìn)行 優(yōu)化。
[0019] 在一些示例中,所述訓(xùn)練分類器的步驟,具體包括:
[0020] S1 ;獲取所述視頻特征和異構(gòu)特征,其中,所述視頻特征和所述異構(gòu)特征為1000 維的向量,所述視頻特征和所述異構(gòu)特征表示為;UG化ixiwn.aeIRixiwa;
[0021] S2 ;設(shè)定開關(guān)節(jié)點(diǎn)數(shù)值,其中,開關(guān)節(jié)點(diǎn)結(jié)構(gòu)為矩陣ZG{0, 胃,如果隱藏層i 與異構(gòu)特征連結(jié),則另Zu= 1,否則另Zu= 0 ;
[002引 S3 ;隨機(jī)初始化第一輸入層與第一隱藏層之間的權(quán)值矩陣WG肪igddxsm、第一輸 入層偏置向量6G収1X1DW、隱藏層偏置向量Ce肪1XSW、第二輸入層與第一隱藏層之間的 權(quán)值矩W'G胺1000X日00,第二輸入層偏置向量deIR1X1000;
[0023] S4 ;將所述V,a輸入到所述捷徑深度神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)中,并計(jì)算所述多個(gè)隱藏層的 節(jié)點(diǎn)激活概率值;
[0024] S5 ;根據(jù)隱藏層的節(jié)點(diǎn)的激活概率值對(duì)其進(jìn)行抽樣得到h?,并根據(jù)抽取出的樣本 計(jì)算重構(gòu)輸入層的概率值;
[002引 S6 ;根據(jù)所述重構(gòu)輸入層的概率值對(duì)其進(jìn)行抽樣得到vW,W,并根據(jù)所述yW, 重復(fù)S4和S5,得到h(";
[0026] S7 ;計(jì)算參數(shù)的梯度;
[0027]S8 ;每計(jì)算預(yù)定數(shù)量的梯度,對(duì)所述參數(shù)進(jìn)行更新,直到所有訓(xùn)練數(shù)據(jù)處理完成;
[0028] S9 ;重復(fù)所述S4至所述S8預(yù)定次數(shù);
[0029] S10;對(duì)于剩余的層次,將前一層網(wǎng)絡(luò)的輸出值作為所述第一輸入層的輸入,所述 第二輸入層的輸入不變,根據(jù)所述S3至S9進(jìn)行訓(xùn)練;
[0030] S11 ;利用BP算法對(duì)所述捷徑深度神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)。
[0031] 在一些示例中,將所述V