本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種視頻同步信息展示方法及系統(tǒng)。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們的生活也越來越離不開網(wǎng)絡(luò),各種音視頻文件都可以通過網(wǎng)絡(luò)獲取。視頻通常指涉各種動態(tài)影像的儲存格式,例如:數(shù)位視頻格式,包括DVD,QuickTime,與MPEG-4;以及類比的錄像帶,包括VHS與Betamax。視頻可以被記錄下來并經(jīng)由不同的物理媒介傳送:在視頻被拍攝或以無線電傳送時(shí)為電氣訊號,而記錄在磁帶上時(shí)則為磁性訊號;視頻畫質(zhì)實(shí)際上隨著拍攝與擷取的方式以及儲存方式而變化。
通常,視頻是在時(shí)間上連續(xù)的一系列圖像幀的集合,是一種沒有結(jié)構(gòu)的圖像流。我們可以把視頻看作一本沒有目錄和索引的書,那么一幅圖像幀就相當(dāng)于書中的一頁。由于視頻這部書缺乏目錄和索引信息,就無法對它進(jìn)行高效瀏覽和檢索,無法快速閱讀。為尋找感興趣的視頻片段,我們只能采取“快進(jìn)”和“快倒”的耗時(shí)方式線性瀏覽。
隨著數(shù)字視頻數(shù)據(jù)量迅速增加,傳統(tǒng)的“線性”瀏覽方式已遠(yuǎn)不能滿足人們對視頻內(nèi)容的訪問和查詢需求。用慣了文本搜索引擎的用戶越來越希望能在海量視頻庫中快速找到自己感興趣的視頻片段,而視頻中的文字可以直接并且集中的描述視頻的各種信息,所以視頻中的文字識別可以更好地幫助人們分析和理解視頻中的內(nèi)容,從而作為視頻信息處理和檢索的一種良好手段。
目前已經(jīng)涌現(xiàn)出了大量的在圖像和視頻流中提取文字的有效方法,這些從視頻流中提取文字的方法大致可以分為兩大類:一類是連接相似的區(qū)域法,這種 方法的主要依據(jù)是視頻和圖像中的文字比較集中,并且和背景有不同的顏色。其特點(diǎn)是可以快速,準(zhǔn)確地確定視頻中的文字,但是當(dāng)遇到視頻中的文字被嵌入到復(fù)雜的背景中或者和其他的圖形對象相連接時(shí),這種方法的效果就不是很理想了;另一類主要是基于紋理的分類的方法。這類方法的主要問題是比較難排除類似于文字的區(qū)域。
現(xiàn)有技術(shù)中,對于用戶對于視頻的需求已經(jīng)不僅僅是播放,還需要從視頻中獲取相應(yīng)的信息,例如,用戶可能希望在觀看視頻的時(shí)候可以獲取相應(yīng)的視頻中出現(xiàn)的物品的具體信息,或者廣告信息。而這個(gè)信息的獲取,最好是能夠與視頻內(nèi)容同步的。同時(shí),對于這個(gè)信息的展示形式最好是可以與視頻相結(jié)合,互不影響的。顯然,現(xiàn)有技術(shù)中尚沒有這種可以同步展示視頻相關(guān)信息的方案。因而,亟需要一種可以充分滿足用戶在視頻播放過程中實(shí)時(shí)獲取相應(yīng)信息問題的方案,從而提高用戶體驗(yàn)度。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種視頻同步信息展示方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中無法實(shí)現(xiàn)同步展示視頻信息的問題。
一種視頻同步信息展示方法,包括如下步驟:
提取視頻中的關(guān)鍵特征;所述關(guān)鍵特征為關(guān)鍵詞、關(guān)鍵音頻或關(guān)鍵畫面;
根據(jù)所述關(guān)鍵特征,獲取所述關(guān)鍵特征對應(yīng)的視頻畫面;
根據(jù)所述視頻畫面配置對應(yīng)的展示信息;
將所述展示信息與所述視頻畫面結(jié)合并同步展示。
所述提取視頻中的關(guān)鍵特征包括:
預(yù)設(shè)所述關(guān)鍵特征對應(yīng)的關(guān)鍵詞;
獲取所述視頻中每一視頻幀的文字信息,并從中篩選包含所述關(guān)鍵詞的文字信息作為關(guān)鍵文字;
將所述關(guān)鍵文字作為所述關(guān)鍵特征。
所述提取視頻中的關(guān)鍵特征包括:
預(yù)設(shè)所述關(guān)鍵特征對應(yīng)的關(guān)鍵音頻;
提取所述視頻對應(yīng)的音頻數(shù)據(jù),并從中篩選包含所述關(guān)鍵音頻的音頻數(shù)據(jù)作為音頻信息;
將所述音頻信息作為所述關(guān)鍵特征。
所述提取視頻中的關(guān)鍵特征包括:
預(yù)設(shè)所述關(guān)鍵特征對應(yīng)的關(guān)鍵畫面;
獲取所述視頻中每一視頻幀的畫面信息,并從中篩選包含所述關(guān)鍵畫面的畫面信息對應(yīng)的關(guān)鍵視頻幀;
將所述關(guān)鍵視頻幀作為所述關(guān)鍵特征。
所述根據(jù)所述關(guān)鍵特征,獲取所述關(guān)鍵特征對應(yīng)的視頻畫面,包括:
根據(jù)所述關(guān)鍵特征在所述視頻中出現(xiàn)的時(shí)間點(diǎn),獲取該時(shí)間點(diǎn)對應(yīng)的視頻幀;
將該視頻幀的畫面作為所述視頻畫面。
所述根據(jù)所述視頻畫面配置對應(yīng)的展示信息,包括:
根據(jù)所述視頻畫面的內(nèi)容和形式,設(shè)置所述展示信息的內(nèi)容和形式。
一種視頻同步信息展示系統(tǒng),包括:
關(guān)鍵特征提取單元,用于提取視頻中的關(guān)鍵特征;所述關(guān)鍵特征為關(guān)鍵詞、關(guān)鍵音頻或關(guān)鍵幀;
視頻畫面獲取單元,用于根據(jù)所述關(guān)鍵特征,獲取所述關(guān)鍵特征對應(yīng)的視頻畫面;
展示信息配置單元,用于根據(jù)所述視頻畫面配置對應(yīng)的展示信息;
同步展示單元,用于將所述展示信息與所述視頻畫面結(jié)合并同步展示。
所述視頻畫面獲取單元還用于:
根據(jù)所述關(guān)鍵特征在所述視頻中出現(xiàn)的時(shí)間點(diǎn),獲取該時(shí)間點(diǎn)對應(yīng)的視頻幀;
將該視頻幀的畫面作為所述視頻畫面。
所述展示信息配置單元,還用于根據(jù)所述視頻畫面的內(nèi)容和形式,設(shè)置所述展示信息的內(nèi)容和形式。
所述關(guān)鍵特征提取單元進(jìn)一步包括:
關(guān)鍵特征預(yù)設(shè)子單元,用于預(yù)設(shè)所述關(guān)鍵特征對應(yīng)的關(guān)鍵詞、關(guān)鍵音頻或關(guān)鍵畫面;
篩選子單元,用于獲取所述視頻中每一視頻幀的文字信息,并從中篩選包含所述關(guān)鍵詞的文字信息作為關(guān)鍵文字;或提取所述視頻對應(yīng)的音頻數(shù)據(jù),并從中篩選包含所述關(guān)鍵音頻的音頻數(shù)據(jù)作為音頻信息;或獲取所述視頻中每一視頻幀的畫面信息,并從中篩選包含所述關(guān)鍵畫面的畫面信息對應(yīng)的關(guān)鍵視頻幀;
設(shè)置子單元,用于將所述關(guān)鍵文字、音頻信息或關(guān)鍵視頻幀作為所述關(guān)鍵特征。
本發(fā)明實(shí)施例中,通過提取視頻中的關(guān)鍵特征;所述關(guān)鍵特征為關(guān)鍵詞、關(guān)鍵音頻或關(guān)鍵畫面;根據(jù)所述關(guān)鍵特征,獲取所述關(guān)鍵特征對應(yīng)的視頻畫面;根據(jù)所述視頻畫面配置對應(yīng)的展示信息;將所述展示信息與所述視頻畫面結(jié)合并同步展示。本發(fā)明實(shí)施例的方案,能夠在視頻播放的過程中,實(shí)時(shí)根據(jù)視頻播放的內(nèi)容獲取其中的關(guān)鍵特征,根據(jù)所述關(guān)鍵特征獲取視頻畫面,為用戶設(shè)定與視頻畫面對應(yīng)的展示信息的內(nèi)容和形式,展示信息和視頻畫面結(jié)合向用戶展示,使得用戶可以在觀看視頻的過程中,根據(jù)視頻內(nèi)容獲取到相應(yīng)的推送展示信息,展示形式多樣,既不影響用戶觀看視頻,同時(shí)也將相應(yīng)的展示信息展示給用戶,極大的提高用戶體驗(yàn)度。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲 得。
下面通過附圖和實(shí)施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
附圖說明
附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實(shí)施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
圖1為本發(fā)明實(shí)施例1提供的一種視頻同步信息展示方法原理流程圖;
圖2為本發(fā)明實(shí)施例2提供的一種視頻同步信息展示系統(tǒng)結(jié)構(gòu)示意圖;
圖3為本發(fā)明實(shí)施例3提供的一種關(guān)鍵特征提取單元21結(jié)構(gòu)示意圖。
具體實(shí)施方式
以下結(jié)合附圖對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,為本發(fā)明實(shí)施例1提供的一種視頻同步信息展示方法原理流程圖,其中,
步驟11,提取視頻中的關(guān)鍵特征;關(guān)鍵特征為關(guān)鍵詞、關(guān)鍵音頻或關(guān)鍵畫面。
本實(shí)施例中的關(guān)鍵特征,并不是指視頻打包、壓縮、解碼等技術(shù)特征,而是預(yù)先設(shè)定的用以標(biāo)明視頻內(nèi)容中的重要信息的特征。這些關(guān)鍵特征是預(yù)先設(shè)定的,與需要展示推送給用戶的展示信息相關(guān)聯(lián)。不同的展示信息對應(yīng)不同的關(guān)鍵特征,其中的對應(yīng)關(guān)系可以預(yù)先根據(jù)需要設(shè)定。
視頻播放過程中,不僅有文字、畫面,還有音頻信息等,這些在視頻中都是有機(jī)的整體,但是,可以通過技術(shù)手段對這些文字、畫面、音頻進(jìn)行分離,從而得到單獨(dú)的文字、畫面、音頻信息,這些文字、畫面、音頻信息與完整的視頻有著嚴(yán)格的對應(yīng)關(guān)系和時(shí)間同步,因而,實(shí)際上,獲取這些文字、畫面、音頻信息,相當(dāng)于獲取了視頻內(nèi)容的部分信息,并可以準(zhǔn)確的知道這些文字、 畫面、音頻信息對應(yīng)視頻的哪一部分或者哪一時(shí)間點(diǎn)。
為了更準(zhǔn)確的理解本實(shí)施例,本實(shí)施例以向用戶推送廣告信息為例,來說明本實(shí)施例的具體方案。本實(shí)施例對推送信息的內(nèi)容和類型以及展示形式不做限定。
舉例來說,如果視頻播放中的某一畫面出現(xiàn)了某種類型的飲料,那么,如果這個(gè)時(shí)刻同步向用戶展示該類型飲料的網(wǎng)上購買信息和地址,則會極大的提高用戶購買的可能性,從而實(shí)現(xiàn)了對用戶需求的準(zhǔn)確定位。而這一向用戶展示信息的方案的第一步,就是要準(zhǔn)確的識別出視頻內(nèi)容中的關(guān)鍵特征,也就是視頻播放到什么時(shí)候會出現(xiàn)該類型飲料的畫面。這當(dāng)然可以預(yù)先瀏覽視頻內(nèi)容并人工統(tǒng)計(jì)畫面出現(xiàn)的時(shí)間,但顯然不夠高效,操作起來過于繁瑣。本實(shí)施例提供一種自動提取關(guān)鍵特征并自動實(shí)現(xiàn)信息展示的方案。
視頻中的關(guān)鍵特征的提取,有很多種方式,通常取決于關(guān)鍵特征設(shè)定為關(guān)鍵詞、關(guān)鍵音頻還是關(guān)鍵畫面。關(guān)鍵詞的話,是一種文本信息,則需要提取視頻中的文字信息。關(guān)鍵音頻是一種音頻信息,就需要提取視頻中的音頻信息。而關(guān)鍵畫面是視頻畫面本身,則需要提取關(guān)鍵幀并獲取其中的幀的圖像或者圖片。對于不同的關(guān)鍵特征,需要采用不同的提取方式。
預(yù)設(shè)所述關(guān)鍵特征對應(yīng)的關(guān)鍵詞;獲取所述視頻中每一視頻幀的文字信息,并從中篩選包含所述關(guān)鍵詞的文字信息作為關(guān)鍵文字;將所述關(guān)鍵文字作為所述關(guān)鍵特征。這里,關(guān)鍵文字可以直接通過視頻中文字識別的方式進(jìn)行。或者,可以逐一獲取視頻幀,將每一幀作為圖片獲取其中的文字信息。識別出文字信息后,可以直接用文字信息與關(guān)鍵詞的比對來進(jìn)行關(guān)鍵特征識別,也可以將文字信息對應(yīng)的視頻幀與關(guān)鍵特征對應(yīng)起來,在視頻播放到該視頻幀的時(shí)候,認(rèn)為關(guān)鍵特征已經(jīng)出現(xiàn),從而展示相關(guān)展示信息。
具體的文字識別方案,現(xiàn)有技術(shù)中有很多解決方案,本實(shí)施例不做限定。例如,可以利用OCR(Optical Character Recognition,光學(xué)字符識別)技術(shù)來進(jìn)行文字識別。OCR是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的 字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計(jì)算機(jī)文字的過程;即,針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。如何除錯或利用輔助信息提高識別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也因此而產(chǎn)生。衡量一個(gè)OCR系統(tǒng)性能好壞的主要指標(biāo)有:拒識率、誤識率、識別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。
一個(gè)OCR識別系統(tǒng),其目的很簡單,只是要把影像作一個(gè)轉(zhuǎn)換,使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字,一律變成計(jì)算機(jī)文字,使能達(dá)到影像資料的儲存量減少、識別出的文字可再使用及分析,當(dāng)然也可節(jié)省因鍵盤輸入的人力與時(shí)間。
從影像到結(jié)果輸出,須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認(rèn)錯的文字更正,將結(jié)果輸出。
影像輸入:欲經(jīng)過OCR處理的標(biāo)的物須透過光學(xué)儀器,如影像掃描儀、傳真機(jī)或任何攝影器材,將影像轉(zhuǎn)入計(jì)算機(jī)??萍嫉倪M(jìn)步,掃描儀等的輸入裝置已制作的愈來愈精致,輕薄短小、品質(zhì)也高,對OCR有相當(dāng)大的幫助,掃描儀的分辨率使影像更清晰、掃除速度更增進(jìn)OCR處理的效率。
影像預(yù)處理:影像預(yù)處理是OCR系統(tǒng)中,須解決問題最多的一個(gè)模塊。影像須先將圖片、表格及文字區(qū)域分離出來,甚至可將文章的編排方向、文章的提綱及內(nèi)容主體區(qū)分開,而文字的大小及文字的字體亦可如原始文件一樣的判斷出來。
對待識別圖像進(jìn)行如下預(yù)處理,可以降低特征提取算法的難度,并能提高識別的精度。
二值化:由于彩色圖像所含信息量過于巨大,在對圖像中印刷體字符進(jìn)行識別處理前,需要對圖像進(jìn)行二值化處理,使圖像只包含黑色的前景信息和白色的背景信息,提升識別處理的效率和精確度。
圖像降噪:由于待識別圖像的品質(zhì)受限于輸入設(shè)備、環(huán)境、以及文檔的印刷質(zhì)量,在對圖像中印刷體字符進(jìn)行識別處理前,需要根據(jù)噪聲的特征對待識別圖像進(jìn)行去噪處理,提升識別處理的精確度。
傾斜校正:由于掃描和拍攝過程涉及人工操作,輸入計(jì)算機(jī)的待識別圖像或多或少都會存在一些傾斜,在對圖像中印刷體字符進(jìn)行識別處理前,就需要進(jìn)行圖像方向檢測,并校正圖像方向。
文字特征抽?。簡我宰R別率而言,特征抽取可說是OCR的核心,用什么特征、怎么抽取,直接影響識別的好壞,也所以在OCR研究初期,特征抽取的研究報(bào)告特別的多。而特征可說是識別的籌碼,簡易的區(qū)分可分為兩類:一為統(tǒng)計(jì)的特征,如文字區(qū)域內(nèi)的黑/白點(diǎn)數(shù)比,當(dāng)文字區(qū)分成好幾個(gè)區(qū)域時(shí),這一個(gè)個(gè)區(qū)域黑/白點(diǎn)數(shù)比之聯(lián)合,就成了空間的一個(gè)數(shù)值向量,在比對時(shí),基本的數(shù)學(xué)理論就足以應(yīng)付了。而另一類特征為結(jié)構(gòu)的特征,如文字影像細(xì)線化后,取得字的筆劃端點(diǎn)、交叉點(diǎn)之?dāng)?shù)量及位置,或以筆劃段為特征,配合特殊的比對方法,進(jìn)行比對,市面上的線上手寫輸入軟件的識別方法多以此種結(jié)構(gòu)的方法為主。
對比數(shù)據(jù)庫:當(dāng)輸入文字算完特征后,不管是用統(tǒng)計(jì)或結(jié)構(gòu)的特征,都須有一比對數(shù)據(jù)庫或特征數(shù)據(jù)庫來進(jìn)行比對,數(shù)據(jù)庫的內(nèi)容應(yīng)包含所有欲識別的字集文字,根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組。
對比識別:這是可充分發(fā)揮數(shù)學(xué)運(yùn)算理論的一個(gè)模塊,根據(jù)不同的特征特性,選用不同的數(shù)學(xué)距離函數(shù),較有名的比對方法有,歐式空間的比對方法、松弛比對法(Relaxation)、動態(tài)程序比對法(Dynamic Programming,DP),以及類神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫建立及比對、HMM(Hidden Markov Model)…等著名的方法,為了使識別的結(jié)果更穩(wěn)定,也有所謂的專家系統(tǒng)(Experts System)被提出,利用各種特征比對方法的相異互補(bǔ)性,使識別出的結(jié)果,其信心度特別的高。
字詞后處理:由于OCR的識別率并無法達(dá)到百分之百,或想加強(qiáng)比對的 正確性及信心值,一些除錯或甚至幫忙更正的功能,也成為OCR系統(tǒng)中必要的一個(gè)模塊。字詞后處理就是一例,利用比對后的識別文字與其可能的相似候選字群中,根據(jù)前后的識別文字找出最合乎邏輯的詞,做更正的功能。
字詞數(shù)據(jù)庫:為字詞后處理所建立的詞庫。
人工校正:OCR最后的關(guān)卡,在此之前,使用者可能只是拿支鼠標(biāo),跟著軟件設(shè)計(jì)的節(jié)奏操作或僅是觀看,而在此有可能須特別花使用者的精神及時(shí)間,去更正甚至找尋可能是OCR出錯的地方。一個(gè)好的OCR軟件,除了有一個(gè)穩(wěn)定的影像處理及識別核心,以降低錯誤率外,人工校正的操作流程及其功能,亦影響OCR的處理效率,因此,文字影像與識別文字的對照,及其屏幕信息擺放的位置、還有每一識別文字的候選字功能、拒認(rèn)字的功能、及字詞后處理后特意標(biāo)示出可能有問題的字詞,都是為使用者設(shè)計(jì)盡量少使用鍵盤的一種功能,當(dāng)然,不是說系統(tǒng)沒顯示出的文字就一定正確,就像完全由鍵盤輸入的工作人員也會有出錯的時(shí)候,這時(shí)要重新校正一次或能允許些許的錯,就完全看使用單位的需求了。
結(jié)果輸出:有人只要文本文件作部份文字的再使用之用,所以只要一般的文字文件、有人要漂漂亮亮的和輸入文件一模一樣,所以有原文重現(xiàn)的功能、有人注重表格內(nèi)的文字,所以要和Excel等軟件結(jié)合。無論怎么變化,都只是輸出檔案格式的變化而已。如果需要還原成原文一樣格式,則在識別后,需要人工排版,耗時(shí)耗力。
如果關(guān)鍵特征為音頻,則預(yù)設(shè)所述關(guān)鍵特征對應(yīng)的關(guān)鍵音頻;提取所述視頻對應(yīng)的音頻數(shù)據(jù),并從中篩選包含所述關(guān)鍵音頻的音頻數(shù)據(jù)作為音頻信息;將所述音頻信息作為所述關(guān)鍵特征。
實(shí)際上視頻文件中的音視頻信息是可以分離的,通常也是分開存放的。但是音頻和視頻是嚴(yán)格同步的。因而,獲取相應(yīng)的音頻數(shù)據(jù)的時(shí)間點(diǎn)可以準(zhǔn)確的了解到視頻播放的時(shí)間點(diǎn)。通常來說,音頻數(shù)據(jù)的識別是相對容易的?,F(xiàn)有技術(shù)中也存在很多的音頻識別技術(shù),例如,最常用的語音識別等。
現(xiàn)有的語音識別方法主要是模式匹配法。
在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫。
在識別階段,將輸入語音的特征矢量依次與模板庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果輸出。
語音識別系統(tǒng)選擇識別基元的要求是,有準(zhǔn)確的定義,能得到足夠數(shù)據(jù)進(jìn)行訓(xùn)練,具有一般性。英語通常采用上下文相關(guān)的音素建模,漢語的協(xié)同發(fā)音不如英語嚴(yán)重,可以采用音節(jié)建模。系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān)。模型設(shè)計(jì)得過于復(fù)雜以至于超出了所提供的訓(xùn)練數(shù)據(jù)的能力,會使得性能急劇下降。
聽寫機(jī):大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時(shí)對每個(gè)基元用前向后向算法獲得模型參數(shù),識別時(shí),將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。針對漢語易于分割的特點(diǎn),先進(jìn)行分割再對每一段進(jìn)行解碼,是用以提高效率的一個(gè)簡化方法。
如果關(guān)鍵特征為畫面,則預(yù)設(shè)所述關(guān)鍵特征對應(yīng)的關(guān)鍵畫面;獲取所述視頻中每一視頻幀的畫面信息,并從中篩選包含所述關(guān)鍵畫面的畫面信息對應(yīng)的關(guān)鍵視頻幀;將所述關(guān)鍵視頻幀作為所述關(guān)鍵特征。
這種方法相對簡單,畫面的話,僅需要提取視頻中的每一幀,用以進(jìn)行圖像的比對識別即可。現(xiàn)有技術(shù)中同樣有較多的方案可以實(shí)現(xiàn)圖像的比對。
本步驟中,用以設(shè)定和獲取視頻中的關(guān)鍵特征,這些關(guān)鍵特征是預(yù)先設(shè)定的,并且是與后續(xù)的展示信息相關(guān)聯(lián)的。不同的關(guān)鍵特征對應(yīng)不同的展示信息。
步驟12,根據(jù)關(guān)鍵特征,獲取關(guān)鍵特征對應(yīng)的視頻畫面。
獲取了關(guān)鍵特征后,目的在于獲取關(guān)鍵特征對應(yīng)的視頻畫面。也就是說,需要獲取關(guān)鍵特征在所述視頻中出現(xiàn)的時(shí)間點(diǎn),獲取該時(shí)間點(diǎn)對應(yīng)的視頻幀;
將該視頻幀的畫面作為所述視頻畫面。
具體來說,如果關(guān)鍵特征是文字,則需要獲取該文字具體出現(xiàn)在視頻中的時(shí)間點(diǎn),然后根據(jù)這個(gè)時(shí)間點(diǎn)獲取對應(yīng)的視頻幀,將該視頻幀作為視頻畫面。如果關(guān)鍵特征是音頻,則同樣需要獲取該音頻出現(xiàn)在視頻中的時(shí)間點(diǎn),然后根據(jù)這個(gè)時(shí)間點(diǎn)獲取對應(yīng)的視頻幀,將該視頻幀作為視頻畫面。如果關(guān)鍵特征是視頻圖像,則直接將該視頻圖像對應(yīng)的視頻幀作為視頻畫面。
獲取的視頻畫面不僅包括視頻畫面在視頻中的時(shí)間點(diǎn),還包括具體的視頻畫面內(nèi)容和形式。也就是說,需要知道該視頻畫面的具體內(nèi)容和展示的形式,從而為后續(xù)展示信息的內(nèi)容和形式做好準(zhǔn)備。
步驟13,根據(jù)視頻畫面配置對應(yīng)的展示信息。
視頻畫面確定后,需要為視頻畫面配置對應(yīng)的展示信息。這個(gè)展示信息的內(nèi)容可以是預(yù)先設(shè)定的,也可以實(shí)時(shí)設(shè)定。展示信息的內(nèi)容和形式與視頻畫面的內(nèi)容和形式相關(guān)。
舉例來說,如果視頻畫面中包含有人物形象,則需要考慮展示信息的形式不能覆蓋人物形象。如果視頻畫面中有較大畫面是天空、大?;蛘咂渌鼘斫庖曨l內(nèi)容不太重要的內(nèi)容,則展示信息可以覆蓋這部分視頻畫面。
以本實(shí)施例的一個(gè)應(yīng)用為例,其中,可以設(shè)定展示信息為廣告信息。廣告信息的內(nèi)容是預(yù)先設(shè)定的,或者,可以預(yù)先設(shè)定幾個(gè)不同的版本,然后根據(jù)視頻畫面的實(shí)際內(nèi)容來確定選擇哪個(gè)廣告信息版本。同時(shí),對于廣告信息的展示形式,也與視頻畫面的內(nèi)容和形式相關(guān)。廣告信息不能覆蓋視頻畫面中重要的部分,而只覆蓋不重要的部分。這樣不影響用戶正常的視頻觀看。
步驟14,將展示信息與視頻畫面結(jié)合并同步展示。
這里的展示信息與視頻的同步展示,指的是展示信息與視頻之間的時(shí)間對應(yīng)。獲取所述關(guān)鍵特征在所述視頻中出現(xiàn)的關(guān)鍵特征時(shí)間點(diǎn);根據(jù)所述關(guān)鍵特征時(shí)間點(diǎn),配置所述展示信息與所述視頻同步展示的時(shí)間點(diǎn)。
根據(jù)所述展示信息與所述視頻同步展示的時(shí)間點(diǎn),實(shí)時(shí)配置所述展示信息 與所述視頻的同步。
也就是說,展示信息是在關(guān)鍵特征出現(xiàn)的時(shí)候才展示給用戶的,只有在視頻播放到關(guān)鍵特征的時(shí)候,展示信息才展示推送給用戶。這就需要展示信息獲取關(guān)鍵特征在視頻中出現(xiàn)的時(shí)間點(diǎn),然后根據(jù)這個(gè)時(shí)間點(diǎn)設(shè)置展示信息展示推送的時(shí)間點(diǎn)。
通常,展示信息的展示與視頻播放是實(shí)時(shí)的,視頻播放過程中,實(shí)時(shí)哦獲取關(guān)鍵特征并與展示信息對應(yīng),然后實(shí)時(shí)的展示推送給用戶。對于用戶來說,當(dāng)觀看視頻到出現(xiàn)關(guān)鍵特征的時(shí)候,則同時(shí)會收到一個(gè)與關(guān)鍵特征相關(guān)的展示信息,這個(gè)展示信息因?yàn)槭桥c視頻正在播放的關(guān)鍵特征也就是視頻正在播放的內(nèi)容是相關(guān)的,因而,用戶的體驗(yàn)度很好。
進(jìn)一步來說,實(shí)際上本實(shí)施例中展示信息與視頻畫面可以是疊加結(jié)合并且展示的。展示信息覆蓋視頻畫面的一部分,在不影響用戶正常觀看視頻的前提下,向用戶展示需要的信息。
還是以廣告信息展示為例,本實(shí)施例中,可以設(shè)定需要展示廣告信息的關(guān)鍵特征以及廣告信息的展示內(nèi)容和形式。當(dāng)視頻播放到出現(xiàn)該關(guān)鍵特征時(shí),調(diào)用展示功能,在正在播放的視頻畫面上疊加一個(gè)圖層,用于展示設(shè)定的廣告信息內(nèi)容。這個(gè)疊加的圖層可以是透明的,只有具體展示信息的那部分才是不透明的,也只會覆蓋視頻畫面中不太重要的一部分區(qū)域,不影響用戶正常的視頻觀看。從用戶來說,只是在某一時(shí)刻看到視頻畫面中的一部分區(qū)域出現(xiàn)了廣告信息展示,并不影響正常的觀看視頻。
展示信息對視頻畫面的覆蓋僅僅是部分的,而且是視頻畫面中不太重要的一部分。具體哪一部分可以用來展示信息,可以通過對視頻畫面內(nèi)容和形式的分析而得到。隨著視頻的播放,視頻畫面的變化,展示信息的大小和位置可以隨之變化,以不影響用戶正常觀看視頻為前提。顯然,這樣的廣告展示或者信息展示,不會影響用戶對視頻的正常觀看,同時(shí),也實(shí)現(xiàn)了廣告或者信息的精準(zhǔn)展示。
本發(fā)明實(shí)施例中,通過提取視頻中的關(guān)鍵特征;所述關(guān)鍵特征為關(guān)鍵詞、關(guān)鍵音頻或關(guān)鍵畫面;根據(jù)所述關(guān)鍵特征,獲取所述關(guān)鍵特征對應(yīng)的視頻畫面;根據(jù)所述視頻畫面配置對應(yīng)的展示信息;將所述展示信息與所述視頻畫面結(jié)合并同步展示。本發(fā)明實(shí)施例的方案,能夠在視頻播放的過程中,實(shí)時(shí)根據(jù)視頻播放的內(nèi)容獲取其中的關(guān)鍵特征,根據(jù)所述關(guān)鍵特征獲取視頻畫面,為用戶設(shè)定與視頻畫面對應(yīng)的展示信息的內(nèi)容和形式,展示信息和視頻畫面結(jié)合向用戶展示,使得用戶可以在觀看視頻的過程中,根據(jù)視頻內(nèi)容獲取到相應(yīng)的推送展示信息,展示形式多樣,既不影響用戶觀看視頻,同時(shí)也將相應(yīng)的展示信息展示給用戶,極大的提高用戶體驗(yàn)度。
如圖2所示,為本發(fā)明實(shí)施例2提供的一種視頻同步信息展示系統(tǒng)結(jié)構(gòu)示意圖,其中,
關(guān)鍵特征提取單元21,用于提取視頻中的關(guān)鍵特征;所述關(guān)鍵特征為關(guān)鍵詞、關(guān)鍵音頻或關(guān)鍵幀;
視頻畫面獲取單元22,用于根據(jù)所述關(guān)鍵特征,獲取所述關(guān)鍵特征對應(yīng)的視頻畫面;
展示信息配置單元23,用于根據(jù)所述視頻畫面配置對應(yīng)的展示信息;
同步展示單元24,用于將所述展示信息與所述視頻畫面結(jié)合并同步展示。
特別的,上述視頻畫面獲取單元22還用于:
根據(jù)所述關(guān)鍵特征在所述視頻中出現(xiàn)的時(shí)間點(diǎn),獲取該時(shí)間點(diǎn)對應(yīng)的視頻幀;
將該視頻幀的畫面作為所述視頻畫面。
特別的,上述展示信息配置單元23還用于根據(jù)所述視頻畫面的內(nèi)容和形式,設(shè)置所述展示信息的內(nèi)容和形式。
如圖3所示,上述關(guān)鍵特征提取單元21進(jìn)一步包括:
關(guān)鍵特征預(yù)設(shè)子單元211,用于預(yù)設(shè)所述關(guān)鍵特征對應(yīng)的關(guān)鍵詞、關(guān)鍵音 頻或關(guān)鍵畫面;
篩選子單元212,用于獲取所述視頻中每一視頻幀的文字信息,并從中篩選包含所述關(guān)鍵詞的文字信息作為關(guān)鍵文字;或提取所述視頻對應(yīng)的音頻數(shù)據(jù),并從中篩選包含所述關(guān)鍵音頻的音頻數(shù)據(jù)作為音頻信息;或獲取所述視頻中每一視頻幀的畫面信息,并從中篩選包含所述關(guān)鍵畫面的畫面信息對應(yīng)的關(guān)鍵視頻幀;
設(shè)置子單元213,用于將所述關(guān)鍵文字、音頻信息或關(guān)鍵視頻幀作為所述關(guān)鍵特征。
綜上所述,本發(fā)明實(shí)施例中,通過提取視頻中的關(guān)鍵特征;所述關(guān)鍵特征為關(guān)鍵詞、關(guān)鍵音頻或關(guān)鍵畫面;根據(jù)所述關(guān)鍵特征,獲取所述關(guān)鍵特征對應(yīng)的視頻畫面;根據(jù)所述視頻畫面配置對應(yīng)的展示信息;將所述展示信息與所述視頻畫面結(jié)合并同步展示。本發(fā)明實(shí)施例的方案,能夠在視頻播放的過程中,實(shí)時(shí)根據(jù)視頻播放的內(nèi)容獲取其中的關(guān)鍵特征,根據(jù)所述關(guān)鍵特征獲取視頻畫面,為用戶設(shè)定與視頻畫面對應(yīng)的展示信息的內(nèi)容和形式,展示信息和視頻畫面結(jié)合向用戶展示,使得用戶可以在觀看視頻的過程中,根據(jù)視頻內(nèi)容獲取到相應(yīng)的推送展示信息,展示形式多樣,既不影響用戶觀看視頻,同時(shí)也將相應(yīng)的展示信息展示給用戶,極大的提高用戶體驗(yàn)度。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/ 或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。