本發(fā)明涉及一種多媒體播放方法及裝置。
背景技術(shù):
多媒體點(diǎn)播系統(tǒng)(demandmultimediasystem)是多媒體網(wǎng)絡(luò)應(yīng)用的常見(jiàn)形式,主要應(yīng)用包括:視頻點(diǎn)播(videoondemand,vod)、電影點(diǎn)播(movieondemand,mod),新聞點(diǎn)播(newsondemand,nod)等。隨著網(wǎng)絡(luò)、計(jì)算機(jī)、音視頻處理等技術(shù)的快速發(fā)展,多媒體點(diǎn)播服務(wù)已得到了廣泛應(yīng)用。
多媒體服務(wù)系統(tǒng)多采用客戶機(jī)/服務(wù)器(c/s)模式。事實(shí)上,這也正是由于多媒體數(shù)據(jù)量大等特性(需要大存儲(chǔ)容量或高處理能力)促使客戶機(jī)/服務(wù)器模式的實(shí)現(xiàn),因此多媒體服務(wù)器就是為其他系統(tǒng)(多媒體客戶機(jī))提供多媒體服務(wù)的計(jì)算機(jī)系統(tǒng)?,F(xiàn)有多媒體服務(wù)系統(tǒng)對(duì)于影視劇等多媒體的存儲(chǔ)方式往往如圖1所示,即將其視頻和音頻文件分開(kāi)來(lái)存儲(chǔ),在用戶點(diǎn)播時(shí),實(shí)時(shí)將視頻和音頻同步播放。一部影片或音樂(lè)作品通常有多個(gè)音頻版本(最常見(jiàn)的是多個(gè)語(yǔ)種),這樣就需要有儲(chǔ)存多份音頻數(shù)據(jù),一方面需要占用大量的存儲(chǔ)資源;另一方面,多媒體播放時(shí)只能聽(tīng)到原始配音,而原始配音不一定適合所有用戶,難以滿足用戶個(gè)性化的欣賞需求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問(wèn)題在于克服現(xiàn)有技術(shù)不足,提供一種多媒體播放方法及裝置,一方面可大幅降低多媒體占用的存儲(chǔ)資源,另一方面可根據(jù)用戶要求調(diào)整角色配音,從而滿足用戶個(gè)性化的欣賞需求。
本發(fā)明具體采用以下技術(shù)方案解決上述技術(shù)問(wèn)題:
一種多媒體播放方法,包括以下步驟:
s1、獲取多媒體的文件信息及用戶所確定的配音配置,所述文件信息包括多媒體的視頻、背景音頻、配音文本的存儲(chǔ)信息,所述配音配置包括各角色的聲紋特征;
s2、根據(jù)所述文件信息獲取所述多媒體的視頻、背景音頻、配音文本;
s3、根據(jù)所述配音文本和配音配置生成配音音頻,該配音音頻中各角色的聲紋特征與配音配置中各角色的聲紋特征相吻合;
s4、將所述配音音頻與背景音頻合成為所述多媒體的音頻;
s5、同步播放所述多媒體的視頻和音頻。
進(jìn)一步地,所述配音配置還包括配音所使用的語(yǔ)種。更進(jìn)一步地,所述配音配置還包括配音所使用的方言類型。
優(yōu)選地,步驟s1~s4由遠(yuǎn)端的服務(wù)器完成,步驟s5由本地的智能終端完成,所述服務(wù)器與智能終端之間可實(shí)現(xiàn)信息交互。
一種多媒體播放裝置,包括:
信息獲取模塊,用于獲取多媒體的文件信息及用戶所確定的配音配置,所述文件信息包括多媒體的視頻、背景音頻、配音文本的存儲(chǔ)信息,所述配音配置包括各角色的聲紋特征;
文件獲取模塊,用于根據(jù)所述文件信息獲取所述多媒體的視頻、背景音頻、配音文本;
配音音頻生成模塊,用于根據(jù)所述配音文本和配音配置生成配音音頻,該配音音頻中各角色的聲紋特征與配音配置中各角色的聲紋特征相吻合;
音頻合成模塊,用于將所述配音音頻與背景音頻合成為所述多媒體的音頻;
播放模塊,用于同步播放所述多媒體的視頻和音頻。
進(jìn)一步地,所述配音配置還包括配音所使用的語(yǔ)種。更進(jìn)一步地,所述配音配置還包括配音所使用的方言類型。
優(yōu)選地,信息獲取模塊、文件獲取模塊、配音音頻生成模塊、音頻合成模塊設(shè)置于遠(yuǎn)端的服務(wù)器中,播放模塊設(shè)置于本地的智能終端中,所述服務(wù)器與智能終端之間可實(shí)現(xiàn)信息交互。
基于同一發(fā)明構(gòu)思還可以得到以下技術(shù)方案:
一種多媒體存儲(chǔ)方法,首先提取出原始多媒體文件的視頻、音頻;然后從所提取的音頻中分割出背景音頻和配音音頻;將所分割出的配音音頻轉(zhuǎn)換為配音文本;將所述視頻、背景音頻、配音文本分別存儲(chǔ)。
進(jìn)一步地,該方法還包括以下步驟:從所分割出的配音音頻中提取出各角色的聲紋特征,并將記載各角色的聲紋特征的文本信息加入所述配音文本中。
相比現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
本發(fā)明將多媒體的視頻、背景音頻、配音文本分別存儲(chǔ),并在播放時(shí)實(shí)時(shí)合成;由于文本數(shù)據(jù)相比音頻數(shù)據(jù)占用的存儲(chǔ)空間小得多,因此可大幅降低海量多媒體資源的存儲(chǔ)消耗;另一方面,本發(fā)明在合成多媒體的配音音頻時(shí),可根據(jù)用戶喜好為角色選取配音的聲紋特征,滿足了用戶個(gè)性化的欣賞需求,提升了用戶體驗(yàn)。
附圖說(shuō)明
圖1為現(xiàn)有多媒體存儲(chǔ)方式示意圖;
圖2為本發(fā)明多媒體存儲(chǔ)方式示意圖;
圖3為本發(fā)明多媒體播放裝置一個(gè)具體實(shí)施例的結(jié)構(gòu)原理示意圖;
圖4為用于確定配音配置的一個(gè)用戶界面實(shí)例;
圖5為音頻服務(wù)器合成音頻的流程示意圖。
具體實(shí)施方式
針對(duì)現(xiàn)有技術(shù)所存在的存儲(chǔ)資源消耗量大以及無(wú)法滿足用戶個(gè)性化欣賞需求的不足,本發(fā)明的思路是將多媒體的視頻、背景音頻、配音文本分別存儲(chǔ),并在播放時(shí)實(shí)時(shí)合成;由于文本數(shù)據(jù)相比音頻數(shù)據(jù)占用的存儲(chǔ)空間小得多,因此可大幅降低海量多媒體資源的存儲(chǔ)消耗;另一方面,本發(fā)明在合成多媒體的配音音頻時(shí),可根據(jù)用戶喜好為角色選取配音的聲紋特征,滿足了用戶個(gè)性化的欣賞需求,提升了用戶體驗(yàn)。
所謂聲紋(voiceprint),是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜?,F(xiàn)代科學(xué)研究表明,聲紋不僅具有特定性,而且有相對(duì)穩(wěn)定性的特點(diǎn)。在實(shí)際生活中,每個(gè)人說(shuō)話時(shí)的語(yǔ)聲,都有自己的特點(diǎn)。很熟悉的人之間,可以只聽(tīng)聲音而相互辨別出來(lái),這就是語(yǔ)聲人各不同的特性。人體發(fā)聲器官的微小差異都會(huì)導(dǎo)致發(fā)聲氣流的改變,造成音質(zhì)、音色的差別。此外,人發(fā)聲的習(xí)慣亦有快有慢,用力有大有小,也造成音強(qiáng)、音長(zhǎng)的差別。音高、音強(qiáng)、音長(zhǎng)、音色在語(yǔ)言學(xué)中被稱為語(yǔ)音“四要素”,這些因素又可分解成九十余種特征。這些特征表現(xiàn)了不同聲音的不同波長(zhǎng)、頻率、強(qiáng)度、節(jié)奏??梢园崖暡ǖ淖兓D(zhuǎn)換成電訊號(hào)的強(qiáng)度、波長(zhǎng)、頻率、節(jié)奏變化,儀器又把這些電訊號(hào)的變化繪制成波譜圖形,就成了聲紋。從聲紋信號(hào)中可以提取出表征說(shuō)話人個(gè)性特征的特征參數(shù)(例如倒頻譜參數(shù)lpcc、美爾頻率倒譜參數(shù)mfcc等),即聲紋特征。得益于語(yǔ)音信號(hào)處理技術(shù)(尤其是其中的語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音編碼、聲紋識(shí)別這四大分支技術(shù))以及計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,為多媒體進(jìn)行在線實(shí)時(shí)配音成為可能。
本發(fā)明預(yù)先采用如圖2所示方式進(jìn)行多媒體的存儲(chǔ)。具體存儲(chǔ)方法如下:
步驟1、提取出原始多媒體文件的視頻、音頻;
多媒體(multimedia)是多種媒體的綜合,一般包括文本,聲音和圖像等多種媒體形式。在計(jì)算機(jī)系統(tǒng)中,多媒體指組合兩種或兩種以上媒體的一種人機(jī)交互式信息交流和傳播媒體。常用的媒體包括文字、圖片、照片、聲音、動(dòng)畫(huà)和影片,以及程式所提供的互動(dòng)功能。根據(jù)編碼方式以及具體應(yīng)用的不同,原始的多媒體文件通常以mvo、avi、mp3、mp4、wmv、mpg、ram、ra、dvd等格式進(jìn)行存儲(chǔ)。將原始多媒體文件的視頻數(shù)據(jù)、音頻數(shù)據(jù)分別提取出來(lái),具體提取方法為現(xiàn)有成熟技術(shù),此處不再贅述。
步驟2、從所提取的音頻中分割出背景音頻和配音音頻;
可實(shí)現(xiàn)該功能的現(xiàn)有技術(shù)很多,例如可直接使用目前已商用的pazerafreeaudioextractor、adobeaudition等軟件實(shí)現(xiàn)。其中,背景音頻也可以由影片制作公司提供,因?yàn)橛捌驹谥谱饔捌瑫r(shí),背景音頻和配音通常是分別制作的。
步驟3、將所分割出的配音音頻轉(zhuǎn)換為配音文本;
可以通過(guò)人工進(jìn)行轉(zhuǎn)換或者采用語(yǔ)音識(shí)別技術(shù)自動(dòng)轉(zhuǎn)換。配音文本的具體格式可以自行定義。考慮到影視劇原始配音往往是多數(shù)人的選擇,因此有必要保留原始配音作為用戶的可選項(xiàng)(通常設(shè)定為默認(rèn)選項(xiàng))。本發(fā)明具體采用以下方法:從所分割出的配音音頻中提取出各角色的聲紋特征,并將記載各角色的聲紋特征的文本信息加入所述配音文本中。以下是個(gè)本發(fā)明配音文本的一個(gè)例子:
<影片信息>
<時(shí)長(zhǎng)>01:30:00</時(shí)長(zhǎng)>
<語(yǔ)種>中文</語(yǔ)種>
</影片信息>
<角色標(biāo)簽>
<男主角1>
<姓名>關(guān)羽</姓名>
<年齡>31</年齡>
<性格>豪邁</性格>
<默認(rèn)聲紋>演員陸樹(shù)銘聲紋</默認(rèn)聲紋>
</男主角1>
……
</角色標(biāo)簽>
<正文>
00:00:01-00:00:07關(guān)羽(傲慢|中速|(zhì)中等):吾觀顏良,如插標(biāo)賣首耳……
……
</正文>
步驟4、將所述視頻、背景音頻、配音文本分別存儲(chǔ);
視頻、背景音頻、配音文本這三種數(shù)據(jù)可存儲(chǔ)于本地,也可分別存儲(chǔ)于相應(yīng)的同一云端數(shù)據(jù)庫(kù)、服務(wù)器或者不同的云端數(shù)據(jù)庫(kù)、服務(wù)器中。
圖3顯示了本發(fā)明多媒體播放裝置一個(gè)具體實(shí)施例的結(jié)構(gòu)原理,其實(shí)質(zhì)上是一套多媒體點(diǎn)播系統(tǒng)。如圖3所示,該裝置包括四個(gè)云服務(wù)器:點(diǎn)播服務(wù)器、配音文本服務(wù)器、音頻服務(wù)器和視頻服務(wù)器,以及分別用于存儲(chǔ)視頻、背景音頻、配音文本的三個(gè)云數(shù)據(jù)庫(kù)。該裝置提供多媒體點(diǎn)播服務(wù)的具體流程如下:
s1、獲取多媒體的文件信息及用戶所確定的配音配置,所述文件信息包括多媒體的視頻、背景音頻、配音文本的存儲(chǔ)信息,所述配音配置包括各角色的聲紋特征;
點(diǎn)播服務(wù)器通過(guò)與智能終端的信息交互得到用戶的點(diǎn)播請(qǐng)求,根據(jù)點(diǎn)播請(qǐng)求從自身存儲(chǔ)的多媒體文件索引中找到所點(diǎn)播影視劇的文件信息,所述文件信息包括多媒體的視頻、背景音頻、配音文本的存儲(chǔ)地址、文件大小等存儲(chǔ)信息,還可以包括影視劇的時(shí)長(zhǎng)、角色等信息。
點(diǎn)播服務(wù)器還通過(guò)與智能終端的信息交互獲得用戶所確定的配音配置,所述配音配
置包括各角色的聲紋特征。圖4顯示了用于確定配音配置的一個(gè)用戶界面實(shí)例,通過(guò)點(diǎn)擊界面中相應(yīng)的按鈕即可為各個(gè)角色選取自己喜歡的聲紋特征。用戶不點(diǎn)擊則為默認(rèn)聲紋特征(通常為原始配音的聲紋特征),用戶點(diǎn)擊替換后可以彈出下一級(jí)選項(xiàng):
a.本地聲紋庫(kù)b.網(wǎng)絡(luò)聲紋庫(kù)
如果選了本地聲紋庫(kù)則彈出本地聲紋特征列表給用戶選擇;如果選了網(wǎng)絡(luò)聲紋庫(kù)則
彈出輸入框給用戶填寫(xiě)聲紋特征名稱,例如可以利用“劉德華”、“唐老鴨”、“趙本山”等廣為人知的角色名稱來(lái)命名相應(yīng)的聲紋特征,也可以為每一種聲紋特征配置一小段相應(yīng)示例音頻以供用戶試聽(tīng)選擇。還可進(jìn)一步在配音配置中增加中文、英文、法文等配音所使用的語(yǔ)種選項(xiàng),甚至還可加入粵語(yǔ)、閩南語(yǔ)、四川話等方言選項(xiàng)。
s2、根據(jù)所述文件信息獲取所述多媒體的視頻、背景音頻、配音文本;
點(diǎn)播服務(wù)器將相應(yīng)的文件信息分別發(fā)送給配音文本服務(wù)器、音頻服務(wù)器和視頻服務(wù)器,同時(shí)將用戶確定的配音配置發(fā)送給配音文本服務(wù)器。配音文本服務(wù)器、音頻服務(wù)器和視頻服務(wù)器分別從相應(yīng)的數(shù)據(jù)庫(kù)中找出相應(yīng)的配音文本、背景音頻、視頻。配音文本服務(wù)器將配音文本與用戶確定的配音配置一起發(fā)送至音頻服務(wù)器。
s3、根據(jù)所述配音文本和配音配置生成配音音頻,該配音音頻中各角色的聲紋特征與配音配置中各角色的聲紋特征相吻合;
音頻服務(wù)器利用語(yǔ)音合成技術(shù)將配音文本轉(zhuǎn)換為相應(yīng)的配音音頻,并根據(jù)配音配置為各角色的配音音頻賦予相應(yīng)的聲紋特征,使得配音音頻中各角色的聲紋特征與配音配置中各角色的聲紋特征相吻合。具體的語(yǔ)音合成可采用現(xiàn)有各種技術(shù),例如中國(guó)發(fā)明專利cn104485099a、cn105023570a、cn102117614b等所公開(kāi)的技術(shù)。還可以與翻譯引擎相結(jié)合進(jìn)行語(yǔ)種的轉(zhuǎn)換。
s4、將所述配音音頻與背景音頻合成為所述多媒體的音頻;
音頻服務(wù)器通過(guò)時(shí)間戳等手段將生成的配音音頻與背景音頻進(jìn)行合成,得到用戶所點(diǎn)播多媒體的個(gè)性化音頻。圖5顯示了本實(shí)施例中音頻服務(wù)器合成音頻的基本流程。
s5、同步播放所述多媒體的視頻和音頻;
視頻服務(wù)器和音頻服務(wù)器將視頻和音頻同步傳輸至智能終端播放。
以上僅為本發(fā)明的一個(gè)具體實(shí)施例,實(shí)際上點(diǎn)播服務(wù)器、配音文本服務(wù)器、音頻服務(wù)器和視頻服務(wù)器可以是同一個(gè)服務(wù)器,相應(yīng)的數(shù)據(jù)庫(kù)也可以使用同一個(gè)數(shù)據(jù)庫(kù)。隨著存儲(chǔ)、運(yùn)算等技術(shù)的進(jìn)一步發(fā)展,上述多媒體播放方法也可以在本地智能終端上獨(dú)立實(shí)現(xiàn)。