本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種生成短視頻的技術(shù)。
背景技術(shù):
在現(xiàn)有技術(shù)中,輸入法主要包括emoji、顏文字、表情圖、gif圖等以圖片的形式存在的表情,而在論壇、微博等由用戶生成內(nèi)容的場(chǎng)景下,主要包括以各種靜態(tài)或動(dòng)態(tài)圖片形式存在的表情。這種表情均是固定的單張圖片或gif圖,用戶在發(fā)送表情時(shí),直接選擇發(fā)送即可。
然而由于表情圖所蘊(yùn)含的內(nèi)容是固定的,若用戶想要對(duì)此進(jìn)行補(bǔ)充,或希望聲情并茂地表達(dá)與該表情圖對(duì)應(yīng)的情感時(shí),則需要單獨(dú)地輸入文字或語音等來加重情感表達(dá)。進(jìn)一步地,用戶也可以單獨(dú)制作短視頻來作為新的表情圖,然而一般的短視頻制作需要用戶拍攝一段短視頻并將其轉(zhuǎn)換為表情圖,或是利用圖像處理軟件將多個(gè)圖片、視頻、音頻或字幕進(jìn)行組合,這種方法對(duì)于用戶而言過于復(fù)雜,相比直接發(fā)送表情圖而言,制作成本較高。因此,用戶仍然習(xí)慣采用各自獨(dú)立的表情圖、語音、文字等來表達(dá)內(nèi)容,從而導(dǎo)致了表達(dá)效率較低且形式單一。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種用于生成短視頻的方法與裝置。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于生成短視頻的方法,其中,該方法包括以下步驟:
a獲取一個(gè)或多個(gè)圖片以及用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息;
b根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對(duì)應(yīng)的字幕信息;
c根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效;
d根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
可選地,所述步驟c包括:
-根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
可選地,所述步驟c包括:
-根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合所述語音信息的語音長(zhǎng)度,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
可選地,該方法還包括:
x根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片;
其中,該方法還包括:
-根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻。
可選地,所述步驟x包括:
x1確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息、所述圖片以及所述相關(guān)圖片數(shù)量,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片。
可選地,所述步驟x1包括以下至少任一項(xiàng):
-根據(jù)所述語音信息的語音長(zhǎng)度,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語音特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語義特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量。
可選地,該方法還包括:
-獲取所述用戶的一個(gè)或多個(gè)歷史語音信息,確定與所述用戶相對(duì)應(yīng)的用戶語音特征庫(kù);
其中,所述步驟c包括:
-根據(jù)所述用戶語音特征庫(kù),確定與所述語音信息相對(duì)應(yīng)的語音特征;
-根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
可選地,該方法還包括:
-根據(jù)所述短視頻所對(duì)應(yīng)的應(yīng)用的相關(guān)配置信息,將所述短視頻轉(zhuǎn)存為一種或多種應(yīng)用可用格式;
-將所述短視頻以所述應(yīng)用可用格式添加在所述應(yīng)用中。
可選地,所述展示特效包括一種或多種動(dòng)態(tài)效果。
根據(jù)本發(fā)明的另一方面,還提供了一種用于生成短視頻的生成裝置,其中,所述生成裝置包括:
獲取裝置,用于獲取一個(gè)或多個(gè)圖片以及用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息;
字幕確定裝置,用于根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對(duì)應(yīng)的字幕信息;
特效確定裝置,用于根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效;
視頻生成裝置,用于根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
可選地,所述特效確定裝置用于:
-根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
可選地,所述特效確定裝置用于:
-根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合所述語音信息的語音長(zhǎng)度,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
可選地,所述生成裝置還包括:
相關(guān)圖片確定裝置,用于根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片;
其中,所述生成裝置還包括:
相關(guān)視頻生成裝置,用于根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻。
可選地,所述相關(guān)圖片確定裝置包括:
數(shù)量確定單元,用于確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
關(guān)聯(lián)確定單元,用于根據(jù)所述語音信息、所述圖片以及所述相關(guān)圖片數(shù)量,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片。
可選地,所述數(shù)量確定單元用于以下至少任一項(xiàng):
-根據(jù)所述語音信息的語音長(zhǎng)度,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語音特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語義特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量。
可選地,所述生成裝置還包括:
歷史獲取裝置,用于獲取所述用戶的一個(gè)或多個(gè)歷史語音信息,確定與所述用戶相對(duì)應(yīng)的用戶語音特征庫(kù);
其中,所述特效確定裝置用于:
-根據(jù)所述用戶語音特征庫(kù),確定與所述語音信息相對(duì)應(yīng)的語音特征;
-根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
可選地,所述生成裝置還包括:
轉(zhuǎn)存裝置,用于根據(jù)所述短視頻所對(duì)應(yīng)的應(yīng)用的相關(guān)配置信息,將所述短視頻轉(zhuǎn)存為一種或多種應(yīng)用可用格式;
添加裝置,用于將所述短視頻以所述應(yīng)用可用格式添加在所述應(yīng)用中。
可選地,所述展示特效包括一種或多種動(dòng)態(tài)效果。
根據(jù)本發(fā)明的又一方面,還提供了一種輸入設(shè)備,包括如上述任一項(xiàng)所述的生成裝置。
與現(xiàn)有技術(shù)相比,本發(fā)明獲取一個(gè)或多個(gè)圖片以及用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息;根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對(duì)應(yīng)的字幕信息;根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效;根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。從而,本發(fā)明通過根據(jù)所述語音信息的語音特征和/或語意特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效,將圖片轉(zhuǎn)換為短視頻,能夠更加富有創(chuàng)造性地表達(dá)情感,提高了輸入行為的多樣性,增加了圖片的趣味性、智能性,使得用戶的表現(xiàn)形式更加豐富且具有吸引力,改善了用戶體驗(yàn)。
而且,本發(fā)明還可以根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效;或者,根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合所述語音信息的語音長(zhǎng)度,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。從而本發(fā)明使得所確定的展示特效與圖片與語音更加貼合,提高了表現(xiàn)效果及可視性,進(jìn)一步提高了吸引力,改善了用戶體驗(yàn)。
而且,本發(fā)明還可以根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片;根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻。從而,本發(fā)明能夠?yàn)橛脩羯啥喾N相關(guān)短視頻,減少了用戶尋找圖片的操作,提高了獲取信息的效率,提供給用戶更多的選擇,進(jìn)一步提高了吸引力,改善了用戶體驗(yàn)。
而且,本發(fā)明還可以獲取所述用戶的一個(gè)或多個(gè)歷史語音信息,確定與所述用戶相對(duì)應(yīng)的用戶語音特征庫(kù);根據(jù)所述用戶語音特征庫(kù),確定與所述語音信息相對(duì)應(yīng)的語音特征;根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。從而,本發(fā)明使得所提取的語音特征更加準(zhǔn)確,所確定的展示特效也就更符合用戶的需求。
而且,本發(fā)明還可以根據(jù)所述短視頻所對(duì)應(yīng)的應(yīng)用的相關(guān)配置信息,將所述短視頻轉(zhuǎn)存為一種或多種應(yīng)用可用格式;將所述短視頻以所述應(yīng)用可用格式添加在所述應(yīng)用中。從而,本發(fā)明豐富了應(yīng)用內(nèi)信息表達(dá)的表現(xiàn)形式,使得用戶的信息表達(dá)形式豐富且更有吸引力。例如,可將短視頻作為表情等進(jìn)行添加,因此,本發(fā)明可以讓用戶邊看到表情圖邊聽到語音,并結(jié)合展示特效來理解對(duì)方的情感表達(dá),使加入真人語音的表情動(dòng)態(tài)圖像形式豐富且更有吸引力。
附圖說明
通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
圖1示出根據(jù)本發(fā)明一個(gè)方面的一種用于生成短視頻的生成裝置示意圖;
圖2示出根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的一種用于生成短視頻的生成裝置示意圖;
圖3示出根據(jù)本發(fā)明另一個(gè)方面的一種用于生成短視頻的方法流程圖;
圖4示出根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的一種用于生成短視頻的方法流程圖。
附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
具體實(shí)施方式
在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
在上下文中所稱“生成裝置”即為“計(jì)算機(jī)設(shè)備”,也稱為“電腦”,是指可以通過運(yùn)行預(yù)定程序或指令來執(zhí)行數(shù)值計(jì)算和/或邏輯計(jì)算等預(yù)定處理過程的智能電子設(shè)備,其可以包括處理器與存儲(chǔ)器,由處理器執(zhí)行在存儲(chǔ)器中預(yù)存的存續(xù)指令來執(zhí)行預(yù)定處理過程,或是由asic、fpga、dsp等硬件執(zhí)行預(yù)定處理過程,或是由上述二者組合來實(shí)現(xiàn)。
所述計(jì)算機(jī)設(shè)備包括用戶設(shè)備和/或網(wǎng)絡(luò)設(shè)備。其中,所述用戶設(shè)備包括但不限于電腦、智能手機(jī)、pda等;所述網(wǎng)絡(luò)設(shè)備包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計(jì)算(cloudcomputing)的由大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。其中,所述計(jì)算機(jī)設(shè)備可單獨(dú)運(yùn)行來實(shí)現(xiàn)本發(fā)明,也可接入網(wǎng)絡(luò)并通過與網(wǎng)絡(luò)中的其他計(jì)算機(jī)設(shè)備的交互操作來實(shí)現(xiàn)本發(fā)明。其中,所述計(jì)算機(jī)設(shè)備所處的網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、vpn網(wǎng)絡(luò)等。
本領(lǐng)域技術(shù)人員應(yīng)能理解,本發(fā)明中所述的“生成裝置”可以僅是用戶設(shè)備,即由用戶設(shè)備來執(zhí)行相應(yīng)的操作;也可以是由用戶設(shè)備與網(wǎng)絡(luò)設(shè)備或服務(wù)器相集成來組成,即由用戶設(shè)備與網(wǎng)絡(luò)設(shè)備相配合來執(zhí)行相應(yīng)的操作。
需要說明的是,所述用戶設(shè)備、網(wǎng)絡(luò)設(shè)備和網(wǎng)絡(luò)等僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的計(jì)算機(jī)設(shè)備或網(wǎng)絡(luò)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
需要說明的是,優(yōu)選地,本發(fā)明所述的“生成裝置”可包含在各類設(shè)備(如輸入設(shè)備)、各類應(yīng)用(如輸入法),或包含各類應(yīng)用的裝置中(如包含在輸入法中的裝置)。其中,本發(fā)明所述的生成裝置可由計(jì)算機(jī)設(shè)備的生產(chǎn)廠商或銷售服務(wù)商預(yù)先安裝至該計(jì)算機(jī)設(shè)備,也可由計(jì)算機(jī)設(shè)備從服務(wù)器加載到計(jì)算機(jī)設(shè)備。本領(lǐng)域技術(shù)人員應(yīng)能理解,任何可用于實(shí)現(xiàn)本發(fā)明中的功能的裝置,無論是否被加載至計(jì)算機(jī)設(shè)備中,均包含在本發(fā)明的保護(hù)范圍內(nèi)。
在此,本領(lǐng)域技術(shù)人員應(yīng)能理解,本發(fā)明可應(yīng)用于移動(dòng)端與非移動(dòng)端,例如,當(dāng)用戶使用手機(jī)或pc時(shí),均可利用本發(fā)明所述的方法或裝置來進(jìn)行提供與呈現(xiàn)。
這里所公開的具體結(jié)構(gòu)和功能細(xì)節(jié)僅僅是代表性的,并且是用于描述本發(fā)明的示例性實(shí)施例的目的。但是本發(fā)明可以通過許多替換形式來具體實(shí)現(xiàn),并且不應(yīng)當(dāng)被解釋成僅僅受限于這里所闡述的實(shí)施例。
應(yīng)當(dāng)理解的是,雖然在這里可能使用了術(shù)語“第一”、“第二”等等來描述各個(gè)單元,但是這些單元不應(yīng)當(dāng)受這些術(shù)語限制。使用這些術(shù)語僅僅是為了將一個(gè)單元與另一個(gè)單元進(jìn)行區(qū)分。舉例來說,在不背離示例性實(shí)施例的范圍的情況下,第一單元可以被稱為第二單元,并且類似地第二單元可以被稱為第一單元。這里所使用的術(shù)語“和/或”包括其中一個(gè)或更多所列出的相關(guān)聯(lián)項(xiàng)目的任意和所有組合。
這里所使用的術(shù)語僅僅是為了描述具體實(shí)施例而不意圖限制示例性實(shí)施例。除非上下文明確地另有所指,否則這里所使用的單數(shù)形式“一個(gè)”、“一項(xiàng)”還意圖包括復(fù)數(shù)。還應(yīng)當(dāng)理解的是,這里所使用的術(shù)語“包括”和/或“包含”規(guī)定所陳述的特征、整數(shù)、步驟、操作、單元和/或組件的存在,而不排除存在或添加一個(gè)或更多其他特征、整數(shù)、步驟、操作、單元、組件和/或其組合。
還應(yīng)當(dāng)提到的是,在一些替換實(shí)現(xiàn)方式中,所提到的功能/動(dòng)作可以按照不同于附圖中標(biāo)示的順序發(fā)生。舉例來說,取決于所涉及的功能/動(dòng)作,相繼示出的兩幅圖實(shí)際上可以基本上同時(shí)執(zhí)行或者有時(shí)可以按照相反的順序來執(zhí)行。
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
圖1示出根據(jù)本發(fā)明一個(gè)方面的一種用于生成短視頻的生成裝置示意圖;其中,所述生成裝置包括獲取裝置1、字幕確定裝置2、特效確定裝置3、視頻生成裝置4。
具體地,所述獲取裝置1獲取一個(gè)或多個(gè)圖片以及用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息;所述字幕確定裝置2根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對(duì)應(yīng)的字幕信息;所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效;所述視頻生成裝置4根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
所述獲取裝置1獲取一個(gè)或多個(gè)圖片以及用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息。
具體地,所述獲取裝置1可以通過調(diào)用內(nèi)置缺省圖片、獲取用戶通過上傳或拍攝等的方式所提供的圖片、通過搜索的方式從網(wǎng)絡(luò)上搜索到圖片、通過下載的方式下載圖片等一種或多種方式,獲取一個(gè)或多個(gè)圖片。所述圖片可以實(shí)時(shí)獲取,也可以預(yù)先獲取。所述圖片包括靜態(tài)圖片(如采用jpg、bmp等格式的圖片)和/或動(dòng)態(tài)圖片(如采用gif等格式的圖片)。
所述獲取裝置1通過實(shí)時(shí)錄音或調(diào)用歷史錄音等方式,獲取用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息。在此,本領(lǐng)域技術(shù)人員應(yīng)能理解,一張圖片可以對(duì)應(yīng)于一個(gè)或多個(gè)語音信息,一個(gè)語音信息也可以對(duì)應(yīng)于一張或多張圖片。所述圖片與語音信息的關(guān)聯(lián)關(guān)系可以根據(jù)用戶的設(shè)置進(jìn)行確定。
例如,所述用戶選擇了內(nèi)置中的一張圖片,然后按下錄音鍵,錄制了一段語音信息,則該語音信息即與該圖片相對(duì)應(yīng);然后,用戶又錄制了一段語音信息,則這兩段語音信息均與該圖片對(duì)應(yīng)。
或者,例如,所述用戶從網(wǎng)上下載了兩張圖片,然后同時(shí)選擇了這兩張圖片,并與另一段語音信息相關(guān)聯(lián),則這段語音信息即與這兩張圖片同時(shí)相關(guān)聯(lián)。
所述字幕確定裝置2根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對(duì)應(yīng)的字幕信息。
具體地,所述字幕確定裝置2通過語音識(shí)別,識(shí)別出所述語音信息的語音內(nèi)容,然后,確定與所識(shí)別的語音內(nèi)容相對(duì)應(yīng)的文字,以作為與所述語音信息相對(duì)應(yīng)的字幕信息。
優(yōu)選地,所述字幕確定裝置2還可以結(jié)合所述語音信息的長(zhǎng)度,來確定是否對(duì)所述字幕信息進(jìn)行分行等;所述字幕確定裝置2可以根據(jù)所述語音信息的語音內(nèi)容,結(jié)合所述語音信息中的語音特征,如聲調(diào)、節(jié)奏等,來確定所述字幕信息中的標(biāo)點(diǎn)、分行等內(nèi)容;所述字幕確定裝置2還可以與所述用戶進(jìn)行交互,為所述用戶提供校對(duì)輸入功能,以便于所述用戶對(duì)所述字幕信息進(jìn)行校對(duì)。
優(yōu)選地,所述字幕確定裝置2可以自行進(jìn)行語音特征、語音長(zhǎng)度等的分析;也可以與所述特效確定裝置3交互,根據(jù)所述特效確定裝置3對(duì)語音特征/語義特征/展示特效等的反饋,來迭代調(diào)整所述字幕信息的分行、標(biāo)點(diǎn)等內(nèi)容。
所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
具體地,所述特效確定裝置3對(duì)所述語音信息進(jìn)行分析,以確定所述語音信息的語音特征和/或語義特征。
其中,所述語音特征包括但不限于聲調(diào)、節(jié)奏、音色等;例如通過對(duì)所述語音信息的波形分析,得知該語音信息的聲音高低變化和/或節(jié)奏等;通過對(duì)所述語音信息的頻譜和/或語譜的分析,得知該語音信息的音色,如粗獷、尖細(xì)、低沉、奶氣、清脆等等;由于所述語音信息的聲調(diào)、節(jié)奏、音色等是不斷變化的,還可以根據(jù)上述變化來確定用戶語氣的變化,如突然提高音量或降低音量等。
所述語義特征即為所述用戶的所述語音的含義。如“我很高興”則表達(dá)了積極的情緒,“這東西不好”則表達(dá)了消極的情緒等等。
然后,所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,從預(yù)置的特效中選擇一個(gè)或多個(gè)以作為與所述圖片和/或所述字幕信息相對(duì)應(yīng)的展示特效,或者通過與服務(wù)器或其他第三方設(shè)備相交互,獲取與所述圖片和/或所述字幕信息相對(duì)應(yīng)的展示特效。
其中,所述展示特效中包括作用于所述圖片的展示特效、作用于所述字幕信息的展示特效或者同時(shí)作用于所述圖片和字幕信息的展示特效。所述展示特效中包括但不限于靜態(tài)效果和/或動(dòng)態(tài)效果。其中,作用于所述字幕信息的靜態(tài)效果例如字體、顏色等,作用于所述圖片的靜態(tài)效果例如附加裝飾圖片、附加裝飾文字、增加圖片紋理、圖片變色等。所述動(dòng)態(tài)效果包括但不限于漸變、浮動(dòng)、閃爍等。
例如,若所述用戶的語音特征表示用戶說話聲音時(shí)大時(shí)小,展示字幕會(huì)隨著說話一大一小不斷變化;若所述用戶的語音特征表示用戶說話的音色奶聲奶氣,則展示華康娃娃體字幕等。
例如,對(duì)所述用戶的語義特征進(jìn)行分析,若用戶說“愛你”,則圖片或字幕上出現(xiàn)一顆一閃一閃的心;若用戶說“晚安”,則表情圖加漸變蒙層逐漸變成黑色以實(shí)現(xiàn)關(guān)燈的效果。
優(yōu)選地,所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
具體地,所述特效確定裝置3還可以對(duì)所述圖片進(jìn)行分析,以確定所述圖片的圖片特征,其中,所述圖片特征包括但不限于圖片名稱、圖片說明、圖片色彩、動(dòng)態(tài)信息(如gif動(dòng)態(tài)圖片)、圖片內(nèi)容等。
然后,所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,將上述多種因素綜合考慮,以確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
例如,若所述圖片特征為圖片色彩較暗,而用戶的語音特征為音調(diào)輕快,則所確定的展示特效為:將所述字幕以跳躍的形式展示,且為字幕加上顏色較淺的輪廓等。
例如,若所述圖片特征為圖片中已經(jīng)包含了心形圖案,則當(dāng)用戶說“愛你”時(shí),不再將“圖片或字幕上出現(xiàn)一顆一閃一閃的心”作為展示特效,而是在圖片上添加玫瑰花。
優(yōu)選地,所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合所述語音信息的語音長(zhǎng)度,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
具體地,所述語音長(zhǎng)度即為所述語音信息的時(shí)長(zhǎng)。所述特效確定裝置3可以在考慮所述語音長(zhǎng)度的基礎(chǔ)上,來確定符合所述語音特征和/或語義特征的展示特效。
例如,若一條語音的語義長(zhǎng)度為3秒,而某個(gè)動(dòng)態(tài)展示特效循環(huán)一次需要5秒,則不采用該展示特效;反之,若某個(gè)動(dòng)態(tài)展示特效循環(huán)一次需要3秒,則可以結(jié)合所述語音特征和/或語義特征來確定是否選擇該展示特效。
所述視頻生成裝置4根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
具體地,所述視頻生成裝置4將所述圖片以及所述語音信息一起生成包含語音與圖像的短視頻,并將所述字幕信息以及所述展示特效加入到該短視頻中。例如,若所述圖像為動(dòng)態(tài)圖像,可以生成一個(gè)包含了字幕信息以及展示特效的短視頻,圖片的播放進(jìn)程與語音進(jìn)程相一致;若所述圖像為靜態(tài)圖像,可以生成一個(gè)包含了字幕信息以及展示特效的短視頻,圖片可以作為背景,而動(dòng)態(tài)的是字幕信息以及展示特效,且動(dòng)態(tài)的部分隨著語音進(jìn)程進(jìn)行。
所述短視頻可以被保存、收藏、發(fā)送等。
優(yōu)選地,所述生成裝置還包括歷史獲取裝置(未示出),其中,所述歷史獲取裝置獲取所述用戶的一個(gè)或多個(gè)歷史語音信息,確定與所述用戶相對(duì)應(yīng)的用戶語音特征庫(kù);所述特效確定裝置3根據(jù)所述用戶語音特征庫(kù),確定與所述語音信息相對(duì)應(yīng)的語音特征;根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
具體地,所述歷史獲取裝置通過直接與用戶交互以獲取所述用戶的一個(gè)或多個(gè)歷史語音信息,或者與其他能夠提供該用戶歷史語音信息的設(shè)備相交互,以獲取所述用戶的一個(gè)或多個(gè)歷史語音信息。在此,所述歷史語音信息可以是用戶在其他場(chǎng)景或其他應(yīng)用中所提供的語音信息;所述歷史語音信息可以對(duì)應(yīng)于已確認(rèn)的或未確認(rèn)的語音特征和/或語義特征。
然后,所述歷史獲取裝置根據(jù)所述歷史語音信息,建立與所述用戶相對(duì)應(yīng)的用戶語音特征庫(kù),例如,通過對(duì)多個(gè)歷史語音信息的分析與統(tǒng)計(jì),得到該用戶的常用音調(diào)、非普通音調(diào)、音色、節(jié)奏等,以建立與該用戶相對(duì)應(yīng)的用戶語音特征庫(kù)。
然后,所述特效確定裝置3可以根據(jù)所述用戶語音特征庫(kù),通過將所述用戶的當(dāng)前語音與該用戶語音特征庫(kù)相匹配或?qū)Ρ龋源_定與所述用戶的當(dāng)前語音信息相對(duì)應(yīng)的語音特征。
然后,所述特效確定裝置3根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
優(yōu)選地,所述生成裝置還包括轉(zhuǎn)存裝置(未示出)和添加裝置(未示出);其中,所述轉(zhuǎn)存裝置根據(jù)所述短視頻所對(duì)應(yīng)的應(yīng)用的相關(guān)配置信息,將所述短視頻轉(zhuǎn)存為一種或多種應(yīng)用可用格式;所述添加裝置將所述短視頻以所述應(yīng)用可用格式添加在所述應(yīng)用中。
具體地,所述轉(zhuǎn)存裝置可以根據(jù)所述短視頻所對(duì)應(yīng)的應(yīng)用的相關(guān)配置信息,確定該應(yīng)用所需求的一種或多種應(yīng)用可用格式;并將所述短視頻轉(zhuǎn)存為所述應(yīng)用可用格式;例如,若所述應(yīng)用為輸入法,則可將所述短視頻轉(zhuǎn)存為動(dòng)態(tài)圖片類格式,以作為動(dòng)態(tài)圖片表情;若所述應(yīng)用為微博等,則可將其轉(zhuǎn)存為一種或多種的可用視頻格式,以作為短視頻發(fā)送。
然后,所述添加裝置將所述短視頻以所述應(yīng)用可用格式添加在所述應(yīng)用中,供用戶進(jìn)行后續(xù)調(diào)用。
圖2示出根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的一種用于生成短視頻的生成裝置示意圖;其中,所述生成裝置包括獲取裝置1’、字幕確定裝置2’、特效確定裝置3’、視頻生成裝置4’、相關(guān)圖片確定裝置5’、相關(guān)視頻生成裝置6’。
具體地,所述獲取裝置1’獲取一個(gè)或多個(gè)圖片以及用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息;所述字幕確定裝置2’根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對(duì)應(yīng)的字幕信息;所述特效確定裝置3’根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效;所述視頻生成裝置4’根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻;所述相關(guān)圖片確定裝置5’根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片;所述相關(guān)視頻生成裝置6’根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻。
所述相關(guān)圖片確定裝置5’根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片。
具體地,所述相關(guān)圖片確定裝置5’根據(jù)所述語音信息的語音特征和/或語義特征,并結(jié)合所述圖片的圖片特征,來確定與上述語音信息和所述圖片在內(nèi)容或特征上相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片。
其中,所述語音特征包括但不限于聲調(diào)、節(jié)奏、音色等;所述語義特征即為所述用戶的所述語音的含義。所述圖片特征包括但不限于圖片名稱、圖片說明、圖片色彩、動(dòng)態(tài)信息(如gif動(dòng)態(tài)圖片)、圖片內(nèi)容等。
其中,所述相關(guān)圖片與所述語音信息/所述圖片在內(nèi)容或主題上相關(guān)聯(lián);或者,所述相關(guān)圖片與所述圖片在色調(diào)上相關(guān)聯(lián)等。
例如,若所述語音信息為:“很棒啊!”,所述圖片為“鼓掌”,則可以推薦以“很棒”為主題的其他圖片,如“翹起拇指”、“歡呼”等,或者可以選擇以不同角色為主題的鼓掌圖片或類似圖片,如“兔斯基鼓掌”、“兔斯基點(diǎn)贊”、“ac娘點(diǎn)贊”等。
優(yōu)選地,所述相關(guān)圖片確定裝置5’還可以從所選擇的相關(guān)圖片中進(jìn)一步篩選出優(yōu)選相關(guān)圖片。例如,繼上例,可以僅將同一主題的相關(guān)圖片挑選出來,作為優(yōu)選相關(guān)圖片,如“兔斯基鼓掌”和“兔斯基點(diǎn)贊”;或者,可以將相關(guān)圖片中色調(diào)類似的圖片挑選出來,作為優(yōu)選相關(guān)圖片,如具有相同的背景色或主題顏色等。
所述相關(guān)視頻生成裝置6’根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻。
具體地,所述相關(guān)視頻生成裝置6’可以根據(jù)所述特效確定裝置3’為所述圖片所確定的展示特效,來所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻?;蛘?,所述相關(guān)視頻生成裝置6’可以將所述相關(guān)圖片、語音信息、所述圖片重新發(fā)給所述字幕確定裝置2’(如圖2所示),以供所述字幕確定裝置2’為上述內(nèi)容重新確定展示特效,在此,確定所述展示特效的方法與圖1中對(duì)應(yīng)裝置的確定方法相同或相似,故在此不再贅述。
然后,所述相關(guān)視頻生成裝置6’根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻。
其中,所述相關(guān)短視頻可以是對(duì)應(yīng)于“字幕信息、展示特效、一張所述相關(guān)圖片、所述語音信息”,即將所述字幕信息、所述展示特效、所述語音信息分別添加到某張相關(guān)圖片中,以生成相關(guān)短視頻;
所述相關(guān)短視頻還可以對(duì)應(yīng)于“字幕信息、展示特效、多張所述相關(guān)圖片、所述語音信息”,即將所述字幕信息、所述展示特效、所述語音信息添加到多張相關(guān)圖片中,使得多張相關(guān)圖片能夠連續(xù)播放,以形成一個(gè)動(dòng)態(tài)相關(guān)短視頻;
所述相關(guān)短視頻還可以對(duì)應(yīng)于“字幕信息、展示特效、所述圖片以及一張或多張所述相關(guān)圖片、所述語音信息”,即將所述圖片以及一張或多張相關(guān)圖片作為待處理的圖片,并將所述字幕信息、所述展示特效、所述語音信息添加到上述待處理的圖片中,使得多張待處理的圖片能夠連續(xù)播放,以形成一個(gè)動(dòng)態(tài)相關(guān)短視頻等。
優(yōu)選地,所述相關(guān)圖片確定裝置5’包括數(shù)量確定單元(未示出)以及關(guān)聯(lián)確定單元(未示出);其中,所述數(shù)量確定單元確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;所述關(guān)聯(lián)確定單元根據(jù)所述語音信息、所述圖片以及所述相關(guān)圖片數(shù)量,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片。
具體地,所述數(shù)量確定單元通過按照預(yù)設(shè)置的方式,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;或者,更優(yōu)選地,基于以下一種或多種方式,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:
-根據(jù)所述語音信息的語音長(zhǎng)度,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語音長(zhǎng)度為5秒,則所述相關(guān)圖片數(shù)量確定為5;若所述語音長(zhǎng)度為10秒,則所述相關(guān)圖片數(shù)量確定為10;
-根據(jù)所述語音信息的語音特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語音特征顯示發(fā)生了2次或多次的語調(diào)變換(如高音轉(zhuǎn)低音,低音轉(zhuǎn)高音等),則提高所確定的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語義特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語義特征顯示出包含了多個(gè)語義關(guān)鍵詞,則可根據(jù)不同的關(guān)鍵詞,確定不同的相關(guān)圖片,因此,相關(guān)圖片數(shù)量會(huì)更多。
所述關(guān)聯(lián)確定單元在根據(jù)所述語音信息的語音特征和/或語義特征,并結(jié)合所述圖片的圖片特征的基礎(chǔ)上,來確定與上述語音信息和所述圖片在內(nèi)容或特征上相關(guān)聯(lián)的、符合上述相關(guān)圖片數(shù)量要求的一張或多張相關(guān)圖片。
圖3示出根據(jù)本發(fā)明另一個(gè)方面的一種用于生成短視頻的方法流程圖。具體地,在步驟s1中,所述生成裝置獲取一個(gè)或多個(gè)圖片以及用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息;在步驟s2中,所述生成裝置根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對(duì)應(yīng)的字幕信息;在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效;在步驟s4中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
在步驟s1中,所述生成裝置獲取一個(gè)或多個(gè)圖片以及用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息。
具體地,在步驟s1中,所述生成裝置可以通過調(diào)用內(nèi)置缺省圖片、獲取用戶通過上傳或拍攝等的方式所提供的圖片、通過搜索的方式從網(wǎng)絡(luò)上搜索到圖片、通過下載的方式下載圖片等一種或多種方式,獲取一個(gè)或多個(gè)圖片。所述圖片可以實(shí)時(shí)獲取,也可以預(yù)先獲取。所述圖片包括靜態(tài)圖片(如采用jpg、bmp等格式的圖片)和/或動(dòng)態(tài)圖片(如采用gif等格式的圖片)。
在步驟s1中,所述生成裝置通過實(shí)時(shí)錄音或調(diào)用歷史錄音等方式,獲取用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息。在此,本領(lǐng)域技術(shù)人員應(yīng)能理解,一張圖片可以對(duì)應(yīng)于一個(gè)或多個(gè)語音信息,一個(gè)語音信息也可以對(duì)應(yīng)于一張或多張圖片。所述圖片與語音信息的關(guān)聯(lián)關(guān)系可以根據(jù)用戶的設(shè)置進(jìn)行確定。
例如,所述用戶選擇了內(nèi)置中的一張圖片,然后按下錄音鍵,錄制了一段語音信息,則該語音信息即與該圖片相對(duì)應(yīng);然后,用戶又錄制了一段語音信息,則這兩段語音信息均與該圖片對(duì)應(yīng)。
或者,例如,所述用戶從網(wǎng)上下載了兩張圖片,然后同時(shí)選擇了這兩張圖片,并與另一段語音信息相關(guān)聯(lián),則這段語音信息即與這兩張圖片同時(shí)相關(guān)聯(lián)。
在步驟s2中,所述生成裝置根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對(duì)應(yīng)的字幕信息。
具體地,在步驟s2中,所述生成裝置通過語音識(shí)別,識(shí)別出所述語音信息的語音內(nèi)容,然后,確定與所識(shí)別的語音內(nèi)容相對(duì)應(yīng)的文字,以作為與所述語音信息相對(duì)應(yīng)的字幕信息。
優(yōu)選地,在步驟s2中,所述生成裝置還可以結(jié)合所述語音信息的長(zhǎng)度,來確定是否對(duì)所述字幕信息進(jìn)行分行等;在步驟s2中,所述生成裝置可以根據(jù)所述語音信息的語音內(nèi)容,結(jié)合所述語音信息中的語音特征,如聲調(diào)、節(jié)奏等,來確定所述字幕信息中的標(biāo)點(diǎn)、分行等內(nèi)容;所述生成裝置還可以與所述用戶進(jìn)行交互,為所述用戶提供校對(duì)輸入功能,以便于所述用戶對(duì)所述字幕信息進(jìn)行校對(duì)。
優(yōu)選地,在步驟s2中,所述生成裝置可以自行進(jìn)行語音特征、語音長(zhǎng)度等的分析;也可以與從步驟s3的執(zhí)行結(jié)果中獲得反饋,根據(jù)所述步驟s3對(duì)語音特征/語義特征/展示特效等的反饋,來迭代調(diào)整所述字幕信息的分行、標(biāo)點(diǎn)等內(nèi)容。
在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
具體地,在步驟s3中,所述生成裝置對(duì)所述語音信息進(jìn)行分析,以確定所述語音信息的語音特征和/或語義特征。
其中,所述語音特征包括但不限于聲調(diào)、節(jié)奏、音色等;例如通過對(duì)所述語音信息的波形分析,得知該語音信息的聲音高低變化和/或節(jié)奏等;通過對(duì)所述語音信息的頻譜和/或語譜的分析,得知該語音信息的音色,如粗獷、尖細(xì)、低沉、奶氣、清脆等等;由于所述語音信息的聲調(diào)、節(jié)奏、音色等是不斷變化的,還可以根據(jù)上述變化來確定用戶語氣的變化,如突然提高音量或降低音量等。
所述語義特征即為所述用戶的所述語音的含義。如“我很高興”則表達(dá)了積極的情緒,“這東西不好”則表達(dá)了消極的情緒等等。
然后,在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,從預(yù)置的特效中選擇一個(gè)或多個(gè)以作為與所述圖片和/或所述字幕信息相對(duì)應(yīng)的展示特效,或者通過與服務(wù)器或其他第三方設(shè)備相交互,獲取與所述圖片和/或所述字幕信息相對(duì)應(yīng)的展示特效。
其中,所述展示特效中包括作用于所述圖片的展示特效、作用于所述字幕信息的展示特效或者同時(shí)作用于所述圖片和字幕信息的展示特效。所述展示特效中包括但不限于靜態(tài)效果和/或動(dòng)態(tài)效果。其中,作用于所述字幕信息的靜態(tài)效果例如字體、顏色等,作用于所述圖片的靜態(tài)效果例如附加裝飾圖片、附加裝飾文字、增加圖片紋理、圖片變色等。所述動(dòng)態(tài)效果包括但不限于漸變、浮動(dòng)、閃爍等。
例如,若所述用戶的語音特征表示用戶說話聲音時(shí)大時(shí)小,展示字幕會(huì)隨著說話一大一小不斷變化;若所述用戶的語音特征表示用戶說話的音色奶聲奶氣,則展示華康娃娃體字幕等。
例如,對(duì)所述用戶的語義特征進(jìn)行分析,若用戶說“愛你”,則圖片或字幕上出現(xiàn)一顆一閃一閃的心;若用戶說“晚安”,則表情圖加漸變蒙層逐漸變成黑色以實(shí)現(xiàn)關(guān)燈的效果。
優(yōu)選地,在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
具體地,在步驟s3中,所述生成裝置還可以對(duì)所述圖片進(jìn)行分析,以確定所述圖片的圖片特征,其中,所述圖片特征包括但不限于圖片名稱、圖片說明、圖片色彩、動(dòng)態(tài)信息(如gif動(dòng)態(tài)圖片)、圖片內(nèi)容等。
然后,在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,將上述多種因素綜合考慮,以確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
例如,若所述圖片特征為圖片色彩較暗,而用戶的語音特征為音調(diào)輕快,則所確定的展示特效為:將所述字幕以跳躍的形式展示,且為字幕加上顏色較淺的輪廓等。
例如,若所述圖片特征為圖片中已經(jīng)包含了心形圖案,則當(dāng)用戶說“愛你”時(shí),不再將“圖片或字幕上出現(xiàn)一顆一閃一閃的心”作為展示特效,而是在圖片上添加玫瑰花。
優(yōu)選地,在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合所述語音信息的語音長(zhǎng)度,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
具體地,所述語音長(zhǎng)度即為所述語音信息的時(shí)長(zhǎng)。在步驟s3中,所述生成裝置可以在考慮所述語音長(zhǎng)度的基礎(chǔ)上,來確定符合所述語音特征和/或語義特征的展示特效。
例如,若一條語音的語義長(zhǎng)度為3秒,而某個(gè)動(dòng)態(tài)展示特效循環(huán)一次需要5秒,則不采用該展示特效;反之,若某個(gè)動(dòng)態(tài)展示特效循環(huán)一次需要3秒,則可以結(jié)合所述語音特征和/或語義特征來確定是否選擇該展示特效。
在步驟s4中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
具體地,在步驟s4中,所述生成裝置將所述圖片以及所述語音信息一起生成包含語音與圖像的短視頻,并將所述字幕信息以及所述展示特效加入到該短視頻中。例如,若所述圖像為動(dòng)態(tài)圖像,可以生成一個(gè)包含了字幕信息以及展示特效的短視頻,圖片的播放進(jìn)程與語音進(jìn)程相一致;若所述圖像為靜態(tài)圖像,可以生成一個(gè)包含了字幕信息以及展示特效的短視頻,圖片可以作為背景,而動(dòng)態(tài)的是字幕信息以及展示特效,且動(dòng)態(tài)的部分隨著語音進(jìn)程進(jìn)行。
所述短視頻可以被保存、收藏、發(fā)送等。
優(yōu)選地,所述方法還包括步驟s7(未示出),其中,所在步驟s7中,所述生成裝置獲取所述用戶的一個(gè)或多個(gè)歷史語音信息,確定與所述用戶相對(duì)應(yīng)的用戶語音特征庫(kù);在步驟s3中,所述生成裝置根據(jù)所述用戶語音特征庫(kù),確定與所述語音信息相對(duì)應(yīng)的語音特征;根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
具體地,在步驟s7中,所述生成裝置通過直接與用戶交互以獲取所述用戶的一個(gè)或多個(gè)歷史語音信息,或者與其他能夠提供該用戶歷史語音信息的設(shè)備相交互,以獲取所述用戶的一個(gè)或多個(gè)歷史語音信息。在此,所述歷史語音信息可以是用戶在其他場(chǎng)景或其他應(yīng)用中所提供的語音信息;所述歷史語音信息可以對(duì)應(yīng)于已確認(rèn)的或未確認(rèn)的語音特征和/或語義特征。
然后,在步驟s7中,所述生成裝置根據(jù)所述歷史語音信息,建立與所述用戶相對(duì)應(yīng)的用戶語音特征庫(kù),例如,通過對(duì)多個(gè)歷史語音信息的分析與統(tǒng)計(jì),得到該用戶的常用音調(diào)、非普通音調(diào)、音色、節(jié)奏等,以建立與該用戶相對(duì)應(yīng)的用戶語音特征庫(kù)。
然后,在步驟s7中,所述生成裝置可以根據(jù)所述用戶語音特征庫(kù),通過將所述用戶的當(dāng)前語音與該用戶語音特征庫(kù)相匹配或?qū)Ρ龋源_定與所述用戶的當(dāng)前語音信息相對(duì)應(yīng)的語音特征。
然后,在步驟s3中,所述生成裝置根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效。
優(yōu)選地,所述方法還包括步驟s8(未示出)和步驟s9(未示出);其中,在步驟s8中,所述生成裝置根據(jù)所述短視頻所對(duì)應(yīng)的應(yīng)用的相關(guān)配置信息,將所述短視頻轉(zhuǎn)存為一種或多種應(yīng)用可用格式;在步驟s9中,所述生成裝置將所述短視頻以所述應(yīng)用可用格式添加在所述應(yīng)用中。
具體地,在步驟s8中,所述生成裝置可以根據(jù)所述短視頻所對(duì)應(yīng)的應(yīng)用的相關(guān)配置信息,確定該應(yīng)用所需求的一種或多種應(yīng)用可用格式;并將所述短視頻轉(zhuǎn)存為所述應(yīng)用可用格式;例如,若所述應(yīng)用為輸入法,則可將所述短視頻轉(zhuǎn)存為動(dòng)態(tài)圖片類格式,以作為動(dòng)態(tài)圖片表情;若所述應(yīng)用為微博等,則可將其轉(zhuǎn)存為一種或多種的可用視頻格式,以作為短視頻發(fā)送。
然后,在步驟s9中,所述生成裝置將所述短視頻以所述應(yīng)用可用格式添加在所述應(yīng)用中,供用戶進(jìn)行后續(xù)調(diào)用。
圖4示出根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的一種用于生成短視頻的方法流程圖。
具體地,在步驟s1’中,所述生成裝置獲取一個(gè)或多個(gè)圖片以及用戶對(duì)所述一個(gè)或多個(gè)圖片的一個(gè)或多個(gè)語音信息;在步驟s2’中,所述生成裝置根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對(duì)應(yīng)的字幕信息;在步驟s3’中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對(duì)應(yīng)的展示特效;在步驟s3’中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻;在步驟s5’中,所述生成裝置根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片;在步驟s6’中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻。
在步驟s5’中,所述生成裝置根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片。
具體地,在步驟s5’中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,并結(jié)合所述圖片的圖片特征,來確定與上述語音信息和所述圖片在內(nèi)容或特征上相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片。
其中,所述語音特征包括但不限于聲調(diào)、節(jié)奏、音色等;所述語義特征即為所述用戶的所述語音的含義。所述圖片特征包括但不限于圖片名稱、圖片說明、圖片色彩、動(dòng)態(tài)信息(如gif動(dòng)態(tài)圖片)、圖片內(nèi)容等。
其中,所述相關(guān)圖片與所述語音信息/所述圖片在內(nèi)容或主題上相關(guān)聯(lián);或者,所述相關(guān)圖片與所述圖片在色調(diào)上相關(guān)聯(lián)等。
例如,若所述語音信息為:“很棒啊!”,所述圖片為“鼓掌”,則可以推薦以“很棒”為主題的其他圖片,如“翹起拇指”、“歡呼”等,或者可以選擇以不同角色為主題的鼓掌圖片或類似圖片,如“兔斯基鼓掌”、“兔斯基點(diǎn)贊”、“ac娘點(diǎn)贊”等。
優(yōu)選地,在步驟s5’中,所述生成裝置還可以從所選擇的相關(guān)圖片中進(jìn)一步篩選出優(yōu)選相關(guān)圖片。例如,繼上例,可以僅將同一主題的相關(guān)圖片挑選出來,作為優(yōu)選相關(guān)圖片,如“兔斯基鼓掌”和“兔斯基點(diǎn)贊”;或者,可以將相關(guān)圖片中色調(diào)類似的圖片挑選出來,作為優(yōu)選相關(guān)圖片,如具有相同的背景色或主題顏色等。
在步驟s6’中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻。
具體地,在步驟s6’中,所述生成裝置可以根據(jù)所述步驟s3’為所述圖片所確定的展示特效,來所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻。或者,所在步驟s6’中,所述生成裝置可以將所述相關(guān)圖片、語音信息、所述圖片重新執(zhí)行步驟s2’(如圖2所示),以供所述步驟s2’為上述內(nèi)容重新確定展示特效,在此,確定所述展示特效的方法與圖3中對(duì)應(yīng)裝置的確定方法相同或相似,故在此不再贅述。
然后,在步驟s6’中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個(gè)或多個(gè)相關(guān)短視頻。
其中,所述相關(guān)短視頻可以是對(duì)應(yīng)于“字幕信息、展示特效、一張所述相關(guān)圖片、所述語音信息”,即將所述字幕信息、所述展示特效、所述語音信息分別添加到某張相關(guān)圖片中,以生成相關(guān)短視頻;
所述相關(guān)短視頻還可以對(duì)應(yīng)于“字幕信息、展示特效、多張所述相關(guān)圖片、所述語音信息”,即將所述字幕信息、所述展示特效、所述語音信息添加到多張相關(guān)圖片中,使得多張相關(guān)圖片能夠連續(xù)播放,以形成一個(gè)動(dòng)態(tài)相關(guān)短視頻;
所述相關(guān)短視頻還可以對(duì)應(yīng)于“字幕信息、展示特效、所述圖片以及一張或多張所述相關(guān)圖片、所述語音信息”,即將所述圖片以及一張或多張相關(guān)圖片作為待處理的圖片,并將所述字幕信息、所述展示特效、所述語音信息添加到上述待處理的圖片中,使得多張待處理的圖片能夠連續(xù)播放,以形成一個(gè)動(dòng)態(tài)相關(guān)短視頻等。
優(yōu)選地,所述步驟s5’包括步驟s51’(未示出)以及步驟s52’(未示出);其中,在步驟s51’中,所述生成裝置確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;在步驟s52’中,所述生成裝置根據(jù)所述語音信息、所述圖片以及所述相關(guān)圖片數(shù)量,確定與所述圖片相關(guān)聯(lián)的一個(gè)或多個(gè)相關(guān)圖片。
具體地,在步驟s51’中,所述生成裝置通過按照預(yù)設(shè)置的方式,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;或者,更優(yōu)選地,基于以下一種或多種方式,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:
-根據(jù)所述語音信息的語音長(zhǎng)度,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語音長(zhǎng)度為5秒,則所述相關(guān)圖片數(shù)量確定為5;若所述語音長(zhǎng)度為10秒,則所述相關(guān)圖片數(shù)量確定為10;
-根據(jù)所述語音信息的語音特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語音特征顯示發(fā)生了2次或多次的語調(diào)變換(如高音轉(zhuǎn)低音,低音轉(zhuǎn)高音等),則提高所確定的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語義特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語義特征顯示出包含了多個(gè)語義關(guān)鍵詞,則可根據(jù)不同的關(guān)鍵詞,確定不同的相關(guān)圖片,因此,相關(guān)圖片數(shù)量會(huì)更多。
在步驟s52’中,所述生成裝置在根據(jù)所述語音信息的語音特征和/或語義特征,并結(jié)合所述圖片的圖片特征的基礎(chǔ)上,來確定與上述語音信息和所述圖片在內(nèi)容或特征上相關(guān)聯(lián)的、符合上述相關(guān)圖片數(shù)量要求的一張或多張相關(guān)圖片。
需要注意的是,本發(fā)明可在軟件和/或軟件與硬件的組合體中被實(shí)施,例如,可采用專用集成電路(asic)、通用目的計(jì)算機(jī)或任何其他類似硬件設(shè)備來實(shí)現(xiàn)。在一個(gè)實(shí)施例中,本發(fā)明的軟件程序可以通過處理器執(zhí)行以實(shí)現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲(chǔ)到計(jì)算機(jī)可讀記錄介質(zhì)中,例如,ram存儲(chǔ)器,磁或光驅(qū)動(dòng)器或軟磁盤及類似設(shè)備。另外,本發(fā)明的一些步驟或功能可采用硬件來實(shí)現(xiàn),例如,作為與處理器配合從而執(zhí)行各個(gè)步驟或功能的電路。
另外,本發(fā)明的一部分可被應(yīng)用為計(jì)算機(jī)程序產(chǎn)品,例如計(jì)算機(jī)程序指令,當(dāng)其被計(jì)算機(jī)執(zhí)行時(shí),通過該計(jì)算機(jī)的操作,可以調(diào)用或提供根據(jù)本發(fā)明的方法和/或技術(shù)方案。而調(diào)用本發(fā)明的方法的程序指令,可能被存儲(chǔ)在固定的或可移動(dòng)的記錄介質(zhì)中,和/或通過廣播或其他信號(hào)承載媒體中的數(shù)據(jù)流而被傳輸,和/或被存儲(chǔ)在根據(jù)所述程序指令運(yùn)行的計(jì)算機(jī)設(shè)備的工作存儲(chǔ)器中。在此,根據(jù)本發(fā)明的一個(gè)實(shí)施例包括一個(gè)裝置,該裝置包括用于存儲(chǔ)計(jì)算機(jī)程序指令的存儲(chǔ)器和用于執(zhí)行程序指令的處理器,其中,當(dāng)該計(jì)算機(jī)程序指令被該處理器執(zhí)行時(shí),觸發(fā)該裝置運(yùn)行基于前述根據(jù)本發(fā)明的多個(gè)實(shí)施例的方法和/或技術(shù)方案。
對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多個(gè)單元或裝置也可以由一個(gè)單元或裝置通過軟件或者硬件來實(shí)現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。