本技術(shù)涉及音頻處理,特別涉及一種主唱人聲的提取方法、裝置、電子設(shè)備及介質(zhì)。
背景技術(shù):
1、目前常用的音樂分離方法包括基于頻域的方法和基于時(shí)域的方法。基于頻域的方法將音樂信號(hào)轉(zhuǎn)換到頻域后,分離為頻域多軌信號(hào),然后再轉(zhuǎn)換為時(shí)域多軌信號(hào)?;跁r(shí)域的方法不經(jīng)過時(shí)頻域轉(zhuǎn)換,直接將時(shí)域音樂信號(hào)分離為時(shí)域多軌信號(hào)。上述提及的音樂分離方法,通常應(yīng)用于人聲和伴奏分離、或者人聲和樂器分離,其特點(diǎn)在于無論是人聲和伴奏之間,還是人聲和樂器之間其音色、聽感具有顯著的差異。
2、然而絕大部分歌曲中存在的和聲伴唱,其與主唱人聲均為發(fā)音人聲,不具備顯著差異。因此常規(guī)的音樂分離算法無法有效從歌曲中提取出主唱人聲。
3、綜上,在實(shí)現(xiàn)本技術(shù)過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在無法有效從歌曲中提取出主唱人聲的問題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本技術(shù)的目的在于提供一種主唱人聲的提取方法、裝置、電子設(shè)備及介質(zhì),能夠有效的從歌曲中提取出主唱人聲信號(hào)。其具體方案如下:
2、第一方面,本技術(shù)公開了一種主唱人聲的提取方法,包括:
3、從每首歌曲對(duì)應(yīng)的和聲庫中選擇與每首歌曲的主唱人聲信號(hào)匹配的和聲信號(hào);
4、將每首歌曲所對(duì)應(yīng)的主唱人聲信號(hào)、和聲信號(hào)和伴奏進(jìn)行混合,以生成歌曲信號(hào);
5、利用設(shè)定數(shù)量的歌曲信號(hào)及其匹配的主唱人聲歌詞文本對(duì)音樂分離模型進(jìn)行訓(xùn)練,以得到訓(xùn)練好的音樂分離模型;
6、在獲取到目標(biāo)歌曲信號(hào)時(shí),利用訓(xùn)練好的音樂分離模型對(duì)所述目標(biāo)歌曲信號(hào)及其匹配的目標(biāo)主唱人聲歌詞文本進(jìn)行分析,以提取出目標(biāo)主唱人聲信號(hào)。
7、可選地,所述和聲庫中包括同步和聲信號(hào)以及交錯(cuò)和聲信號(hào);針對(duì)于所述和聲庫的構(gòu)造過程,所述方法包括:
8、對(duì)同一歌曲的主唱人聲信號(hào)進(jìn)行變調(diào)處理,以得到與主唱人聲演唱同一歌曲段落的同步和聲信號(hào);
9、對(duì)于同一歌曲,從與主唱人聲不同的其他人聲信號(hào)中隨機(jī)選取人聲信號(hào)進(jìn)行模擬,以得到與主唱人聲演唱不同歌曲段落的交錯(cuò)和聲信號(hào)。
10、可選地,將每首歌曲所對(duì)應(yīng)的主唱人聲信號(hào)、和聲信號(hào)和伴奏進(jìn)行混合,以生成歌曲信號(hào)包括:
11、將每首歌曲各自所對(duì)應(yīng)的主唱人聲信號(hào)以及和聲信號(hào)按照設(shè)定的第一信噪比范圍進(jìn)行疊加,以得到每首歌曲各自對(duì)應(yīng)的人聲信號(hào);
12、將每首歌曲各自所對(duì)應(yīng)的人聲信號(hào)及其匹配的伴奏按照設(shè)定的第二信噪比范圍進(jìn)行疊加,以得到每首歌曲各自對(duì)應(yīng)的歌曲信號(hào)。
13、可選地,將每首歌曲所對(duì)應(yīng)的主唱人聲信號(hào)、和聲信號(hào)和伴奏進(jìn)行混合,以生成歌曲信號(hào)包括:
14、將每首歌曲各自所對(duì)應(yīng)的主唱人聲信號(hào)、和聲信號(hào)以及伴奏按照設(shè)定的信噪比范圍進(jìn)行混合,以得到每首歌曲各自對(duì)應(yīng)的歌曲信號(hào)。
15、可選地,利用設(shè)定數(shù)量的歌曲信號(hào)及其匹配的主唱人聲歌詞文本對(duì)音樂分離模型進(jìn)行訓(xùn)練,以得到訓(xùn)練好的音樂分離模型包括:
16、利用音頻編輯器對(duì)歌曲信號(hào)進(jìn)行編碼,以得到歌曲音頻特征;
17、利用文本編輯器對(duì)主唱人聲歌詞文本進(jìn)行編碼,以得到文本特征;
18、將所述歌曲音頻特征及其匹配的文本特征合并后輸入到音樂分離模型,以輸出主唱人聲估計(jì)信號(hào);
19、基于所述主唱人聲估計(jì)信號(hào)和所述主唱人聲信號(hào),更新所述音樂分離模型的模型參數(shù),以得到訓(xùn)練好的音樂分離模型。
20、可選地,利用訓(xùn)練好的音樂分離模型對(duì)所述目標(biāo)歌曲信號(hào)及其匹配的目標(biāo)主唱人聲歌詞文本進(jìn)行分析,以提取出目標(biāo)主唱人聲信號(hào)包括:
21、利用所述訓(xùn)練好的音樂分離模型中的所述音頻編輯器對(duì)目標(biāo)歌曲信號(hào)進(jìn)行編碼,以得到目標(biāo)歌曲音頻特征;
22、利用所述訓(xùn)練好的音樂分離模型中的所述文本編輯器對(duì)目標(biāo)主唱人聲歌詞文本進(jìn)行編碼,以得到目標(biāo)文本特征;
23、將所述目標(biāo)歌曲音頻特征以及所述目標(biāo)文本特征合并后輸入到訓(xùn)練好的音樂分離模型中進(jìn)行分析,以輸出目標(biāo)主唱人聲信號(hào)。
24、可選地,在利用訓(xùn)練好的音樂分離模型對(duì)所述目標(biāo)歌曲信號(hào)及其匹配的目標(biāo)主唱人聲歌詞文本進(jìn)行分析,以提取出目標(biāo)主唱人聲信號(hào)之后,還包括:
25、接收用戶輸入的實(shí)際主唱人聲信號(hào);
26、在所述目標(biāo)主唱人聲信號(hào)和所述實(shí)際主唱人聲信號(hào)的相似度小于預(yù)設(shè)閾值的情況下,利用所述目標(biāo)主唱人聲信號(hào)和所述實(shí)際主唱人聲信號(hào)對(duì)訓(xùn)練好的音樂分離模型的模型參數(shù)進(jìn)行調(diào)整。
27、第二方面,本技術(shù)公開了一種主唱人聲的提取裝置,包括選擇單元、混合單元、訓(xùn)練單元和分析單元;
28、所述選擇單元,用于從每首歌曲對(duì)應(yīng)的和聲庫中選擇與每首歌曲的主唱人聲信號(hào)匹配的和聲信號(hào);
29、所述混合單元,用于將每首歌曲所對(duì)應(yīng)的主唱人聲信號(hào)、和聲信號(hào)和伴奏進(jìn)行混合,以生成歌曲信號(hào);
30、所述訓(xùn)練單元,用于利用設(shè)定數(shù)量的歌曲信號(hào)及其匹配的主唱人聲歌詞文本對(duì)音樂分離模型進(jìn)行訓(xùn)練,以得到訓(xùn)練好的音樂分離模型;
31、所述分析單元,用于在獲取到目標(biāo)歌曲信號(hào)時(shí),利用訓(xùn)練好的音樂分離模型對(duì)所述目標(biāo)歌曲信號(hào)及其匹配的目標(biāo)主唱人聲歌詞文本進(jìn)行分析,以提取出目標(biāo)主唱人聲信號(hào)。
32、可選地,所述和聲庫中包括同步和聲信號(hào)以及交錯(cuò)和聲信號(hào);針對(duì)于所述和聲庫的構(gòu)造過程,所述裝置包括變調(diào)單元和模擬單元;
33、所述變調(diào)單元,用于對(duì)同一歌曲的主唱人聲信號(hào)進(jìn)行變調(diào)處理,以得到與主唱人聲演唱同一歌曲段落的同步和聲信號(hào);
34、所述模擬單元,用于對(duì)于同一歌曲,從與主唱人聲不同的其他人聲信號(hào)中隨機(jī)選取人聲信號(hào)進(jìn)行模擬,以得到與主唱人聲演唱不同歌曲段落的交錯(cuò)和聲信號(hào)。
35、可選地,所述混合單元包括第一疊加子單元和第二疊加子單元;
36、所述第一疊加子單元,用于將每首歌曲各自所對(duì)應(yīng)的主唱人聲信號(hào)以及和聲信號(hào)按照設(shè)定的第一信噪比范圍進(jìn)行疊加,以得到每首歌曲各自對(duì)應(yīng)的人聲信號(hào);
37、所述第二疊加子單元,用于將每首歌曲各自所對(duì)應(yīng)的人聲信號(hào)及其匹配的伴奏按照設(shè)定的第二信噪比范圍進(jìn)行疊加,以得到每首歌曲各自對(duì)應(yīng)的歌曲信號(hào)。
38、可選地,所述混合單元用于將每首歌曲各自所對(duì)應(yīng)的主唱人聲信號(hào)、和聲信號(hào)以及伴奏按照設(shè)定的信噪比范圍進(jìn)行混合,以得到每首歌曲各自對(duì)應(yīng)的歌曲信號(hào)。
39、可選地,所述訓(xùn)練單元包括音頻編碼子單元、文本編碼子單元、合并子單元和更新子單元;
40、所述音頻編碼子單元,用于利用音頻編輯器對(duì)歌曲信號(hào)進(jìn)行編碼,以得到歌曲音頻特征;
41、所述文本編碼子單元,用于利用文本編輯器對(duì)主唱人聲歌詞文本進(jìn)行編碼,以得到文本特征;
42、所述合并子單元,用于將所述歌曲音頻特征及其匹配的文本特征合并后輸入到音樂分離模型,以輸出主唱人聲估計(jì)信號(hào);
43、所述更新子單元,用于基于所述主唱人聲估計(jì)信號(hào)和所述主唱人聲信號(hào),更新所述音樂分離模型的模型參數(shù),以得到訓(xùn)練好的音樂分離模型。
44、可選地,所述分析單元用于利用所述訓(xùn)練好的音樂分離模型中的所述音頻編輯器對(duì)目標(biāo)歌曲信號(hào)進(jìn)行編碼,以得到目標(biāo)歌曲音頻特征;利用所述訓(xùn)練好的音樂分離模型中的所述文本編輯器對(duì)目標(biāo)主唱人聲歌詞文本進(jìn)行編碼,以得到目標(biāo)文本特征;將所述目標(biāo)歌曲音頻特征以及所述目標(biāo)文本特征合并后輸入到訓(xùn)練好的音樂分離模型中進(jìn)行分析,以輸出目標(biāo)主唱人聲信號(hào)。
45、可選地,還包括接收單元和調(diào)整單元;
46、所述接收單元,用于接收用戶輸入的實(shí)際主唱人聲信號(hào);
47、所述調(diào)整單元,用于在所述目標(biāo)主唱人聲信號(hào)和所述實(shí)際主唱人聲信號(hào)的相似度小于預(yù)設(shè)閾值的情況下,利用所述目標(biāo)主唱人聲信號(hào)和所述實(shí)際主唱人聲信號(hào)對(duì)訓(xùn)練好的音樂分離模型的模型參數(shù)進(jìn)行調(diào)整。
48、第三方面,本技術(shù)公開了一種電子設(shè)備,包括:
49、存儲(chǔ)器,用于保存計(jì)算機(jī)程序;
50、處理器,用于執(zhí)行所述計(jì)算機(jī)程序,以實(shí)現(xiàn)前述公開的主唱人聲的提取方法。
51、第四方面,本技術(shù)公開了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于保存計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)前述公開的主唱人聲的提取方法。
52、第五方面,本技術(shù)公開了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)前述公開的主唱人聲的提取方法的步驟。
53、本技術(shù)中,從每首歌曲對(duì)應(yīng)的和聲庫中選擇與每首歌曲的主唱人聲信號(hào)匹配的和聲信號(hào);將每首歌曲所對(duì)應(yīng)的主唱人聲信號(hào)、和聲信號(hào)和伴奏進(jìn)行混合,以生成歌曲信號(hào)??紤]到主唱人聲與和聲容易混淆,但是相比于和聲,主唱人聲與歌詞的對(duì)應(yīng)關(guān)系更加緊密,因此可以利用設(shè)定數(shù)量的歌曲信號(hào)及其匹配的主唱人聲歌詞文本對(duì)音樂分離模型進(jìn)行訓(xùn)練,以得到訓(xùn)練好的音樂分離模型。在獲取到目標(biāo)歌曲信號(hào)時(shí),利用訓(xùn)練好的音樂分離模型對(duì)目標(biāo)歌曲信號(hào)及其匹配的目標(biāo)主唱人聲歌詞文本進(jìn)行分析,可以提取出目標(biāo)主唱人聲信號(hào)。在該技術(shù)方案中,有效構(gòu)造了包含主唱人聲、和聲及伴奏的訓(xùn)練數(shù)據(jù),可以實(shí)現(xiàn)音樂分離模型對(duì)主唱人聲以及和聲的區(qū)分。并且利用了主唱人聲歌詞文本參與音樂分離模型的訓(xùn)練,有效的降低了音樂分離模型識(shí)別主唱人聲與和聲時(shí)產(chǎn)生混淆的概率,使得訓(xùn)練好的音樂分離模型可以從歌曲信號(hào)中有效提取出主唱人聲。