本公開涉及用于處理音頻信號的設(shè)備和方法,更具體地,涉及用于將音頻信號分離為音頻源的電子設(shè)備和方法。
背景技術(shù):
1、在音頻處理技術(shù)中,音頻分離模型可用于從一個混合音頻信號中分離出針對每個說話者的音頻信號。例如,在存在男性說話者和女性說話者同時說話的情況下的10秒音頻信號的場景中,音頻分離模型可將該10秒音頻信號分離為由男性發(fā)出的10秒音頻信號和由女性發(fā)出的10秒音頻信號。
2、然而,在將被分析的音頻信號中可能存在若干個說話者,并且在這種情況下,來自音頻分離模型的輸出結(jié)果的質(zhì)量可能較低。例如,不同說話者的音頻信號可能相互組合。此外,音頻信號可能包括來自兩個以上說話者的音頻。
3、此外,即使在只有兩個說話者的場景中,在音頻信號被分割為短時段并由音頻分離模型輸出的情況下,輸出結(jié)果中的說話者的順序也可能不規(guī)則。因此,不同說話者的音頻信號可能相互組合。
4、此外,在音頻分離模型對包括比可允許分割的說話者數(shù)量更多的說話者的音頻信號進(jìn)行分離的情況下,來自音頻分離模型的輸出結(jié)果的質(zhì)量可能較低。
技術(shù)實(shí)現(xiàn)思路
1、技術(shù)方案
2、本公開提供了一種可將音頻信息分割為包括重疊區(qū)域的多個音頻信息并從分割的音頻信息中獲取針對每個音頻源的音頻數(shù)據(jù)的電子設(shè)備及其控制方法。
3、根據(jù)本公開的一方面,提供了一種電子設(shè)備,包括:存儲器,被配置為存儲至少一個指令;以及至少一個處理器,被配置為運(yùn)行至少一個指令以進(jìn)行以下操作:基于具有多個重疊區(qū)域的多個時間段將音頻數(shù)據(jù)分割為多個部分的音頻數(shù)據(jù),從多個部分中的每一個部分中獲取音頻特征,基于音頻特征在多個部分中的每一個部分中識別第一音頻源和第二音頻源,以及從音頻數(shù)據(jù)中獲取與第一音頻源相對應(yīng)的第一音頻數(shù)據(jù)和與第二音頻源相對應(yīng)的第二音頻數(shù)據(jù)。
4、至少一個處理器還可被配置為對音頻數(shù)據(jù)進(jìn)行分割以進(jìn)行以下操作:獲取與多個時間段中的第一時段相對應(yīng)的第一部分,以及獲取與多個時間段中的第二時段相對應(yīng)的第二部分,其中,第二時段不同于第一時段,并且其中,第一部分和第二部分包括多個重疊區(qū)域中的重疊區(qū)域。
5、至少一個處理器還可被配置為在多個時間段中的每一個時間段中基于第一音頻源或第二音頻源來識別多個音頻塊;通過將多個音頻塊中與第一音頻源相對應(yīng)的兩個或更多個第一音頻塊彼此組合來獲取第一音頻數(shù)據(jù);以及通過將多個音頻塊中與第二音頻源相對應(yīng)的兩個或更多個第二音頻塊彼此組合來獲取第二音頻數(shù)據(jù)。
6、至少一個處理器還可被配置為識別多個音頻塊中的多個重疊區(qū)域,并通過將多個重疊區(qū)域彼此比較來獲取第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)。
7、至少一個處理器還可被配置為:獲取多個音頻塊中的多個重疊區(qū)域之間的相似度,通過對相似度大于或等于第一閾值的兩個或更多個第一音頻塊進(jìn)行組合來獲取第一音頻數(shù)據(jù);并通過對相似度大于或等于第一閾值的兩個或更多個第二音頻塊進(jìn)行組合來獲取第二音頻數(shù)據(jù)。
8、至少一個處理器還可被配置為當(dāng)相似度小于第一閾值并且大于或等于第二閾值時擴(kuò)展多個重疊區(qū)域中的至少一個重疊區(qū)域,并基于擴(kuò)展的重疊區(qū)域?qū)σ纛l數(shù)據(jù)進(jìn)行分割。
9、至少一個處理器還可被配置為獲取多個音頻塊中的第一音頻塊中的音頻信號的峰值,獲取第一音頻塊的重疊區(qū)域中包括的音頻信號的平均值,并基于峰值與平均值之間的差來識別重疊區(qū)域是否是無聲的。
10、至少一個處理器還可被配置為識別包括在音頻數(shù)據(jù)中的音頻源的數(shù)量,并且當(dāng)識別的音頻源的數(shù)量小于閾值時對音頻數(shù)據(jù)進(jìn)行分割。
11、至少一個處理器還可被配置為當(dāng)音頻數(shù)據(jù)的持續(xù)時間大于或等于閾值時對音頻數(shù)據(jù)進(jìn)行分割。
12、至少一個處理器還可被配置為基于存儲在存儲器中的第一人工智能模型來識別音頻數(shù)據(jù)中的音頻源的數(shù)量,并基于存儲在存儲器中的第二人工智能模型來獲取第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù),第一人工智能模型不同于第一人工智能模型。
13、根據(jù)本公開的另一方面,提供了一種電子設(shè)備的控制方法,該方法包括:基于具有多個重疊區(qū)域的多個時間段將音頻數(shù)據(jù)分割為多個部分的音頻數(shù)據(jù);從多個部分的每一個部分中獲取音頻特征;基于音頻特征在多個部分的每一個部分中識別第一音頻源和第二音頻源;以及從音頻數(shù)據(jù)中獲取與第一音頻源相對應(yīng)的第一音頻數(shù)據(jù)和與第二音頻源相對應(yīng)的第二音頻數(shù)據(jù)。
14、對音頻數(shù)據(jù)進(jìn)行分割可包括:獲取與多個時間段中的第一時段相對應(yīng)的第一部分,以及獲取與多個時間段中的第二時段相對應(yīng)的第二部分,其中,第二時段不同于第一時段,并且其中,第一部分和第二部分包括多個重疊區(qū)域中的重疊區(qū)域。
15、該方法還可包括在多個時間段的每一個時間段中基于第一音頻源或第二音頻源來識別多個音頻塊,其中,獲取第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)包括:通過將多個音頻塊中與第一音頻源相對應(yīng)的兩個或更多個第一音頻塊彼此組合來獲取第一音頻數(shù)據(jù);以及通過將多個音頻塊中與第二音頻源相對應(yīng)的兩個或更多個第二音頻塊彼此組合來獲取第二音頻數(shù)據(jù)。
16、獲取第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)可包括:識別多個音頻塊中的多個重疊區(qū)域,通過將多個重疊區(qū)域彼此比較來獲取第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)。
17、該方法還可包括:獲取多個音頻塊中的多個重疊區(qū)域之間的相似度,其中,獲取第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)包括:通過對相似度大于或等于第一閾值的兩個或更多個第一音頻塊進(jìn)行組合來獲取第一音頻數(shù)據(jù);以及通過對相似度大于或等于第一閾值的相似度的兩個或更多個第二音頻塊進(jìn)行組合來獲取第二音頻數(shù)據(jù)。
1.一種電子設(shè)備,包括:
2.如權(quán)利要求1所述的電子設(shè)備,其中,所述至少一個處理器還被配置為對所述音頻數(shù)據(jù)進(jìn)行分割以進(jìn)行以下操作:
3.如權(quán)利要求1所述的電子設(shè)備,其中,所述至少一個處理器被配置為:
4.如權(quán)利要求3所述的電子設(shè)備,其中,所述至少一個處理器還被配置為:
5.如權(quán)利要求3所述的電子設(shè)備,其中,所述至少一個處理器還被配置為:
6.如權(quán)利要求5所述的電子設(shè)備,其中,所述至少一個處理器還被配置為:
7.如權(quán)利要求3所述的電子設(shè)備,其中,所述至少一個處理器還被配置為:
8.如權(quán)利要求1所述的電子設(shè)備,其中,所述至少一個處理器還被配置為:
9.如權(quán)利要求8所述的電子設(shè)備,其中,所述至少一個處理器還被配置為當(dāng)所述音頻數(shù)據(jù)的持續(xù)時間大于或等于閾值時間時對所述音頻數(shù)據(jù)進(jìn)行分割。
10.如權(quán)利要求8所述的電子設(shè)備,其中,所述至少一個處理器被配置為:
11.一種電子設(shè)備的控制方法,所述方法包括:
12.如權(quán)利要求11所述的方法,其中,對所述音頻數(shù)據(jù)進(jìn)行分割包括:
13.如權(quán)利要求11所述的方法,還包括:
14.如權(quán)利要求13所述的方法,其中,獲取所述第一音頻數(shù)據(jù)和所述第二音頻數(shù)據(jù)包括:
15.如權(quán)利要求14所述的方法,還包括: