專利名稱:聲音信號分離系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明是有關(guān)于一種信號分離系統(tǒng)及方法,特別是指一種聲音信號分離系統(tǒng)及方法。
背景技術(shù):
盲信號源分離(Blind Source Separation,以下簡稱BSS)技術(shù)是在不確定信號源數(shù)目和信號信息內(nèi)容的情形下,將接收到的由多個單一信號源所混合在一起的信號,分離出原來個別的單一信號源。
例如在雞尾酒會上有許多人的講話聲、及背景音樂等多個聲音信號源,透過許多的麥克風一起接收進來,該BSS技術(shù)即是要將背景音樂及每一人的講話聲音個別地還原出來。
由dx(dx為大于1的整數(shù))個麥克風分別接收到聲音信號x1(t),x2(t),...xdx(t),該多個接收到的聲音信號x1(t),x2(t),...xdx(t)經(jīng)過取樣(sampling)后可成為離散形式(discrete)的混合聲音信號(acousticmixture)x(n)=[x1(n)...xdx(n)]T,且x(n)可用式(1)表示x(n)=Σk=1rs(n-k)A(k)]]>式(1)其中,矩陣s(n)=[s1(n)...sds(n)]T為ds個獨立的聲音源,而A(k)代表各個獨立的聲音源到各個麥克風的傳輸環(huán)境的脈沖響應(yīng)(impulse response),且A(k)的維數(shù)為ds×dx,而r表示該脈沖響應(yīng)A(k)的階數(shù)(order)。因此,由式(1)可知每一個混合聲音信號是原來的聲音源與該傳輸環(huán)境的脈沖響應(yīng)作卷積運算(convolution)的結(jié)果。
而已知的BSS技術(shù)主要是利用該等混合聲音信號x1(n)...xdx(n)去找到一個好的分離矩陣(separated matrix)W(k),并將該分離矩陣W(k)與該多個混合聲音信號x1(n)...xdx(n)分別作卷積運算,以得到分離信號z(n)=[z1(n)...zds(n)],如式(2)。
z(n)=Σk=1rx(n-k)W(k)]]>式(2)且如果能正確的計算出最佳化的分離矩陣W(k),使該分離矩陣W(k)等于該脈沖響應(yīng)A(k)的逆矩陣(inverse matrix),則該等分離聲音z1(n)...zds(n)將分別與對應(yīng)的該等聲音源s1(n)...sds(n)完全相同。
而已知的BSS的技術(shù)是假設(shè)原來的每一個聲音源s1(n)...sds(n)內(nèi)的信號點彼此在統(tǒng)計上是相互獨立,所以沒有空間相關(guān)(spatial correlation),且計算出的分離矩陣W(k)也會使每一個分離聲音z1(n)...zds(n)的信號點間沒有空間相關(guān)和時間相關(guān)(temporal correlation)。但因為每一個原始聲音源s1(n)...sds(n)內(nèi)的信號點彼此間具有很大的時間相關(guān),且每一個混合的聲音信號內(nèi)的信號點彼此間也有空間相關(guān)及時間相關(guān)。因此,已知的BBS技術(shù)直接使用該多個混合聲音信號,將無法找出較佳的分離矩陣W(k),并且會使得每一個分離信號z1(n)...zds(n)的信號點間失去時間相關(guān),而與原來聲音源不相同,導(dǎo)致分離的效果不好。
已知的另一種BSS技術(shù)是K.Kokkinakis、V.Zarzoso及Asoke K.Nandi共同于2003年的期刊4th International Symposium on IndependentComponent Analysis and Blind Signal Separation提出的論文“基于線性預(yù)測分析的聲音混合的盲分離(Blind Separation of Acoustic Mixtures Basedon Linear Prediction Analysis)”中所揭露。
參閱圖1,該BSS技術(shù)包含下列步驟(T1)一個線性預(yù)測(Linear Prediction)處理步驟將該多個混合聲音信號x1(n)...xdx(n)經(jīng)由線性預(yù)測處理成為該多個余留信號r1(n)...rdx(n)。
該線性預(yù)測處理是要盡量地消除每一個混合聲音信號x1(n)...xdx(n)的信號點間的時間相關(guān),即使用式(3)分別對該等混合聲音信號x1(n)...xdx(n)作處理ri(n)=xi(n)-Σk=1qxi(n-k)ai(k)]]>式(3)其中,i代表第i個麥克風11分別接收到且經(jīng)過取樣后的混合聲音信號xi(n),而ai(k)是線性預(yù)測系數(shù),q是階數(shù),且ai(k)的計算方法已于上述2003年K.Kokkinakis、V.Zarzoso及Asoke K.Nandi的論文中揭露。
并且值得注意的是,步驟(T1)仍無法完全或大幅消除每一個混合聲音信號x1(n)...xdx(n)的信號點間的時間相關(guān),故計算出的每一個余留信號r1(n)...rdx(n),其信號點彼此間雖然比混合聲音信號x1(n)...xdx(n)的信號點彼此間的時間相關(guān)性低,但仍具有時間相關(guān)。
步驟(T2)對該多個余留信號做獨立成份分析處理(IndependentComponent Analysis,以下簡稱ICA)。
該ICA處理為已知的技術(shù),可參考由P.Common于1994年的期刊Signal Processing中提出的論文“獨立成分分析,一種新概念?(IndependentComponent Analysis,a new concept?)”。
已知的ICA處理方法主要是從該多個余留信號r1(n)...rdx(n)去計算該分離矩陣W(k),且在計算該分離矩陣W(k)的過程中,該ICA處理方法可以有效地消除每一個余留信號r1(n)...rdx的信號點彼此間的空間相關(guān)。
而計算該分離矩陣W(k)的方法是先隨機產(chǎn)生一個初始Wr(k),且將此初始Wr(k)代入式(4)以得到信號m(n)m(n)=Σk=1ux(n-k)Wr(k)]]>式(4)其中,u為階數(shù)。
然后再將該初始Wr(k)及式(4)計算出的信號m代入式(5)以得到一修正參數(shù)ΔWτ(k)ΔWτ(k)=-a(Σr=0L{off_diagΦ(m(k-L))mT(k-L-τ+r))Wr(k)]]>式(5)其中,在式(5)中,a代表學習率(Learning Rate),off_diagΦ是取矩陣非對角線的值,τ和r為時間指標,L為正整數(shù)且代表混合聲音信號的信號點數(shù)目。
然后再根據(jù)式(6)將該修正參數(shù)ΔWτ(k)與一Wold(k)(即該初始Wr(k))相加以得到Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k) 式(6)并將式(6)計算出的Wnew(k)當作另一個新的Wr(k)代回式(4)以更新該信號m的值,且將新的Wr(k)及更新后的m代入式(5)以得到更新后的修正參數(shù)ΔWτ(k),再根據(jù)式(6)得到更新后的Wnew(k)。并依此遞歸方式重復(fù)計算式(4)、式(5)及式(6),直到式(5)計算出的ΔWτ(k)趨近于0,此時由式(6)計算出的Wnew(k)即為該分離矩陣W(k)。
另外,在計算出分離矩陣W(k)后,步驟(T2)再根據(jù)式(2)將該多個混合聲音信號x1(n)...xdx(n)與該分離矩陣W(k)作卷積運算即可得到該等分離信號z1(n),z2(n),...zds(n)。
已知該BSS技術(shù)在步驟(T1)時只消除了少數(shù)該多個混合聲音信號的時間相關(guān),而在音高(pitch)位置的時間相關(guān)并無法完全去除,且在步驟(T2)中,也無法進一步使每一個余留信號內(nèi)的信號點彼此間的時間相關(guān)降至零。故在步驟(T2)中計算出的分離矩陣仍無法達到最佳化,所以分離出來的信號z1(n)...zds(n)仍無法與對應(yīng)的原始的聲音源s1(n)...sds(n)完全相同,造成分離信號的效果不佳。
此外,在步驟(T1)中,該線性預(yù)測的前置處理除了無法消除音高位置的時間相關(guān)外,另一個缺點是階數(shù)q必須超過50,而使式(3)在計算上顯得相當復(fù)雜及耗費時間。
發(fā)明內(nèi)容
因此,本發(fā)明的目的是提供一種可以提高聲音分離效果的聲音信號分離系統(tǒng)。
本發(fā)明的另一個目的是提供一種聲音信號分離方法,該方法可以從混合的聲音信號較佳地分離出原來的聲音源。
于是,本發(fā)明聲音信號分離系統(tǒng),適用于將復(fù)數(shù)混合聲音信號分離出至少一個單一聲音源。該聲音信號分離系統(tǒng)包含音高預(yù)測模塊,可根據(jù)下式消除每一個混合聲音信號內(nèi)的信號點彼此間的時間相關(guān)yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理后的前置信號,而p是階數(shù),且βi(k)是音高預(yù)測系數(shù),而Dk是音高位置,并且βi(k)及Dk的計算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數(shù)目,D的值可為1到L的正整數(shù),且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D。
線性預(yù)測模塊,與該音高預(yù)測模塊電連接,以下式可進一步繼續(xù)消除每一個前置信號y1(n)...ydx(n)之信號點彼此間的時間相關(guān)以得到相對應(yīng)的余留信號r1(n)...rdx(n)。
ri(n)=yi(n)-Σk=1qyi(n-k)ai(k)]]>
獨立成份分析處理模塊,與該線性預(yù)測模塊電連接,并接收該等余留信號,且可從該等余留信號中計算出一分離矩陣,并可將該分離矩陣與該等混合聲音信號作卷積運算以分離出至少一個該單一聲音源。
于是,本發(fā)明聲音信號分離方法,適用于將復(fù)數(shù)混合聲音信號分離出至少一個單一聲音源。該聲音信號分離方法包含下列步驟(A)以下式消除每一個混合聲音信號內(nèi)的信號點間的時間相關(guān)yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理后的前置信號,而p是階數(shù),βi(k)是音高預(yù)測系數(shù),Dk是音高位置,且βi(k)及Dk的計算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數(shù)目,D的值可為1到L的正整數(shù),且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D。
(B)進一步繼續(xù)消除每一前置信號y1(n)...ydx(n)的信號點彼此間的時間相關(guān)以得到相對應(yīng)的余留信號r1(n)...rdx(n)ri(n)=yi(n)-Σk=1qyi(n-k)ai(k)]]>其中,yi(n)為第i個前置信號,ri(n)為第i個余留信號,而ai(k)是線性預(yù)測系數(shù),q是階數(shù)。
(C)根據(jù)該等余留信號計算出一分離矩陣。
(D)以該分離矩陣與該等混合聲音信號作卷積運算來分離出至少一個該單一聲音源。
本發(fā)明的功效在于音高預(yù)測模塊能大幅消除該等混合聲音信號的時間相關(guān),進而使該分離矩陣能夠最佳化,因此能夠提高聲音信號的分離效果。
圖1是已知的BSS技術(shù)的流程圖,其中包括一線性預(yù)測處理步驟;圖2是本發(fā)明的聲音信號分離系統(tǒng)的優(yōu)選實施例的系統(tǒng)方塊圖;及圖3是本發(fā)明優(yōu)選實施例的流程圖。
具體實施例方式
有關(guān)本發(fā)明的前述及其它技術(shù)內(nèi)容、特點與功效,在以下配合參考圖式的一個優(yōu)選實施例的詳細說明中,將可清楚地理解。
參見圖2,本發(fā)明聲音信號分離系統(tǒng)的優(yōu)選實施例包含聲音接收模塊1、音高預(yù)測模塊2、線性預(yù)測模塊3、獨立成份分析處理模塊4(以下簡稱ICA處理模塊)及聲音播放單元5。
該聲音接收模塊1包括dx個麥克風11及一個取樣單元12。該等麥克風11可分別接收聲音信號,且以下為了方便說明,將第i個麥克風11接收的聲音信號以xi(t)表示,而xi(t)是連續(xù)性的聲音信號。且值得注意的是,在本實施例中,該多個麥克風11的個數(shù)至少要有兩個。
該取樣單元12與該音高預(yù)測模塊2電連接,且可對該對麥克風11接收到的聲音信號x1(t)...xi(t)進行取樣,并將取樣后且呈離散形式的混合聲音信號x1(n)...xdx(n)輸入到該音高預(yù)測模塊2中。在本實施例中,該取樣單元12是以每秒8000次的取樣頻率(sampling rate)將連續(xù)的聲音信號x1(t)...xdx(t)分別取樣后成為離散形式的混合聲音信號x1(n)...xdx(n)。因此每一混合聲音信號x1(n)...xdx(n)每秒都有8000個取樣點,而本發(fā)明的取樣頻率也可以不限于每秒8000次。
此外,在本實施例中,是將每30ms的混合聲音信號x1(n)...xi(n)中的取樣點當作一個音幀(frame)。而接收的聲音信號xi(t)是經(jīng)過該取樣單元12以每秒8000次的取樣頻率取樣后成為混合聲音信號xi(n),因此一個音幀包括該混合聲音信號xi(n)中的30/1000×8000=240個取樣點。但一個音幀也可以是其它時間長度,而不限于30ms中的混合聲音信號x1(n)...xi(n)的取樣點,例如一個音幀也可以包括xi(n)中所有的取樣點。
該音高預(yù)測模塊2與該取樣單元12及該線性預(yù)測模塊3電連接,并且該音高預(yù)測模塊2讀進從該取樣單元12輸出的該音幀的混合聲音信號x1(n)...xi(n),并根據(jù)式(7)消除每一個混合聲音信號的信號點間的時間相關(guān)后成為前置信號y1(n)...yi(n),并且輸出該等前置信號y1(n)...ydx(n)至該線性預(yù)測模塊3。
yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>式(7)其中,在式(7)中,p是階數(shù),且βi(k)是音高預(yù)測系數(shù)(Pitch PredictionCoefficient),而Dk是音高位置(Pitch Position),且βi(k)及Dk的計算方式如式(8)βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>式(8)其中,L是音幀的長度,即是一個音幀中所包含的信號點數(shù)目。而D的值可為1到L的正整數(shù),且將不同的D值代入式(8)中可得到不同的βi(D)的值。而在式(7)中,βi(k)是式(8)中βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D,即k=1時之βi(1)則是式(8)中βi(D)的最大值,且D1即是使βi(D)值最大的D。而k=2時的βi(2)則是式(8)中βi(D)的第二大值,且D2即是使βi(D)的值為第二大的D。
且值得注意的是,在式(7)中,階數(shù)p只要算到p=1或是p=2就可以比已知技術(shù)大幅消去該多個混合聲音信號的時間相關(guān)。
該線性預(yù)測模塊3與該ICA處理模塊4電連接,并且讀進從該音高預(yù)測模塊2輸出的該音幀之前置信號y1(n)...ydx(n),并根據(jù)式(9)的線性預(yù)測法,消除該多個前置信號y1(n)...ydx(n)的信號點間的時間相關(guān)后成為余留信號r1(n)...rdx(n),并且輸出該多個余留信號r1(n)...rdx(n)至該ICA處理模塊4。
ri(n)=yi(n)-Σk=1qyi(n-k)ai(k)]]>式(9)其中,q是階數(shù),且線性預(yù)測系數(shù)ai(k)的計算方式為已知的技術(shù),在此不再贅述。
該ICA處理模塊4可接收該線性預(yù)測模塊3處理后的余留信號r1(n)...rdx(n),并根據(jù)先前技術(shù)所述的式(4)、式(5)及式(6)消除其信號點間的空間相關(guān)后得到一個分離矩陣W(k)。且再依此分離矩陣并根據(jù)先前技術(shù)所述的式(2)計算出分離信號z1(n)...zds(n),并將該多個分離信號z1(n)...zds(n)輸出至該聲音播放單元5。而因為該ICA處理為已知的技術(shù)且在先前技術(shù)中已說明,故在此不再詳細說明。
該聲音播放單元5可接收從該ICA處理模塊4輸出的該音幀中的分離信號zi(n),并且可將該分離信號zi(n)播放出來。
本發(fā)明聲音信號分離系統(tǒng)的一個優(yōu)選實施例能夠從dx個混合聲音信號x1(n),x2(n),...xdx(n)分離出ds個分離信號z1(n),z2(n),...zds(n)。
參見圖3,本發(fā)明的聲音信號分離系統(tǒng)使用的方法包含下列步驟(S1)由dx個麥克風11分別接收dx個連續(xù)性的聲音信號x1(t)...xi(t),其中每個xi(t)為時間的函數(shù)。
(S2)將dx個麥克風11接收的聲音信號x1(t)...xdx(t)經(jīng)該取樣單元12以每秒8000次的取樣頻率分別取樣后成為離散形式的dx個混合聲音信號x1(n)...xdx(n)。
(S3)該音高預(yù)測模塊2從該取樣單元12讀進一個音幀中該多個混合聲音信號是所有取樣點x1(n)...xdx(n),n=1...240。并根據(jù)式(7)、式(8)大幅消除每個混合聲音信號是信號點間在音高位置的時間相關(guān)以得到該音幀中的前置信號y1(n)...ydx(n)。
(S4)該線性預(yù)測模塊3根據(jù)式(9)更完全地消除該多個前置信號y1(n)...ydx(n)的信號點間的時間相關(guān)以得到該音幀中的余留信號r1(n)...rdx(n)。
(S5)該ICA處理模塊4接收該多個余留信號r1(n)...rdx(n),并根據(jù)式(4)、式(5)及式(6)計算出該分離矩陣W(k)。
(S6)該ICA處理模塊4以該分離矩陣W(k)及該音幀中的混合聲音信號x1(n)...xdx(n),n=1...240的取樣點,經(jīng)由式(2)做卷積運算求取該音幀中相對應(yīng)的分離信號zi(n),n=1...240的240個值。
(S7)將步驟(S6)得到的分離信號zi(n)用該聲音播放單元5播出。并在執(zhí)行完畢后跳到步驟(S3)。并繼續(xù)針對下一音幀依序執(zhí)行步驟(S3)~(S7)。并重復(fù)步驟(S3)~(S7)直到已處理完每一音幀。
值得注意的是,本發(fā)明也可只包含該音高預(yù)測模塊2、該線性預(yù)測模塊3及該ICA處理模塊4,而不需包含該聲音接收模塊1及該聲音播放單元5。即待分析的混合聲音信號x1(n)...xdx(n)不一定需要透過麥克風11接收進來,也可透過網(wǎng)絡(luò)下載、電性接口,或是儲存媒體直接輸入到該音高預(yù)測模塊2中。例如可將外界數(shù)據(jù)庫中的混合聲音信號x1(n)...xdx(n)從一個通用串行總線(Universal Serial Bus,USB)接口輸入,或是用光驅(qū)讀取光盤上儲存的該等混合聲音信號x1(n)...xdx(n)的方式,將待處理的混合信號x1(n)...xdx(n)輸入到該音高預(yù)測模塊2中。而經(jīng)由該ICA處理模塊4處理完后的數(shù)據(jù)也可送至其它系統(tǒng)中進行后續(xù)的應(yīng)用,并不一定要播放出來。
此外,本發(fā)明也可只包含該音高預(yù)測模塊2及該ICA處理模塊4,而不需包含該線性預(yù)測模塊3。且即使移除該線性預(yù)測模塊3仍可有效地改善已知技術(shù)的缺失,此外,由于該線性預(yù)測模塊3計算的方式較為復(fù)雜且需耗費較多的計算時間,故移除該線性預(yù)測模塊3則也可使本發(fā)明比已知技術(shù)節(jié)省計算時間。而此時,由該音高預(yù)測模塊2輸出的前置信號y1(n)...ydx(n)則直接送至該ICA處理模塊4,而該ICA處理模塊4此時則不再由該余留信號去計算出該分離矩陣W(k),而是直接根據(jù)前置信號y1(n)...ydx(n)來計算分離矩陣W(k)。且同時,本發(fā)明的聲音信號分離方法則不需包括步驟(S4),且在步驟(S5)中,該ICA處理模塊4則是根據(jù)該音高預(yù)測模塊2處理完后的前置信號y1(n)...ydx(n)來計算分離矩陣W(k)。
綜合上述,因為本發(fā)明的音高預(yù)測模塊2可大幅消除每一個混合聲音信號的信號點間在該音高位置的時間相關(guān),故可使該分離矩陣達到最佳化,故分離出的該多個分離信號即可較不失真而能與原來的該多個聲音源相同。而且,該音高預(yù)測模塊2所使用的式(7)中,階層p只要是1或是2就足夠,故可以簡化計算復(fù)雜度及節(jié)省計算時間。
以上所說明的僅是本發(fā)明的優(yōu)選實施例,而不能以此限定本發(fā)明實施的范圍,本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求所限定的精神和范圍的情況下對本發(fā)明內(nèi)容所作的簡單的等效變化與修飾,皆屬于本發(fā)明涵蓋的范圍。
權(quán)利要求
1.一種聲音信號分離系統(tǒng),適用于將多個混合聲音信號分離出至少一個單一聲音源,該聲音信號分離系統(tǒng)包含音高預(yù)測模塊,可根據(jù)下式大幅消除每一個混合聲音信號內(nèi)的信號點彼此間的時間相關(guān)yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理后的前置信號,而p是階數(shù),且βi(k)是音高預(yù)測系數(shù),Dk是音高位置,而βi(k)及Dk的計算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數(shù)目,D的值可是1到L的正整數(shù),且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;及獨立成份分析處理模塊,與該音高預(yù)測模塊電連接,并接收該音高預(yù)測模塊處理后的前置信號,且可根據(jù)該等前置信號計算出一個分離矩陣,并可將該分離矩陣與該多個混合聲音信號作卷積運算以分離出至少一個該單一聲音源。
2.根據(jù)權(quán)利要求1所述的聲音信號分離系統(tǒng),其中,該獨立成份分析處理模塊以獨立成份分析法計算出該分離矩陣。
3.根據(jù)權(quán)利要求1所述的聲音信號分離系統(tǒng),其中,該獨立成份分析處理模塊根據(jù)下式分離出至少一個該單一聲音源z(n)=Σk=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(s)]為ds個該多個分離出的單一聲音源,而W(k)為分離矩陣,x(n)=[x1(n)...xdx(n)]為dx個該多個混合聲音信號,且dx及ds為正整數(shù),r為階數(shù)。
4.根據(jù)權(quán)利要求1所述的聲音信號分離系統(tǒng),其中,計算該分離矩陣W(k)的方法是先隨機產(chǎn)生一個初始Wr(k),且將該初始Wr(k)代入下式以得到一個信號m(n),其中u是階數(shù)m(n)=Σk=1ux(n-k)Wr(k)]]>然后利用該信號m(n)及該初始Wr(k)代入下式以得到一個修正參數(shù)ΔWτ(k)ΔWτ(k)=-a(Σr=0L{off_diagΦ(m(k-L))mT(k-L-τ+r))Wr(k)]]>其中,a代表學習率,off_diagΦ是取矩陣非對角線的值,τ和r為時間指標,L為一正整數(shù)且代表該混合聲音信號的信號點數(shù)目,且以該初始Wr(k)作為Wold(k),然后根據(jù)下式將該修正參數(shù)ΔWτ(k)與該Wold(k)的值相加以得到一個Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)并再以該Wnew(k)作為更新后的Wr((k),重復(fù)遞歸計算出更新后的m(n)、修正參數(shù)ΔWτ(k)及Wnew(k),且直到計算出的修正參數(shù)ΔWτ(k)趨近于0,此時的Wnew(k)即為該分離矩陣W(k)。
5.根據(jù)權(quán)利要求1所述的聲音信號分離系統(tǒng),還包括多個麥克風及一個取樣單元,且每一個麥克風與該取樣單元電連接并可接收連續(xù)性的聲音信號,而該取樣單元則可對該多個麥克風接收到的聲音信號取樣以成為該多個離散形式的混合聲音信號。
6.根據(jù)權(quán)利要求1所述的聲音信號分離系統(tǒng),還包括一個聲音播放單元,該聲音播放單元與該獨立成份分析模塊電連接,且可將該獨立成份分析處理模塊分析出的聲音源播放出來。
7.一種聲音信號分離系統(tǒng),適用于將多個混合聲音信號分離出至少一個單一聲音源,該聲音信號分離系統(tǒng)包含音高預(yù)測模塊,可根據(jù)下式消除每一個混合聲音信號內(nèi)的信號點彼此間的時間相關(guān)yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理后的前置信號,而p是階數(shù),且βi(k)是音高預(yù)測系數(shù),而Dk是音高位置,并且βi(k)及Dk的計算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數(shù)目,D的值可為1到L的正整數(shù),且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;線性預(yù)測模塊,與該音高預(yù)測模塊電連接,可進一步繼續(xù)消除每一個前置信號y1(n)...ydx(n)的信號點彼此間的時間相關(guān)以得到相對應(yīng)的余留信號r1(n)...rdx(n)ri(n)=yi(n)-Σk=1qyi(n-k)ai(k)]]>其中,yi(n)為第i個前置信號,ri(n)為第i個余留信號,而ai(k)是線性預(yù)測系數(shù),q是階數(shù);及獨立成份分析處理模塊,與該線性預(yù)測模塊電連接,并接收該多個余留信號,且可從該多個余留信號中計算出一個分離矩陣,并可將該分離矩陣與該多個混合聲音信號作卷積運算以分離出至少一個該單一聲音源。
8.根據(jù)權(quán)利要求7所述的聲音信號分離系統(tǒng),其中,該獨立成份分析處理模塊以獨立成份分析法計算出該分離矩陣。
9.根據(jù)權(quán)利要求7所述的聲音信號分離系統(tǒng),其中,該獨立成份分析處理模塊根據(jù)下式分離出至少一個該單一聲音源z(n)=Σk=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(n)]為ds個該多個分離出的單一聲音源,而W(k)為分離矩陣,x(n)=[x1(n)...xdx(n)]為dx個該多個混合聲音信號,且dx及ds為正整數(shù),r為階數(shù)。
10.根據(jù)權(quán)利要求7所述的聲音信號分離系統(tǒng),其中,計算該分離矩陣W(k)的方法是先隨機產(chǎn)生一個初始Wr(k),且將該初始Wr(k)代入下式以得到一個信號m(n),其中u是階數(shù)(n)=Σk=1ux(n-k)Wr(k)]]>然后利用該信號m(n)及該初始Wr(k)代入下式以得到一個修正參數(shù)ΔWτ(k)ΔWτ(k)=-a(Σr=0L{off_diafΦ(m(k-L))mT(k-L-τ+r))Wr(k)]]>其中,a代表學習率,off_diagΦ是取矩陣非對角線的值,τ和r為時間指標,L為一正整數(shù)且代表該混合聲音信號的信號點數(shù)目,且以該初始Wr(k)作為Wold(k),然后根據(jù)下式將該修正參數(shù)ΔWτ(k)與該Wold(k)的值相加以得到一個Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)并再以該Wnew(k)作為更新后的Wr(k),重復(fù)遞歸計算出更新后的m(n)、修正參數(shù)ΔWτ(k)及Wnew(k),且直到計算出的修正參數(shù)ΔWτ(k)趨近于0,此時的Wnew(k)即為該分離矩陣W(k)。
11.根據(jù)權(quán)利要求7所述的聲音信號分離系統(tǒng),還包括多個麥克風及一個取樣單元,且每個麥克風與該取樣單元電連接并可接收連續(xù)性的聲音信號,而該取樣單元則可對該多個麥克風接收到的聲音信號取樣以成為離散形式的混合聲音信號。
12.根據(jù)權(quán)利要求7所述的聲音信號分離系統(tǒng),還包括一個聲音播放單元,該聲音播放單元與該獨立成份分析模塊電連接,且可將該獨立成份分析處理模塊分析出的聲音源播放出來。
13.一種聲音信號分離方法,適用于將多個混合聲音信號分離出至少一個單一聲音源,該聲音信號分離方法包含下列步驟(a)以下式消除每一個混合聲音信號內(nèi)的信號點間的時間相關(guān)yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理后的前置信號,而p是階數(shù),βi(k)是音高預(yù)測系數(shù),Dk是音高位置,且βi(k)及Dk的計算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數(shù)目,D的值可為1到L的正整數(shù),且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;(b)根據(jù)該多個前置信號計算出一個分離矩陣;及(c)以該分離矩陣與該等混合聲音信號作卷積運算來分離出至少一個該單一聲音源。
14.根據(jù)權(quán)利要求13所述的聲音信號分離方法,其中,在步驟(c)中根據(jù)下式分離出至少一個該單一聲音源z(n)=Σk=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(n)]為ds個該多個分離出的單一聲音源,而W(k)為該分離矩陣,x(n)=[x1(n)...xdx(n)]為dx個該多個混合聲音信號,且dx及ds為正整數(shù),r為階數(shù)。
15.根據(jù)權(quán)利要求13所述的聲音信號分離方法,其中,在步驟(b)中,以獨立成份分析法計算出該分離矩陣。
16.根據(jù)權(quán)利要求13所述的聲音信號分離方法,其中,計算該分離矩陣W(k)的方法是先隨機產(chǎn)生一個初始Wr(k),且將該初始Wr(k)代入下式以得到一個信號m(n),其中u是階數(shù)m(n)=Σk=1ux(n-k)Wr(k)]]>然后利用該信號m(n)及該初始Wr(k)代入下式以得到一個修正參數(shù)ΔWτ(k)ΔWτ(k)=-a(Σr=0L{off_diagΦ(m(k-L))mT(k-L+τ+r))Wr(k)]]>其中,a代表學習率,off_diagΦ是取矩陣非對角線的值,τ和r為時間指標,L為一正整數(shù)且代表該混合聲音信號的信號點數(shù)目,且以該初始Wr(k)作為Wold(k),然后根據(jù)下式將該修正參數(shù)ΔWτ(k)與該Wold(k)的值相加以得到Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)并再以該Wnew(k)作為更新后的Wr(k),重復(fù)遞歸計算出更新后的m(n)、修正參數(shù)ΔWτ(k)及Wnew(k),且直到計算出的修正參數(shù)ΔWτ(k)趨近于0,此時的Wnew(k)即為該分離矩陣W(k)。
17.根據(jù)權(quán)利要求13所述的聲音信號分離方法,其中,該多個混合聲音信號是對多個麥克風接收到的聲音信號取樣后得到的。
18.一種聲音信號分離方法,適用于將多個混合聲音信號分離出至少一個單一聲音源,該聲音信號分離方法包含下列步驟(A)以下式消除每一個混合聲音信號內(nèi)的信號點間的時間相關(guān)yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理后的前置信號,而p是階數(shù),βi(k)是音高預(yù)測系數(shù),Dk是音高位置,且βi(k)及Dk的計算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數(shù)目,D的值可為1到L的正整數(shù),且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;(B)進一步繼續(xù)消除每一個前置信號y1(n)...ydx(n)的信號點彼此間的時間相關(guān)以得到相對應(yīng)的余留信號r1(n)...rdx(n)ri(n)=yi(n)-Σk=1qyi(n-k)ai(k)]]>其中,yi(n)為第i個前置信號,ri(n)為第i個余留信號,而ai(k)是線性預(yù)測系數(shù),q是階數(shù);(C)根據(jù)該多個余留信號計算出一個分離矩陣;及(D)以該分離矩陣與該多個混合聲音信號作卷積運算來分離出至少一個該單一聲音源。
19.根據(jù)權(quán)利要求18所述的聲音信號分離方法,其中,在步驟(D)中根據(jù)下式分離出至少一個該單一聲音源z(n)=Σk=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(n)]為ds個該多個分離出的單一聲音源,而W(k)為該分離矩陣,x(n)=[x1(n)...xdx(n)]為dx個該多個混合聲音信號,且dx及ds為正整數(shù),r為階數(shù)。
20.根據(jù)權(quán)利要求18所述的聲音信號分離方法,其中,在步驟(C)中,以獨立成份分析法計算出該分離矩陣。
21.根據(jù)權(quán)利要求18所述的聲音信號分離方法,其中,計算該分離矩陣W(k)的方法是先隨機產(chǎn)生一個初始Wr(k),且將該初始Wr(k)代入下式以得到信號m(n),其中u是階數(shù)m(n)=Σk=1ux(n-k)Wr(k)]]>然后利用該信號m(n)及該初始Wr(k)代入下式以得到一個修正參數(shù)ΔWτ(k)ΔWτ(k)=-a(Σr=0L{off_diagΦ(m(k-L))mT(k-L-τ+r))Wr(k)]]>其中,a代表學習率,off_diagΦ是取矩陣非對角線的值,τ和r為時間指標,L為一正整數(shù)且代表該混合聲音信號的信號點數(shù)目,且以該初始Wr(k)作為Wold(k),然后根據(jù)下式將該修正參數(shù)ΔWτ(k)與該Wold(k)的值相加以得到Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)并再以該Wnew(k)作為更新后的Wr(k),重復(fù)遞歸計算出更新后的m(n)、修正參數(shù)ΔWτ(k)及Wnew(k),且直到計算出的修正參數(shù)ΔWτ(k)趨近于0,此時的Wnew(k)即為該分離矩陣W(k)。
22.根據(jù)權(quán)利要求18所述的聲音信號分離方法,其中,該多個混合聲音信號是對多個麥克風接收到的聲音信號取樣后得到的。
全文摘要
一種聲音信號分離系統(tǒng),適用于將多個混合聲音信號分離出至少一個單一聲音源,該聲音信號分離系統(tǒng)包含音高預(yù)測模塊,可消除每個混合聲音信號內(nèi)的信號點彼此間的時間相關(guān)成為相對應(yīng)的前置信號。線性預(yù)測模塊,與該音高預(yù)測模塊電連接,可進一步繼續(xù)消除每個前置信號的信號點彼此間的時間相關(guān)以得到相對應(yīng)的余留信號。獨立成分分析處理模塊,與該線性預(yù)測模塊電連接,并接收該多個余留信號,且可從該多個余留信號中計算出一個分離矩陣,并可將該分離矩陣與該多個混合聲音信號作卷積運算以分離出至少一個該單一聲音源。
文檔編號G10L21/028GK1808571SQ20051000554
公開日2006年7月26日 申請日期2005年1月19日 優(yōu)先權(quán)日2005年1月19日
發(fā)明者林哲民, 吳建明 申請人:松下電器產(chǎn)業(yè)株式會社