用于自動語音識別系統(tǒng)的共同講話者調(diào)零的制作方法

文檔序號：8320301閱讀：475來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學設(shè)備的制造及制作,分析技術(shù)

用于自動語音識別系統(tǒng)的共同講話者調(diào)零的制作方法
【專利說明】用于自動語音識別系統(tǒng)的共同講話者調(diào)零
[0001] 相關(guān)申請的交叉引用本申請與下列申請相關(guān)：Co-Talker Nulling Based on Multi Super Directional Beamformer，由Jianming Song和Mike Reuter發(fā)明，和本申請同日提交，并由代理人案號 2013P03179US 標識。
【背景技術(shù)】
[0002] 在最近幾年中，通過計算機精確識別人類語音有所改善，但尚未百分之百地精確。語音識別系統(tǒng)的一個已知問題是排除從除了其語音旨在被識別的人以外的某個人發(fā)出的聲音或語音，即共同講話者（co-talker)的語音可能使語音識別系統(tǒng)混亂。能夠定位并抑制來自共同講話者聲音將是優(yōu)于現(xiàn)有技術(shù)的改善。
【附圖說明】
[0003] 圖1是車輛乘客室的平面圖的示意性描繪；圖2是一對空間選擇性麥克風檢測波束的示意性表示；圖3描繪定向波瓣（lobe)對，表示空間選擇性虛擬麥克風；圖4是首頻系統(tǒng)的框圖；圖5描繪由單個"波束"對上的話音樣本處理器執(zhí)行的方法的步驟，該方法實現(xiàn)從駕駛員選擇性捕獲或音頻；圖6是話音樣本處理器的框圖；圖7是車輛乘客室的平面圖的示意性描繪；圖8示出響應(yīng)于來自駕駛員的語音信號的波形，該波形表示從圖7所描繪的車輛乘客室中的麥克風輸出的電信號；圖9描繪圖8中所示的波形的延遲副本；圖10示出響應(yīng)于來自乘客的語音信號聲波的波形，該波形表示從圖7中所示的麥克風輸出的電信號；以及圖11是圖10中所示波形的延遲和反轉(zhuǎn)副本。
【具體實施方式】
[0004] 由Young的實驗演示的行波的相長和相消干涉是公知的。簡單地說，當光波經(jīng)過貫通平板的兩個狹縫時，從狹縫發(fā)出的光波將在定位成越過平板的屏幕上產(chǎn)生交替的亮帶和暗帶。在屏幕上產(chǎn)生的各交替的帶由從狹縫發(fā)出的波的相加和相消干涉引起。
[0005] 發(fā)送的無線電波的相加和相消干涉也是公知的。該現(xiàn)象的一種用途是相控陣雷達。簡單地說，相控陣雷達引導(dǎo)從兩個緊密間隔的天線發(fā)送的RF信號，并且因此，相對于發(fā) 送到第二天線的信號，通過改變發(fā)送到一個天線的RF信號的相位而引導(dǎo)雷達"波束"。
[0006] 行波的相加和相消干涉的另一種用途是定向選擇性或"波束形成"麥克風，它們也是公知的。例如McCowan et al.，"Near-field Adaptive Beam former for Robust Speech Recognition,，' Queensland University of Technology, Brisbane, Australia,其全部內(nèi)容通過引用并入本文。如下文所述，多對超定向麥克風(其中的每一個通過把來自兩個不同的麥克風的信號以數(shù)字方式延遲逐步不同的時間長度來實現(xiàn)）精確地定位和檢測來自駕駛員和共同講話乘客的聲音。由具有最強的共同講話乘客音頻的至少一個超定向麥克風對拾取的、來自共同講話乘客的聲音被從駕駛員的聲音中去除，所述駕駛員的聲音由具有最強駕駛員音頻信號的超定向麥克風對拾取。
[0007] 現(xiàn)在參照各圖，圖1是車輛乘客室100、車輛駕駛員102、車輛乘客104和從他們中每一個發(fā)出的聲波的平面圖的示意性描繪，聲波由同心圓部分106表示。圖1還示出兩個非定向和通用麥克風108U10相對于駕駛員102和乘客104的布置。在圖1中，麥克風 106U08被示出為附連到車輛的后視反射鏡112,并由此彼此以相對小的距離114 (典型地是10-14英寸）被間隔開。
[0008] 如圖1所示，右側(cè)麥克風108比左側(cè)麥克風108更加遠離駕駛員102。類似地，左側(cè)麥克風108比右側(cè)麥克風110更遠離乘客104。從駕駛員102發(fā)出的聲波106因此將在來自駕駛員102的相同聲波108到達右側(cè)麥克風110之前到達左側(cè)麥克風108。從另一側(cè) 的乘客104發(fā)出的聲波106因此將在來自乘客104的相同聲波104到達左側(cè)麥克風108之前到達右側(cè)麥克風110。
[0009] 當駕駛員102說話時，來自駕駛員102的相應(yīng)的聲波106在兩個不同的時間到達兩個麥克風108、110。來自駕駛員的聲音將在聲音到達右麥克風110之前到達左麥克風 108。當右側(cè)麥克風轉(zhuǎn)化來自駕駛員的聲波時，由右側(cè)麥克風生成的模擬電信號將具有相位角，該相位角"滯后于"或者在當左側(cè)麥克風轉(zhuǎn)化相同聲波時由左側(cè)麥克風生成的電信號的相位角的后面。當乘客104說話時，并且來自乘客104的相應(yīng)的聲波106到達兩個麥克風 108、110,當左側(cè)麥克風轉(zhuǎn)化來自乘客的聲波時，由左側(cè)麥克風生成的模擬電信號將具有相位角，該相位角"滯后于"或者在當右側(cè)麥克風轉(zhuǎn)化相同的乘客的聲波時由右側(cè)麥克風生成的電信號的相位角的后面。
[0010] 來自兩個麥克風的音頻信號被采樣，并使用信號處理領(lǐng)域中的普通技術(shù)人員公知的技術(shù)轉(zhuǎn)換成表示樣本的數(shù)字值。為了產(chǎn)生超定向麥克風"波束"，即定向選擇性麥克風，有必要實現(xiàn)源于空間中不同位置并且將必須傳播不同距離到兩個麥克風的波的相加和相長干涉的等效。等效于在不同位置處空間定位麥克風以便實現(xiàn)來自特定方向的波的相加，表示來自第一麥克風的樣本的數(shù)字值被選擇性地以數(shù)字方式延遲達預(yù)定的時間長度，然后與從另一麥克風獲得的樣本組合。當表示非延遲樣本的數(shù)字值被相加到表示先前獲得和延遲的樣本的數(shù)字值時，所得的值將是由麥克風檢測的音頻信號的相加或相消干涉。換句話說，通過選擇性地延遲和組合來自不同麥克風的樣本，由兩個麥克風提供的信號與從中獲得樣本的音頻信號的相加或相消"干涉"組合。選擇性地延遲和組合從麥克風獲得的延遲的樣本因此使得兩個麥克風能夠從不同位置選擇性地接收音頻。因此麥克風表現(xiàn)得好像它們接收和轉(zhuǎn)化僅來自定位在離兩個麥克風一距離處的地區(qū)或區(qū)域的音頻，使得在麥克風處接收的信號將被相加地組合。通過相加地或相消地把樣本組合在一起，源于車輛中的各位置以使得當它們被組合時它們彼此相消地干涉的音頻信號因此能夠被選擇性地接收或抑制。
[0011] 來自兩個麥克風1〇8、110的信號因此可被以數(shù)字方式操縱，以便實現(xiàn)空間選擇性或"波束"，由兩個麥克風從空間選擇性或"波束"檢測到的聲音將被相加或相干地彼此組合，并且因此可用于后續(xù)的用途或處理。
[0012] 圖2是一對空間選擇性麥克風檢測"波束"200、204的示意性表示，"波束"200、204 在本文中也被稱為"波束對" 206。"波束" 200、204由上述聲波的相長和相消干涉"生成"。敏感性的左側(cè)麥克風區(qū)域或"波束"202被"引導(dǎo)"向乘客室100中駕駛員102所定位的位置，并且選擇性地檢測從駕駛員發(fā)出的聲音。右側(cè)麥克風"波束"204被"引導(dǎo)"向乘客104 所定位的位置，選擇性地檢測從乘客104發(fā)出的聲音。
[0013] 信號處理領(lǐng)域中的普通技術(shù)人員將認識到：來自駕駛員102的某些聲音將到達最靠近乘客104的麥克風110并由其檢測。類似地，來自乘客104的聲音也將到達最靠近駕駛員102的麥克風108并由其檢測。因此重要的是，盡可能近地定位駕駛員和共同講話者以便能夠從所檢測的駕駛員的聲音中抑制所檢測的共同講話者的聲音。一旦共同講話乘客被定位，就可抑制由麥克風波束拾取的共同講話者的語音。
[0014] 圖3描繪定向波瓣對，該對由附圖標記302A和302B、304A和304B以及306A和 306B標識。波瓣一般表示乘客室100的空間區(qū)域，其中將使用兩個物理麥克風310、312選擇性地檢測聲音，它的輸出聲音使用音頻行波的相加和相消干涉的原理以數(shù)字方式被處理，從而來實現(xiàn)多個定向選擇性虛擬麥克風。
[0015] 波束對的不同選擇性方向通過檢測由第一虛擬麥克風拾取和由第二虛擬麥克風拾取的聲音來實現(xiàn)。來自虛擬麥克風之一的聲音被選擇性地延遲達逐漸不同的時間長度。每個被延遲的樣本然后與由其它麥克風同時檢測的聲音樣本組合。因為各麥克風被定位成以稍微不同的距離遠離聲源，所以由一個麥克風拾取的聲音將和由不同的麥克風拾取的相同聲音具有不同的相位角。當那些相位角之間的差是180度時，把這些聲音相加在一起將使得由各麥克風拾取的聲音抵消。通過改變來自一個麥克風的聲音的延遲時間長度并把不同延遲的組合在一起聲音，將不同延遲的樣本組合到未延遲的樣本將產(chǎn)生不同程度的相加或相消干涉。這種干涉發(fā)生得好像所檢測的聲音源于不同的空間位置，這相當于"轉(zhuǎn)向"檢測音頻的方向。產(chǎn)生分別來自駕駛員和乘客的信號的最大振幅相長干涉的波束對302、304、 306與使用單個波束的可能情況相比更精確地確定駕駛員和乘客二者的位置，而且他們各自的語音信號與使用單個波束的可能情況相比更精確?；谟甥溈孙L檢測的聲音的振幅大于還是小于預(yù)定閾值，做出聲音來自乘客還是駕駛員的決定，如下所闡述。
[0016] 在替代實施例中，從空間上分離的麥克風發(fā)出的電信號可被選擇性地"選通"或采樣，以便選擇性地接收和忽略在不同時間到達兩個麥克風的聲波。例如，可在第一時刻tl 采樣來自麥克風108的電信號，并且此后的被忽略。可在稍后的時間t2采樣來自另一麥克風110的電信號，并且此后的被忽略。通過選擇tl和t2,使得它們之間的差等于聲音的波長從第一麥克風傳播到第二麥克風所需的時間，兩個樣本將相長地相加。相反地，如果選擇 tl和t2,使得它們的差是聲音的半波長從第一麥克風傳播到第二麥克風所需的時間，則這兩個樣本將相消地相加。因此選擇性地選擇tl和t2使得兩個空間上分離的麥克風能夠通過在不同時間米樣來自麥克風的聲音而定向地辨別聲音。
[0017] 通過比較由每個波束對選擇性地檢測的聲音的相對振幅并把那些振幅和實驗確定的和預(yù)定的閾值相比較，波束對包括定向選擇性濾波器，通過定向選擇性濾波器，與不使用多個波束對的可能情況相比，可更精確地定位駕駛員的位置和駕駛員的音頻。來自波束對302、304、306的音頻信號因此能夠定位駕駛員和乘客。和閾值相比，提供最強檢測信號的波束此后被用來選擇性地從駕駛員音頻信號去除乘客音頻信號。換句話說，通過比較從每個波束對生成的輸出，波束對實現(xiàn)對駕駛員的語音和乘客的語音的選擇性定位。多個波束對還實現(xiàn)對源于乘客的語音信號的抑制。
[0018] 圖4是由語音控制的音頻系統(tǒng)400的框圖。系統(tǒng)400包括：兩個常規(guī)的但是空間上分離的麥克風402、404 ;常規(guī)的模擬到數(shù)字（A/D)轉(zhuǎn)換器406 ;快速傅立葉變換處理器408，被配置成生成來自A/D轉(zhuǎn)換器

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：M.羅伊特;
技術(shù)所有人：大陸汽車系統(tǒng)公司;
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于自動語音識別系統(tǒng)的共同講話者調(diào)零的制作方法