助聽系統(tǒng)與助聽系統(tǒng)的語音擷取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種助聽系統(tǒng)與助聽系統(tǒng)的語音擷取方法,特別是涉及一種結(jié)合影像輔助收音的助聽系統(tǒng)與助聽系統(tǒng)的語音擷取方法。
【背景技術(shù)】
[0002]雞尾酒會(huì)效應(yīng)(cocktail party effect)是指人的一種聽力選擇能力,在這種情況下,注意力會(huì)集中在某一個(gè)人的談話中,而忽略背景中其他的對(duì)話或噪音。使我們可以在吵雜環(huán)境中談話。但是由于聽損患者的聽力閥值上升,導(dǎo)致這樣的聽覺選擇性傾聽的能力大幅降低,以致于目前的助聽器使用者在面對(duì)眾多語言訊號(hào)中,如何選取目標(biāo)語言訊號(hào),而不被其他語言訊號(hào)干擾,成了一個(gè)很大的挑戰(zhàn)。
[0003]目前助聽器利用聲音訊號(hào)特性不同,雖然可以有效的區(qū)分語音(speech)及噪音(noise),而將噪音訊號(hào)濾除,但是在日常生活環(huán)境卻經(jīng)常同時(shí)存在許多語音訊號(hào),且其中大多數(shù)語音訊號(hào)是患者不想聽的,如雞尾酒會(huì)、市場、餐廳等地方,雖然使用方向性麥克風(fēng)可以降低來自患者后方及側(cè)面的聲音訊號(hào),但是來自患者前方的聲音訊號(hào)中,除了談話對(duì)象的語音外,可能仍然充斥著其他人的講話聲。
[0004]人類的聽力系統(tǒng)本來就是雙耳功能的加成,是利用聲音傳至雙耳的時(shí)間及強(qiáng)度差異來進(jìn)行聲音定位,目前最先進(jìn)的降低噪音與提高訊雜比的方法,就是雙耳配戴助聽器,應(yīng)用無線技術(shù)可以使兩側(cè)助聽器同步處理、互相溝通,這種技術(shù)稱為耳對(duì)耳(ear-to-ear)通訊,保留訊號(hào)的雙耳線索,并以波束成型法(beamforming)技術(shù),過濾出患者正前方的聲音,且提高訊噪比,而達(dá)到可在吵雜的環(huán)境里與人面對(duì)面交談的目的。
[0005]雖然雙耳通訊與波束成型的技術(shù)可以定位聲音的方向,但是面對(duì)前方有多個(gè)語言訊號(hào)時(shí),通常無法得知哪個(gè)方向的語音訊號(hào)是大腦要的,所以只能保留病患最正面的較強(qiáng)語言訊號(hào),以致于在面臨一個(gè)人對(duì)兩個(gè)人講話、一個(gè)人對(duì)三個(gè)人講話,或者是患者前方有很多人在講話的場面時(shí),經(jīng)常無法順利取得所需的語音訊號(hào)。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種通過影像輔助擷取語音,而有助于降低語音干擾的助聽系統(tǒng)及助聽系統(tǒng)的語音擷取方法。
[0007]本發(fā)明助聽系統(tǒng),包含一個(gè)助聽裝置,該助聽裝置包括一個(gè)影像擷取器、一個(gè)麥克風(fēng)陣列單元、一個(gè)微處理器與至少一個(gè)聲音輸出器。該影像擷取器能夠擷取使用者視野前方的視野影像。該麥克風(fēng)陣列單元包括多個(gè)相間隔并能夠擷取聲音的麥克風(fēng)。該微處理器是訊號(hào)連接于該影像擷取器與所述麥克風(fēng),包括一個(gè)影像分析模塊,及一個(gè)聲音處理模塊,該影像分析模塊能夠分析輸出該視野影像中的所有人臉影像相對(duì)于該使用者的距離與方位,并根據(jù)所述人臉影像的距離和方位,對(duì)所述人臉影像作為講話對(duì)象的可能性進(jìn)行分類,而對(duì)應(yīng)輸出一個(gè)可能性訊號(hào)源分類,該可能性訊號(hào)源分類規(guī)劃有多個(gè)分別具有不同可能性的級(jí)別,該聲音處理模塊能夠根據(jù)被分類于一個(gè)可能性最高的級(jí)別內(nèi)的所有人臉影像的方位,以及所述麥克風(fēng)擷取的聲音訊號(hào),通過波束成型方法過濾出該可能性最高的級(jí)別內(nèi)的所有人臉影像的方位的語音訊號(hào)。該聲音輸出器是訊號(hào)連接于該微處理器,并能夠?qū)⒃撐⑻幚砥鬏敵龅恼Z音訊號(hào)輸出以供聆聽。
[0008]本發(fā)明所述助聽系統(tǒng),該影像分析模塊包括一個(gè)能夠分析出該視野影像中的所述人臉影像相對(duì)于使用者的距離遠(yuǎn)近的距離分析單元、一個(gè)能夠分析出所述人臉影像相對(duì)于使用者的方位的方位分析單元,及一個(gè)內(nèi)建有一個(gè)可能性分類基準(zhǔn)的可能性分析單元,該可能性分類基準(zhǔn)內(nèi)建有用于分析運(yùn)算出該可能性訊號(hào)源分類時(shí)的人臉影像的距離與方位的運(yùn)算權(quán)重比,該可能性分析單元是根據(jù)每一個(gè)人臉影像的距離與方位的運(yùn)算權(quán)重比,分析統(tǒng)計(jì)輸出該可能性訊號(hào)源分類。
[0009]本發(fā)明所述助聽系統(tǒng),該影像分析模塊還包括一個(gè)能夠分析出所述人臉影像相對(duì)使用者左右偏轉(zhuǎn)的偏轉(zhuǎn)角度的偏轉(zhuǎn)分析單元,該可能性分類基準(zhǔn)還內(nèi)建有用于分析運(yùn)算出該可能性訊號(hào)源分類時(shí)的偏轉(zhuǎn)角度的運(yùn)算權(quán)重比,且該影像分析模塊的該可能性分析單元是根據(jù)所述人臉影像的距離、方位與偏轉(zhuǎn)角度的運(yùn)算權(quán)重比,分析統(tǒng)計(jì)輸出關(guān)于所述人臉影像的該可能性訊號(hào)源分類。
[0010]本發(fā)明所述助聽系統(tǒng),該影像分析模塊還包括一個(gè)唇形分析單元,該唇形分析單元能夠分析一個(gè)分類有至少一個(gè)人臉影像且可能性最高的級(jí)別內(nèi)的所有人臉影像的嘴唇是否有開合變形,且會(huì)對(duì)應(yīng)每一個(gè)嘴唇有開合變形的人臉影像輸出一個(gè)講話訊號(hào),該聲音處理模塊能夠被該講話訊號(hào)觸發(fā),而過濾出該講話訊號(hào)對(duì)應(yīng)的人臉影像的方位的語音訊號(hào)。
[0011]本發(fā)明所述助聽系統(tǒng),該助聽系統(tǒng)還包含一個(gè)與該微處理器無線訊號(hào)連接的遙控裝置,該遙控裝置包括一個(gè)能夠顯示該微處理器無線發(fā)送的該視野影像的觸控顯示模塊,及一個(gè)遙控模塊,該觸控顯示模塊能夠供觸控點(diǎn)選該視野影像中的所述人臉影像,該遙控模塊能夠于該觸控顯不模塊顯不的一個(gè)人臉影像被點(diǎn)選時(shí),輸出一個(gè)對(duì)應(yīng)該被點(diǎn)選的人臉影像的點(diǎn)選訊號(hào),該遙控裝置能夠?qū)⒃擖c(diǎn)選訊號(hào)無線發(fā)送至該微處理器,該聲音處理模塊會(huì)被該點(diǎn)選訊號(hào)驅(qū)動(dòng),而通過波束成型方法過濾出該點(diǎn)選訊號(hào)代表的人臉影像的方位的語音訊號(hào)。
[0012]本發(fā)明所述助聽系統(tǒng),該遙控裝置為智慧型手機(jī)、平板電腦或筆記型電腦,該遙控模塊是程式化安裝建構(gòu)于該遙控裝置。
[0013]本發(fā)明所述助聽系統(tǒng),該遙控裝置與該微處理器間是通過WiF1、ZigBee、藍(lán)牙或NFC無線通訊方式進(jìn)行無線通訊。
[0014]本發(fā)明所述助聽系統(tǒng),該聲音處理模塊包括一個(gè)能夠于分析所述麥克風(fēng)接收輸出的聲音訊號(hào)中含有語音訊號(hào)時(shí),觸發(fā)啟動(dòng)該影像擷取器開始擷取影像的語音觸發(fā)單元。
[0015]本發(fā)明所述助聽系統(tǒng),還包含一個(gè)能夠配戴于使用者頭部的載具,該載具包括一個(gè)左右延伸且位于使用者臉部前側(cè)的前載體,及兩個(gè)左右間隔地安裝于該前載體并能夠供配戴于雙耳的側(cè)載體,該影像擷取器是安裝于該前載體,所述麥克風(fēng)是分別安裝于所述側(cè)載體。
[0016]本發(fā)明所述助聽系統(tǒng),部分麥克風(fēng)是左右間隔地安裝于該前載體。
[0017]本發(fā)明助聽系統(tǒng)的語音擷取方法,包含以下步驟:(a)將一個(gè)助聽裝置配置于使用者身上,該助聽裝置包括一影像擷取器與一麥克風(fēng)陣列單元,該麥克風(fēng)陣列單元包括多個(gè)相間隔的麥克風(fēng);(b)以該影像擷取器擷取該使用者視野前方的視野影像;(c)使該助聽裝置自該視野影像中辨識(shí)出人臉影像,并判斷出所述人臉影像分別相對(duì)于該使用者的距離與方位;(d)使該助聽裝置根據(jù)所述人臉影像分別相對(duì)于該使用者的距離與方位,對(duì)所述人臉影像作為講話對(duì)象的可能性進(jìn)行級(jí)別分類,而對(duì)應(yīng)輸出一個(gè)可能性訊號(hào)源分類;及(e)使該助聽裝置利用所述麥克風(fēng)感測輸出的聲音訊號(hào),并通過波束成型方法,將步驟(d)的可能性訊號(hào)源分類中被分類于一個(gè)可能性最高的級(jí)別內(nèi)的所有人臉影像的方位的語音訊號(hào)過濾出來。
[0018]本發(fā)明所述助聽系統(tǒng)的語音擷取方法,步驟(d)是使該助聽裝置根據(jù)人臉影像偏離該視野影像的一個(gè)視野中心的偏離角度來定義出相對(duì)該使用者的方位,且針對(duì)人臉影像相對(duì)于該使用者的距離大小,及方位分別給予不同的運(yùn)算權(quán)重比,并根據(jù)所述人臉影像的距離與方位分別對(duì)應(yīng)的運(yùn)算權(quán)重比,分析統(tǒng)計(jì)輸出關(guān)于所述人臉影像作為談話對(duì)象的可能性的可能性訊號(hào)源分類。
[0019]本發(fā)明所述助聽系統(tǒng)的語音擷取方法,步驟(C)還使該助聽裝置分析辨識(shí)所述人臉影像相對(duì)使用者左右偏轉(zhuǎn)的偏轉(zhuǎn)角度,步驟(d)是使該助聽裝置針對(duì)人臉影像的偏轉(zhuǎn)角度大小分別給予不同的運(yùn)算權(quán)重比,且根據(jù)每一個(gè)人臉影像的距離、方位與偏轉(zhuǎn)角度分別對(duì)應(yīng)的運(yùn)算權(quán)重比,分析統(tǒng)計(jì)輸出該可能性訊號(hào)源分類。
[0020]本發(fā)明所述助聽系統(tǒng)的語音擷取方法,還包含一個(gè)步驟(f)使該助聽裝置分析一個(gè)分類有至少一個(gè)人臉影像且可能性最高的級(jí)別內(nèi)的所有人臉影像的嘴唇是否有開合變形,并對(duì)應(yīng)嘴唇有開合變形的人臉影像分別輸出一個(gè)講話訊號(hào),步驟(e)是使該助聽裝置只輸出該講話訊號(hào)對(duì)應(yīng)的人臉影像的方位的語音訊號(hào)。
[0021]本發(fā)明所述助聽系統(tǒng)的語音擷取方法,還包含一個(gè)步驟(g)與一個(gè)步驟(h),該步驟(g)是使該助聽裝置將該視野影像傳送顯示于一個(gè)遙控裝置,并使該遙控裝置于其顯示的該視野影像中的至少一個(gè)人臉影像被點(diǎn)選時(shí),對(duì)應(yīng)被點(diǎn)選的該人臉影像發(fā)送一個(gè)點(diǎn)選訊號(hào)至該助聽裝置,該步驟(h)是使該助聽裝置于收