專利名稱:聲音強調裝置及聲音強調方法
技術領域:
本發(fā)明涉及生成與普通的發(fā)音具有不同特點的聲音的"用力"聲音的 技術,所謂"用力"聲音是指,人的歌聲或在為了強調講話內容而用力加
強語氣時出現(xiàn)的嘶啞的聲音、粗魯?shù)穆曇?、或者刺耳的聲?harshvoice), 例如在唱演歌等時出現(xiàn)的"花腔(C A L )"或"哼聲(念")之類的表現(xiàn), 或者,在演唱布魯斯歌曲或搖滾樂等時出現(xiàn)的"喊叫聲"之類的表現(xiàn)。本 發(fā)明尤其涉及聲音強調裝置,該聲音強調裝置能夠生成能夠表現(xiàn)如上所述 的聲音所包含的憤怒、重音、強有力以及精力充沛的感情或聲音的表現(xiàn)力、 說話風格或講話者的態(tài)度、狀況、或發(fā)音器官的緊張狀態(tài)的聲音。
背景技術:
以往,開發(fā)了以聲音來表現(xiàn)感情、表現(xiàn)力、態(tài)度及狀況等的、尤其不 是以語言的聲音來表現(xiàn),而是以通過所謂口氣、說話的方式及聲調之類的 副語言的表現(xiàn)來表達感情等為目的聲音轉換或者聲音合成的技術。這些技 術對于從機器人或者電子秘書到電子設備的聲音對話接口都是必不可少 的。而且,作為應用于卡拉OK或者用于音樂的效應器的技術,開發(fā)了對 聲音波形進行加工以附加顫音等音樂性表現(xiàn)的技術,或強調聲音的表現(xiàn)的 技術。
在聲音的副語言性表現(xiàn)或音樂性表現(xiàn)之中,作為實現(xiàn)根據(jù)音質的表現(xiàn) 的方法,存在對輸入的聲音進行分析從而求出合成參數(shù),并通過改變此參 數(shù)來改變音質的聲音轉換方法的提案(例如,參考專利文獻1)。但是,在 上述以往的方法中,是按照以每種感情來預先規(guī)定的同樣的轉換規(guī)則進行 參數(shù)轉換。因此,不能夠再現(xiàn)如在自然說話中所能見到的、 一部分成為用 了力的聲音的音質的變化。而且,對于全體輸入聲音適用同樣的轉換規(guī)則。 因此,不能適應如只對講話者想要強調的部分進行轉換,以及如對輸入聲 音的原有的表現(xiàn)力或表現(xiàn)的強弱進行強調的轉換。并且,還提出了在卡拉OK中,將用戶的歌唱改變成模仿了原唱歌手 的唱法的歌唱的方法的提案(例如,專利文獻2)。也就是,根據(jù)歌唱數(shù)據(jù), 對用戶的歌聲進行改變振幅或基頻,以及附加噪聲等的變形處理,該歌唱 數(shù)據(jù)中記述了所謂原唱歌手的唱法、即在樂曲之中的哪個區(qū)間使用了哪種 程度的顫音,是否包含"用力聲音"或"哼聲"之類的音樂性表現(xiàn)。
進而,還提出了針對歌唱數(shù)據(jù)與原唱歌手的歌唱定時的偏差,進行歌 唱數(shù)據(jù)和樂曲數(shù)據(jù)的比較的方法的提案(例如,專利文獻3)。若將這些技 術組合在一起,則即使在歌唱數(shù)據(jù)與原唱歌手的歌唱定時相比具有偏差的 情況下,只要大致的定時相符,就有可能將輸入聲音轉換成模仿了原唱歌 手的唱法的歌唱。
關于聲音的一部分的音質的變化,進行了作為"用力聲音"的,也稱 為"緊喉嗓音"(creaky)或者"聲帶微顫而發(fā)出的弱聲"(vocal fry)的 聲音的研究,該"用力聲音"不同于作為本申請所設定的對象的、在興奮 之際的發(fā)音中歌唱聲音的表現(xiàn)的"用力"聲音或"哼聲"的聲音。作為"緊 喉嗓音"的聲特征,非專利文獻1舉出了以下特征局部的能量的變化劇 烈;基頻比普通發(fā)音時的基頻低,且不穩(wěn)定;比普通發(fā)音的區(qū)間的強度小。 并且,揭示出存在由于通過喉頭用力而使聲帶震動的周期性紊亂,從而產 生這些特征的情況。進而,揭示出與音節(jié)單位的平均持續(xù)時間相比,經過 長區(qū)間產生"用力聲音"的情況較多。"緊喉嗓音"被作為在關心或厭惡的 感情的表現(xiàn)中,或者在躊躇或謙遜的態(tài)度的表現(xiàn)中,具有提高講話者的誠 實感的效果的音質。在非專利文獻1中論述的"用力聲音"在一般的文章 結尾部分或句尾等聲音逐漸消失的過程中;在邊選詞邊說話、邊考慮邊說 話之時,拖拉詞尾式的拉長詞尾發(fā)音的情況下的被拉長了的詞尾;以及在 不知如何回答之時發(fā)出的"A — , t (這個……)"",一/u (嗯)"之類的
感嘆詞里經常可見。進而,非專利文獻l揭示了 "聲帶微顫而發(fā)出的弱聲" 及"緊喉嗓音"里包含有以雙拍節(jié)或者以基本周期的倍數(shù)而發(fā)生的新的周 期的雙音(diplophonia)。作為生成在"聲帶微顫而發(fā)出的弱聲"里可見 的被稱為雙音(diplophonia)的聲音的方式,將錯開了基頻的二分之一周 期的相位的聲音重疊的方法被提案。
專利文獻1:(日本)特許第3703394號公報專利文獻2 :(日本)特開2004-177984號公報 專利文獻3:(日本)特許第3760833號公報
非專利文獻1:石井力A 口》壽憲、石黑浩扭J:"萩田紀博、「 Q §辦 o自動検出o &灼o音響分析」、電子情報通信學會技術研究報告、SP2006 —07巻、pp.l — 6、 2006 (石井Carlos壽憲、石黑浩及萩田紀博、"用于 自動檢測用力聲音的聲學分析"、電子信息通信學會技術研究報告、SP2006 —07巻、pp.l-6、 2006)
但是,通過上述以往的方法或者這些方法的組合無法生成如在興奮、 緊張、憤怒或者為了強調而用力加強語氣講話時出現(xiàn)的嘶啞的聲音、粗魯 的聲音或者刺耳的聲音(harsh voice),還有如唱歌時出現(xiàn)的"花腔"、"哼 聲"或"喊叫聲"那樣的聲音的一部分中出現(xiàn)的"用力"聲音。在此,"用 力"聲音是在用力說話時,由于發(fā)音器官比在一般情況下用力或者由于發(fā) 音器官極度緊張而引起的。具體而言,因為"用力"聲音是用了力的發(fā)音, 所以聲音的振幅算是比較大的。而且,"用力"聲音不僅限于感嘆詞,還能 在無論獨立詞或者輔助詞的各種各樣的詞類中見到。即,"用力聲音"是與 上述以往的方法所實現(xiàn)的"用力聲音"不同的聲音現(xiàn)象。因此,通過以往 的方法無法生成本申請所設定的對象的"用力"聲音。即,存在通過生成 能感覺到發(fā)音器官的用力方式及緊張方式的"用力"聲音,難以將如憤怒 或興奮、滿懷信心的說話方式或者精力充沛的說話方式那樣的聲音的表現(xiàn) 力以音質的變化來豐富地表現(xiàn)的問題。進而,在歌聲的轉換中,歌唱數(shù)據(jù) 被固定為原唱歌手的歌唱定時。因此,不能附加在用戶以與原唱歌手的定 時大不相同的定時演唱的情況下的音樂表現(xiàn)。并且,在與原唱歌手不同的, 用戶在想要的定時附加"用力聲音"或"哼聲"來演唱的情況下,或者在 原本沒有歌唱數(shù)據(jù)的情況下,不能反映出想要附加"用力聲音"來演唱的 欲望或想法。
艮口,在上述以往的方法中,存在很難以自由的定時來附加一部分的音 質的變化,從而不能夠在聲音中自由地附加逼真的表現(xiàn)力或豐富的音樂性 表現(xiàn)的問題
發(fā)明內容
本發(fā)明就是為了解決上述以往的問題,其目的在于,提供一種聲音強 調裝置,在講話者或用戶試圖附加強調或者音樂表現(xiàn)的位置上,使所述"用 力"聲音發(fā)生。以此,在用戶的聲音中附加由憤怒、興奮、緊張、精力充 沛的說話方式表現(xiàn)的強調,或者附加演歌、布魯斯歌曲或者搖滾樂等的音 樂表現(xiàn),從而實現(xiàn)豐富的聲音表現(xiàn)。
并且,本發(fā)明的目的還在于,根據(jù)此聲音的特征來推斷講話者或用戶 的強調或者音樂表現(xiàn)的意圖,針對所推斷的講話者或用戶試圖附加強調或 者音樂表現(xiàn)的聲音區(qū)間,進行使其產生"用力"聲音的處理。以此,提供 一種聲音強調裝置,在用戶的聲音中附加由憤怒、興奮、緊張、精力充沛 的說話方式表現(xiàn)的強調,或者附加演歌、布魯斯歌曲或者搖滾樂等的音樂 表現(xiàn),從而實現(xiàn)豐富的聲音表現(xiàn)。
為了達到上述目的,本發(fā)明所涉及的聲音強調裝置包括強調發(fā)音區(qū) 間檢測部,檢測輸入聲音波形之中的強調區(qū)間,所述強調區(qū)間是指發(fā)出該 輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間;以及聲音強 調部,使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的 所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加,所述強調發(fā)音區(qū) 間檢測部,將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上 且不足170Hz的預先規(guī)定了的范圍內的狀態(tài),作為在聲帶上用了力的狀態(tài)
間來檢測。
根據(jù)這樣的構成,在被輸入的聲音波形中,檢測講話者或用戶發(fā)出"用 力聲音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間,從而能夠將檢測出的聲 音區(qū)間的聲音轉換成"用力聲音"并輸出。即,按照講話者或用戶為了進 行強調或音樂表現(xiàn)而想要發(fā)出"用力聲音"的意圖,來附加表達強調或者 緊張的表現(xiàn)、或音樂性表現(xiàn),從而能夠實現(xiàn)豐富的音樂表現(xiàn)。
最好是具有以下特征所述聲音強調部對所述輸入聲音波形之中的、 由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形施行 調制,以使所述聲音波形伴隨周期性振幅波動。
根據(jù)這樣的構成,不需要保持為了進行更換聲音波形等的處理的、能 夠與任意的輸入聲音對應的大量的特征性聲音波形,就能夠生成表現(xiàn)力豐富的聲音。并且,由于僅對輸入聲音附加伴隨振幅波動的調制處理就能夠 進行聲音表現(xiàn),所以能夠照舊維持輸入聲音的特征,而僅以簡單的處理來 附加表達強調或緊張的表現(xiàn)的聲音波形或者音樂性表現(xiàn)。
最好是具有以下特征所述聲音強調部利用40Hz以上且120Hz以下 的頻率的信號,對在所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測 部檢測出的所述強調區(qū)間所包含的聲音波形施行調制,以使所述聲音波形 伴隨周期性振幅波動。
根據(jù)這樣的構成,能夠針對強調發(fā)音區(qū)間檢測部所檢測出的講話者或 用戶發(fā)出"用力聲音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間,使其產生 聽得見"用力聲音"的頻率范圍的振幅波動。因此,能夠生成使表達強調 或緊張的表現(xiàn)、或者音樂性表現(xiàn)更加確實地傳達給聽眾的聲音波形。
最好是具有以下特征所述聲音強調部還使信號的頻率在40Hz — 120Hz的范圍內波動,所述信號是在為了使所述聲音波形伴隨周期性振幅 波動,而對所述聲音波形施行調制時被使用的信號。
根據(jù)這樣的構成,能夠針對強調發(fā)音區(qū)間檢測部所檢測出的講話者或 用戶發(fā)出"用力聲音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間,在使其產 生聽得見"用力聲音"的頻率范圍的振幅波動之時,不是給予固定的頻率, 而是對在聽得見"用力聲音"的范圍內振幅波動的頻率給予起伏。因此, 能夠生成更加自然的"用力聲音"。
最好是具有以下特征所述聲音強調部通過使所述輸入聲音波形之中 的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形 乘以周期信號,從而對聲音波形給予伴隨周期性振幅波動的調制。
根據(jù)這樣的構成,能夠通過更加簡單的處理,對輸入聲音附加聽得見 "用力聲音"的振幅波動,從而能夠確實地附加表達強調或緊張的表現(xiàn)、 或者音樂性表現(xiàn),實現(xiàn)豐富的聲音表現(xiàn)。
最好是具有以下特征,所述聲音強調部具有全通濾波器,移動所述 輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間 所包含的聲音波形的相位;以及加法運算單元,使被輸入到所述全通濾波 器的所述強調區(qū)間所包含的所述聲音波形,與由所述全通濾波器移動了相 位后的聲音波形相加。根據(jù)這樣的構成,能夠按每個頻率分量引起不同的振幅的波動,與所 有的頻率分量都進行相同的振幅變化的調制相比,能夠引起復雜的振幅波 動。因此,能夠生成具備表達強調或緊張的表現(xiàn)、或者音樂性表現(xiàn),且聽 起來感覺自然的聲音。
最好是具有以下特征所述聲音強調部擴大所述輸入聲音波形之中的、 由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的振 幅的動態(tài)范圍。
根據(jù)這樣的構成,針對強調發(fā)音區(qū)間檢測部所檢測出的講話者或用戶 發(fā)出"用力聲音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間,通過擴大輸入 聲音中所包含的振幅的動態(tài)范圍,能夠變成將此聲音原本具有的振幅波動 的特征作為強調或音樂表現(xiàn)而能夠聽見的大小的振幅波動,并輸出。艮P, 按照講話者或用戶為了進行強調或音樂表現(xiàn)而想要發(fā)出"用力聲音"的意 圖,來附加表達強調或者緊張的表現(xiàn)、或音樂性表現(xiàn),從而能夠將豐富的 音樂表現(xiàn),通過利用原來的聲音的特征作為更加自然的表現(xiàn)來實現(xiàn)。
最好是具有以下特征在所述輸入聲音波形之中的、由所述強調發(fā)音 區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形中,在所述聲音波形 的振幅包絡的值在規(guī)定的值以下的情況下,所述聲音強調部對所述聲音波 形的振幅進行壓縮;且在所述聲音波形的振幅包絡的值比所述規(guī)定的值大 的情況下,所述聲音強調部對所述聲音波形的振幅進行放大。
根據(jù)這樣的構成,能夠通過更加簡單的處理,來擴大輸入聲音中所包 含的振幅的動態(tài)范圍。按照講話者或用戶為了進行強調或音樂表現(xiàn)而想要 發(fā)出"用力聲音"的意圖,通過更加簡單的處理,來附加表達強調或者緊 張的表現(xiàn)、或音樂性表現(xiàn),從而能夠將豐富的音樂表現(xiàn),通過利用原來的 聲音的特征作為更加自然的表現(xiàn)來實現(xiàn)。
最好是具有以下特征所述強調發(fā)音區(qū)間檢測部將所述輸入聲音波形 的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范 圍內的、且振幅調制度不足0.04的時間區(qū)間作為所述強調區(qū)間來檢測,所 述振幅調制度表示所述輸入聲音波形的振幅包絡的振幅波動的程度。
根據(jù)這樣的構成,強調發(fā)音區(qū)間檢測部將講話者或用戶發(fā)出"用力聲 音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間之中的、輸入聲音為未處理的狀態(tài)下的聽得見"用力聲音"的部分以外的部分,作為強調區(qū)間來檢測。 并且,對講話者或用戶發(fā)出"用力聲音"以試圖進行強調或音樂表現(xiàn)的聲 音區(qū)間之中的、依據(jù)講話者或用戶的自然的嗓音的聲音表現(xiàn)充分的部分, 不施行強調處理;只對依據(jù)自然的嗓音的聲音表現(xiàn)不充分的部分施行強調 處理。即,在盡量保持自然的嗓音的聲音表現(xiàn)的前提下,只對于盡管講話 者或用戶試圖附加"用力聲音",但未能附加表現(xiàn)的部分,附加"用力聲音"。 因此,在保持更加自然的自然的嗓音的聲音表現(xiàn)的情況下,能夠附加表達 強調或緊張的表現(xiàn)或者音樂性表現(xiàn),實現(xiàn)豐富的聲音表現(xiàn)。
最好是具有以下特征所述強調發(fā)音區(qū)間檢測部根據(jù)所述發(fā)聲者的聲 門關閉著的時間區(qū)間,來決定所述強調區(qū)間。
根據(jù)這樣的構成,能夠更加準確地檢測出喉頭用力的狀態(tài),從而能夠 決定正確地反映講話者或歌唱者的表現(xiàn)的意圖的強調區(qū)間。
最好是具有以下特征所述聲音強調裝置還包括壓力傳感器,檢測與 所述輸入聲音波形的發(fā)音時間同步、并根據(jù)所述發(fā)聲者的移動而生成的壓 力,所述強調發(fā)音區(qū)間檢測部判斷所述壓力傳感器的輸出值是否超出預先 規(guī)定的值,并將所述壓力傳感器的輸出值超出預先規(guī)定的值的時間區(qū)間作 為所述強調區(qū)間來檢測。
根據(jù)這樣的構成,能夠簡便直接地檢測出講話者或唱歌者用力發(fā)音的 狀態(tài)。
最好是具有以下特征所述壓力傳感器被安裝在接受所述輸入聲音波 形的麥克風的把持部。
根據(jù)這樣的構成,根據(jù)發(fā)聲時或唱歌時的自然的動 作,就能夠簡便直 接地檢測出講話者或唱歌者用力發(fā)音的狀態(tài)。
最好是具有以下特征所述壓力傳感器通過支撐部,被安裝在所述發(fā) 聲者的腋窩或手臂上。
根據(jù)這樣的構成,尤其根據(jù)在發(fā)聲時或唱歌時,手拿手持式傳聲器的 狀態(tài)下的自然的動作,就能夠簡便直接地檢測出講話者或唱歌者用力發(fā)音 的狀態(tài)。
最好是具有以下特征所述聲音強調裝置還包括移動傳感器,檢測與 所述輸入聲音波形的發(fā)音時間同步的、所述發(fā)聲者的移動,所述強調發(fā)音區(qū)間檢測部將所述移動傳感器的輸出值超出預先規(guī)定的值的時間區(qū)間作為 所述強調區(qū)間來檢測。
根據(jù)這樣的構成,能夠捕捉發(fā)聲時或唱歌時的手勢,從而能夠根據(jù)動 作的大小來簡便地檢測講話者或唱歌者用力發(fā)音的狀態(tài)。
最好是具有以下特征所述聲音強調裝置還包括加速度傳感器,檢測 與所述輸入聲音波形的發(fā)音時間同步的、所述發(fā)聲者移動時的加速度,所 述強調發(fā)音區(qū)間檢測部將所述加速度傳感器的輸出值超出預先規(guī)定的值的 時間區(qū)間作為所述強調區(qū)間來檢測。
根據(jù)這樣的構成,能夠捕捉發(fā)聲時或唱歌時的手勢,從而能夠根據(jù)動 作的大小來簡便地檢測講話者或唱歌者用力發(fā)音的狀態(tài)。
再者,本發(fā)明不僅可以作為具備如此特征性單元的聲音強調裝置來實
現(xiàn),還可以作為將聲音強調裝置所包括的特征性單元作為步驟的聲音強調 方法來實現(xiàn),或作為使計算機執(zhí)行聲音強調方法中所包括的特征性步驟的
程序來實現(xiàn)。并且,不言而喻,能夠通過CD—ROM(Compact Disc—Read Only Memory:只讀存儲光盤)等記錄介質或互聯(lián)網(wǎng)等通信網(wǎng)絡而使這樣的 程序流通。
根據(jù)本發(fā)明的聲音強調裝置,能夠在講話者或用戶試圖附加聲音強調 或音樂表現(xiàn)的位置生成,如所謂人在怒吼的時候、興奮或緊張的狀態(tài)下講 話的時候、為了強調講話內容而用力加強語氣的時候等出現(xiàn)的嘶啞的聲音、 粗魯?shù)穆曇簟⒒蛘叽潭穆曇?harsh voice);或者,在唱演歌等時出現(xiàn)的 "花腔(:A' L )"或"哼聲(》& 0 )之類的;演唱布魯斯歌曲或搖滾樂
曲等時出現(xiàn)的"喊叫聲"之類的,具有與正常的發(fā)音不同特點的聲音的"用 力"聲音。因此,能夠將輸入聲音轉換成,表達講話者或歌手的用力程度 或者感情投入的樣子的表現(xiàn)力豐富的聲音。
圖1是表示在錄音后的聲音中所觀察到的、普通聲音和用力聲音的波 形和振幅包絡的一個例子的圖。
圖2是表示在錄音后的聲音中所觀察到的、以用力聲音發(fā)音的音拍的 振幅包絡的波動頻率的分布的直方圖和累積頻度的圖形。
1圖3A是表示在錄音后的聲音中所觀察到的用力聲音的第二高次諧波、 振幅包絡線、以及根據(jù)多項式的擬合的一個例子的圖。 圖3B是用于說明振幅波動量的計算例的圖。
圖4是表示在錄音后的聲音中所觀察到的、以用力聲音發(fā)音的音拍的 振幅包絡的調制度的分布的直方圖和累積頻度的圖形。
圖5是表示通過聽取實驗確認的聽得見"用力"聲音的振幅波動頻率 的范圍的圖形。
圖6是表示對附加振幅波動時的調制度的定義進行說明的調制信號的 例子的圖。
圖7是表示通過聽取實驗確認的聽得見"用力"聲音的振幅調制度的 范圍的圖形。
圖8是表示在調制頻率固定的情況下和隨機的情況下的不協(xié)調感的大 小的圖表。
圖9是表示針對在歌唱聲音中進行了振幅波動處理的聲音的聽取實驗
的結果的圖形。
圖10是本發(fā)明的實施例1中的聲音強調裝置的輪廓圖。 圖11是表示本發(fā)明的實施例1中的聲音強調裝置的構成的功能框圖。 圖12是表示本發(fā)明的實施例1中的聲音強調裝置的構成的功能框圖。 圖13是表示用力聲音判斷部及用力聲音附加處理判斷部的詳細構成的
功能框圖。
圖14是表示本發(fā)明的實施例1中的聲音強調裝置的工作的流程圖。 圖15是表示本發(fā)明的實施例1中的聲音強調裝置的工作的一部分的流 程圖。
圖16是表示本發(fā)明的實施例1中的聲音強調裝置的工作的一部分的流 程圖。
圖17是表示本發(fā)明的實施例1的變形例中的聲音強調裝置的構成的功 能框圖。
圖18是表示本發(fā)明的實施例1的變形例中的聲音強調裝置的工作的流 程圖。
圖19是表示本發(fā)明的實施例2中的聲音強調裝置的構成的功能框圖。圖20是表示本發(fā)明的實施例2中的聲音強調裝置的振幅動態(tài)范圍擴張
部31的輸入輸出特性的一個例子的圖。
圖21是表示本發(fā)明的實施例2中的聲音強調裝置的工作的流程圖。 圖22是用于對通過振幅動態(tài)范圍擴張部的邊界等級的設定進行更詳細
的說明的圖。
圖23是用于對有關通過振幅動態(tài)范圍擴張部將實際的聲音波形的振幅
的動態(tài)范圍進行擴大后的結果進行說明的圖。
圖24是表示本發(fā)明的實施例3中的聲音強調裝置的構成的功能框圖。 圖25是表示本發(fā)明的實施例3中的聲音強調裝置的工作的流程圖。 圖26是表示本發(fā)明的實施例4中的聲音強調裝置的構成的功能框圖。 圖27是表示本發(fā)明的實施例4中的聲音強調裝置的工作的流程圖。 圖28是表示依據(jù)特開2007 — 68847號公報的圖5所示的男性講話者
的聲音波形和EGG (Electroglottograph:電聲門圖)波形及第四共振峰
波形的例子的圖。
圖29是表示依據(jù)特開2007—68847號公報的圖6所示的女性講話者
的聲音波形和EGG波形及第四共振峰波形的例子的圖。
圖30是表示本發(fā)明的實施例5中的聲音強調系統(tǒng)的構成的圖。
圖31是表示本發(fā)明的實施例5中的聲音強調系統(tǒng)的構成的功能框圖。
圖32是表示本發(fā)明的實施例5中的通過終端71的聲音信號的取得和
發(fā)送的工作的流程圖。
圖33是表示本發(fā)明的施實例5中的聲音處理服務器73的工作的流程圖。
圖34是表示本發(fā)明的實施例5中的通過終端71的聲音信號的接收和 聲音輸出的工作的流程圖。
圖35是本發(fā)明的實施例2中依據(jù)其他的構成的聲音強調裝置的功能框圖。
附圖標記說明
11聲音輸入部
12、 44、 52強調發(fā)音區(qū)間檢測部 13聲音強調部14聲音輸出部
15用力聲音判斷部
16、 47、 57用力聲音附加處理判斷部
17周期信號生成部
18調幅部
19周期性分析部
20第二高次諧波抽取部
21振幅包絡分析部
22波動頻率分析部
23波動頻率判斷部
24振幅調制度計算部
25調制度判斷部
26 全通濾波器
27開關
28加法器
31振幅動態(tài)范圍擴張部 41手持式傳聲器
42、 76麥克風 43壓力傳感器
45、 55標準值計算部
46、 56標準值記憶部 51 EGG傳感器
61平均輸入振幅計算部 62振幅放大壓縮部 71終端
71a便攜型個人電腦 71b 移動電話 71c 網(wǎng)絡游戲機
72 網(wǎng)絡
73聲音處理服務器74、80聲音數(shù)據(jù)接收部
75、79聲音數(shù)據(jù)發(fā)送部
77模數(shù)轉換器
78輸入聲音數(shù)據(jù)記憶部
81強調聲音數(shù)據(jù)記憶部
82數(shù)模轉換器
83電聲轉換器
84聲音輸出指示輸入部
85輸出聲音抽取部
86、92、 96、 102 聲音波形
90、104振幅包絡
88邊界輸入電平
94、98包絡線
具體實施例方式
首先,對成為本發(fā)明的基礎的、聲音中的用力聲音的特征進行敘述。 在伴隨了感情或表現(xiàn)力的聲音中,各種各樣音質的聲音混在一起,表 現(xiàn)聲音的感情或表現(xiàn)力的特征,從而來形成聲音的印象的技術已被一般所
知(例如,非專利文獻:日本聲學會會刊51巻11號(1995)、 pp869—875、 粕谷英樹.楊長盛"音源力'^見t聲質(根據(jù)聲源所見的音質)"、專利文 獻:特開2004—279436號公報)。在伴隨"震怒"及"憤怒"的感情的聲音 中,經??梢姳槐憩F(xiàn)為嘶啞的聲音、粗魯?shù)穆曇艋蛘叽潭穆曇舻?用力" 聲音。根據(jù)"用力"聲音的波形的調查,在多數(shù)"用力"聲音的波形中明 確顯示出振幅的周期性波動。圖l(a)表示對于"特売L t法t工(Tokubai shitemasuyo/甩賣了)"的"i' 。 (bai/賣)"的部分,以不帶感情的"平靜" 的發(fā)音說出的普通發(fā)音的聲音波形及其振幅包絡的大概形狀。圖l(b)是伴 隨"震怒"的感情被發(fā)音的、同樣的"特賣L t:法t J: (Toknbai shitemasuyo/甩賣了)"的u (bai/賣)"的部分的波形及其振幅包絡的 大概形狀。兩種波形的音素的邊界都以虛線來表示。在圖1(a)的波形的/a /、 / i /發(fā)音的部分,可以看出振幅平滑波動的模樣。在普通的發(fā)音中,如圖l(a)的波形所示,振幅在元音的開始部分平滑地變大,直至音素的中 央附近變成最大值,并向著音素邊界變小。在存在元音的結束部分的情況 下,振幅向著無音或者后續(xù)子音的振幅平滑地變小。在如圖l(a)所示的元 音為持續(xù)的情況下,振幅緩慢地向著后續(xù)的元音的振幅變小或者變大。普 通的發(fā)音中,在一個元音內,幾乎沒有如圖l(b)所示的振幅反復增減的情 況,也沒有關于這樣的具有乍一看,不清楚與基頻的關系的振幅的波動的 聲音的報告。因此,考慮到振幅波動是用力聲音的特征,通過以下的處理 來求出被標記為用力聲音的聲音的振幅包絡的波動周期。
首先,為了抽取代表聲音波形的正弦波分量,逐次求出將成為對象的 聲音波形的基頻的第二諧波作為中心頻率的帶通濾波器,并使聲音波形通 過此濾波器。對通過了濾波器的聲音施行希爾伯特變換以求出解析信號, 并通過根據(jù)其絕對值求出希爾伯特包絡曲線,來求出聲音波形的振幅包絡 曲線。將求出的振幅包絡曲線再進行希爾伯特變換,并按照每個采樣點來 計算瞬時角速度,根據(jù)采樣周期將角速度變換為頻率。對按照每個采樣點 求出的瞬時頻率按每個音韻制作直方圖,把眾數(shù)當作此音韻的聲音波形的 振幅包絡的波動頻率。
圖2是將由男性講話者發(fā)出的伴隨"震怒"的感情的發(fā)音作為對象, 以直方圖和累積頻度來表示分析后的用力聲音的振幅包絡的波動頻率的分 布的圖。表1是表示圖2所示的用力聲音的振幅包絡的波動頻率的頻度及
累積頻度的列表。
(表l)
數(shù)據(jù)區(qū)間頻度累積%
000.00%
1010.18%
2061.29%
30113.33%
40176.47%
502711.46%
604519.78%
704127.36%806038.45%
907351.94%
1007665.99%
1107780.22%
1204388.17%
1303193.90%
1401195.93%
1501197.97%
160498.71%
170299.08%
180099.08%
190299.45%
2003100.00%
0100.00%
不是用力聲音的普通的聲音在振幅包絡中沒有周期性波動。因此,為 了辨別"用力"聲音和普通聲音,需要區(qū)別沒有周期性波動的狀態(tài)和有周
期性波動的狀態(tài)。圖2的直方圖中,用力聲音的頻度在振幅波動的頻率為 10Hz至20Hz之間開始,在40Hz至50Hz的范圍內急劇增加。雖然可以 考慮頻率的下限在40Hz附近較為妥當,但是在更加廣泛的范圍內網(wǎng)羅性 地檢測用力聲音之時,也可以將10Hz作為下限。在根據(jù)累積頻度而被標 記為用力的音韻之中,90X為振幅以47.1Hz以上的頻率進行波動。據(jù)此, 能夠將47.1Hz作為頻率的下限來利用。在考慮到若振幅波動的頻率過高, 則人的聽覺不能覺察出振幅的波動的特性的情況下,為了根據(jù)振幅波動來 檢測用力聲音,最好在頻率中設定上限。作為聽覺的特性,70Hz附近是最 能感覺到"粗糙度"的頻率,盡管與接受調制的原來的聲音有關,但是從 100Hz直到200Hz "粗糙度"的感覺會變小。
圖2的直方圖中,用力聲音的頻度在110Hz至120Hz的范圍內急劇 減少,進一步在130Hz至140Hz的范圍內減半。表現(xiàn)用力聲音的特征的 振幅波動的頻率的上限應設定在130Hz附近。進而,下限同樣,在更加廣 泛的范圍內網(wǎng)羅性地檢測用力聲音之時,根據(jù)圖2中的在170Hz至180Hz的范圍內一旦頻度降低到0,也可以將頻率的上限作為170Hz。配合47.1Hz 的下限,將在根據(jù)累積頻度而被標記為用力的音韻之中,包含805^的音韻 的123.2Hz作為頻率的上限來利用的方法比較有效。
圖3A及圖3B是用于說明用力聲音的振幅包絡的調制度的圖。與所謂 對振幅固定的載波信號的振幅進行調制的振幅調制不同,在作為被調制的 信號的聲音波形中原本存在振幅的變化。因此,在此對振幅波動的調制度 (振幅調制度)做出以下的定義。如圖3A所示,對作為波形的希爾伯特包 絡曲線被求出的振幅包絡曲線進行多項式近似,從而制作根據(jù)多項式的擬 合函數(shù),該波形是通過了以第二高次諧波為中心頻率的帶通濾波器的波形。 圖3A表示根據(jù)三次函數(shù)進行的擬合。將擬合函數(shù)當作調制前的波形的振幅 包絡線。如圖3B所示,按每個振幅包絡線的峰值求出與擬合函數(shù)的差分, 并當作振幅波動量。因為擬合函數(shù)的值和振幅波動量都不固定,所以對于 振幅波動量和擬合函數(shù)的值,求出兩者在音韻內的中值,并將兩個中值的 比作為調制度。
圖4是表示如此這般求出的調制度的直方圖和累積頻度的圖。表2是 表示圖4所示的調制度的頻度及累積頻度的列表。
(表2)
數(shù)據(jù)區(qū)間頻度累積%
000.00%
0.0271.29%
0.045210.91%
0.066022,00%
0.087535.86%
0.16247.32%
0.124255.08%
0.143261.00%
0.163567.47%
0.183273.38%
0.23880.41%
0.221683.36%0.242287.43%
0.26989.09%
0.28690.20%
0.31492.79%
0.32894.27%
0.34495.01%
0.36295.38%
0.38496.12%
0.4296.49%
0.42697.60%
0.44297.97%
0.46498.71%
0.48399.26%
0.5199.45%
0.52199.63%
0.54099.63%
0.56099,63%
0.58099.63%
0.6199.82%
0.62099.82%
0.64099.82%
0.66099,82%
0.68099.82%
0.7099.82%
0.72099.82%
0.74099.82%
0.76099.82%
0.78099.82%
0.8099.82%
0.82099.82%下一級
0.84099.82%
0.86099.82%
0.881100.00%
0.90100.00%
0.920100.00%
0.940100.00%
0.960100.00%
0.980100.00%
10100.00%
0100.00%
圖4所示的直方圖表示,在由男性講話者發(fā)出的伴隨"震怒"的感情 的發(fā)音中所見的、通過用力聲音求出的振幅波動的調制度的分布。為了讓 聽眾察覺振幅波動,波動的大小、即調制度需要在一定值以上。在圖4的 直方圖中,振幅波動的調制度的頻度在0.02至0.04的范圍內急劇增高。因 此,將表現(xiàn)用力聲音的特征的振幅波動的調制度的下限設為0.02附近較為 妥當。而且,從累積頻度來看,90%的音韻的調制度是0.038以上。因此, 能夠將0.038作為調制度的下限來利用。進而,配合0.038的下限,將在 根據(jù)累積頻度而被標記為用力的音韻之中,包含80%的音韻的0.276作為 振幅波動的調制度的上限來利用的方法比較有效。如上所述,作為用于檢 測用力聲音的一個基準,能夠使用振幅包絡的周期波動為40Hz—120Hz, 調制度為0.04以上的基準。
進行了用于根據(jù)這樣的振幅波動來確認聽得見"用力"聲音的聽取實 驗。首先,準備對三個普通發(fā)音的聲音進行調制處理后的聲音,從而進行 了使被試驗者在以下三個分類之中選擇各自的聲音與哪一個相符的實驗, 該調制處理是在從無振幅波動到200Hz為止的15個等級,進行伴隨改變 了振幅頻率的振幅波動的調制處理。13名聽力正常的被試驗者,從三個分 類中選擇聲音試樣所符合的情況。S卩,被試驗者在聽得見普通的聲音的情 況下,選擇"聽不見用力聲音"。并且,在聽得見"用力"聲音的情況下, 選擇"聽得見用力聲音"。進而,振幅波動使人感覺到是與該聲音不同的別 的聲音,在聽不見"用了力的聲音"的情況下,選擇"聽得見雜音"。對各個聲音的判斷分別進行了兩次。
其結果為,如圖5所示,從沒有振幅波動到振幅波動頻率30Hz為止, "聽不見用力聲音"的回答最多。并且,振幅波動頻率從40Hz到120Hz 為止"聽得見用力聲音"的回答最多。進而,在振幅頻率130Hz以上"聽 得見雜音"的回答最多。通過此結果顯示出,容易判斷為"用力"聲音的 振幅波動頻率的范圍是與實際的"用力"聲音的振幅波動頻率的分布接近 的、從40Hz到120Hz的范圍。
另一方面,聲音波形按每個音韻具有緩慢的振幅的波動。因此,振幅 波動的調制度與所謂對振幅固定的載波信號的振幅進行調制的振幅調制不 同。但是,模仿針對振幅固定的載波信號的振幅調制,假設如圖6所示的 調制信號。將在從100%、即無改變,到0%、即振幅0之間,對成為調制 對象的信號的振幅絕對值進行調制的情況作為調制系數(shù)是100%,將調制信 號的波幅以百分率來表現(xiàn)的值作為調制度。圖6所示的調制信號是從無調 制對象的信號的變化到0.4倍之間進行調制的情況,波幅為1一0.4、即0.6。 因此調制度成為60%。
利用這樣的調制信號,進行了對聽得見"用力"聲音的調制度的范圍 進行確認的聽取實驗。準備了針對兩個普通發(fā)音的聲音進行調制處理后的 聲音,該調制處理是在從調制系數(shù)為0%、即無振幅波動到調制系數(shù)為100% 之間的12個等級,進行伴隨改變了調制度的振幅波動的調制處理。進行了 使15名聽力正常的被試驗者,從聽得見普通的聲音的情況下的無"用力聲 音"、聽得見用力聲音的情況下的有"用力聲音"、聽得見用力聲音以外的、 具有不協(xié)調感的聲音的情況下的聽不見"用力聲音"的三個分類之中,選 擇聲音試樣所符合的情況的聽取實驗。各個聲音的判斷分別進行五次。如 圖7所示,聽取實驗的結果為,到調制度35%為止,無"用力聲音"的回 答最多;從40%到80%為止,有"用力聲音"的回答最多。進而,在90% 以上的情況下聽得見用力聲音以外的具有不協(xié)調感的聲音的回答最多。根 據(jù)此結果,表示出容易被判斷為"用力"聲音的調制度的范圍是從40%到 80%。
在唱歌中,多存在配合旋律而延長元音的時間長短的情況,若對時間 長短長的元音(例如,超過3秒),以固定的調制頻率來附加振幅波動,則存在生成與聲音一起聽得見蜂鳴器音等不自然的聲音的情況。通過使振幅 波動的調制頻率隨機變化,還存在減小如蜂鳴器音和雜音的重疊式的印象
的情況。針對為了使振幅波動的調制頻率成為平均80Hz、標準偏差20Hz, 而使調制頻率隨機變化來進行振幅調制的聲音,和將調制頻率固定為80Hz 來進行振幅調制的聲音,進行了由15名被試驗者對不協(xié)調感以五個等級來 評價的實驗。那時,在調制頻率固定的情況和隨機變化的情況之間,在不 協(xié)調感的評價值中沒能見到顯著性差異。但是,對于特定的樣本聲音,如 圖8所示,15名中12名的被實驗者,與調制頻率固定的情況相比,在調 制頻率為隨機的情況下,判斷為不協(xié)調感減小或無變化。即,還存在通過 將調制頻率設為隨機,從而期待不生成不自然的聲音,減小不協(xié)調感的效 果的情況。再者,在實驗中使用的特定的樣本聲音是指,在發(fā)出"6*0 J: <眠扎&力> o t J:》t t ft (好像沒有睡好呀)"的聲音中的,"t (ma)"、 "J: , (you)"的部分,插入進行了超過100ms的振幅調制的聲音,在"力> (ka)"的部分插入進行了 90ms的振幅調制的聲音的聲音。
進而,準備歌聲中的進行了振幅波動處理的聲音,該振幅波動處理使 調制頻率以平均80Hz、標準偏差20Hz來隨機變化。針對此聲音,進行了 15名聽力正常的被試驗者判斷是否"在用力唱歌"的聽取實驗。通過進行 如圖9所示的振幅波動處理,與不進行振幅波動處理的情況相比,被評價 為更加"在用力唱歌"。因此,表示出作為唱歌中的音樂表現(xiàn)的"用力聲音" 或者"哼聲",能夠通過與伴隨感情的講話中的"用力聲音"同樣的調制處 理來生成。
以下,參照附圖來說明本發(fā)明的具體實施例。 (實施例1)
圖IO是實施例1的聲音強調裝置的輪廊圖,具體是卡拉OK裝置等。 圖11是實施例1的聲音強調裝置的功能框圖。
如圖11所示,本發(fā)明的實施例1所涉及的聲音強調裝置是對輸入聲音 中的用力聲音進行強調從而輸出的裝置,包括聲音輸入部ll、強調發(fā)音 區(qū)間檢測部12、聲音強調部13、聲音輸出部14。
聲音輸入部11是將聲音波形作為輸入來接受的處理部,例如由麥克風 等構成。強調發(fā)音區(qū)間檢測部12是從聲音輸入部ll所輸入的聲音波形中檢測, 講話者或者用戶想要附加根據(jù)"用力聲音"的強調或音樂表現(xiàn)("哼聲") 的聲音的區(qū)間的處理部。
聲音強調部13是在由聲音輸入部11輸入的聲音波形之中的、想要附 加由強調發(fā)音區(qū)間檢測部12檢測出的強調或音樂表現(xiàn)的區(qū)間中,施行伴隨 振幅波動的調制處理的處理部。
聲音輸出部14是輸出,通過聲音強調部13對聲音波形的一部分或全 部施行調制處理后的聲音波形的處理部,例如,由揚聲器等構成。
圖12是表示在圖11所示的聲音強調裝置中,對強調發(fā)音區(qū)間檢測部 12及聲音強調部13的構成進行詳細說明的聲音強調裝置的構成的功能框 圖。
如圖12所示,強調發(fā)音區(qū)間檢測部12包括用力聲音判斷部15和用力 聲音附加處理判斷部16。聲音強調部13包括周期信號生成部17和調幅部 18。
用力聲音判斷部15是,接受由聲音輸入部11輸入的聲音波形,并通 過根據(jù)聲音的振幅包絡來檢測一定范圍內的頻率的振幅波動,判斷聲音波 形中的"用力聲音"的有無的處理部。
用力聲音附加處理判斷部16是,對于在用力聲音判斷部15被判斷為 具有"用力聲音"的聲音區(qū)間,判斷為了感覺"用力聲音",振幅波動的調 制度的大小是否充分的處理部。
周期信號生成部17是生成在伴隨聲音的振幅波動的調制處理中使用的 周期信號的處理部。
調幅部18是對于在以用力聲音判斷部15被判斷為具有"用力聲音" 的聲音區(qū)間之中的、以用力聲音附加處理判斷部16判斷為調制度的大小不 充分的區(qū)間,對該區(qū)間所包含的聲音波形乘以周期信號生成部17所生成的 周期信號,從而對該聲音波形進行伴隨振幅波動的周期性調制處理的處理 部。
圖13是表示用力聲音判斷部15及用力聲音附加處理判斷部16的詳細 構成的功能框圖。
如圖13所示,用力聲音判斷部15包括周期性分析部19、第二高次諧波抽取部20、振幅包絡分析部21、波動頻率分析部22、波動頻率判斷 部23;用力聲音附加處理判斷部16包括振幅調制度計算部24、調制度 判斷部25。
周期性分析部19是對從聲音輸入部11輸入的聲音波形的周期性進行 分析,將具有周期性的區(qū)間作為有聲區(qū)間輸出,并輸出聲音波形的基頻的 處理部。
第二高次諧波抽取部20是根據(jù)周期性分析部19所輸出的基頻的信息, 來抽取聲音波形的第二高次諧波信號的處理部。
振幅包絡分析部21是求出在第二高次諧波抽取部20抽取的第二高次 諧波信號的振幅包絡的處理部。
波動頻率分析部22是求出在振幅包絡分析部21被求出的振幅包絡(包 絡線)的波動頻率的處理部。
波動頻率判斷部23是根據(jù)波動頻率分析部22所輸出的包絡線的波動 頻率是否存在于預先規(guī)定的范圍內,來判斷聲音是否為"用力"聲音的處 理部。
振幅調制度計算部24是對于在波動頻率判斷部23被判斷為"用力" 聲音的區(qū)間,求出包絡線的振幅調制度的處理部。
調制度判斷部25是在振幅調制度計算部24所求出的"用力聲音"區(qū) 間的振幅包絡線的振幅調制的程度在預先規(guī)定的值以下的情況下,將該區(qū) 間作為用力聲音處理對象區(qū)間的處理部。
其次,按照圖14一圖16的順序,對如上述構成的聲音強調裝置的工 作進行說明。圖14是表示聲音強調裝置的工作的流程圖。
首先,聲音輸入部11取得聲音波形(步驟Sll)。由聲音輸入部11取 得的聲音波形被輸入到強調發(fā)音區(qū)間檢測部12的用力聲音判斷部15,用 力聲音判斷部15進行聲音中的振幅波動區(qū)間的檢測(步驟Sl2)。
圖15是表示振幅波動區(qū)間檢測處理(步驟S12)的詳細過程的流程圖。
更具體地說,周期性分析部19接受聲音輸入部11所輸入的聲音波形, 對該聲音波形的周期性的有無進行分析,并對具有周期性的部分求出其頻 率(步驟S1001)。作為周期性及頻率的分析方法,例如具有,求出輸入聲 音的自相關系數(shù),以相當于從50Hz至500Hz的周期,將相關系數(shù)為一定值以上的部分認為是具有周期性的部分、即有聲區(qū)間,將與相關系數(shù)為最 大的周期對應的頻率作為基頻的方法。
進而,周期性分析部19抽取在步驟S1001中被認為是聲音中的有聲 區(qū)間的區(qū)間(步驟S1002)。
第二高次諧波抽取部20設定將在步驟S1001中求出的有聲區(qū)間的基 頻的兩倍的頻率作為中心的帶通濾波器,并過濾有聲區(qū)間的聲音波形從而 抽取第二高次諧波分量(步驟S1003)。
振幅包絡分析部21抽取在步驟S1003抽取了的第二高次諧波分量的 振幅包絡(步驟S1004)。振幅包絡是采用進行全波整流,對此峰值進行平 滑處理來求出的方法,或者采用進行希爾伯特變換來求出其絕對值的方法 等來抽取。
波動頻率分析部22按每個分析幀求出在步驟S1004被抽取的振幅包 絡的瞬時頻率。例如,設分析幀為5ms。另外,也可以設分析幀為10ms 或以上。波動頻率分析部22進而求出在該有聲區(qū)間被求出的瞬時頻率的中 值,并將其作為波動頻率(步驟S1005)。
波動頻率判斷部23判斷,在步驟S1005求出的波動頻率是否存在于 預先規(guī)定的基準范圍內(步驟S1006)。根據(jù)圖2的直方圖,能夠設基準范 圍為10Hz以上且不足170Hz,但是,更合適的是40Hz以上且不足120Hz。 在判斷波動頻率是在基準范圍以外的情況下(步驟S1006的"否"),波動 頻率判斷部23判斷該有聲區(qū)間不是用力聲音,即判斷為普通聲音(步驟 S1007)。在判斷波動頻率是在基準范圍以內的情況下(步驟S1006的 "是"),波動頻率判斷部23判斷該有聲區(qū)間是用力聲音(步驟S1008), 將判斷為用力聲音的區(qū)間和第二高次諧波的包絡線輸出到用力聲音附加處 理判斷部16。
其次,用力聲音附加處理判斷部16對用力聲音區(qū)間的振幅波動的調制 度進行分析(步驟S13)。
圖16是表示調制度分析處理(步驟S13)的詳細過程的流程圖。 輸入到用力聲音附加處理判斷部16的用力聲音區(qū)間和第二高次諧波的 包絡線,被輸入到振幅調制度計算部24。振幅調制度計算部24將被輸入 的用力聲音區(qū)間的第二高次諧波的振幅包絡線以三次式來近似,從而推斷振幅調制前的聲音的包絡線(步驟S1009)。
進而,振幅調制度計算部24按每個振幅包絡的峰值,求出振幅包絡的 值與在步驟S1009依據(jù)三次式求出的近似值的差分(步驟SIOIO)。
振幅調制度計算部24根據(jù)該分析區(qū)間中的全部峰值的差分的中值與該 分析區(qū)間內的近似式的值的中值的比,來求出調制度(步驟SlOll)。調制 度雖然也能夠進行,振幅包絡的凸出部分的峰值的平均值或者中值與凹陷 部分的峰值的平均值或者中值的比等其他的定義,但是,此時調制度的基 準值需要根據(jù)此定義來設定。
調制度判斷部25判斷,在步驟S1011求出的調制度是否小于預先規(guī) 定的基準值,例如0.04 (步驟S14)。根據(jù)如圖4的直方圖所示的,用力聲 音的頻度在調制度從0.02至0.04之間急劇增加,在此設基準值為0.04。 在調制度被判斷為大于基準值的情況下(步驟S14的"否"),調制度判斷 部25判斷該用力聲音區(qū)間的振幅調制度為充分,從而不將該區(qū)間作為用力 聲音處理對象區(qū)間,并向調幅部18輸出區(qū)間信息。調幅部18不對輸入聲 音進行處理,就向聲音輸出部14輸出聲音波形,并且聲音輸出部14輸出 聲音波形(步驟S18)。
在調制度被判斷為小于基準值的情況下(步驟S14的"是"),周期信 號生成部17生成80Hz的正弦波(步驟S15),并生成在此正弦波信號中 加上直流分量的信號(步驟S16)。調幅部18對于在輸入聲音波形之中的 作為用力聲音處理對象區(qū)間被確定的區(qū)間,通過周期信號生成部17生成的 以80Hz振動的周期信號乘以輸入聲音信號來進行振幅調制(步驟S17), 從而進行向包含振幅的周期性波動的"用力"聲音的轉換。聲音輸出部14 輸出進行了向"用力"聲音的轉換后的聲音波形(步驟S18)。
例如,以上所說明的處理(步驟S11—S18)在規(guī)定的時間間隔內被反 復執(zhí)行。
根據(jù)這樣的構成,檢測輸入聲音的振幅波動區(qū)間,在此調制度足夠大 的情況下不施行處理,在調制度不足的情況下,對聲音波形進行伴隨振幅 波動的調制,以補償作為聲音的表現(xiàn)顯得不足的振幅波動。通過這樣的處 理,講話者為了向聽眾充分進行傳達,從而對試圖進行強調的部分、試圖 進行"用力聲音"或"哼聲"的音樂表現(xiàn)的部分、或者用力講話的部分的"用力聲音"的表現(xiàn)進行強調,且對于已經是自然的強調或表現(xiàn)的部分, 利用自然的聲音,從而能夠提高聲音的表現(xiàn)力。
僅在輸入聲音的振幅波動區(qū)間調制度不足的情況下補償振幅波動。通 過這樣的處理,不會出現(xiàn)由于處理而將輸入聲音原本具備的、調制度足夠
大的振幅波動抵消;由于改變波動頻率而使輸入聲音原來的強調表現(xiàn)減弱、 變形的情況。在此基礎上,能夠進一步提高輸入聲音的表現(xiàn)力。
并且,根據(jù)這樣的構成,不需要保持為了進行更換聲音波形等的處理 的、能夠與任意的輸入聲音對應的大量的特征性聲音波形。在此基礎上, 能夠生成表現(xiàn)力豐富的聲音。而且,僅對輸入聲音附加伴隨振幅波動的調 制處理就能夠進行聲音表現(xiàn)。因此,能夠仍舊維持輸入聲音的特征,并附 加僅以單純的處理傳達強調或緊張的表現(xiàn)的聲音波形或者音樂性表現(xiàn)。
"用力聲音"或者"哼聲"是,在人大聲喊叫時、為了強調講話內容 而用力加強語氣時、在興奮或緊張狀態(tài)下講話時等出現(xiàn)的嘶啞的聲音、粗 魯?shù)穆曇艋蛘叽潭穆曇?harsh voice)等可見的,具有與普通的聲音不同 的特征的"用力"聲音表現(xiàn)。"用力"聲音表現(xiàn)中還包含在唱演歌等時出現(xiàn) 的、被稱為"花腔"或"哼聲"的表現(xiàn)。而且,"用力"聲音表現(xiàn)中還包含 在唱布魯斯歌曲或者搖滾樂等時出現(xiàn)的象"喊叫聲"那樣的表現(xiàn)。"用力聲 音"或者"哼聲"使人逼真地感受講話者的發(fā)音器官的緊張程度或用力程 度,作為表現(xiàn)力豐富的聲音而給予聽眾強烈的印象。但是,除去象演員、 配音演員或者解說員那樣的進行過講話訓練的人,或者象歌手那樣進行過 歌唱訓練的人以外,很難將這些表現(xiàn)方法運用自如。而且,如果勉強進行 這些發(fā)音還有損傷喉嚨的危險。若將本發(fā)明的聲音強調裝置應用于揚聲器 或者卡拉OK裝置上,則即使沒有積累特別的訓練經驗的用戶,也能夠在 想附加表現(xiàn)的地方,通過在身體用力或在喉嚨上用力來講話或唱歌,能夠 實現(xiàn)象演員、配音演員、解說員或者歌手那樣的豐富的聲音表現(xiàn)。因此, 若將本發(fā)明應用于卡拉OK裝置,就能夠象歌手那樣唱歌,從而能夠增大 唱歌的樂趣。并且,若將本發(fā)明應用于揚聲器,就能夠在演說或演講時以 "用力"聲音講出想要強調之處,從而能夠加深對內容的印象。
再者,在本實施例中,雖然設步驟S15中的周期信號生成部17輸出 80Hz的正弦波,但是并不僅限于此。例如,按照振幅包絡的波動頻率的分布,可以為40Hz—120Hz之間的任一頻率,周期信號生成部17也可以輸 出正弦波以外的周期性信號。 (實施例l的變形例)
圖17是實施例1的聲音強調裝置的變形例的功能框圖,圖18是表示 本變形例所涉及的聲音強調裝置的一部分工作的流程圖的一部分。關于與 圖12及圖14相同的組成部分采用相同的符號,且不重復進行詳細的說明。
如圖17所示,本變形例的聲音強調裝置的構成具有與實施例1的圖 11所示的聲音強調裝置相同的構成,但是,聲音強調部13的內部構成不 同。即,在實施例1中,由周期信號生成部17和調幅部18構成的聲音強 調部13,變?yōu)橛芍芷谛盘柹刹?7、全通濾波器26、開關27、加法器28 構成。
周期信號生成部17與實施例1的周期信號生成部17同樣,都是周期 波動信號的生成處理部。
全通濾波器26是振幅響應為固定的,但相位響應是根據(jù)頻率而不同的 濾波器。全通濾波器在電氣通信領域被應用于補償傳輸路徑的延遲特性, 在電子樂器的領域被應用于稱為相位器或者移相器(非專利文獻Curtis Roads著,青柳龍也等翻譯/主編"- >匕。- 一夕音楽一歴史.亍夕/ 口 -一.7 —卜 一(計算機音樂一歷史/技術/技藝)"東京電機大學出版社,p353) 的效應器(給音色附加變化及效果的裝置)。本變形例的全通濾波器26具 有所謂相位的移位量是可調的特性。
開關27按照來自強調發(fā)音區(qū)間檢測部的輸入,來切換是否對加法器 28輸入全通濾波器26的輸出。
加法器28是將全通濾波器26的輸出信號與輸入聲音信號相加的處理部。
按照圖18的流程圖對如上述構成的聲音強調裝置的工作進行說明。
首先,聲音輸入部11取得聲音波形(步驟Sll),并將聲音波形輸出 到強調發(fā)音區(qū)間檢測部12。
與實施例1相同,強調發(fā)音區(qū)間檢測部12通過檢測輸入聲音的振幅波 動區(qū)間來確定用力聲音區(qū)間(步驟S12)。
用力聲音附加處理判斷部16求出用力聲音區(qū)間的調制度(步驟S13),并判斷振幅波動的調制度是否小于預先規(guī)定的基準值(步驟S14)。在振幅 波動的調制度不足基準值的情況下(步驟S14的"是"),用力聲音附加處 理判斷部16將表示用力聲音處理對象區(qū)間的信號作為切換信號輸出到開關 27。
開關27在被輸入的聲音信號被包含在強調發(fā)音區(qū)間檢測部12所輸出 的用力聲音處理對象區(qū)間中的情況下,連接全通濾波器26和加法器28 (步 驟S27)。
周期信號生成部17生成80Hz的正弦波(步驟Sl5),并輸出到全通濾 波器26。全通濾波器26按照由周期信號生成部17輸出的80Hz的正弦波, 來控制相位移動量(步驟S26)。
加法器28使輸入聲音信號和全通濾波器26的輸出相加(步驟S28)。 聲音輸出部14輸出相加后的聲音波形(步驟S18)。
由全通濾波器26輸出的聲音信號被進行相位移動。因此,相位為反相 的高次諧波分量與沒有變形的輸入聲音信號相互抵消。全通濾波器26按照 由周期信號生成部17輸出的80Hz的正弦信號,使相位的移動量進行周期 性波動。因此,通過將全通濾波器26的輸出和輸入聲音信號相加,從而使 信號的相互抵消量以80Hz進行周期性波動。據(jù)此,相加結果的信號的振 幅以80Hz進行周期性波動。
另一方面,在調制度為基準值以上的情況下(步驟S14的"否"),開 關27斷開全通濾波器26和加法器28的連接。因此,輸入聲音信號未被加 工,聲音波形就被輸出到聲音輸出部14。聲音輸出部14輸出該聲音波形 (步驟S18)。
例如,以上所說明的處理(步驟S11 — S18)在規(guī)定的時間間隔內被反 復執(zhí)行。
根據(jù)這樣的構成,與實施例l同樣,輸入聲音的振幅波動區(qū)間被檢測。 在被檢測出的振幅波動區(qū)間中的振幅波動的調制度足夠大的情況下,不對 輸入聲音的聲音波形施行處理。在調制度不足的情況下,對聲音波形施行 伴隨振幅波動的調制,以補償作為聲音的表現(xiàn)的不充分的振幅波動。因此, 講話者為了向聽眾充分進行傳達,從而對試圖進行強調的部分、試圖進行 "用力聲音"或"哼聲"的音樂表現(xiàn)的部分、或者用力講話的部分的"用力聲音"的表現(xiàn)進行強調,而能夠提高聲音的表現(xiàn)力。
進而,利用全通濾波器,通過使原波形與使相位移動量周期性波動的 信號相加,從而生成振幅波動。因此,能夠生成更加自然的振幅變化。艮口, 通過全通濾波器的相位變化,針對頻率是不一樣的。因此,在聲音所包含 的各種各樣的頻率分量中,被增強的和被減弱的混在一起。相對于實施例1 中的所有的頻率分量都進行同樣的振幅變化,在本變形例中,按每個頻率 分量發(fā)生不同的振幅的波動。因此,能夠產生更加復雜的振幅變化,具有 不損壞聽覺上的自然程度的優(yōu)點。
再者,在本變形例中,設步驟S15中的周期信號生成部17輸出80Hz 的正弦波。但是,與實施例1同樣,按照振幅包絡的波動頻率的分布,可 以為40Hz—120Hz之間的任一頻率,周期信號生成部17也可以輸出正弦 波以外的周期性信號。 (實施例2)
實施例2的對輸入聲音中的"用力聲音"或者"哼聲"的音樂表現(xiàn)不 足的部分的振幅波動進行擴張之處與實施例1不同。
圖19是實施例2的聲音強調裝置的功能框圖。圖20是表示將本實施 例的振幅動態(tài)范圍擴張部31的輸入輸出特性模式化表示的圖形。圖21是 表示本實施例的聲音強調裝置的工作的流程圖。關于與圖12和圖14相同 的構成部分及步驟采用相同的符號,并不重復進行詳細的說明。
如圖19所示,本發(fā)明的實施例2所涉及的聲音強調裝置包括聲音輸 入部11、強調發(fā)音區(qū)間檢測部12、振幅動態(tài)范圍擴張部31、聲音輸出部 14。本實施例所涉及的聲音強調裝置具有與圖12所示的實施例1所涉及的 聲音強調裝置同樣的構成。但是,聲音強調部13被振幅動態(tài)范圍擴張部 31替換之處與實施例1所涉及的聲音強調裝置不同。因此,關于聲音輸入 部ll、強調發(fā)音區(qū)間檢測部12、聲音輸出部14不進行重復說明。
振幅動態(tài)范圍擴張部31是,接收聲音輸入部11所取得的聲音波形, 并按照強調發(fā)音區(qū)間檢測部12所輸出的用力聲音處理對象區(qū)間信息和振幅 調制度信息,對輸入聲音波形的振幅進行壓縮及放大,以便對輸入聲音波 形的振幅動態(tài)擴張范圍進行擴張的處理部。
如圖20所例示的,振幅動態(tài)范圍擴張部31針對振幅比根據(jù)強調發(fā)音區(qū)間檢測部12所輸出的振幅調制度信息而設定的邊界輸入電平小的輸入, 進行振幅壓縮處理,并通過針對振幅比邊界輸入電平大的輸入進行放大處 理,從而強調振幅的波動。
其次,按照圖21的流程圖對如上述構成的聲音強調裝置的工作進行說明。
首先,聲音輸入部11取得聲音波形(步驟Sll),并將聲音波形輸出 到強調發(fā)音區(qū)間檢測部12。
與實施例1相同,強調發(fā)音區(qū)間檢測部12的用力聲音判斷部15通過 檢測輸入聲音的振幅波動區(qū)間來確定用力聲音區(qū)間(步驟S12)。
其次,用力聲音附加處理判斷部16求出用力聲音區(qū)間的調制度(步驟 S13)。用力聲音附加處理判斷部16判斷振幅波動的調制度是否小于預先規(guī) 定的基準值(步驟S14)。
在判斷調制度小于基準值的情況下(步驟S14的"是"),用力聲音附 加處理判斷部16判斷該用力聲音區(qū)間的振幅調制度不充分。用力聲音附加 處理判斷部16判斷該區(qū)間為用力聲音處理對象區(qū)間。而且,用力聲音附加 處理判斷部16將區(qū)間信息和在步驟S13進行了擬合的多項式的值的中值輸 出到振幅動態(tài)范圍擴張部31。振幅動態(tài)范圍擴張部31針對輸入聲音波形 之中的作為用力聲音處理對象區(qū)間被確定的區(qū)間,根據(jù)由用力聲音附加處 理判斷部16求出的多項式的中值,來決定邊界輸入電平,從而設定如圖 20所示的輸入輸出特性。振幅動態(tài)范圍擴張部31通過應用此輸入輸出特 性來進行振幅的壓縮和伸長,從而進行輸入聲音的振幅動態(tài)范圍擴張(步 驟S31),將包含振幅的周期性波動的"用力"聲音的調制度擴張到足夠大。 聲音輸出部14輸出振幅被擴張后的聲音波形(步驟S18)。
在判斷調制度為基準值以上的情況下(步驟S14的"否"),振幅動態(tài) 范圍擴張部31設定不進行振幅的壓縮及伸長的輸入輸出特性,對于輸入聲 音的振幅不進行變形處理,就將聲音波形輸出到聲音輸出部14。聲音輸出 部14輸出聲音波形(步驟S18)。
例如,以上所說明的處理(步驟S11—S18)在規(guī)定的時間間隔內被反 復執(zhí)行。
在步驟S31中,振幅動態(tài)范圍擴張部31根據(jù)經驗,利用第二高次諧波的振幅為聲音波形的振幅的十分之一左右的特征。即,振幅動態(tài)范圍擴張
部31將由用力聲音附加處理判斷部16輸出的第二高次諧波的振幅包絡的 擬合函數(shù)的中值、即圖3A的擬合結果的值的中值增大十倍,以作為圖20 所示的邊界輸入電平。因此,大體上,設定邊界輸入電平,以便在圖3B的 曲線所示的振幅波動為正的情況下,放大振幅;在振幅波動為負的情況下, 壓縮振幅。
圖22是為了詳細說明關于依據(jù)振幅動態(tài)范圍擴張部31的邊界輸入電 平的設定的圖。該圖中,以虛線表示被輸入到振幅動態(tài)范圍擴張部31的聲 音波形102。并且,以虛線表示聲音波形102的第二高次諧波的振幅包絡 104。若將振幅包絡104的中值增大十倍后的值作為邊界輸入電平88,則 以點劃線表示邊界輸入電平88。在此,在將振幅包絡104的值和邊界輸入 電平88進行比較的情況下,在振幅包絡104的值變?yōu)檫吔巛斎腚娖?8以 下的時刻中,振幅動態(tài)范圍擴張部31進行壓縮聲音波形102的振幅的處理。 而且,在振幅包絡104的值超過邊界輸入電平88的時刻中,振幅動態(tài)范圍 擴張部31進行放大聲音波形102的振幅的處理。作為通過振幅動態(tài)范圍擴 張部31進行聲音波形102的振幅的壓縮及放大的結果,生成聲音波形86。 在將聲音波形86和聲音波形102進行比較的情況下,在振幅包絡104的 值小的部分,聲音波形86的振幅與聲音波形102的振幅相比變得更小。反 之,在振幅包絡104的值大的部分,聲音波形86的振幅與聲音波形102 的振幅相比變得更大。因此,聲音波形86中,振幅大的部分和振幅小的部 分之間的振幅的差(動態(tài)范圍),比聲音波形102的大。此事,通過將聲音 波形86的振幅包絡90與聲音波形102的振幅包絡104進行比較也可明了 。 并且,振幅動態(tài)范圍擴張部31不僅放大聲音波形102的振幅,還對于聲音 波形102的振幅小的部分,將聲音波形102的振幅進行壓縮。因此,與僅 僅放大聲音波形102的振幅的情況相比,振幅動態(tài)范圍擴張部31能夠生成 振幅的最大值和最小值之間的差(動態(tài)范圍)更大的聲音波形86。
圖23是說明有關通過振幅動態(tài)范圍擴張部31將實際的聲音波形的振 幅的動態(tài)范圍進行擴大后的結果的圖。圖23(a)是表示進行/ba/的發(fā)音時的 聲音波形92和其包絡線94的圖。圖23(b)是表示通過振幅動態(tài)范圍擴張部 31,擴大圖23(a)所示的聲音波形92的振幅的動態(tài)范圍后的聲音波形96和其包絡線98的圖。將包絡線94和包絡線98進行比較即可得知,聲音波 形96與聲音波形92相比,振幅的動態(tài)范圍被擴大。
根據(jù)這樣的構成,檢測輸入聲音的振幅波動區(qū)間,在此調制度足夠大 的情況下不施行處理,在調制度不足的情況下,將聲音波形的振幅波動進 行擴張。以此,使作為聲音的表現(xiàn)不足的振幅波動成為足夠的大小。因此, 講話者能夠為了向聽眾充分進行傳達,從而對試圖進行強調或進行"用力 聲音"或"哼聲"的音樂表現(xiàn)的部分、或者用力講話的部分的"用力聲音" 的表現(xiàn)進行擴大、強調。進而,作為用力聲音處理,將發(fā)音者的原來的聲 音波形的振幅波動進行擴張。因此,能夠在保持發(fā)音者個人的特性的同時 提高聲音的表現(xiàn)力。因而,能夠生成更加自然的聲音。即通過單純的處理, 能夠附加利用了輸入聲音的特征的、傳達強調或緊張的表現(xiàn)的聲音波形或 聲音表現(xiàn)。
再者,本實施例中,設在步驟S14中調制度小于基準值的情況下,在 步驟S31中,振幅動態(tài)范圍擴張部31改變輸入輸出特性并進行振幅的壓縮 和伸長,從而進行振幅動態(tài)范圍的擴張。而且,設在步驟S14中調制度為 基準值以上的情況下,振幅動態(tài)范圍擴張部31改變輸入輸出特性,并不進 行振幅的壓縮以及伸長的處理。但是,也可以準備迂回的路徑,從而從聲 音輸入部11到聲音輸出部14的途中不經過振幅動態(tài)范圍擴張部31。而且, 還可以準備開關,用來切換是將輸入聲音波形輸入到振幅動態(tài)范圍擴張部 31,還是通過迂回而輸入到聲音輸出部14。在步驟S14中調制度小于基準 值的情況下,將開關切換到與振幅動態(tài)范圍擴張部31相連接的一側,以對 輸入聲音波形進行振幅動態(tài)范圍擴張?zhí)幚怼2⑶?,在步驟S14中調制度為 基準值以上的情況下,將開關切換到繞過振幅動態(tài)范圍擴張部31與聲音輸 出部14相連接的一側,并且不對輸入聲音施行處理而輸出。在此情況下, 振幅動態(tài)范圍擴張部31的輸入輸出特性也可以固定為圖20所示的特性。
另外,雖然本實施例中,在歩驟S31中振幅動態(tài)范圍擴張部31根據(jù)針 對第二高次諧波的振幅包絡的擬合函數(shù)的值的中值,來求出邊界輸入電平, 但是并不限于此。例如,在用力聲音判斷部15將聲源波形或基波應用于振 幅波動頻率的分析的情況下,振幅動態(tài)范圍擴張部31也可以利用針對聲源 波形或基波的振幅包絡線的擬合函數(shù)的值,來求出邊界輸入電平。而且,振幅動態(tài)范圍擴張部31在通過聲音波形的全波整流來求出振幅包絡的情況 下,針對全波整流的結果的擬合函數(shù)的值,或者全波整流的結果的平均值 等,只要是能夠將聲音波形的振幅波動包絡曲線分割為上下兩個的值,就 可以利用任何值來求出邊界輸入電平。 (實施例3)
在實施例3中,使用壓力傳感器來指示聲音的"用力聲音"部分或者 "哼聲"部分。
圖24是實施例3的聲音強調裝置的功能框圖。圖25是表示本實施例 的工作的流程圖。關于與圖12和圖14相同的構成部分及步驟采用相同的 符號,并不重復進行詳細的說明。
如圖24所示,本發(fā)明的實施例3所涉及的聲音強調裝置包括手持式 傳聲器41、強調發(fā)音區(qū)間檢測部44、聲音強調部13、聲音輸出部14。
因為聲音強調部13和聲音輸出部14與實施例1相同,所以不重復進 行說明。
手持式傳聲器41包括感知用戶握住手持式傳聲器41時的壓力的壓 力傳感器43、接受用戶的聲音輸入的麥克風42。
強調發(fā)音區(qū)間檢測部44包括標準值計算部45、標準值記憶部46、 用力聲音附加處理判斷部47。
標準值計算部45是接受壓力傳感器43的輸出,并求出用戶的把持壓 的標準范圍,從而輸出此上限值的處理部。
標準值記憶部46是記憶裝置,記憶在標準值計算部45計算出的用戶 的把持壓的的標準把持壓上限值,例如,由存儲器或硬盤等構成。
用力聲音附加處理判斷部47是接受壓力傳感器43的輸出,并將從壓 力傳感器43輸出的值和標準值記憶部46所記憶的標準把持壓的上限值進 行比較,從而判斷是否將對應于成為判斷對象的區(qū)間的輸入聲音作為用力 聲音處理的對象的處理部。
其次,按照圖25的流程圖,對如上述構成的聲音強調裝置的工作進行 說明。
首先,在用戶握住手持式傳聲器的情況下,壓力傳感器43測定把持壓 (步驟S41)。將講話前及剛開始講話后的預先決定的期間、樂曲開始前及幵始唱歌 前的前奏區(qū)間、以及間奏區(qū)間定為標準值設定時間范圍,若在標準值設定
時間范圍內(步驟S43的"是"),則以壓力傳感器43測定的把持壓信息被 輸入并被蓄積在標準值計算部45 (步驟S44)。
在標準把持壓的計算所需要的數(shù)據(jù)的蓄積完畢的情況下(步驟S45的
"是"),標準值計算部45計算標準把持壓的上限值(步驟S46)。例如, 標準把持壓的上限值為在標準值設定時間范圍內的把持壓的平均值中加上 標準偏差后的值。并且例如,是相當于標準值設定時間范圍內的把持壓的 最大值的90%的值。標準值計算部45將在步驟S46計算的標準把持壓的 上限值記憶在標準值記憶部46 (步驟S47)。在步驟S45中,在標準把持 壓的計算所需要的數(shù)據(jù)的蓄積未完畢的情況下(步驟S45的"否"),則返 回步驟S41,從而接受來自壓力傳感器43的下一個輸入。在利用前奏區(qū)間 及間奏區(qū)間的把持壓來計算標準把持壓的情況下,標準值計算部45參照卡 拉OK系統(tǒng)的樂曲信息,來確定前奏區(qū)間及間奏區(qū)間,并設定標準值設定 時間范圍,從而計算標準把持壓。
在所著眼的時刻不在標準值設定時間范圍內的情況下(步驟S43的
"否"),以壓力傳感器43測定的把持壓信息被輸入到用力聲音附加處理判 斷部47。
麥克風42取得用戶發(fā)出的聲音(步驟S42),并作為輸入聲音波形輸 出到調幅部18。
用力聲音附加處理判斷部47將標準值記憶部46所記憶的標準把持壓 的上限值和由壓力傳感器43輸入的值進行比較(步驟S48)。在該把持壓 比標準把持壓的上限值大的情況下(步驟S48的"是"),用力聲音附加處 理判斷部47將該區(qū)間作為用力聲音處理對象區(qū)間輸出到調幅部18。
而且,周期信號生成部17生成80Hz的正弦波(步驟S15),并生成 在此正弦波信號中加上了直流分量的信號(步驟S16)。調幅部18對于與 輸入聲音波形之中的部分波形同步的把持壓信息,比步驟S48中的標準把 持壓的上限值大的作為用力聲音處理對象區(qū)間的區(qū)間,通過周期信號生成 部17生成的以80Hz振動的周期信號乘以輸入聲音信號來進行振幅調制 (步驟S17),從而進行向包含振幅的周期性波動的"用力"聲音的轉換。聲音輸出部14輸出轉換后的聲音波形(步驟S18)。
在該把持壓為標準把持壓的上限值以下的情況下(步驟S48的"否"), 調幅部18對與該把持壓信息同步的輸入聲音不進行處理,就將聲音波形輸 出到聲音輸出部14。聲音輸出部14輸出此聲音波形(步驟S18)。
因為按每個用戶進行把持壓的標準化,所以伴隨用戶的更換,需要對 把持壓數(shù)據(jù)進行初始化。關于這一點,能夠通過接受用戶更換的輸入,并 感測麥克風42的移動,在一定時間以上為靜止的情況下,對把持壓數(shù)據(jù)進 行初始化;或者在卡拉OK的情況下,通過在樂曲的開始時對把持壓數(shù)據(jù) 進行初始化等方法來實現(xiàn)。
例如,以上所說明的處理(步驟S41 —S18)在規(guī)定的時間間隔內被反 復執(zhí)行。
根據(jù)這樣的構成,檢測出用戶的握住手持式傳聲器的把持壓比標準時 高的定時,對聲音波形進行伴隨振幅波動的調制,以附加根據(jù)"用力聲音" 的強調或者根據(jù)"哼聲"的音樂表現(xiàn)。通過這樣的處理,能夠在用戶用力 講話或者唱歌里適合強調或音樂表現(xiàn)的部分中,附加"用力聲音"或"哼 聲"的表現(xiàn)。因此,能夠在用戶用力講話或者唱歌的自然的定時,附加強 調或音樂表現(xiàn)以提高聲音的表現(xiàn)力。
再者,在本實施例中,雖然設步驟S15中的周期信號生成部17輸出 80Hz的正弦波,但是并不僅限于此。例如,按照振幅包絡的波動頻率的分 布,可以為40Hz—120Hz之間的任一頻率,周期信號生成部17也可以輸 出正弦波以外的周期性信號。而且,也可以如實施例1的變形例,通過全 通濾波器來附加振幅波動。
再者,在本實施例中,雖然設手持式傳聲器41中包括壓力傳感器43, 但是并不限定于此。例如,除手持式傳聲器41之外,還可以在凳子、鞋或 者腳掌等處配置壓力傳感器,以設為感知腳踩的力量的構成。并且,在安 裝于上臂的帶子上配置壓力傳感器,以成為感知加緊腋窩的力量的構成。
再者,雖然在本實施例中,設為直接輸入來自手持式傳聲器41的、與 把持壓同步的聲音,但是只要來自壓力傳感器的輸出數(shù)據(jù)和聲音波形同步 記錄,也可以為將被記錄的把持壓和聲音波形作為輸入來接受。 (實施例4)在實施例4中,利用檢測喉頭的移動的傳感器來檢測聲音的"用力聲 音"部分或者"哼聲"部分。
圖26是實施例4的聲音強調裝置的功能框圖。圖27是表示本實施例 的工作的流程圖。關于與圖24及圖25相同的構成部分及步驟采用相同的 符號,并不重復進行詳細的說明。
如圖26所示,本發(fā)明的實施例4所涉及的聲音強調裝置包括EGG (Electroglottograph)傳感器51、麥克風42、強調發(fā)音區(qū)間檢測部52、 聲音強調部13、聲音輸出部14。因為聲音強調部13和聲音輸出部14與 實施例1相同,所以不重復進行說明。
EGG傳感器51是與頸部的皮膚相接觸并感知喉頭的移動的傳感器。 麥克風42與實施例3同樣地取得用戶的聲音。
強調發(fā)音區(qū)間檢測部52包括標準值計算部55、標準值記憶部56、 用力聲音附加處理判斷部57。
標準值計算部55是,接受EGG傳感器51的輸出,根據(jù)EGG波形而 求出發(fā)出有聲音中的聲門關閉區(qū)間比率,并輸出標準發(fā)音時的該比率的下 限值的處理部。
標準值記憶部56是記憶裝置,記憶在標準值計算部55計算出的用戶 的標準聲門關閉區(qū)間比率的下限值,例如,由存儲器或硬盤等構成。
用力聲音附加處理判斷部57是,接受EGG傳感器51的輸出,并將 從EGG傳感器51輸出的值和標準值記憶部56所記憶的標準聲門關閉區(qū) 間比率的下限值進行比較,從而判斷是否將對應于該區(qū)間的輸入聲音作為 用力聲音處理的對象的處理部。
其次,按照圖27的流程圖對如上述構成的聲音強調裝置的工作進行說明。
首先,若用戶發(fā)出聲音,則通過EGG傳感器51取得表示喉頭的移動 的EGG波形(步驟S51)。
標準值計算部55接受由EGG傳感器51輸出的EGG波形,并取出相 當于聲音波形的基本周期的一個周期的EGG波形(步驟S52)。如在圖28 及圖29所分別表示的專利文獻特開2007 — 68847號公報的圖5及圖6 所示,在EGG波形的一個周期中,具有一個波峰和進行無變化推移的部分。所謂一個周期是指從此波峰的開始上升時到下一個波峰的開始上升時為 止。此波峰的部分相當于聲門的開放期,無變化的部分相當于聲門的關閉 期。
標準值計算部55將一個周期內的無變化部分的時間幅度在一個周期的 時間幅度里所占的比例,作為聲門關閉區(qū)間比率來計算(步驟S53)。在剛 開始講話或者唱歌之后的預先規(guī)定的期間,例如,如果設標準值設定時間 范圍為5秒鐘,且取得該EGG波形數(shù)據(jù)的時刻在標準值設定時間范圍內(步 驟S54的"是"),則在步驟S53計算出的聲門關閉區(qū)間比率被蓄積在標準 值計算部55中(步驟S55)。再者,不僅可以是5秒鐘,也可以是8秒鐘 或在此之上。
進而,在標準聲門關閉區(qū)間比率的計算所需要的數(shù)據(jù)的蓄積完畢的情 況下(步驟S56的"是"),標準值計算部55計算的標準聲門關閉區(qū)間比率 的上限值(步驟S57)。例如,標準聲門關閉區(qū)間比率的上限值為在標準值 設定時間范圍內的標準聲門關閉區(qū)間比率的平均值中加上標準偏差后的 值。標準值計算部55將在步驟S57計算的標準聲門關閉區(qū)間比率的上限值 記憶在標準值記憶部56 (步驟S58)。
在標準聲門關閉區(qū)間比率的計算所需要的數(shù)據(jù)的蓄積未完畢的情況下 (步驟S56的"否"),則返回步驟S51,從而標準值計算部55接受來自 EGG傳感器51的下一個輸入。
在該時間不在標準值設定時間范圍內的情況下(步驟S54的"否"), 麥克風42取得用戶發(fā)音的聲音波形,并作為輸入聲音波形輸出到調幅部 18(步驟S42)。并且,在步驟S53計算的聲門關閉區(qū)間比率被輸入到用力 聲音附加處理判斷部57。用力聲音附加處理判斷部57將標準值記憶部56 所記憶的標準聲門關閉區(qū)間比率的上限值與標準值計算部55所計算的聲門 關閉區(qū)間比率進行比較(步驟S59)。
在該聲門關閉區(qū)間比率比標準聲門關閉區(qū)間比率的上限值大的情況下 (步驟S59的"是"),用力聲音附加處理判斷部57將該區(qū)間作為用力聲音 處理對象區(qū)間輸出到調幅部18。在喉頭上用力的狀態(tài)下,聲門的關閉區(qū)間 變長的現(xiàn)象已被一般所知(例如,非專利文獻:石井Carlos壽憲、石黑浩及 萩田紀博"EGG全用l、 t 「" § *」発聲o音響分析(利用EGG的"用力"發(fā)聲的聲學分析)"、2007年春季日本聲學學會講演論文集、pp.221 — 222、 2007)。聲門關閉區(qū)間比率比標準聲門關閉區(qū)間比率的上限值大的情 況是表示標準時以上的力被用在聲門上。
周期信號生成部17生成80Hz的正弦波信號(步驟S15),并生成在 此正弦波信號中加入直流分量的信號(步驟S16)。調幅部18對于與輸入 聲音波形之中的部分波形同步的EGG波形的聲門關閉區(qū)間比率,比步驟 S59中的標準聲門關閉區(qū)間比率的上限值大的作為用力聲音處理對象區(qū)間 的區(qū)間,使周期信號生成部17生成的以80Hz振動的周期信號乘以輸入聲 音信號(步驟S17)。通過此處理,進行振幅調制,從而進行向包含振幅的 周期性波動的"用力"聲音的轉換。聲音輸出部14輸出轉換后的聲音波形 (步驟S18)。
在該聲門關閉區(qū)間比率為標準聲門關閉區(qū)間比率的上限值以下的情況 下(步驟S59的"否"),調幅部18不對與該把持壓信息同步的輸入聲音進 行處理,就將聲音波形輸出到聲音輸出部14,從而聲音輸出部14輸出此 聲音波形(步驟S18)。
例如,以上所說明的處理(步驟S51—S18)在規(guī)定的時間間隔內被反 復執(zhí)行。
根據(jù)這樣的構成,檢測講話中或唱歌中的用戶的聲門關閉區(qū)間比率變 得比標準時高的定時,從而對聲音波形進行伴隨振幅波動的調制。以此附 加根據(jù)"用力聲音"的強調或根據(jù)"哼聲"的音樂表現(xiàn)。因此,用戶為了 想要進行強調或音樂性表現(xiàn),能夠在喉頭的用力部分附加"用力聲音"或 者"哼聲"的表現(xiàn)。因而,能夠在用戶用力講話或者唱歌的定時,附加強 調或音樂表現(xiàn)。并且,即使聲音波形上的變化不足以用來聽取用戶的發(fā)音 為用力的狀態(tài),也能夠提高聲音的表現(xiàn)力。
另外,在本實施例中,將聲門關閉時間比率的標準值設定時間范圍設 為開始講話或開始唱歌后的五秒鐘。但是,在應用于卡拉OK系統(tǒng)的情況 下,也可以與實施例3同樣,參考樂曲數(shù)據(jù)以確定樂曲中的除精華部分以 外的歌唱區(qū)間,從而設定規(guī)定了的時間長度,根據(jù)精華部分以外的歌唱聲 音來設定聲門關閉時間比率的標準值。因此,容易強調出現(xiàn)在精華部分的 音樂表現(xiàn),并能夠強調音樂的高潮。再者,雖然在本實施例中,是根據(jù)以EGG傳感器51取得的EGG波 形計算聲門關閉區(qū)間比率,但是也可以如專利文獻特開2007 —68847號 公報所述,將從聲音波形抽取了第四共振峰的頻帶的波形的振幅低于預先 規(guī)定的振幅的區(qū)間,作為聲門關閉區(qū)間,將高于預先規(guī)定的振幅的區(qū)間作 為聲門開放區(qū)間,并將作為一組的相鄰的一個聲門開放區(qū)間和一個聲門關 閉區(qū)間當作一個周期,從而計算聲門關閉區(qū)間比率。
再者,在本實施例中,雖然設步驟S15中的周期信號生成部17輸出 80Hz的正弦波,但是并不僅限于此。例如,按照振幅包絡的波動頻率的分 布,頻率可以為40Hz—120Hz之間的任一頻率,周期信號生成部17也可 以輸出正弦波以外的周期性信號。而且,也可以如實施例1的變形例,通 過全通濾波器來附加振幅波動。 (實施例5)
圖30是表示實施例5中的聲音強調系統(tǒng)的構成的圖。作為聲音強調系 統(tǒng)的具體例子具有用于移動電話71b的來電通知用聲音(來電通知用音 樂、來電聲音)的服務系統(tǒng);用于便攜型個人電腦71a的語音電子郵件用 聲音的服務系統(tǒng);或者用于網(wǎng)絡游戲機71c的游戲角色或化身用聲音的服 務系統(tǒng)。聲音強調系統(tǒng)包括通過網(wǎng)絡72被接續(xù)的便攜型個人電腦71a、 移動電話71b以及網(wǎng)絡游戲機71c等終端,還有聲音處理服務器73。各個 終端將被輸入的聲音數(shù)據(jù)發(fā)送到聲音處理服務器73。聲音處理服務器73 針對被發(fā)送的聲音數(shù)據(jù),進行用力聲音部分的強調,再將聲音數(shù)據(jù)返送到 發(fā)送終端。
圖31是表示實施例5中的聲音強調系統(tǒng)的構成的框圖。圖32是表示 實施例5的聲音強調系統(tǒng)之中的終端71的工作的流程圖。圖33是表示實 施例5的聲音強調系統(tǒng)之中的聲音處理服務器73的工作的流程圖。
如圖31所示,本發(fā)明的實施例5所涉及的聲音強調系統(tǒng)是,將通過終 端的麥克風被輸入的、并通過網(wǎng)絡被發(fā)送到服務器的聲音中的用力聲音, 在服務器內進行強調后再返送給終端,并以終端輸出處理聲音的系統(tǒng)。聲 音強調系統(tǒng)包括終端71、網(wǎng)絡72以及聲音處理服務器73。
如圖30所示,具體而言,終端71是便攜型個人電腦71a、移動電話 71b或者網(wǎng)絡游戲機71c等。而且,終端71還可以是便攜型信息終端等。如圖31所示,終端71包括麥克風76、模數(shù)轉換器77、輸入聲音 數(shù)據(jù)記憶部78、聲音數(shù)據(jù)發(fā)送部79、聲音數(shù)據(jù)接收部80、強調聲音數(shù)據(jù) 記憶部81、數(shù)模轉換器82、電聲轉換器83、聲音輸出指示輸入部84、以 及輸出聲音抽取部85。
模數(shù)轉換器77是將由麥克風76輸入的聲音的模擬信號轉換成數(shù)字信 號的處理部。輸入聲音數(shù)據(jù)記憶部78是存儲由模數(shù)轉換器77轉換成數(shù)據(jù) 信號的輸入聲音數(shù)據(jù)的記憶部。聲音數(shù)據(jù)發(fā)送部79是將被轉換成數(shù)據(jù)信號 的輸入聲音數(shù)據(jù)與終端標識符配在一起,并通過網(wǎng)絡72發(fā)送到聲音處理服 務器73的處理部。
聲音數(shù)據(jù)接收部80是通過網(wǎng)絡72,來接收由聲音處理服務器73發(fā)送 的、被施加了依據(jù)用力聲音附加的強調處理的聲音數(shù)據(jù)的處理部。強調聲 音數(shù)據(jù)記憶部81是存儲由聲音數(shù)據(jù)接收部80接收的、在聲音處理服務器 73進行了強調處理的聲音數(shù)據(jù)的記憶部。數(shù)模轉換器82是將由聲音數(shù)據(jù) 接收部80接收的、以數(shù)據(jù)信號來表現(xiàn)的聲音信號轉換成模擬電信號的處理 部。電聲轉換器83是將電信號轉換成聲信號的處理部,具體來說,是揚聲 器等。
聲音輸出指示輸入部84是用戶用于指示聲音輸出的輸入處理裝置,具 體來說,是按鈕、開關或者能夠列表顯示被選擇項目的觸摸屏等。輸出聲 音抽取部85是按照由聲音輸出指示輸入部84輸入的聲音輸出指示,來抽 取存儲在強調聲音數(shù)據(jù)記憶部81中的進行了強調處理的聲音數(shù)據(jù),并輸入 到數(shù)模轉換器82的處理部。
并且,如圖31所示,聲音處理服務器73包括聲音數(shù)據(jù)接收部74、 聲音數(shù)據(jù)發(fā)送部75、強調發(fā)音區(qū)間檢測部12、以及聲音強調部13。
聲音數(shù)據(jù)接收部74是接收由終端71的聲音數(shù)據(jù)發(fā)送部79發(fā)送的輸入 聲音數(shù)據(jù)的處理部。聲音數(shù)據(jù)發(fā)送部75是對終端71的聲音數(shù)據(jù)接收部80, 發(fā)送施加了依據(jù)用力聲音附加的強調處理的聲音數(shù)據(jù)的處理部。
強調發(fā)音區(qū)間檢測部12包括用力聲音判斷部15及用力聲音附加處理 判斷部16。聲音強調部13包括調幅部18及周期信號生成部17。由于強 調發(fā)音區(qū)間檢測部12及聲音強調部13與圖12所示的相同,所以對其不重 復進行詳細的說明。其次,在如上所述的構成的聲音強調系統(tǒng)之中,按照圖32、圖34的 流程圖對終端71的工作,按照圖33的流程圖對聲音處理服務器73的工作 分別進行說明。在圖33的流程圖中,對于與實施例1的圖12所示的聲音 強調裝置的工作同樣的工作,付與相同的參考標記以進行說明。關于同樣 的工作,在此對其不重復進行詳細的說明。
首先,按照圖32,對通過終端71進行聲音信號的取得和發(fā)送的工作 進行說明。
麥克風76通過用戶發(fā)出的聲音的輸入,取得作為模擬電信號的聲音(步 驟S701)。模數(shù)轉換器77將由麥克風76輸入的模擬聲音信號,以預先規(guī) 定的采樣頻率來進行采樣,并轉換成數(shù)字信號(步驟S702)。例如,采樣 頻率為22050Hz等。另外,只要采樣頻率為再生聲音的精確度及信號處理 精確度所需要的頻率以上,可以為任意的頻率。模數(shù)轉換器77將在步驟 S702中轉換成數(shù)字信號的聲音信號存儲在輸入聲音數(shù)據(jù)記憶部78 (步驟 S703)。聲音數(shù)據(jù)發(fā)送部79將在步驟S702中轉換成數(shù)字信號的聲音信號, 與終端71的終端標識符或者應當接收處理聲音的其他的終端的終端標識符 配在一起,并通過網(wǎng)絡72發(fā)送到聲音處理服務器73 (步驟S704)。' 其次,按照圖33對聲音處理服務器73的工作進行說明。 聲音數(shù)據(jù)接收部74通過網(wǎng)絡72,接收終端71在步驟S704發(fā)送的終 端標識符和聲音信號(步驟S71)。由聲音數(shù)據(jù)接收部74取得的聲音信號、 即聲音波形被輸入到強調發(fā)音區(qū)間檢測部12的用力聲音判斷部15,用力 聲音判斷部15進行聲音中的振幅波動區(qū)間的檢測(步驟S12)。其次,用 力聲音附加處理判斷部16對用力聲音區(qū)間的振幅波動的調制度進行分析
(步驟S13)。調制度判斷部25判斷,在步驟S13求出的調制度是否小于 預先規(guī)定的基準值(步驟S14)。在調制度被判斷為在基準值以上的情況下
(步驟S14的"否"),調制度判斷部25判斷該用力聲音區(qū)間的振幅調制度 為充分,從而不將該區(qū)間作為用力聲音處理對象區(qū)間,并向調幅部18輸出 區(qū)間信息。調幅部18不對輸入聲音進行處理,就將聲音波形輸出到聲音數(shù) 據(jù)發(fā)送部75。聲音數(shù)據(jù)發(fā)送部75通過網(wǎng)絡72,向具有在步驟S71接收的 終端標識符的終端發(fā)送由調幅部18輸出的聲音波形(步驟S72)。
在調制度被判斷為小于基準值的情況下(步驟S14的"是"),周期信號生成部17生成80Hz的正弦波(步驟S15),并生成在此正弦波信號中 加上直流分量的信號(步驟S16)。調幅部18關于在輸入聲音波形之中作 為用力聲音處理對象區(qū)間被確定的區(qū)間,通過周期信號生成部17生成的以 80Hz振動的周期信號乘以輸入聲音信號來進行振幅調制。通過這樣的處 理,調幅部18進行從輸入聲音向包含振幅的周期性波動的"用力"聲音的 轉換(步驟S17)。調幅部18向聲音數(shù)據(jù)發(fā)送部75輸出轉換后的聲音波形。 聲音數(shù)據(jù)發(fā)送部75通過網(wǎng)絡72,向具有在步驟S71接收的終端標識符的 終端,發(fā)送在步驟S17由調幅部18輸出的聲音波形(步驟S72)。
其次,按照圖34,對終端71的聲音信號的接收和聲音輸出的工作進 行說明。
聲音數(shù)據(jù)接收部80通過網(wǎng)絡,接收由聲音處理服務器73發(fā)送的聲音 波形(步驟S705)。聲音數(shù)據(jù)接收部80將取得了的聲音波形存儲在強調聲 音數(shù)據(jù)記憶部81 (步驟S706)。在根據(jù)接收時的應用軟件等存在聲音輸出 指示的情況下(步驟S707的"是"),輸出聲音抽取部85從強調聲音數(shù)據(jù) 記憶部81所存儲的聲音數(shù)據(jù)之中抽取對象的聲音波形,并輸入到數(shù)模轉換 器82 (步驟S708)。數(shù)模轉換器82以與模數(shù)轉換器77在步驟S702中進 行了采樣的周期相同的周期,將數(shù)字信號轉換成模擬電信號(步驟S709)。 在步驟S709由數(shù)模轉換器82輸出的模擬電信號,通過電聲轉換器83作 為聲音被輸出(步驟S710)。終端71在無聲音輸出指示的情況下(步驟 S707的"否"),結束工作。
除接收工作之外,在用戶的聲音輸出指示被輸入到聲音輸出指示輸入 部84的情況下(步驟S711),輸出聲音抽取部85按照被輸入到聲音輸出 指示輸入部84的聲音輸出指示,從強調聲音數(shù)據(jù)記憶部81所存儲的聲音 數(shù)據(jù)之中抽取對象的聲音波形,并輸入到數(shù)模轉換器82 (步驟S708)。數(shù) 模轉換器82將數(shù)字信號轉換成模擬電信號(步驟S709)。模擬電信號通過 電聲轉換器83作為聲音被輸出(步驟S710)。
根據(jù)這樣的構成,將在終端71被輸入的用戶或發(fā)聲者的聲音發(fā)送到聲 音處理服務器73。聲音處理服務器73檢測輸入聲音的振幅波動區(qū)間,并 將對作為聲音的表現(xiàn)的調制度不足的部分進行振幅波動補償?shù)穆曇舭l(fā)送到 終端。終端能夠利用被進行了強調處理的聲音。因此,為了向聽眾充分進行傳達,對強調或用力講話的"用力聲音"的表現(xiàn)或者"哼聲"的音樂表 現(xiàn)進行強調,從而能夠提高聲音的表現(xiàn)力。與此同時,有效地利用輸入聲 音原本具備的調制度足夠大的振幅波動,從而能夠生成更加自然且表現(xiàn)力 高的聲音。根據(jù)本實施例所涉及的聲音強調系統(tǒng),能夠將以未受過特殊訓 練的普通的發(fā)聲者或用戶的自然的嗓音而難以實現(xiàn)的表現(xiàn)力高的聲音,作 為來電聲音用聲音、語音電子郵件或者化身用聲音等來利用。不僅發(fā)聲者 或用戶本身利用這樣的聲音,也可以通過將其發(fā)送到別人的終端,從而以 更加豐富的表現(xiàn)向別人傳達消息。而且,不需要在終端進行聲音分析和信 號處理之類的計算量大的處理。因此,即使是計算能力低的終端也能夠利 用表現(xiàn)力高的聲音。
再者,在本實施例中,設采樣頻率與終端71內的模數(shù)轉換器77和數(shù) 模轉換器82相同,并將聲音處理服務器73中的輸入聲音信號的采樣頻率 作為固定的頻率進行了說明。但是,在每個終端的采樣頻率不同的情況下, 也可以設為終端配合聲音信號,將采樣頻率發(fā)送到聲音處理服務器73。因 此,設聲音處理服務器73按照所接收的采樣頻率,對接收的聲音信號進行 處理。并且,設聲音處理服務器73通過重新采樣處理,將采樣頻率轉換成 信號處理時的采樣頻率。而且,設在發(fā)送未處理聲音的終端與接收進行了 強調處理的聲音的終端不同的情況下,或聲音處理服務器73輸出的聲音信 號的采樣頻率與終端的采樣頻率不同的情況等情況下,聲音處理服務器73 向終端發(fā)送進行了強調處理的聲音波形,并發(fā)送采樣頻率,數(shù)模轉換器82 根據(jù)接收的采樣頻率,生成模擬電信號。
再者,在本實施例中,雖然設為將采樣后的波形數(shù)據(jù)照原樣從終端71 發(fā)送到聲音處理服務器73,但是,當然也可以利用作為通過網(wǎng)絡72進行 通信的數(shù)據(jù)的,由MP3 (MPEG Audio Layer—3:活動圖像壓縮標準音 頻第三層)或CELP (Code—Excited Linear Prediction:碼激勵線性預 測)等波形壓縮編碼器壓縮的數(shù)據(jù)。同樣,作為從聲音處理服務器73向終 端71發(fā)送的聲音數(shù)據(jù),也可以利用被壓縮后的數(shù)據(jù)。
再者,在本實施例中,雖然將輸入聲音數(shù)據(jù)記憶部78和強調聲音數(shù)據(jù) 記憶部81作為獨立的部分進行了說明,但是,也可以在一個記憶部中,對 輸入聲音數(shù)據(jù)及強調聲音數(shù)據(jù)都進行記憶。此時設為,配合聲音信號存儲對輸入聲音數(shù)據(jù)和強調聲音數(shù)據(jù)進行識別的信息的構成。而且,雖然設輸
入聲音數(shù)據(jù)記憶部78和強調聲音數(shù)據(jù)記憶部81存儲數(shù)字信號,但是也可 以設為存儲作為由麥克風76輸入的、通過模數(shù)轉換器77轉換成數(shù)字信號 之前的模擬電信號的輸入聲音信號;以及存儲作為通過數(shù)模轉換器82將數(shù) 字信號轉換成模擬信號后的模擬電信號的強調聲音信號。此時,設聲音信 號被記錄在磁帶或唱片之類的模擬介質上。
再者,雖然在本實施例中,設在終端71進行模數(shù)轉換及數(shù)模轉換,并 通過網(wǎng)絡72收發(fā)數(shù)據(jù)信號,但是,也可以收發(fā)模擬信號,并在聲音處理服 務器73進行模數(shù)轉換及數(shù)模轉換。此時,網(wǎng)絡需要通過經由交換機的模擬 電路來實現(xiàn)。
再者,雖然設聲音處理服務器73的聲音強調部13與實施例1同樣, 通過周期信號生成部17和調幅部18,使周期信號乘以聲音波形來進行振 幅調制,但并不只限于此。例如,還可以如實施例1的變形例所述,利用 全通濾波器,或可以如實施例2所述,通過對原波形的振幅波動的動態(tài)范 圍進行擴張,來強調振幅調制。進而與實施例2同樣,為了擴張動態(tài)范圍, 也可以利用模擬電路。
以上,關于本發(fā)明,根據(jù)上述的實施例l至5進行了說明,但是,本 發(fā)明并不只限于上述的實施例。
例如,在實施例3、實施例4中,分別利用由壓力傳感器43得到的把 持壓、根據(jù)由EGG傳感器51得到得EGG波形計算出的聲門關閉區(qū)間比 率,來判斷用力聲音處理對象區(qū)間。但是,用力聲音處理對象區(qū)間的判斷 方法并不只限于此。例如,也可以安裝能夠測定手持式傳聲器內的回轉儀 等的加速度或移動的傳感器,或者可以在頭部安裝傳感器,在講話者或者 唱歌者的移動的速度或移動的距離為一定值以上的情況下,作為用力聲音 處理對象區(qū)間來判斷。
而且,設在實施例1、實施例2中對輸入聲音的振幅波動的調制度進行 分析,并對調制度不充分的區(qū)間施行強調處理。但是,也能夠無論調制度 如何,都對輸入聲音的所有被判斷為具有振幅波動的區(qū)間施行強調處理。 因此,不需要多項式近似等發(fā)生延遲的調制度的分析處理。并且,延遲時 間被削減。因此,在適用于卡拉OK或擴音器等需要實時處理的系統(tǒng)的情況下比較有效。此時,實施例2的振幅動態(tài)范圍擴張部31如圖35所示, 由平均輸入振幅計算部61和振幅放大壓縮部62構成。而且,平均輸入振 幅計算部61至少以用力聲音的振幅包絡的波動的一個周期的時間幅度,求 出輸入聲音的振幅的平均。例如,設振幅包絡波動為40Hz以上,以1/40 秒、即25ms的時間幅度來求出振幅的平均值。振幅放大壓縮部62將從平 均輸入振幅計算部61輸出的平均值作為圖20的邊界輸入電平來設定。振 幅放大壓縮部62進行放大,以使超過平均值的輸入、即振幅包絡的波動周 期中的振幅大的部分變得更大。并且,振幅放大壓縮部62進行壓縮,以使 低于平均值的輸入、即振幅包絡的波動周期中的振幅小的部分變得更小。 通過這樣的處理,能夠強調輸入聲音的振幅波動。求出振幅的平均值的時 間幅度不僅限于25ms,也可以將振幅包絡波動的頻率縮短為與120Hz對 應的8.3ms左右。在部分吉他放大器中,在使聲音失真時使用類似的構成。 根據(jù)這樣的構成,能夠以延遲少的簡單的處理,來強調輸入聲音的振幅波 動。而且,能夠對輸入聲音附加"用力聲音"或者"哼聲"的豐富的表現(xiàn) 力,并仍然有效地利用了輸入聲音的特征。
而且,在實施例3、實施例4中,為了附加"用力聲音"或者"哼聲" 的表現(xiàn),與實施例1同樣,對輸入聲音附加周期性振幅波動。但是,也可 以通過如實施例2所示的擴張輸入聲音的振幅動態(tài)范圍,來對聲音附加"用 力聲音"或者"哼聲"的表現(xiàn)。但是,在擴張輸入聲音的振幅動態(tài)范圍的 情況下,如實施例1或實施例2的步驟S12所述,需要辨別輸入聲音中具 有相當于"用力聲音"或者"哼聲"的波動頻率范圍內的振幅波動。
并且,設在實施例l、實施例3、實施例4中,周期信號生成部17生 成80Hz的周期信號。但是,周期發(fā)信號生成部17也可以在能夠將波動作 為"用力聲音"聽取的40Hz至120Hz之間,生成具有隨機周期波動的信 號。由于調制頻率隨機波動,能夠更接近實際的聲音的振幅波動,從而能 夠生成自然的聲音。
而且,為了檢測講話者或唱歌者用力的狀態(tài),判定用力聲音附加處理 區(qū)間,在實施例l、 2中利用聲音波形的振幅波動,在實施例3中利用手持 式傳聲器的把持壓,在實施例4中利用從EGG波形觀察到的聲門關閉區(qū)間 比率。但是,也可以將這些信息進行組合以判定用力聲音附加處理區(qū)間。并且,具體而言,上述各個裝置也可以作為由微處理器、ROM、 RAM、 硬盤驅動器、顯示器件、鍵盤、滑鼠等構成的計算機系統(tǒng)來構成。計算機 程序被記憶在RAM或硬盤驅動器中。通過微處理器按照計算機程序工作, 使得各個裝置完成其功能。在此,計算機程序為了完成規(guī)定的功能,表示 針對計算機的指令的指令碼為進行多個組合的構成。
進且,構成上述各個裝置的構成元件的一部分或全部也可以設為由一 個系統(tǒng)LSI (Large Scale Integration:大規(guī)模集成電路)構成。系統(tǒng)LSI 是在一個芯片上集積多個構成部而制造的超級多功能LSI,具體而言,是 包含微處理器、ROM、 RAM等而構成的計算機系統(tǒng)。計算機程序被記憶 在RAM中。通過微處理器按照計算機程序來工作,使得系統(tǒng)LSI完成其 功能。
進而還有,構成上述各個裝置的構成元件的一部分或全部也可以設為, 由能夠在各個裝置上裝卸得IC (Integrated Circuit凍成電路)卡或者單 體的模塊構成。IC卡或模塊是由微處理器、ROM、 RAM等構成的計算機 系統(tǒng)。IC卡或模塊也可以設為包含上述超級多功能LSI。通過微處理器按 照計算機程序工作,使得IC卡或模塊完成其功能。此IC卡或模塊也可以 設為具有抗干擾性。
而且,本發(fā)明也可以作為如上所述的方法。并且,也可以是通過計算 機來實現(xiàn)這些方法的計算機程序,還可以是由所述計算機程序形成的數(shù)字 信號。
進而,本發(fā)明也可以將上述計算機程序或上述數(shù)字信號記錄在計算機 能夠讀取的記錄介質,例如軟盤、硬盤、CD—ROM、 MO、 DVD、 DVD —ROM、 DVD—RAM、 BD (BlirrayDisc (注冊商標)藍光光盤)、半 導體存儲器等上。而且,也可以是記錄在這些記錄媒體上的上述數(shù)據(jù)信號。
并且,本發(fā)明也可以將上述計算機程序或上述數(shù)字信號,經由以電氣 通訊線路、無線或有線通訊線路、互聯(lián)網(wǎng)為代表的網(wǎng)絡、數(shù)據(jù)廣播等進行 傳輸。
而且,本發(fā)明也可以是具備微處理器和存儲器的計算機系統(tǒng),上述存 儲器記憶上述計算機程序,上述微處理器按照上述計算機程序進行工作。 并且,通過將上述程序或上述數(shù)字信號記錄在上述記錄介質上并進行轉送,或者通過將上述程序或上述數(shù)字信號經由上述網(wǎng)絡等進行轉送,也
可以通過其他的獨立的計算機系統(tǒng)來實施。
進而,也可以分別將上述實施例及上述變形例進行組合。 應該能夠認識到,此次公開的實施例的所有內容都是例示而非限制性
的內容。本發(fā)明的范圍并非上述說明的范圍,而是根據(jù)權利要求的范圍來
表述的,并試圖包含與權利要求的范圍同等的意思以及在范圍內的所有的 變更。
本發(fā)明所涉及的聲音強調裝置,檢測講話者或唱歌者用力說話、唱歌 的部分,以確定講話者或唱歌者試圖進行較強的聲音表現(xiàn)的部分,并對此 部分的聲音波形進行加工,從而能夠生成"用力聲音"或"哼聲"的表現(xiàn)。
因此,本發(fā)明能夠應用于具有用力聲音強調功能的擴音器或卡拉OK等。 而且,本發(fā)明還能夠應用于游戲機、通訊設備、移動電話等。即,能夠對 游戲機或通訊設備的角色聲音、化身的聲音、語音電子郵件的聲音、移動 電話的來電通知用音樂或來電聲音、或者使用家用攝像機等制作影片內容 時的解說聲音等進行聲音用戶化。
權利要求
1、一種聲音強調裝置,其特征在于,包括強調發(fā)音區(qū)間檢測部,檢測輸入聲音波形之中的強調區(qū)間,所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間;以及聲音強調部,使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加,所述強調發(fā)音區(qū)間檢測部,將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的狀態(tài),作為在聲帶上用了力的狀態(tài)來檢測,并將被檢測出在聲帶上用了力的狀態(tài)的時間區(qū)間作為所述強調區(qū)間來檢測。
2、 如權利要求l所述的聲音強調裝置,其特征在于,所述聲音強調部對所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形施行調制,以使所述聲音波形伴隨周期性振幅波動。
3、 如權利要求2所述的聲音強調裝置,其特征在于,所述聲音強調部利用40Hz以上且120Hz以下的頻率的信號,對在所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形施行調制,以使所述聲音波形伴隨周期性振幅波動。
4、 如權利要求3所述的聲音強調裝置,其特征在于,所述聲音強調部還使信號的頻率在40Hz—120Hz的范圍內波動,所述信號是在為了使所述聲音波形伴隨周期性振幅波動,而對所述聲音波形施行調制時被使用的信號。
5、 如權利要求2所述的聲音強調裝置,其特征在于,所述聲音強調部通過使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形乘以周期信號,從而對聲音波形給予伴隨周期性振幅波動的調制。
6、 如權利要求2所述的聲音強調裝置,其特征在于,所述聲音強調部具有全通濾波器,移動所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的相位;以及加法運算單元,使被輸入到所述全通濾波器的所述強調區(qū)間所包含的所述聲音波形,與由所述全通濾波器移動了相位后的聲音波形相加。
7、 如權利要求1所述的聲音強調裝置,其特征在于,所述聲音強調部擴大所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的振幅的動態(tài)范圍。
8、 如權利要求7所述的聲音強調裝置,其特征在于,在所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形中,在所述聲音波形的振幅包絡的值在規(guī)定的值以下的情況下,所述聲音強調部對所述聲音波形的振幅進行壓縮;且在所述聲音波形的振幅包絡的值比所述規(guī)定的值大的情況下,所述聲音強調部對所述聲音波形的振幅進行放大。
9、 如權利要求1所述的聲音強調裝置,其特征在于,所述強調發(fā)音區(qū)間檢測部將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的、且振幅調制度不足0.04的時間區(qū)間作為所述強調區(qū)間來檢測,所述振幅調制度表示所述輸入聲音波形的振幅包絡的振幅波動的程度。
10、 如權利要求l所述的聲音強調裝置,其特征在于,所述強調發(fā)音區(qū)間檢測部根據(jù)所述發(fā)聲者的聲門關閉著的時間區(qū)間,來決定所述強調區(qū)間。
11、 一種聲音強調方法,其特征在于,包括強調發(fā)音區(qū)間檢測步驟,檢測輸入聲音波形之中的強調區(qū)間,所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間;以及聲音強調步驟,使所述輸入聲音波形之中的、在所述強調發(fā)音區(qū)間檢測步驟中檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加,在所述強調發(fā)音區(qū)間檢測步驟中,將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的狀態(tài),作為在聲帶上用了力的狀態(tài)來檢測,并將被檢測出在聲帶上用了力的狀態(tài)的時間區(qū)間作為所述強調區(qū)間來檢測。
12、 一種程序,其特征在于,使計算機執(zhí)行以下步驟強調發(fā)音區(qū)間檢測步驟,檢測輸入聲音波形之中的強調區(qū)間,所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間;以及聲音強調步驟,使所述輸入聲音波形之中的、在所述強調發(fā)音區(qū)間檢測步驟中檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加,在所述強調發(fā)音區(qū)間檢測步驟中,將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的狀態(tài),作為在聲帶上用了力的狀態(tài)來檢測,并將被檢測出在聲帶上用了力的狀態(tài)的時間區(qū)間作為所述強調區(qū)間來檢測。
13、 一種聲音強調系統(tǒng),其特征在于,包括聲音強調裝置,通過對輸入聲音波形的一部分施行規(guī)定的轉換處理,來生成輸出聲音波形;以及終端,再生所述輸出聲音波形,所述終端包括輸入聲音波形發(fā)送部,將所述輸入聲音波形發(fā)送到所述聲音強調裝置;輸出聲音波形接收部,從所述聲音強調裝置接收所述輸出聲音波形;以及再生部,再生所述輸出聲音波形接收部所接收的所述輸出聲音波形,所述聲音強調裝置包括輸入聲音波形接收部,從所述終端接收所述輸入聲音波形;強調發(fā)音區(qū)間檢測部,檢測所述輸入聲音波形接收部所接收的所述輸入聲音波形之中的強調區(qū)間,所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間;聲音強調部,通過使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加,從而生成所述輸出聲音波形;以及輸出聲音波形發(fā)送部,將所述輸出聲音波形發(fā)送到所述終端,所述強調發(fā)音區(qū)間檢測部,將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的狀態(tài),作為在聲帶上用了力的狀態(tài)來檢測,并將被檢測出在聲帶上用了力的狀態(tài)的時間區(qū)間作為所述強調區(qū)間來檢測。
全文摘要
一種聲音強調裝置,通過使所述的“用力”聲音出現(xiàn)在講話者或用戶試圖附加強調或者音樂表現(xiàn)的位置上,從而附加由憤怒、興奮或緊張、精力充沛的說話方式所表現(xiàn)的強調,及附加演歌、布魯斯歌曲或者搖滾樂等的音樂表現(xiàn),以實現(xiàn)豐富的聲音表現(xiàn),該聲音強調裝置包括強調發(fā)音區(qū)間檢測部(12),檢測輸入聲音波形之中的強調區(qū)間,所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間;以及聲音強調部(13),使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部(12)檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加。
文檔編號G10L21/02GK101627427SQ200880007020
公開日2010年1月13日 申請日期2008年9月29日 優(yōu)先權日2007年10月1日
發(fā)明者加藤弓子, 星見昌克, 釜井孝浩 申請人:松下電器產業(yè)株式會社