聲音強調裝置及聲音強調方法

文檔序號：2831732閱讀：709來源：國知局

專利名稱：聲音強調裝置及聲音強調方法
技術領域：
本發(fā)明涉及生成與普通的發(fā)音具有不同特點的聲音的"用力"聲音的技術，所謂"用力"聲音是指，人的歌聲或在為了強調講話內容而用力加
強語氣時出現(xiàn)的嘶啞的聲音、粗魯?shù)穆曇?、或者刺耳的聲?harshvoice)，例如在唱演歌等時出現(xiàn)的"花腔(C A L )"或"哼聲(念")之類的表現(xiàn)，或者，在演唱布魯斯歌曲或搖滾樂等時出現(xiàn)的"喊叫聲"之類的表現(xiàn)。本發(fā)明尤其涉及聲音強調裝置，該聲音強調裝置能夠生成能夠表現(xiàn)如上所述的聲音所包含的憤怒、重音、強有力以及精力充沛的感情或聲音的表現(xiàn)力、說話風格或講話者的態(tài)度、狀況、或發(fā)音器官的緊張狀態(tài)的聲音。
背景技術：
以往，開發(fā)了以聲音來表現(xiàn)感情、表現(xiàn)力、態(tài)度及狀況等的、尤其不是以語言的聲音來表現(xiàn)，而是以通過所謂口氣、說話的方式及聲調之類的副語言的表現(xiàn)來表達感情等為目的聲音轉換或者聲音合成的技術。這些技術對于從機器人或者電子秘書到電子設備的聲音對話接口都是必不可少的。而且，作為應用于卡拉OK或者用于音樂的效應器的技術，開發(fā)了對聲音波形進行加工以附加顫音等音樂性表現(xiàn)的技術，或強調聲音的表現(xiàn)的技術。
在聲音的副語言性表現(xiàn)或音樂性表現(xiàn)之中，作為實現(xiàn)根據(jù)音質的表現(xiàn) 的方法，存在對輸入的聲音進行分析從而求出合成參數(shù)，并通過改變此參數(shù)來改變音質的聲音轉換方法的提案(例如，參考專利文獻1)。但是，在上述以往的方法中，是按照以每種感情來預先規(guī)定的同樣的轉換規(guī)則進行參數(shù)轉換。因此，不能夠再現(xiàn)如在自然說話中所能見到的、一部分成為用了力的聲音的音質的變化。而且，對于全體輸入聲音適用同樣的轉換規(guī)則。因此，不能適應如只對講話者想要強調的部分進行轉換，以及如對輸入聲音的原有的表現(xiàn)力或表現(xiàn)的強弱進行強調的轉換。并且，還提出了在卡拉OK中，將用戶的歌唱改變成模仿了原唱歌手的唱法的歌唱的方法的提案(例如，專利文獻2)。也就是，根據(jù)歌唱數(shù)據(jù)，對用戶的歌聲進行改變振幅或基頻，以及附加噪聲等的變形處理，該歌唱數(shù)據(jù)中記述了所謂原唱歌手的唱法、即在樂曲之中的哪個區(qū)間使用了哪種程度的顫音，是否包含"用力聲音"或"哼聲"之類的音樂性表現(xiàn)。
進而，還提出了針對歌唱數(shù)據(jù)與原唱歌手的歌唱定時的偏差，進行歌唱數(shù)據(jù)和樂曲數(shù)據(jù)的比較的方法的提案(例如，專利文獻3)。若將這些技術組合在一起，則即使在歌唱數(shù)據(jù)與原唱歌手的歌唱定時相比具有偏差的情況下，只要大致的定時相符，就有可能將輸入聲音轉換成模仿了原唱歌手的唱法的歌唱。
關于聲音的一部分的音質的變化，進行了作為"用力聲音"的，也稱為"緊喉嗓音"(creaky)或者"聲帶微顫而發(fā)出的弱聲"(vocal fry)的聲音的研究，該"用力聲音"不同于作為本申請所設定的對象的、在興奮之際的發(fā)音中歌唱聲音的表現(xiàn)的"用力"聲音或"哼聲"的聲音。作為"緊喉嗓音"的聲特征，非專利文獻1舉出了以下特征局部的能量的變化劇烈；基頻比普通發(fā)音時的基頻低，且不穩(wěn)定；比普通發(fā)音的區(qū)間的強度小。并且，揭示出存在由于通過喉頭用力而使聲帶震動的周期性紊亂，從而產生這些特征的情況。進而，揭示出與音節(jié)單位的平均持續(xù)時間相比，經過長區(qū)間產生"用力聲音"的情況較多。"緊喉嗓音"被作為在關心或厭惡的感情的表現(xiàn)中，或者在躊躇或謙遜的態(tài)度的表現(xiàn)中，具有提高講話者的誠實感的效果的音質。在非專利文獻1中論述的"用力聲音"在一般的文章結尾部分或句尾等聲音逐漸消失的過程中；在邊選詞邊說話、邊考慮邊說話之時，拖拉詞尾式的拉長詞尾發(fā)音的情況下的被拉長了的詞尾；以及在不知如何回答之時發(fā)出的"A — ， t (這個……)"",一/u (嗯)"之類的
感嘆詞里經常可見。進而，非專利文獻l揭示了 "聲帶微顫而發(fā)出的弱聲" 及"緊喉嗓音"里包含有以雙拍節(jié)或者以基本周期的倍數(shù)而發(fā)生的新的周期的雙音(diplophonia)。作為生成在"聲帶微顫而發(fā)出的弱聲"里可見的被稱為雙音(diplophonia)的聲音的方式，將錯開了基頻的二分之一周期的相位的聲音重疊的方法被提案。
專利文獻1:(日本)特許第3703394號公報專利文獻2 :(日本)特開2004-177984號公報專利文獻3:(日本)特許第3760833號公報
非專利文獻1:石井力A 口》壽憲、石黑浩扭J:"萩田紀博、「 Q §辦 o自動検出o &灼o音響分析」、電子情報通信學會技術研究報告、SP2006 —07巻、pp.l — 6、 2006 (石井Carlos壽憲、石黑浩及萩田紀博、"用于自動檢測用力聲音的聲學分析"、電子信息通信學會技術研究報告、SP2006 —07巻、pp.l-6、 2006)
但是，通過上述以往的方法或者這些方法的組合無法生成如在興奮、緊張、憤怒或者為了強調而用力加強語氣講話時出現(xiàn)的嘶啞的聲音、粗魯的聲音或者刺耳的聲音(harsh voice),還有如唱歌時出現(xiàn)的"花腔"、"哼聲"或"喊叫聲"那樣的聲音的一部分中出現(xiàn)的"用力"聲音。在此，"用力"聲音是在用力說話時，由于發(fā)音器官比在一般情況下用力或者由于發(fā) 音器官極度緊張而引起的。具體而言，因為"用力"聲音是用了力的發(fā)音，所以聲音的振幅算是比較大的。而且，"用力"聲音不僅限于感嘆詞，還能在無論獨立詞或者輔助詞的各種各樣的詞類中見到。即，"用力聲音"是與上述以往的方法所實現(xiàn)的"用力聲音"不同的聲音現(xiàn)象。因此，通過以往的方法無法生成本申請所設定的對象的"用力"聲音。即，存在通過生成能感覺到發(fā)音器官的用力方式及緊張方式的"用力"聲音，難以將如憤怒或興奮、滿懷信心的說話方式或者精力充沛的說話方式那樣的聲音的表現(xiàn) 力以音質的變化來豐富地表現(xiàn)的問題。進而，在歌聲的轉換中，歌唱數(shù)據(jù) 被固定為原唱歌手的歌唱定時。因此，不能附加在用戶以與原唱歌手的定時大不相同的定時演唱的情況下的音樂表現(xiàn)。并且，在與原唱歌手不同的，用戶在想要的定時附加"用力聲音"或"哼聲"來演唱的情況下，或者在原本沒有歌唱數(shù)據(jù)的情況下，不能反映出想要附加"用力聲音"來演唱的欲望或想法。
艮口，在上述以往的方法中，存在很難以自由的定時來附加一部分的音質的變化，從而不能夠在聲音中自由地附加逼真的表現(xiàn)力或豐富的音樂性表現(xiàn)的問題
發(fā)明內容
本發(fā)明就是為了解決上述以往的問題，其目的在于，提供一種聲音強調裝置，在講話者或用戶試圖附加強調或者音樂表現(xiàn)的位置上，使所述"用力"聲音發(fā)生。以此，在用戶的聲音中附加由憤怒、興奮、緊張、精力充沛的說話方式表現(xiàn)的強調，或者附加演歌、布魯斯歌曲或者搖滾樂等的音樂表現(xiàn)，從而實現(xiàn)豐富的聲音表現(xiàn)。
并且，本發(fā)明的目的還在于，根據(jù)此聲音的特征來推斷講話者或用戶的強調或者音樂表現(xiàn)的意圖，針對所推斷的講話者或用戶試圖附加強調或者音樂表現(xiàn)的聲音區(qū)間，進行使其產生"用力"聲音的處理。以此，提供一種聲音強調裝置，在用戶的聲音中附加由憤怒、興奮、緊張、精力充沛的說話方式表現(xiàn)的強調，或者附加演歌、布魯斯歌曲或者搖滾樂等的音樂表現(xiàn)，從而實現(xiàn)豐富的聲音表現(xiàn)。
為了達到上述目的，本發(fā)明所涉及的聲音強調裝置包括強調發(fā)音區(qū) 間檢測部，檢測輸入聲音波形之中的強調區(qū)間，所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間；以及聲音強調部，使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加，所述強調發(fā)音區(qū) 間檢測部，將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的狀態(tài)，作為在聲帶上用了力的狀態(tài)
間來檢測。
根據(jù)這樣的構成，在被輸入的聲音波形中，檢測講話者或用戶發(fā)出"用力聲音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間，從而能夠將檢測出的聲音區(qū)間的聲音轉換成"用力聲音"并輸出。即，按照講話者或用戶為了進行強調或音樂表現(xiàn)而想要發(fā)出"用力聲音"的意圖，來附加表達強調或者緊張的表現(xiàn)、或音樂性表現(xiàn)，從而能夠實現(xiàn)豐富的音樂表現(xiàn)。
最好是具有以下特征所述聲音強調部對所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形施行調制，以使所述聲音波形伴隨周期性振幅波動。
根據(jù)這樣的構成，不需要保持為了進行更換聲音波形等的處理的、能夠與任意的輸入聲音對應的大量的特征性聲音波形，就能夠生成表現(xiàn)力豐富的聲音。并且，由于僅對輸入聲音附加伴隨振幅波動的調制處理就能夠進行聲音表現(xiàn)，所以能夠照舊維持輸入聲音的特征，而僅以簡單的處理來附加表達強調或緊張的表現(xiàn)的聲音波形或者音樂性表現(xiàn)。
最好是具有以下特征所述聲音強調部利用40Hz以上且120Hz以下的頻率的信號，對在所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形施行調制，以使所述聲音波形伴隨周期性振幅波動。
根據(jù)這樣的構成，能夠針對強調發(fā)音區(qū)間檢測部所檢測出的講話者或用戶發(fā)出"用力聲音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間，使其產生聽得見"用力聲音"的頻率范圍的振幅波動。因此，能夠生成使表達強調或緊張的表現(xiàn)、或者音樂性表現(xiàn)更加確實地傳達給聽眾的聲音波形。
最好是具有以下特征所述聲音強調部還使信號的頻率在40Hz — 120Hz的范圍內波動，所述信號是在為了使所述聲音波形伴隨周期性振幅波動，而對所述聲音波形施行調制時被使用的信號。
根據(jù)這樣的構成，能夠針對強調發(fā)音區(qū)間檢測部所檢測出的講話者或用戶發(fā)出"用力聲音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間，在使其產生聽得見"用力聲音"的頻率范圍的振幅波動之時，不是給予固定的頻率，而是對在聽得見"用力聲音"的范圍內振幅波動的頻率給予起伏。因此，能夠生成更加自然的"用力聲音"。
最好是具有以下特征所述聲音強調部通過使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形乘以周期信號，從而對聲音波形給予伴隨周期性振幅波動的調制。
根據(jù)這樣的構成，能夠通過更加簡單的處理，對輸入聲音附加聽得見 "用力聲音"的振幅波動，從而能夠確實地附加表達強調或緊張的表現(xiàn)、或者音樂性表現(xiàn)，實現(xiàn)豐富的聲音表現(xiàn)。
最好是具有以下特征，所述聲音強調部具有全通濾波器，移動所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的相位；以及加法運算單元，使被輸入到所述全通濾波器的所述強調區(qū)間所包含的所述聲音波形，與由所述全通濾波器移動了相位后的聲音波形相加。根據(jù)這樣的構成，能夠按每個頻率分量引起不同的振幅的波動，與所有的頻率分量都進行相同的振幅變化的調制相比，能夠引起復雜的振幅波動。因此，能夠生成具備表達強調或緊張的表現(xiàn)、或者音樂性表現(xiàn)，且聽起來感覺自然的聲音。
最好是具有以下特征所述聲音強調部擴大所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的振幅的動態(tài)范圍。
根據(jù)這樣的構成，針對強調發(fā)音區(qū)間檢測部所檢測出的講話者或用戶發(fā)出"用力聲音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間，通過擴大輸入聲音中所包含的振幅的動態(tài)范圍，能夠變成將此聲音原本具有的振幅波動的特征作為強調或音樂表現(xiàn)而能夠聽見的大小的振幅波動，并輸出。艮P，按照講話者或用戶為了進行強調或音樂表現(xiàn)而想要發(fā)出"用力聲音"的意圖，來附加表達強調或者緊張的表現(xiàn)、或音樂性表現(xiàn)，從而能夠將豐富的音樂表現(xiàn)，通過利用原來的聲音的特征作為更加自然的表現(xiàn)來實現(xiàn)。
最好是具有以下特征在所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形中，在所述聲音波形的振幅包絡的值在規(guī)定的值以下的情況下，所述聲音強調部對所述聲音波形的振幅進行壓縮；且在所述聲音波形的振幅包絡的值比所述規(guī)定的值大的情況下，所述聲音強調部對所述聲音波形的振幅進行放大。
根據(jù)這樣的構成，能夠通過更加簡單的處理，來擴大輸入聲音中所包含的振幅的動態(tài)范圍。按照講話者或用戶為了進行強調或音樂表現(xiàn)而想要發(fā)出"用力聲音"的意圖，通過更加簡單的處理，來附加表達強調或者緊張的表現(xiàn)、或音樂性表現(xiàn)，從而能夠將豐富的音樂表現(xiàn)，通過利用原來的聲音的特征作為更加自然的表現(xiàn)來實現(xiàn)。
最好是具有以下特征所述強調發(fā)音區(qū)間檢測部將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的、且振幅調制度不足0.04的時間區(qū)間作為所述強調區(qū)間來檢測，所述振幅調制度表示所述輸入聲音波形的振幅包絡的振幅波動的程度。
根據(jù)這樣的構成，強調發(fā)音區(qū)間檢測部將講話者或用戶發(fā)出"用力聲音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間之中的、輸入聲音為未處理的狀態(tài)下的聽得見"用力聲音"的部分以外的部分，作為強調區(qū)間來檢測。并且，對講話者或用戶發(fā)出"用力聲音"以試圖進行強調或音樂表現(xiàn)的聲音區(qū)間之中的、依據(jù)講話者或用戶的自然的嗓音的聲音表現(xiàn)充分的部分，不施行強調處理；只對依據(jù)自然的嗓音的聲音表現(xiàn)不充分的部分施行強調處理。即，在盡量保持自然的嗓音的聲音表現(xiàn)的前提下，只對于盡管講話者或用戶試圖附加"用力聲音"，但未能附加表現(xiàn)的部分，附加"用力聲音"。因此，在保持更加自然的自然的嗓音的聲音表現(xiàn)的情況下，能夠附加表達強調或緊張的表現(xiàn)或者音樂性表現(xiàn)，實現(xiàn)豐富的聲音表現(xiàn)。
最好是具有以下特征所述強調發(fā)音區(qū)間檢測部根據(jù)所述發(fā)聲者的聲門關閉著的時間區(qū)間，來決定所述強調區(qū)間。
根據(jù)這樣的構成，能夠更加準確地檢測出喉頭用力的狀態(tài)，從而能夠決定正確地反映講話者或歌唱者的表現(xiàn)的意圖的強調區(qū)間。
最好是具有以下特征所述聲音強調裝置還包括壓力傳感器，檢測與所述輸入聲音波形的發(fā)音時間同步、并根據(jù)所述發(fā)聲者的移動而生成的壓力，所述強調發(fā)音區(qū)間檢測部判斷所述壓力傳感器的輸出值是否超出預先規(guī)定的值，并將所述壓力傳感器的輸出值超出預先規(guī)定的值的時間區(qū)間作為所述強調區(qū)間來檢測。
根據(jù)這樣的構成，能夠簡便直接地檢測出講話者或唱歌者用力發(fā)音的狀態(tài)。
最好是具有以下特征所述壓力傳感器被安裝在接受所述輸入聲音波形的麥克風的把持部。
根據(jù)這樣的構成，根據(jù)發(fā)聲時或唱歌時的自然的動作，就能夠簡便直接地檢測出講話者或唱歌者用力發(fā)音的狀態(tài)。
最好是具有以下特征所述壓力傳感器通過支撐部，被安裝在所述發(fā) 聲者的腋窩或手臂上。
根據(jù)這樣的構成，尤其根據(jù)在發(fā)聲時或唱歌時，手拿手持式傳聲器的狀態(tài)下的自然的動作，就能夠簡便直接地檢測出講話者或唱歌者用力發(fā)音的狀態(tài)。
最好是具有以下特征所述聲音強調裝置還包括移動傳感器，檢測與所述輸入聲音波形的發(fā)音時間同步的、所述發(fā)聲者的移動，所述強調發(fā)音區(qū)間檢測部將所述移動傳感器的輸出值超出預先規(guī)定的值的時間區(qū)間作為所述強調區(qū)間來檢測。
根據(jù)這樣的構成，能夠捕捉發(fā)聲時或唱歌時的手勢，從而能夠根據(jù)動作的大小來簡便地檢測講話者或唱歌者用力發(fā)音的狀態(tài)。
最好是具有以下特征所述聲音強調裝置還包括加速度傳感器，檢測與所述輸入聲音波形的發(fā)音時間同步的、所述發(fā)聲者移動時的加速度，所述強調發(fā)音區(qū)間檢測部將所述加速度傳感器的輸出值超出預先規(guī)定的值的時間區(qū)間作為所述強調區(qū)間來檢測。
根據(jù)這樣的構成，能夠捕捉發(fā)聲時或唱歌時的手勢，從而能夠根據(jù)動作的大小來簡便地檢測講話者或唱歌者用力發(fā)音的狀態(tài)。
再者，本發(fā)明不僅可以作為具備如此特征性單元的聲音強調裝置來實
現(xiàn)，還可以作為將聲音強調裝置所包括的特征性單元作為步驟的聲音強調方法來實現(xiàn)，或作為使計算機執(zhí)行聲音強調方法中所包括的特征性步驟的
程序來實現(xiàn)。并且，不言而喻，能夠通過CD—ROM(Compact Disc—Read Only Memory:只讀存儲光盤)等記錄介質或互聯(lián)網(wǎng)等通信網(wǎng)絡而使這樣的程序流通。
根據(jù)本發(fā)明的聲音強調裝置，能夠在講話者或用戶試圖附加聲音強調或音樂表現(xiàn)的位置生成，如所謂人在怒吼的時候、興奮或緊張的狀態(tài)下講話的時候、為了強調講話內容而用力加強語氣的時候等出現(xiàn)的嘶啞的聲音、粗魯?shù)穆曇簟⒒蛘叽潭穆曇?harsh voice);或者，在唱演歌等時出現(xiàn)的 "花腔(:A' L )"或"哼聲(》& 0 )之類的；演唱布魯斯歌曲或搖滾樂
曲等時出現(xiàn)的"喊叫聲"之類的，具有與正常的發(fā)音不同特點的聲音的"用力"聲音。因此，能夠將輸入聲音轉換成，表達講話者或歌手的用力程度或者感情投入的樣子的表現(xiàn)力豐富的聲音。

圖1是表示在錄音后的聲音中所觀察到的、普通聲音和用力聲音的波形和振幅包絡的一個例子的圖。
圖2是表示在錄音后的聲音中所觀察到的、以用力聲音發(fā)音的音拍的振幅包絡的波動頻率的分布的直方圖和累積頻度的圖形。
1圖3A是表示在錄音后的聲音中所觀察到的用力聲音的第二高次諧波、振幅包絡線、以及根據(jù)多項式的擬合的一個例子的圖。圖3B是用于說明振幅波動量的計算例的圖。
圖4是表示在錄音后的聲音中所觀察到的、以用力聲音發(fā)音的音拍的振幅包絡的調制度的分布的直方圖和累積頻度的圖形。
圖5是表示通過聽取實驗確認的聽得見"用力"聲音的振幅波動頻率的范圍的圖形。
圖6是表示對附加振幅波動時的調制度的定義進行說明的調制信號的例子的圖。
圖7是表示通過聽取實驗確認的聽得見"用力"聲音的振幅調制度的范圍的圖形。
圖8是表示在調制頻率固定的情況下和隨機的情況下的不協(xié)調感的大小的圖表。
圖9是表示針對在歌唱聲音中進行了振幅波動處理的聲音的聽取實驗
的結果的圖形。
圖10是本發(fā)明的實施例1中的聲音強調裝置的輪廓圖。圖11是表示本發(fā)明的實施例1中的聲音強調裝置的構成的功能框圖。圖12是表示本發(fā)明的實施例1中的聲音強調裝置的構成的功能框圖。圖13是表示用力聲音判斷部及用力聲音附加處理判斷部的詳細構成的
功能框圖。
圖14是表示本發(fā)明的實施例1中的聲音強調裝置的工作的流程圖。圖15是表示本發(fā)明的實施例1中的聲音強調裝置的工作的一部分的流程圖。
圖16是表示本發(fā)明的實施例1中的聲音強調裝置的工作的一部分的流程圖。
圖17是表示本發(fā)明的實施例1的變形例中的聲音強調裝置的構成的功能框圖。
圖18是表示本發(fā)明的實施例1的變形例中的聲音強調裝置的工作的流程圖。
圖19是表示本發(fā)明的實施例2中的聲音強調裝置的構成的功能框圖。圖20是表示本發(fā)明的實施例2中的聲音強調裝置的振幅動態(tài)范圍擴張
部31的輸入輸出特性的一個例子的圖。
圖21是表示本發(fā)明的實施例2中的聲音強調裝置的工作的流程圖。圖22是用于對通過振幅動態(tài)范圍擴張部的邊界等級的設定進行更詳細
的說明的圖。
圖23是用于對有關通過振幅動態(tài)范圍擴張部將實際的聲音波形的振幅
的動態(tài)范圍進行擴大后的結果進行說明的圖。
圖24是表示本發(fā)明的實施例3中的聲音強調裝置的構成的功能框圖。圖25是表示本發(fā)明的實施例3中的聲音強調裝置的工作的流程圖。圖26是表示本發(fā)明的實施例4中的聲音強調裝置的構成的功能框圖。圖27是表示本發(fā)明的實施例4中的聲音強調裝置的工作的流程圖。圖28是表示依據(jù)特開2007 — 68847號公報的圖5所示的男性講話者
的聲音波形和EGG (Electroglottograph:電聲門圖)波形及第四共振峰
波形的例子的圖。
圖29是表示依據(jù)特開2007—68847號公報的圖6所示的女性講話者
的聲音波形和EGG波形及第四共振峰波形的例子的圖。
圖30是表示本發(fā)明的實施例5中的聲音強調系統(tǒng)的構成的圖。
圖31是表示本發(fā)明的實施例5中的聲音強調系統(tǒng)的構成的功能框圖。
圖32是表示本發(fā)明的實施例5中的通過終端71的聲音信號的取得和
發(fā)送的工作的流程圖。
圖33是表示本發(fā)明的施實例5中的聲音處理服務器73的工作的流程圖。
圖34是表示本發(fā)明的實施例5中的通過終端71的聲音信號的接收和聲音輸出的工作的流程圖。
圖35是本發(fā)明的實施例2中依據(jù)其他的構成的聲音強調裝置的功能框圖。
附圖標記說明
11聲音輸入部
12、 44、 52強調發(fā)音區(qū)間檢測部 13聲音強調部14聲音輸出部
15用力聲音判斷部
16、 47、 57用力聲音附加處理判斷部
17周期信號生成部
18調幅部
19周期性分析部
20第二高次諧波抽取部
21振幅包絡分析部
22波動頻率分析部
23波動頻率判斷部
24振幅調制度計算部
25調制度判斷部
26 全通濾波器
27開關
28加法器
31振幅動態(tài)范圍擴張部 41手持式傳聲器
42、 76麥克風 43壓力傳感器
45、 55標準值計算部
46、 56標準值記憶部 51 EGG傳感器
61平均輸入振幅計算部 62振幅放大壓縮部 71終端
71a便攜型個人電腦 71b 移動電話 71c 網(wǎng)絡游戲機
72 網(wǎng)絡
73聲音處理服務器74、80聲音數(shù)據(jù)接收部
75、79聲音數(shù)據(jù)發(fā)送部
77模數(shù)轉換器
78輸入聲音數(shù)據(jù)記憶部
81強調聲音數(shù)據(jù)記憶部
82數(shù)模轉換器
83電聲轉換器
84聲音輸出指示輸入部
85輸出聲音抽取部
86、92、 96、 102 聲音波形
90、104振幅包絡
88邊界輸入電平
94、98包絡線
具體實施例方式
首先，對成為本發(fā)明的基礎的、聲音中的用力聲音的特征進行敘述。在伴隨了感情或表現(xiàn)力的聲音中，各種各樣音質的聲音混在一起，表現(xiàn)聲音的感情或表現(xiàn)力的特征，從而來形成聲音的印象的技術已被一般所
知(例如，非專利文獻:日本聲學會會刊51巻11號(1995)、 pp869—875、粕谷英樹.楊長盛"音源力'^見t聲質(根據(jù)聲源所見的音質)"、專利文獻:特開2004—279436號公報)。在伴隨"震怒"及"憤怒"的感情的聲音中，經?？梢姳槐憩F(xiàn)為嘶啞的聲音、粗魯?shù)穆曇艋蛘叽潭穆曇舻?用力" 聲音。根據(jù)"用力"聲音的波形的調查，在多數(shù)"用力"聲音的波形中明確顯示出振幅的周期性波動。圖l(a)表示對于"特売L t法t工(Tokubai shitemasuyo/甩賣了)"的"i' 。 (bai/賣)"的部分，以不帶感情的"平靜" 的發(fā)音說出的普通發(fā)音的聲音波形及其振幅包絡的大概形狀。圖l(b)是伴隨"震怒"的感情被發(fā)音的、同樣的"特賣L t:法t J: (Toknbai shitemasuyo/甩賣了)"的u (bai/賣)"的部分的波形及其振幅包絡的大概形狀。兩種波形的音素的邊界都以虛線來表示。在圖1(a)的波形的/a /、 / i /發(fā)音的部分，可以看出振幅平滑波動的模樣。在普通的發(fā)音中，如圖l(a)的波形所示，振幅在元音的開始部分平滑地變大，直至音素的中央附近變成最大值，并向著音素邊界變小。在存在元音的結束部分的情況下，振幅向著無音或者后續(xù)子音的振幅平滑地變小。在如圖l(a)所示的元音為持續(xù)的情況下，振幅緩慢地向著后續(xù)的元音的振幅變小或者變大。普通的發(fā)音中，在一個元音內，幾乎沒有如圖l(b)所示的振幅反復增減的情況，也沒有關于這樣的具有乍一看，不清楚與基頻的關系的振幅的波動的聲音的報告。因此，考慮到振幅波動是用力聲音的特征，通過以下的處理來求出被標記為用力聲音的聲音的振幅包絡的波動周期。
首先，為了抽取代表聲音波形的正弦波分量，逐次求出將成為對象的聲音波形的基頻的第二諧波作為中心頻率的帶通濾波器，并使聲音波形通過此濾波器。對通過了濾波器的聲音施行希爾伯特變換以求出解析信號，并通過根據(jù)其絕對值求出希爾伯特包絡曲線，來求出聲音波形的振幅包絡曲線。將求出的振幅包絡曲線再進行希爾伯特變換，并按照每個采樣點來計算瞬時角速度，根據(jù)采樣周期將角速度變換為頻率。對按照每個采樣點求出的瞬時頻率按每個音韻制作直方圖，把眾數(shù)當作此音韻的聲音波形的振幅包絡的波動頻率。
圖2是將由男性講話者發(fā)出的伴隨"震怒"的感情的發(fā)音作為對象，以直方圖和累積頻度來表示分析后的用力聲音的振幅包絡的波動頻率的分布的圖。表1是表示圖2所示的用力聲音的振幅包絡的波動頻率的頻度及
累積頻度的列表。
(表l)
數(shù)據(jù)區(qū)間頻度累積％
000.00%
1010.18%
2061.29%
30113.33%
40176.47%
502711.46%
604519.78%
704127.36%806038.45%
907351.94%
1007665.99%
1107780.22%
1204388.17%
1303193.90%
1401195.93%
1501197.97%
160498.71%
170299.08%
180099.08%
190299.45%
2003100.00%
0100.00%
不是用力聲音的普通的聲音在振幅包絡中沒有周期性波動。因此，為了辨別"用力"聲音和普通聲音，需要區(qū)別沒有周期性波動的狀態(tài)和有周
期性波動的狀態(tài)。圖2的直方圖中，用力聲音的頻度在振幅波動的頻率為 10Hz至20Hz之間開始，在40Hz至50Hz的范圍內急劇增加。雖然可以考慮頻率的下限在40Hz附近較為妥當，但是在更加廣泛的范圍內網(wǎng)羅性地檢測用力聲音之時，也可以將10Hz作為下限。在根據(jù)累積頻度而被標記為用力的音韻之中，90X為振幅以47.1Hz以上的頻率進行波動。據(jù)此，能夠將47.1Hz作為頻率的下限來利用。在考慮到若振幅波動的頻率過高，則人的聽覺不能覺察出振幅的波動的特性的情況下，為了根據(jù)振幅波動來檢測用力聲音，最好在頻率中設定上限。作為聽覺的特性，70Hz附近是最能感覺到"粗糙度"的頻率，盡管與接受調制的原來的聲音有關，但是從 100Hz直到200Hz "粗糙度"的感覺會變小。
圖2的直方圖中，用力聲音的頻度在110Hz至120Hz的范圍內急劇減少，進一步在130Hz至140Hz的范圍內減半。表現(xiàn)用力聲音的特征的振幅波動的頻率的上限應設定在130Hz附近。進而，下限同樣，在更加廣泛的范圍內網(wǎng)羅性地檢測用力聲音之時，根據(jù)圖2中的在170Hz至180Hz的范圍內一旦頻度降低到0，也可以將頻率的上限作為170Hz。配合47.1Hz 的下限，將在根據(jù)累積頻度而被標記為用力的音韻之中，包含805^的音韻的123.2Hz作為頻率的上限來利用的方法比較有效。
圖3A及圖3B是用于說明用力聲音的振幅包絡的調制度的圖。與所謂對振幅固定的載波信號的振幅進行調制的振幅調制不同，在作為被調制的信號的聲音波形中原本存在振幅的變化。因此，在此對振幅波動的調制度 (振幅調制度)做出以下的定義。如圖3A所示，對作為波形的希爾伯特包絡曲線被求出的振幅包絡曲線進行多項式近似，從而制作根據(jù)多項式的擬合函數(shù)，該波形是通過了以第二高次諧波為中心頻率的帶通濾波器的波形。圖3A表示根據(jù)三次函數(shù)進行的擬合。將擬合函數(shù)當作調制前的波形的振幅包絡線。如圖3B所示，按每個振幅包絡線的峰值求出與擬合函數(shù)的差分，并當作振幅波動量。因為擬合函數(shù)的值和振幅波動量都不固定，所以對于振幅波動量和擬合函數(shù)的值，求出兩者在音韻內的中值，并將兩個中值的比作為調制度。
圖4是表示如此這般求出的調制度的直方圖和累積頻度的圖。表2是表示圖4所示的調制度的頻度及累積頻度的列表。
(表2)
數(shù)據(jù)區(qū)間頻度累積％
000.00%
0.0271.29%
0.045210.91%
0.066022,00%
0.087535.86%
0.16247.32%
0.124255.08%
0.143261.00%
0.163567.47%
0.183273.38%
0.23880.41%
0.221683.36%0.242287.43%
0.26989.09%
0.28690.20%
0.31492.79%
0.32894.27%
0.34495.01%
0.36295.38%
0.38496.12%
0.4296.49%
0.42697.60%
0.44297.97%
0.46498.71%
0.48399.26%
0.5199.45%
0.52199.63%
0.54099.63%
0.56099,63%
0.58099.63%
0.6199.82%
0.62099.82%
0.64099.82%
0.66099,82%
0.68099.82%
0.7099.82%
0.72099.82%
0.74099.82%
0.76099.82%
0.78099.82%
0.8099.82%
0.82099.82%下一級
0.84099.82%
0.86099.82%
0.881100.00%
0.90100.00%
0.920100.00%
0.940100.00%
0.960100.00%
0.980100.00%
10100.00%
0100.00%
圖4所示的直方圖表示，在由男性講話者發(fā)出的伴隨"震怒"的感情的發(fā)音中所見的、通過用力聲音求出的振幅波動的調制度的分布。為了讓聽眾察覺振幅波動，波動的大小、即調制度需要在一定值以上。在圖4的直方圖中，振幅波動的調制度的頻度在0.02至0.04的范圍內急劇增高。因此，將表現(xiàn)用力聲音的特征的振幅波動的調制度的下限設為0.02附近較為妥當。而且，從累積頻度來看，90%的音韻的調制度是0.038以上。因此，能夠將0.038作為調制度的下限來利用。進而，配合0.038的下限，將在根據(jù)累積頻度而被標記為用力的音韻之中，包含80%的音韻的0.276作為振幅波動的調制度的上限來利用的方法比較有效。如上所述，作為用于檢測用力聲音的一個基準，能夠使用振幅包絡的周期波動為40Hz—120Hz，調制度為0.04以上的基準。
進行了用于根據(jù)這樣的振幅波動來確認聽得見"用力"聲音的聽取實驗。首先，準備對三個普通發(fā)音的聲音進行調制處理后的聲音，從而進行了使被試驗者在以下三個分類之中選擇各自的聲音與哪一個相符的實驗，該調制處理是在從無振幅波動到200Hz為止的15個等級，進行伴隨改變了振幅頻率的振幅波動的調制處理。13名聽力正常的被試驗者，從三個分類中選擇聲音試樣所符合的情況。S卩，被試驗者在聽得見普通的聲音的情況下，選擇"聽不見用力聲音"。并且，在聽得見"用力"聲音的情況下，選擇"聽得見用力聲音"。進而，振幅波動使人感覺到是與該聲音不同的別的聲音，在聽不見"用了力的聲音"的情況下，選擇"聽得見雜音"。對各個聲音的判斷分別進行了兩次。
其結果為，如圖5所示，從沒有振幅波動到振幅波動頻率30Hz為止， "聽不見用力聲音"的回答最多。并且，振幅波動頻率從40Hz到120Hz 為止"聽得見用力聲音"的回答最多。進而，在振幅頻率130Hz以上"聽得見雜音"的回答最多。通過此結果顯示出，容易判斷為"用力"聲音的振幅波動頻率的范圍是與實際的"用力"聲音的振幅波動頻率的分布接近的、從40Hz到120Hz的范圍。
另一方面，聲音波形按每個音韻具有緩慢的振幅的波動。因此，振幅波動的調制度與所謂對振幅固定的載波信號的振幅進行調制的振幅調制不同。但是，模仿針對振幅固定的載波信號的振幅調制，假設如圖6所示的調制信號。將在從100%、即無改變，到0%、即振幅0之間，對成為調制對象的信號的振幅絕對值進行調制的情況作為調制系數(shù)是100%，將調制信號的波幅以百分率來表現(xiàn)的值作為調制度。圖6所示的調制信號是從無調制對象的信號的變化到0.4倍之間進行調制的情況，波幅為1一0.4、即0.6。因此調制度成為60%。
利用這樣的調制信號，進行了對聽得見"用力"聲音的調制度的范圍進行確認的聽取實驗。準備了針對兩個普通發(fā)音的聲音進行調制處理后的聲音，該調制處理是在從調制系數(shù)為0%、即無振幅波動到調制系數(shù)為100% 之間的12個等級，進行伴隨改變了調制度的振幅波動的調制處理。進行了使15名聽力正常的被試驗者，從聽得見普通的聲音的情況下的無"用力聲音"、聽得見用力聲音的情況下的有"用力聲音"、聽得見用力聲音以外的、具有不協(xié)調感的聲音的情況下的聽不見"用力聲音"的三個分類之中，選擇聲音試樣所符合的情況的聽取實驗。各個聲音的判斷分別進行五次。如圖7所示，聽取實驗的結果為，到調制度35%為止，無"用力聲音"的回答最多；從40%到80%為止，有"用力聲音"的回答最多。進而，在90% 以上的情況下聽得見用力聲音以外的具有不協(xié)調感的聲音的回答最多。根據(jù)此結果，表示出容易被判斷為"用力"聲音的調制度的范圍是從40%到 80%。
在唱歌中，多存在配合旋律而延長元音的時間長短的情況，若對時間長短長的元音(例如，超過3秒)，以固定的調制頻率來附加振幅波動，則存在生成與聲音一起聽得見蜂鳴器音等不自然的聲音的情況。通過使振幅波動的調制頻率隨機變化，還存在減小如蜂鳴器音和雜音的重疊式的印象
的情況。針對為了使振幅波動的調制頻率成為平均80Hz、標準偏差20Hz，而使調制頻率隨機變化來進行振幅調制的聲音，和將調制頻率固定為80Hz 來進行振幅調制的聲音，進行了由15名被試驗者對不協(xié)調感以五個等級來評價的實驗。那時，在調制頻率固定的情況和隨機變化的情況之間，在不協(xié)調感的評價值中沒能見到顯著性差異。但是，對于特定的樣本聲音，如圖8所示，15名中12名的被實驗者，與調制頻率固定的情況相比，在調制頻率為隨機的情況下，判斷為不協(xié)調感減小或無變化。即，還存在通過將調制頻率設為隨機，從而期待不生成不自然的聲音，減小不協(xié)調感的效果的情況。再者，在實驗中使用的特定的樣本聲音是指，在發(fā)出"6*0 J: <眠扎&力> o t J:》t t ft (好像沒有睡好呀)"的聲音中的，"t (ma)"、 "J: , (you)"的部分，插入進行了超過100ms的振幅調制的聲音，在"力> (ka)"的部分插入進行了 90ms的振幅調制的聲音的聲音。
進而，準備歌聲中的進行了振幅波動處理的聲音，該振幅波動處理使調制頻率以平均80Hz、標準偏差20Hz來隨機變化。針對此聲音，進行了 15名聽力正常的被試驗者判斷是否"在用力唱歌"的聽取實驗。通過進行如圖9所示的振幅波動處理，與不進行振幅波動處理的情況相比，被評價為更加"在用力唱歌"。因此，表示出作為唱歌中的音樂表現(xiàn)的"用力聲音" 或者"哼聲"，能夠通過與伴隨感情的講話中的"用力聲音"同樣的調制處理來生成。
以下，參照附圖來說明本發(fā)明的具體實施例。 (實施例1)
圖IO是實施例1的聲音強調裝置的輪廊圖，具體是卡拉OK裝置等。圖11是實施例1的聲音強調裝置的功能框圖。
如圖11所示，本發(fā)明的實施例1所涉及的聲音強調裝置是對輸入聲音中的用力聲音進行強調從而輸出的裝置，包括聲音輸入部ll、強調發(fā)音區(qū)間檢測部12、聲音強調部13、聲音輸出部14。
聲音輸入部11是將聲音波形作為輸入來接受的處理部，例如由麥克風等構成。強調發(fā)音區(qū)間檢測部12是從聲音輸入部ll所輸入的聲音波形中檢測，講話者或者用戶想要附加根據(jù)"用力聲音"的強調或音樂表現(xiàn)("哼聲") 的聲音的區(qū)間的處理部。
聲音強調部13是在由聲音輸入部11輸入的聲音波形之中的、想要附加由強調發(fā)音區(qū)間檢測部12檢測出的強調或音樂表現(xiàn)的區(qū)間中，施行伴隨振幅波動的調制處理的處理部。
聲音輸出部14是輸出，通過聲音強調部13對聲音波形的一部分或全部施行調制處理后的聲音波形的處理部，例如，由揚聲器等構成。
圖12是表示在圖11所示的聲音強調裝置中，對強調發(fā)音區(qū)間檢測部 12及聲音強調部13的構成進行詳細說明的聲音強調裝置的構成的功能框圖。
如圖12所示，強調發(fā)音區(qū)間檢測部12包括用力聲音判斷部15和用力聲音附加處理判斷部16。聲音強調部13包括周期信號生成部17和調幅部 18。
用力聲音判斷部15是，接受由聲音輸入部11輸入的聲音波形，并通過根據(jù)聲音的振幅包絡來檢測一定范圍內的頻率的振幅波動，判斷聲音波形中的"用力聲音"的有無的處理部。
用力聲音附加處理判斷部16是，對于在用力聲音判斷部15被判斷為具有"用力聲音"的聲音區(qū)間，判斷為了感覺"用力聲音"，振幅波動的調制度的大小是否充分的處理部。
周期信號生成部17是生成在伴隨聲音的振幅波動的調制處理中使用的周期信號的處理部。
調幅部18是對于在以用力聲音判斷部15被判斷為具有"用力聲音" 的聲音區(qū)間之中的、以用力聲音附加處理判斷部16判斷為調制度的大小不充分的區(qū)間，對該區(qū)間所包含的聲音波形乘以周期信號生成部17所生成的周期信號，從而對該聲音波形進行伴隨振幅波動的周期性調制處理的處理部。
圖13是表示用力聲音判斷部15及用力聲音附加處理判斷部16的詳細構成的功能框圖。
如圖13所示，用力聲音判斷部15包括周期性分析部19、第二高次諧波抽取部20、振幅包絡分析部21、波動頻率分析部22、波動頻率判斷部23;用力聲音附加處理判斷部16包括振幅調制度計算部24、調制度判斷部25。
周期性分析部19是對從聲音輸入部11輸入的聲音波形的周期性進行分析，將具有周期性的區(qū)間作為有聲區(qū)間輸出，并輸出聲音波形的基頻的處理部。
第二高次諧波抽取部20是根據(jù)周期性分析部19所輸出的基頻的信息，來抽取聲音波形的第二高次諧波信號的處理部。
振幅包絡分析部21是求出在第二高次諧波抽取部20抽取的第二高次諧波信號的振幅包絡的處理部。
波動頻率分析部22是求出在振幅包絡分析部21被求出的振幅包絡(包絡線)的波動頻率的處理部。
波動頻率判斷部23是根據(jù)波動頻率分析部22所輸出的包絡線的波動頻率是否存在于預先規(guī)定的范圍內，來判斷聲音是否為"用力"聲音的處理部。
振幅調制度計算部24是對于在波動頻率判斷部23被判斷為"用力" 聲音的區(qū)間，求出包絡線的振幅調制度的處理部。
調制度判斷部25是在振幅調制度計算部24所求出的"用力聲音"區(qū) 間的振幅包絡線的振幅調制的程度在預先規(guī)定的值以下的情況下，將該區(qū) 間作為用力聲音處理對象區(qū)間的處理部。
其次，按照圖14一圖16的順序，對如上述構成的聲音強調裝置的工作進行說明。圖14是表示聲音強調裝置的工作的流程圖。
首先，聲音輸入部11取得聲音波形(步驟Sll)。由聲音輸入部11取得的聲音波形被輸入到強調發(fā)音區(qū)間檢測部12的用力聲音判斷部15，用力聲音判斷部15進行聲音中的振幅波動區(qū)間的檢測(步驟Sl2)。
圖15是表示振幅波動區(qū)間檢測處理(步驟S12)的詳細過程的流程圖。
更具體地說，周期性分析部19接受聲音輸入部11所輸入的聲音波形，對該聲音波形的周期性的有無進行分析，并對具有周期性的部分求出其頻率(步驟S1001)。作為周期性及頻率的分析方法，例如具有，求出輸入聲音的自相關系數(shù)，以相當于從50Hz至500Hz的周期，將相關系數(shù)為一定值以上的部分認為是具有周期性的部分、即有聲區(qū)間，將與相關系數(shù)為最大的周期對應的頻率作為基頻的方法。
進而，周期性分析部19抽取在步驟S1001中被認為是聲音中的有聲區(qū)間的區(qū)間(步驟S1002)。
第二高次諧波抽取部20設定將在步驟S1001中求出的有聲區(qū)間的基頻的兩倍的頻率作為中心的帶通濾波器，并過濾有聲區(qū)間的聲音波形從而抽取第二高次諧波分量(步驟S1003)。
振幅包絡分析部21抽取在步驟S1003抽取了的第二高次諧波分量的振幅包絡(步驟S1004)。振幅包絡是采用進行全波整流，對此峰值進行平滑處理來求出的方法，或者采用進行希爾伯特變換來求出其絕對值的方法等來抽取。
波動頻率分析部22按每個分析幀求出在步驟S1004被抽取的振幅包絡的瞬時頻率。例如，設分析幀為5ms。另外，也可以設分析幀為10ms 或以上。波動頻率分析部22進而求出在該有聲區(qū)間被求出的瞬時頻率的中值，并將其作為波動頻率(步驟S1005)。
波動頻率判斷部23判斷，在步驟S1005求出的波動頻率是否存在于預先規(guī)定的基準范圍內(步驟S1006)。根據(jù)圖2的直方圖，能夠設基準范圍為10Hz以上且不足170Hz，但是，更合適的是40Hz以上且不足120Hz。在判斷波動頻率是在基準范圍以外的情況下(步驟S1006的"否")，波動頻率判斷部23判斷該有聲區(qū)間不是用力聲音，即判斷為普通聲音(步驟 S1007)。在判斷波動頻率是在基準范圍以內的情況下(步驟S1006的 "是")，波動頻率判斷部23判斷該有聲區(qū)間是用力聲音(步驟S1008)，將判斷為用力聲音的區(qū)間和第二高次諧波的包絡線輸出到用力聲音附加處理判斷部16。
其次，用力聲音附加處理判斷部16對用力聲音區(qū)間的振幅波動的調制度進行分析(步驟S13)。
圖16是表示調制度分析處理(步驟S13)的詳細過程的流程圖。輸入到用力聲音附加處理判斷部16的用力聲音區(qū)間和第二高次諧波的包絡線，被輸入到振幅調制度計算部24。振幅調制度計算部24將被輸入的用力聲音區(qū)間的第二高次諧波的振幅包絡線以三次式來近似，從而推斷振幅調制前的聲音的包絡線(步驟S1009)。
進而，振幅調制度計算部24按每個振幅包絡的峰值，求出振幅包絡的值與在步驟S1009依據(jù)三次式求出的近似值的差分(步驟SIOIO)。
振幅調制度計算部24根據(jù)該分析區(qū)間中的全部峰值的差分的中值與該分析區(qū)間內的近似式的值的中值的比，來求出調制度(步驟SlOll)。調制度雖然也能夠進行，振幅包絡的凸出部分的峰值的平均值或者中值與凹陷部分的峰值的平均值或者中值的比等其他的定義，但是，此時調制度的基準值需要根據(jù)此定義來設定。
調制度判斷部25判斷，在步驟S1011求出的調制度是否小于預先規(guī) 定的基準值，例如0.04 (步驟S14)。根據(jù)如圖4的直方圖所示的，用力聲音的頻度在調制度從0.02至0.04之間急劇增加，在此設基準值為0.04。在調制度被判斷為大于基準值的情況下(步驟S14的"否")，調制度判斷部25判斷該用力聲音區(qū)間的振幅調制度為充分，從而不將該區(qū)間作為用力聲音處理對象區(qū)間，并向調幅部18輸出區(qū)間信息。調幅部18不對輸入聲音進行處理，就向聲音輸出部14輸出聲音波形，并且聲音輸出部14輸出聲音波形(步驟S18)。
在調制度被判斷為小于基準值的情況下(步驟S14的"是")，周期信號生成部17生成80Hz的正弦波(步驟S15)，并生成在此正弦波信號中加上直流分量的信號(步驟S16)。調幅部18對于在輸入聲音波形之中的作為用力聲音處理對象區(qū)間被確定的區(qū)間，通過周期信號生成部17生成的以80Hz振動的周期信號乘以輸入聲音信號來進行振幅調制(步驟S17)，從而進行向包含振幅的周期性波動的"用力"聲音的轉換。聲音輸出部14 輸出進行了向"用力"聲音的轉換后的聲音波形(步驟S18)。
例如，以上所說明的處理(步驟S11—S18)在規(guī)定的時間間隔內被反復執(zhí)行。
根據(jù)這樣的構成，檢測輸入聲音的振幅波動區(qū)間，在此調制度足夠大的情況下不施行處理，在調制度不足的情況下，對聲音波形進行伴隨振幅波動的調制，以補償作為聲音的表現(xiàn)顯得不足的振幅波動。通過這樣的處理，講話者為了向聽眾充分進行傳達，從而對試圖進行強調的部分、試圖進行"用力聲音"或"哼聲"的音樂表現(xiàn)的部分、或者用力講話的部分的"用力聲音"的表現(xiàn)進行強調，且對于已經是自然的強調或表現(xiàn)的部分，利用自然的聲音，從而能夠提高聲音的表現(xiàn)力。
僅在輸入聲音的振幅波動區(qū)間調制度不足的情況下補償振幅波動。通過這樣的處理，不會出現(xiàn)由于處理而將輸入聲音原本具備的、調制度足夠
大的振幅波動抵消；由于改變波動頻率而使輸入聲音原來的強調表現(xiàn)減弱、變形的情況。在此基礎上，能夠進一步提高輸入聲音的表現(xiàn)力。
并且，根據(jù)這樣的構成，不需要保持為了進行更換聲音波形等的處理的、能夠與任意的輸入聲音對應的大量的特征性聲音波形。在此基礎上，能夠生成表現(xiàn)力豐富的聲音。而且，僅對輸入聲音附加伴隨振幅波動的調制處理就能夠進行聲音表現(xiàn)。因此，能夠仍舊維持輸入聲音的特征，并附加僅以單純的處理傳達強調或緊張的表現(xiàn)的聲音波形或者音樂性表現(xiàn)。
"用力聲音"或者"哼聲"是，在人大聲喊叫時、為了強調講話內容而用力加強語氣時、在興奮或緊張狀態(tài)下講話時等出現(xiàn)的嘶啞的聲音、粗魯?shù)穆曇艋蛘叽潭穆曇?harsh voice)等可見的，具有與普通的聲音不同的特征的"用力"聲音表現(xiàn)。"用力"聲音表現(xiàn)中還包含在唱演歌等時出現(xiàn) 的、被稱為"花腔"或"哼聲"的表現(xiàn)。而且，"用力"聲音表現(xiàn)中還包含在唱布魯斯歌曲或者搖滾樂等時出現(xiàn)的象"喊叫聲"那樣的表現(xiàn)。"用力聲音"或者"哼聲"使人逼真地感受講話者的發(fā)音器官的緊張程度或用力程度，作為表現(xiàn)力豐富的聲音而給予聽眾強烈的印象。但是，除去象演員、配音演員或者解說員那樣的進行過講話訓練的人，或者象歌手那樣進行過歌唱訓練的人以外，很難將這些表現(xiàn)方法運用自如。而且，如果勉強進行這些發(fā)音還有損傷喉嚨的危險。若將本發(fā)明的聲音強調裝置應用于揚聲器或者卡拉OK裝置上，則即使沒有積累特別的訓練經驗的用戶，也能夠在想附加表現(xiàn)的地方，通過在身體用力或在喉嚨上用力來講話或唱歌，能夠實現(xiàn)象演員、配音演員、解說員或者歌手那樣的豐富的聲音表現(xiàn)。因此，若將本發(fā)明應用于卡拉OK裝置，就能夠象歌手那樣唱歌，從而能夠增大唱歌的樂趣。并且，若將本發(fā)明應用于揚聲器，就能夠在演說或演講時以 "用力"聲音講出想要強調之處，從而能夠加深對內容的印象。
再者，在本實施例中，雖然設步驟S15中的周期信號生成部17輸出 80Hz的正弦波，但是并不僅限于此。例如，按照振幅包絡的波動頻率的分布，可以為40Hz—120Hz之間的任一頻率，周期信號生成部17也可以輸出正弦波以外的周期性信號。 (實施例l的變形例)
圖17是實施例1的聲音強調裝置的變形例的功能框圖，圖18是表示本變形例所涉及的聲音強調裝置的一部分工作的流程圖的一部分。關于與圖12及圖14相同的組成部分采用相同的符號，且不重復進行詳細的說明。
如圖17所示，本變形例的聲音強調裝置的構成具有與實施例1的圖 11所示的聲音強調裝置相同的構成，但是，聲音強調部13的內部構成不同。即，在實施例1中，由周期信號生成部17和調幅部18構成的聲音強調部13，變?yōu)橛芍芷谛盘柹刹?7、全通濾波器26、開關27、加法器28 構成。
周期信號生成部17與實施例1的周期信號生成部17同樣，都是周期波動信號的生成處理部。
全通濾波器26是振幅響應為固定的，但相位響應是根據(jù)頻率而不同的濾波器。全通濾波器在電氣通信領域被應用于補償傳輸路徑的延遲特性，在電子樂器的領域被應用于稱為相位器或者移相器(非專利文獻Curtis Roads著，青柳龍也等翻譯/主編"- >匕。- 一夕音楽一歴史.亍夕/ 口 -一.7 —卜一(計算機音樂一歷史/技術/技藝)"東京電機大學出版社，p353) 的效應器(給音色附加變化及效果的裝置)。本變形例的全通濾波器26具有所謂相位的移位量是可調的特性。
開關27按照來自強調發(fā)音區(qū)間檢測部的輸入，來切換是否對加法器 28輸入全通濾波器26的輸出。
加法器28是將全通濾波器26的輸出信號與輸入聲音信號相加的處理部。
按照圖18的流程圖對如上述構成的聲音強調裝置的工作進行說明。
首先，聲音輸入部11取得聲音波形(步驟Sll)，并將聲音波形輸出到強調發(fā)音區(qū)間檢測部12。
與實施例1相同，強調發(fā)音區(qū)間檢測部12通過檢測輸入聲音的振幅波動區(qū)間來確定用力聲音區(qū)間(步驟S12)。
用力聲音附加處理判斷部16求出用力聲音區(qū)間的調制度(步驟S13)，并判斷振幅波動的調制度是否小于預先規(guī)定的基準值(步驟S14)。在振幅波動的調制度不足基準值的情況下(步驟S14的"是")，用力聲音附加處理判斷部16將表示用力聲音處理對象區(qū)間的信號作為切換信號輸出到開關 27。
開關27在被輸入的聲音信號被包含在強調發(fā)音區(qū)間檢測部12所輸出的用力聲音處理對象區(qū)間中的情況下，連接全通濾波器26和加法器28 (步驟S27)。
周期信號生成部17生成80Hz的正弦波(步驟Sl5)，并輸出到全通濾波器26。全通濾波器26按照由周期信號生成部17輸出的80Hz的正弦波，來控制相位移動量(步驟S26)。
加法器28使輸入聲音信號和全通濾波器26的輸出相加(步驟S28)。聲音輸出部14輸出相加后的聲音波形(步驟S18)。
由全通濾波器26輸出的聲音信號被進行相位移動。因此，相位為反相的高次諧波分量與沒有變形的輸入聲音信號相互抵消。全通濾波器26按照由周期信號生成部17輸出的80Hz的正弦信號，使相位的移動量進行周期性波動。因此，通過將全通濾波器26的輸出和輸入聲音信號相加，從而使信號的相互抵消量以80Hz進行周期性波動。據(jù)此，相加結果的信號的振幅以80Hz進行周期性波動。
另一方面，在調制度為基準值以上的情況下(步驟S14的"否")，開關27斷開全通濾波器26和加法器28的連接。因此，輸入聲音信號未被加工，聲音波形就被輸出到聲音輸出部14。聲音輸出部14輸出該聲音波形 (步驟S18)。
例如，以上所說明的處理(步驟S11 — S18)在規(guī)定的時間間隔內被反復執(zhí)行。
根據(jù)這樣的構成，與實施例l同樣，輸入聲音的振幅波動區(qū)間被檢測。在被檢測出的振幅波動區(qū)間中的振幅波動的調制度足夠大的情況下，不對輸入聲音的聲音波形施行處理。在調制度不足的情況下，對聲音波形施行伴隨振幅波動的調制，以補償作為聲音的表現(xiàn)的不充分的振幅波動。因此，講話者為了向聽眾充分進行傳達，從而對試圖進行強調的部分、試圖進行 "用力聲音"或"哼聲"的音樂表現(xiàn)的部分、或者用力講話的部分的"用力聲音"的表現(xiàn)進行強調，而能夠提高聲音的表現(xiàn)力。
進而，利用全通濾波器，通過使原波形與使相位移動量周期性波動的信號相加，從而生成振幅波動。因此，能夠生成更加自然的振幅變化。艮口，通過全通濾波器的相位變化，針對頻率是不一樣的。因此，在聲音所包含的各種各樣的頻率分量中，被增強的和被減弱的混在一起。相對于實施例1 中的所有的頻率分量都進行同樣的振幅變化，在本變形例中，按每個頻率分量發(fā)生不同的振幅的波動。因此，能夠產生更加復雜的振幅變化，具有不損壞聽覺上的自然程度的優(yōu)點。
再者，在本變形例中，設步驟S15中的周期信號生成部17輸出80Hz 的正弦波。但是，與實施例1同樣，按照振幅包絡的波動頻率的分布，可以為40Hz—120Hz之間的任一頻率，周期信號生成部17也可以輸出正弦波以外的周期性信號。 (實施例2)
實施例2的對輸入聲音中的"用力聲音"或者"哼聲"的音樂表現(xiàn)不足的部分的振幅波動進行擴張之處與實施例1不同。
圖19是實施例2的聲音強調裝置的功能框圖。圖20是表示將本實施例的振幅動態(tài)范圍擴張部31的輸入輸出特性模式化表示的圖形。圖21是表示本實施例的聲音強調裝置的工作的流程圖。關于與圖12和圖14相同的構成部分及步驟采用相同的符號，并不重復進行詳細的說明。
如圖19所示，本發(fā)明的實施例2所涉及的聲音強調裝置包括聲音輸入部11、強調發(fā)音區(qū)間檢測部12、振幅動態(tài)范圍擴張部31、聲音輸出部 14。本實施例所涉及的聲音強調裝置具有與圖12所示的實施例1所涉及的聲音強調裝置同樣的構成。但是，聲音強調部13被振幅動態(tài)范圍擴張部 31替換之處與實施例1所涉及的聲音強調裝置不同。因此，關于聲音輸入部ll、強調發(fā)音區(qū)間檢測部12、聲音輸出部14不進行重復說明。
振幅動態(tài)范圍擴張部31是，接收聲音輸入部11所取得的聲音波形，并按照強調發(fā)音區(qū)間檢測部12所輸出的用力聲音處理對象區(qū)間信息和振幅調制度信息，對輸入聲音波形的振幅進行壓縮及放大，以便對輸入聲音波形的振幅動態(tài)擴張范圍進行擴張的處理部。
如圖20所例示的，振幅動態(tài)范圍擴張部31針對振幅比根據(jù)強調發(fā)音區(qū)間檢測部12所輸出的振幅調制度信息而設定的邊界輸入電平小的輸入，進行振幅壓縮處理，并通過針對振幅比邊界輸入電平大的輸入進行放大處理，從而強調振幅的波動。
其次，按照圖21的流程圖對如上述構成的聲音強調裝置的工作進行說明。
首先，聲音輸入部11取得聲音波形(步驟Sll)，并將聲音波形輸出到強調發(fā)音區(qū)間檢測部12。
與實施例1相同，強調發(fā)音區(qū)間檢測部12的用力聲音判斷部15通過檢測輸入聲音的振幅波動區(qū)間來確定用力聲音區(qū)間(步驟S12)。
其次，用力聲音附加處理判斷部16求出用力聲音區(qū)間的調制度(步驟 S13)。用力聲音附加處理判斷部16判斷振幅波動的調制度是否小于預先規(guī) 定的基準值(步驟S14)。
在判斷調制度小于基準值的情況下(步驟S14的"是")，用力聲音附加處理判斷部16判斷該用力聲音區(qū)間的振幅調制度不充分。用力聲音附加處理判斷部16判斷該區(qū)間為用力聲音處理對象區(qū)間。而且，用力聲音附加處理判斷部16將區(qū)間信息和在步驟S13進行了擬合的多項式的值的中值輸出到振幅動態(tài)范圍擴張部31。振幅動態(tài)范圍擴張部31針對輸入聲音波形之中的作為用力聲音處理對象區(qū)間被確定的區(qū)間，根據(jù)由用力聲音附加處理判斷部16求出的多項式的中值，來決定邊界輸入電平，從而設定如圖 20所示的輸入輸出特性。振幅動態(tài)范圍擴張部31通過應用此輸入輸出特性來進行振幅的壓縮和伸長，從而進行輸入聲音的振幅動態(tài)范圍擴張(步驟S31)，將包含振幅的周期性波動的"用力"聲音的調制度擴張到足夠大。聲音輸出部14輸出振幅被擴張后的聲音波形(步驟S18)。
在判斷調制度為基準值以上的情況下(步驟S14的"否")，振幅動態(tài) 范圍擴張部31設定不進行振幅的壓縮及伸長的輸入輸出特性，對于輸入聲音的振幅不進行變形處理，就將聲音波形輸出到聲音輸出部14。聲音輸出部14輸出聲音波形(步驟S18)。
例如，以上所說明的處理(步驟S11—S18)在規(guī)定的時間間隔內被反復執(zhí)行。
在步驟S31中，振幅動態(tài)范圍擴張部31根據(jù)經驗，利用第二高次諧波的振幅為聲音波形的振幅的十分之一左右的特征。即，振幅動態(tài)范圍擴張
部31將由用力聲音附加處理判斷部16輸出的第二高次諧波的振幅包絡的擬合函數(shù)的中值、即圖3A的擬合結果的值的中值增大十倍，以作為圖20 所示的邊界輸入電平。因此，大體上，設定邊界輸入電平，以便在圖3B的曲線所示的振幅波動為正的情況下，放大振幅；在振幅波動為負的情況下，壓縮振幅。
圖22是為了詳細說明關于依據(jù)振幅動態(tài)范圍擴張部31的邊界輸入電平的設定的圖。該圖中，以虛線表示被輸入到振幅動態(tài)范圍擴張部31的聲音波形102。并且，以虛線表示聲音波形102的第二高次諧波的振幅包絡 104。若將振幅包絡104的中值增大十倍后的值作為邊界輸入電平88，則以點劃線表示邊界輸入電平88。在此，在將振幅包絡104的值和邊界輸入電平88進行比較的情況下，在振幅包絡104的值變?yōu)檫吔巛斎腚娖?8以下的時刻中，振幅動態(tài)范圍擴張部31進行壓縮聲音波形102的振幅的處理。而且，在振幅包絡104的值超過邊界輸入電平88的時刻中，振幅動態(tài)范圍擴張部31進行放大聲音波形102的振幅的處理。作為通過振幅動態(tài)范圍擴張部31進行聲音波形102的振幅的壓縮及放大的結果，生成聲音波形86。在將聲音波形86和聲音波形102進行比較的情況下，在振幅包絡104的值小的部分，聲音波形86的振幅與聲音波形102的振幅相比變得更小。反之，在振幅包絡104的值大的部分，聲音波形86的振幅與聲音波形102 的振幅相比變得更大。因此，聲音波形86中，振幅大的部分和振幅小的部分之間的振幅的差(動態(tài)范圍)，比聲音波形102的大。此事，通過將聲音波形86的振幅包絡90與聲音波形102的振幅包絡104進行比較也可明了。并且，振幅動態(tài)范圍擴張部31不僅放大聲音波形102的振幅，還對于聲音波形102的振幅小的部分，將聲音波形102的振幅進行壓縮。因此，與僅僅放大聲音波形102的振幅的情況相比，振幅動態(tài)范圍擴張部31能夠生成振幅的最大值和最小值之間的差(動態(tài)范圍)更大的聲音波形86。
圖23是說明有關通過振幅動態(tài)范圍擴張部31將實際的聲音波形的振幅的動態(tài)范圍進行擴大后的結果的圖。圖23(a)是表示進行/ba/的發(fā)音時的聲音波形92和其包絡線94的圖。圖23(b)是表示通過振幅動態(tài)范圍擴張部 31，擴大圖23(a)所示的聲音波形92的振幅的動態(tài)范圍后的聲音波形96和其包絡線98的圖。將包絡線94和包絡線98進行比較即可得知，聲音波形96與聲音波形92相比，振幅的動態(tài)范圍被擴大。
根據(jù)這樣的構成，檢測輸入聲音的振幅波動區(qū)間，在此調制度足夠大的情況下不施行處理，在調制度不足的情況下，將聲音波形的振幅波動進行擴張。以此，使作為聲音的表現(xiàn)不足的振幅波動成為足夠的大小。因此，講話者能夠為了向聽眾充分進行傳達，從而對試圖進行強調或進行"用力聲音"或"哼聲"的音樂表現(xiàn)的部分、或者用力講話的部分的"用力聲音" 的表現(xiàn)進行擴大、強調。進而，作為用力聲音處理，將發(fā)音者的原來的聲音波形的振幅波動進行擴張。因此，能夠在保持發(fā)音者個人的特性的同時提高聲音的表現(xiàn)力。因而，能夠生成更加自然的聲音。即通過單純的處理，能夠附加利用了輸入聲音的特征的、傳達強調或緊張的表現(xiàn)的聲音波形或聲音表現(xiàn)。
再者，本實施例中，設在步驟S14中調制度小于基準值的情況下，在步驟S31中，振幅動態(tài)范圍擴張部31改變輸入輸出特性并進行振幅的壓縮和伸長，從而進行振幅動態(tài)范圍的擴張。而且，設在步驟S14中調制度為基準值以上的情況下，振幅動態(tài)范圍擴張部31改變輸入輸出特性，并不進行振幅的壓縮以及伸長的處理。但是，也可以準備迂回的路徑，從而從聲音輸入部11到聲音輸出部14的途中不經過振幅動態(tài)范圍擴張部31。而且，還可以準備開關，用來切換是將輸入聲音波形輸入到振幅動態(tài)范圍擴張部 31，還是通過迂回而輸入到聲音輸出部14。在步驟S14中調制度小于基準值的情況下，將開關切換到與振幅動態(tài)范圍擴張部31相連接的一側，以對輸入聲音波形進行振幅動態(tài)范圍擴張?zhí)幚怼２⑶?，在步驟S14中調制度為基準值以上的情況下，將開關切換到繞過振幅動態(tài)范圍擴張部31與聲音輸出部14相連接的一側，并且不對輸入聲音施行處理而輸出。在此情況下，振幅動態(tài)范圍擴張部31的輸入輸出特性也可以固定為圖20所示的特性。
另外，雖然本實施例中，在歩驟S31中振幅動態(tài)范圍擴張部31根據(jù)針對第二高次諧波的振幅包絡的擬合函數(shù)的值的中值，來求出邊界輸入電平，但是并不限于此。例如，在用力聲音判斷部15將聲源波形或基波應用于振幅波動頻率的分析的情況下，振幅動態(tài)范圍擴張部31也可以利用針對聲源波形或基波的振幅包絡線的擬合函數(shù)的值，來求出邊界輸入電平。而且，振幅動態(tài)范圍擴張部31在通過聲音波形的全波整流來求出振幅包絡的情況下，針對全波整流的結果的擬合函數(shù)的值，或者全波整流的結果的平均值等，只要是能夠將聲音波形的振幅波動包絡曲線分割為上下兩個的值，就可以利用任何值來求出邊界輸入電平。 (實施例3)
在實施例3中，使用壓力傳感器來指示聲音的"用力聲音"部分或者 "哼聲"部分。
圖24是實施例3的聲音強調裝置的功能框圖。圖25是表示本實施例的工作的流程圖。關于與圖12和圖14相同的構成部分及步驟采用相同的符號，并不重復進行詳細的說明。
如圖24所示，本發(fā)明的實施例3所涉及的聲音強調裝置包括手持式傳聲器41、強調發(fā)音區(qū)間檢測部44、聲音強調部13、聲音輸出部14。
因為聲音強調部13和聲音輸出部14與實施例1相同，所以不重復進行說明。
手持式傳聲器41包括感知用戶握住手持式傳聲器41時的壓力的壓力傳感器43、接受用戶的聲音輸入的麥克風42。
強調發(fā)音區(qū)間檢測部44包括標準值計算部45、標準值記憶部46、用力聲音附加處理判斷部47。
標準值計算部45是接受壓力傳感器43的輸出，并求出用戶的把持壓的標準范圍，從而輸出此上限值的處理部。
標準值記憶部46是記憶裝置，記憶在標準值計算部45計算出的用戶的把持壓的的標準把持壓上限值，例如，由存儲器或硬盤等構成。
用力聲音附加處理判斷部47是接受壓力傳感器43的輸出，并將從壓力傳感器43輸出的值和標準值記憶部46所記憶的標準把持壓的上限值進行比較，從而判斷是否將對應于成為判斷對象的區(qū)間的輸入聲音作為用力聲音處理的對象的處理部。
其次，按照圖25的流程圖，對如上述構成的聲音強調裝置的工作進行說明。
首先，在用戶握住手持式傳聲器的情況下，壓力傳感器43測定把持壓 (步驟S41)。將講話前及剛開始講話后的預先決定的期間、樂曲開始前及幵始唱歌前的前奏區(qū)間、以及間奏區(qū)間定為標準值設定時間范圍，若在標準值設定
時間范圍內(步驟S43的"是")，則以壓力傳感器43測定的把持壓信息被輸入并被蓄積在標準值計算部45 (步驟S44)。
在標準把持壓的計算所需要的數(shù)據(jù)的蓄積完畢的情況下(步驟S45的
"是")，標準值計算部45計算標準把持壓的上限值(步驟S46)。例如，標準把持壓的上限值為在標準值設定時間范圍內的把持壓的平均值中加上標準偏差后的值。并且例如，是相當于標準值設定時間范圍內的把持壓的最大值的90%的值。標準值計算部45將在步驟S46計算的標準把持壓的上限值記憶在標準值記憶部46 (步驟S47)。在步驟S45中，在標準把持壓的計算所需要的數(shù)據(jù)的蓄積未完畢的情況下(步驟S45的"否")，則返回步驟S41，從而接受來自壓力傳感器43的下一個輸入。在利用前奏區(qū)間及間奏區(qū)間的把持壓來計算標準把持壓的情況下，標準值計算部45參照卡拉OK系統(tǒng)的樂曲信息，來確定前奏區(qū)間及間奏區(qū)間，并設定標準值設定時間范圍，從而計算標準把持壓。
在所著眼的時刻不在標準值設定時間范圍內的情況下(步驟S43的
"否")，以壓力傳感器43測定的把持壓信息被輸入到用力聲音附加處理判斷部47。
麥克風42取得用戶發(fā)出的聲音(步驟S42)，并作為輸入聲音波形輸出到調幅部18。
用力聲音附加處理判斷部47將標準值記憶部46所記憶的標準把持壓的上限值和由壓力傳感器43輸入的值進行比較(步驟S48)。在該把持壓比標準把持壓的上限值大的情況下(步驟S48的"是")，用力聲音附加處理判斷部47將該區(qū)間作為用力聲音處理對象區(qū)間輸出到調幅部18。
而且，周期信號生成部17生成80Hz的正弦波(步驟S15)，并生成在此正弦波信號中加上了直流分量的信號(步驟S16)。調幅部18對于與輸入聲音波形之中的部分波形同步的把持壓信息，比步驟S48中的標準把持壓的上限值大的作為用力聲音處理對象區(qū)間的區(qū)間，通過周期信號生成部17生成的以80Hz振動的周期信號乘以輸入聲音信號來進行振幅調制 (步驟S17)，從而進行向包含振幅的周期性波動的"用力"聲音的轉換。聲音輸出部14輸出轉換后的聲音波形(步驟S18)。
在該把持壓為標準把持壓的上限值以下的情況下(步驟S48的"否")，調幅部18對與該把持壓信息同步的輸入聲音不進行處理，就將聲音波形輸出到聲音輸出部14。聲音輸出部14輸出此聲音波形(步驟S18)。
因為按每個用戶進行把持壓的標準化，所以伴隨用戶的更換，需要對把持壓數(shù)據(jù)進行初始化。關于這一點，能夠通過接受用戶更換的輸入，并感測麥克風42的移動，在一定時間以上為靜止的情況下，對把持壓數(shù)據(jù)進行初始化；或者在卡拉OK的情況下，通過在樂曲的開始時對把持壓數(shù)據(jù) 進行初始化等方法來實現(xiàn)。
例如，以上所說明的處理(步驟S41 —S18)在規(guī)定的時間間隔內被反復執(zhí)行。
根據(jù)這樣的構成，檢測出用戶的握住手持式傳聲器的把持壓比標準時高的定時，對聲音波形進行伴隨振幅波動的調制，以附加根據(jù)"用力聲音" 的強調或者根據(jù)"哼聲"的音樂表現(xiàn)。通過這樣的處理，能夠在用戶用力講話或者唱歌里適合強調或音樂表現(xiàn)的部分中，附加"用力聲音"或"哼聲"的表現(xiàn)。因此，能夠在用戶用力講話或者唱歌的自然的定時，附加強調或音樂表現(xiàn)以提高聲音的表現(xiàn)力。
再者，在本實施例中，雖然設步驟S15中的周期信號生成部17輸出 80Hz的正弦波，但是并不僅限于此。例如，按照振幅包絡的波動頻率的分布，可以為40Hz—120Hz之間的任一頻率，周期信號生成部17也可以輸出正弦波以外的周期性信號。而且，也可以如實施例1的變形例，通過全通濾波器來附加振幅波動。
再者，在本實施例中，雖然設手持式傳聲器41中包括壓力傳感器43，但是并不限定于此。例如，除手持式傳聲器41之外，還可以在凳子、鞋或者腳掌等處配置壓力傳感器，以設為感知腳踩的力量的構成。并且，在安裝于上臂的帶子上配置壓力傳感器，以成為感知加緊腋窩的力量的構成。
再者，雖然在本實施例中，設為直接輸入來自手持式傳聲器41的、與把持壓同步的聲音，但是只要來自壓力傳感器的輸出數(shù)據(jù)和聲音波形同步記錄，也可以為將被記錄的把持壓和聲音波形作為輸入來接受。 (實施例4)在實施例4中，利用檢測喉頭的移動的傳感器來檢測聲音的"用力聲音"部分或者"哼聲"部分。
圖26是實施例4的聲音強調裝置的功能框圖。圖27是表示本實施例的工作的流程圖。關于與圖24及圖25相同的構成部分及步驟采用相同的符號，并不重復進行詳細的說明。
如圖26所示，本發(fā)明的實施例4所涉及的聲音強調裝置包括EGG (Electroglottograph)傳感器51、麥克風42、強調發(fā)音區(qū)間檢測部52、聲音強調部13、聲音輸出部14。因為聲音強調部13和聲音輸出部14與實施例1相同，所以不重復進行說明。
EGG傳感器51是與頸部的皮膚相接觸并感知喉頭的移動的傳感器。麥克風42與實施例3同樣地取得用戶的聲音。
強調發(fā)音區(qū)間檢測部52包括標準值計算部55、標準值記憶部56、用力聲音附加處理判斷部57。
標準值計算部55是，接受EGG傳感器51的輸出，根據(jù)EGG波形而求出發(fā)出有聲音中的聲門關閉區(qū)間比率，并輸出標準發(fā)音時的該比率的下限值的處理部。
標準值記憶部56是記憶裝置，記憶在標準值計算部55計算出的用戶的標準聲門關閉區(qū)間比率的下限值，例如，由存儲器或硬盤等構成。
用力聲音附加處理判斷部57是，接受EGG傳感器51的輸出，并將從EGG傳感器51輸出的值和標準值記憶部56所記憶的標準聲門關閉區(qū) 間比率的下限值進行比較，從而判斷是否將對應于該區(qū)間的輸入聲音作為用力聲音處理的對象的處理部。
其次，按照圖27的流程圖對如上述構成的聲音強調裝置的工作進行說明。
首先，若用戶發(fā)出聲音，則通過EGG傳感器51取得表示喉頭的移動的EGG波形(步驟S51)。
標準值計算部55接受由EGG傳感器51輸出的EGG波形，并取出相當于聲音波形的基本周期的一個周期的EGG波形(步驟S52)。如在圖28 及圖29所分別表示的專利文獻特開2007 — 68847號公報的圖5及圖6 所示,在EGG波形的一個周期中，具有一個波峰和進行無變化推移的部分。所謂一個周期是指從此波峰的開始上升時到下一個波峰的開始上升時為止。此波峰的部分相當于聲門的開放期，無變化的部分相當于聲門的關閉期。
標準值計算部55將一個周期內的無變化部分的時間幅度在一個周期的時間幅度里所占的比例，作為聲門關閉區(qū)間比率來計算(步驟S53)。在剛開始講話或者唱歌之后的預先規(guī)定的期間，例如，如果設標準值設定時間范圍為5秒鐘,且取得該EGG波形數(shù)據(jù)的時刻在標準值設定時間范圍內(步驟S54的"是")，則在步驟S53計算出的聲門關閉區(qū)間比率被蓄積在標準值計算部55中(步驟S55)。再者，不僅可以是5秒鐘，也可以是8秒鐘或在此之上。
進而，在標準聲門關閉區(qū)間比率的計算所需要的數(shù)據(jù)的蓄積完畢的情況下(步驟S56的"是")，標準值計算部55計算的標準聲門關閉區(qū)間比率的上限值(步驟S57)。例如，標準聲門關閉區(qū)間比率的上限值為在標準值設定時間范圍內的標準聲門關閉區(qū)間比率的平均值中加上標準偏差后的值。標準值計算部55將在步驟S57計算的標準聲門關閉區(qū)間比率的上限值記憶在標準值記憶部56 (步驟S58)。
在標準聲門關閉區(qū)間比率的計算所需要的數(shù)據(jù)的蓄積未完畢的情況下 (步驟S56的"否")，則返回步驟S51,從而標準值計算部55接受來自 EGG傳感器51的下一個輸入。
在該時間不在標準值設定時間范圍內的情況下(步驟S54的"否")，麥克風42取得用戶發(fā)音的聲音波形，并作為輸入聲音波形輸出到調幅部 18(步驟S42)。并且，在步驟S53計算的聲門關閉區(qū)間比率被輸入到用力聲音附加處理判斷部57。用力聲音附加處理判斷部57將標準值記憶部56 所記憶的標準聲門關閉區(qū)間比率的上限值與標準值計算部55所計算的聲門關閉區(qū)間比率進行比較(步驟S59)。
在該聲門關閉區(qū)間比率比標準聲門關閉區(qū)間比率的上限值大的情況下 (步驟S59的"是")，用力聲音附加處理判斷部57將該區(qū)間作為用力聲音處理對象區(qū)間輸出到調幅部18。在喉頭上用力的狀態(tài)下，聲門的關閉區(qū)間變長的現(xiàn)象已被一般所知(例如，非專利文獻:石井Carlos壽憲、石黑浩及萩田紀博"EGG全用l、 t 「" § *」発聲o音響分析(利用EGG的"用力"發(fā)聲的聲學分析)"、2007年春季日本聲學學會講演論文集、pp.221 — 222、 2007)。聲門關閉區(qū)間比率比標準聲門關閉區(qū)間比率的上限值大的情況是表示標準時以上的力被用在聲門上。
周期信號生成部17生成80Hz的正弦波信號(步驟S15)，并生成在此正弦波信號中加入直流分量的信號(步驟S16)。調幅部18對于與輸入聲音波形之中的部分波形同步的EGG波形的聲門關閉區(qū)間比率，比步驟 S59中的標準聲門關閉區(qū)間比率的上限值大的作為用力聲音處理對象區(qū)間的區(qū)間，使周期信號生成部17生成的以80Hz振動的周期信號乘以輸入聲音信號(步驟S17)。通過此處理，進行振幅調制，從而進行向包含振幅的周期性波動的"用力"聲音的轉換。聲音輸出部14輸出轉換后的聲音波形 (步驟S18)。
在該聲門關閉區(qū)間比率為標準聲門關閉區(qū)間比率的上限值以下的情況下(步驟S59的"否")，調幅部18不對與該把持壓信息同步的輸入聲音進行處理，就將聲音波形輸出到聲音輸出部14，從而聲音輸出部14輸出此聲音波形(步驟S18)。
例如，以上所說明的處理(步驟S51—S18)在規(guī)定的時間間隔內被反復執(zhí)行。
根據(jù)這樣的構成，檢測講話中或唱歌中的用戶的聲門關閉區(qū)間比率變得比標準時高的定時，從而對聲音波形進行伴隨振幅波動的調制。以此附加根據(jù)"用力聲音"的強調或根據(jù)"哼聲"的音樂表現(xiàn)。因此，用戶為了想要進行強調或音樂性表現(xiàn)，能夠在喉頭的用力部分附加"用力聲音"或者"哼聲"的表現(xiàn)。因而，能夠在用戶用力講話或者唱歌的定時，附加強調或音樂表現(xiàn)。并且，即使聲音波形上的變化不足以用來聽取用戶的發(fā)音為用力的狀態(tài)，也能夠提高聲音的表現(xiàn)力。
另外，在本實施例中，將聲門關閉時間比率的標準值設定時間范圍設為開始講話或開始唱歌后的五秒鐘。但是，在應用于卡拉OK系統(tǒng)的情況下，也可以與實施例3同樣，參考樂曲數(shù)據(jù)以確定樂曲中的除精華部分以外的歌唱區(qū)間，從而設定規(guī)定了的時間長度，根據(jù)精華部分以外的歌唱聲音來設定聲門關閉時間比率的標準值。因此，容易強調出現(xiàn)在精華部分的音樂表現(xiàn)，并能夠強調音樂的高潮。再者，雖然在本實施例中，是根據(jù)以EGG傳感器51取得的EGG波形計算聲門關閉區(qū)間比率，但是也可以如專利文獻特開2007 —68847號公報所述，將從聲音波形抽取了第四共振峰的頻帶的波形的振幅低于預先規(guī)定的振幅的區(qū)間，作為聲門關閉區(qū)間，將高于預先規(guī)定的振幅的區(qū)間作為聲門開放區(qū)間，并將作為一組的相鄰的一個聲門開放區(qū)間和一個聲門關閉區(qū)間當作一個周期，從而計算聲門關閉區(qū)間比率。
再者，在本實施例中，雖然設步驟S15中的周期信號生成部17輸出 80Hz的正弦波，但是并不僅限于此。例如，按照振幅包絡的波動頻率的分布，頻率可以為40Hz—120Hz之間的任一頻率，周期信號生成部17也可以輸出正弦波以外的周期性信號。而且，也可以如實施例1的變形例，通過全通濾波器來附加振幅波動。 (實施例5)
圖30是表示實施例5中的聲音強調系統(tǒng)的構成的圖。作為聲音強調系統(tǒng)的具體例子具有用于移動電話71b的來電通知用聲音(來電通知用音樂、來電聲音)的服務系統(tǒng)；用于便攜型個人電腦71a的語音電子郵件用聲音的服務系統(tǒng)；或者用于網(wǎng)絡游戲機71c的游戲角色或化身用聲音的服務系統(tǒng)。聲音強調系統(tǒng)包括通過網(wǎng)絡72被接續(xù)的便攜型個人電腦71a、移動電話71b以及網(wǎng)絡游戲機71c等終端，還有聲音處理服務器73。各個終端將被輸入的聲音數(shù)據(jù)發(fā)送到聲音處理服務器73。聲音處理服務器73 針對被發(fā)送的聲音數(shù)據(jù)，進行用力聲音部分的強調，再將聲音數(shù)據(jù)返送到發(fā)送終端。
圖31是表示實施例5中的聲音強調系統(tǒng)的構成的框圖。圖32是表示實施例5的聲音強調系統(tǒng)之中的終端71的工作的流程圖。圖33是表示實施例5的聲音強調系統(tǒng)之中的聲音處理服務器73的工作的流程圖。
如圖31所示，本發(fā)明的實施例5所涉及的聲音強調系統(tǒng)是，將通過終端的麥克風被輸入的、并通過網(wǎng)絡被發(fā)送到服務器的聲音中的用力聲音，在服務器內進行強調后再返送給終端，并以終端輸出處理聲音的系統(tǒng)。聲音強調系統(tǒng)包括終端71、網(wǎng)絡72以及聲音處理服務器73。
如圖30所示，具體而言，終端71是便攜型個人電腦71a、移動電話 71b或者網(wǎng)絡游戲機71c等。而且，終端71還可以是便攜型信息終端等。如圖31所示，終端71包括麥克風76、模數(shù)轉換器77、輸入聲音數(shù)據(jù)記憶部78、聲音數(shù)據(jù)發(fā)送部79、聲音數(shù)據(jù)接收部80、強調聲音數(shù)據(jù) 記憶部81、數(shù)模轉換器82、電聲轉換器83、聲音輸出指示輸入部84、以及輸出聲音抽取部85。
模數(shù)轉換器77是將由麥克風76輸入的聲音的模擬信號轉換成數(shù)字信號的處理部。輸入聲音數(shù)據(jù)記憶部78是存儲由模數(shù)轉換器77轉換成數(shù)據(jù) 信號的輸入聲音數(shù)據(jù)的記憶部。聲音數(shù)據(jù)發(fā)送部79是將被轉換成數(shù)據(jù)信號的輸入聲音數(shù)據(jù)與終端標識符配在一起，并通過網(wǎng)絡72發(fā)送到聲音處理服務器73的處理部。
聲音數(shù)據(jù)接收部80是通過網(wǎng)絡72，來接收由聲音處理服務器73發(fā)送的、被施加了依據(jù)用力聲音附加的強調處理的聲音數(shù)據(jù)的處理部。強調聲音數(shù)據(jù)記憶部81是存儲由聲音數(shù)據(jù)接收部80接收的、在聲音處理服務器 73進行了強調處理的聲音數(shù)據(jù)的記憶部。數(shù)模轉換器82是將由聲音數(shù)據(jù) 接收部80接收的、以數(shù)據(jù)信號來表現(xiàn)的聲音信號轉換成模擬電信號的處理部。電聲轉換器83是將電信號轉換成聲信號的處理部，具體來說，是揚聲器等。
聲音輸出指示輸入部84是用戶用于指示聲音輸出的輸入處理裝置，具體來說，是按鈕、開關或者能夠列表顯示被選擇項目的觸摸屏等。輸出聲音抽取部85是按照由聲音輸出指示輸入部84輸入的聲音輸出指示，來抽取存儲在強調聲音數(shù)據(jù)記憶部81中的進行了強調處理的聲音數(shù)據(jù)，并輸入到數(shù)模轉換器82的處理部。
并且，如圖31所示，聲音處理服務器73包括聲音數(shù)據(jù)接收部74、聲音數(shù)據(jù)發(fā)送部75、強調發(fā)音區(qū)間檢測部12、以及聲音強調部13。
聲音數(shù)據(jù)接收部74是接收由終端71的聲音數(shù)據(jù)發(fā)送部79發(fā)送的輸入聲音數(shù)據(jù)的處理部。聲音數(shù)據(jù)發(fā)送部75是對終端71的聲音數(shù)據(jù)接收部80，發(fā)送施加了依據(jù)用力聲音附加的強調處理的聲音數(shù)據(jù)的處理部。
強調發(fā)音區(qū)間檢測部12包括用力聲音判斷部15及用力聲音附加處理判斷部16。聲音強調部13包括調幅部18及周期信號生成部17。由于強調發(fā)音區(qū)間檢測部12及聲音強調部13與圖12所示的相同，所以對其不重復進行詳細的說明。其次，在如上所述的構成的聲音強調系統(tǒng)之中，按照圖32、圖34的流程圖對終端71的工作，按照圖33的流程圖對聲音處理服務器73的工作分別進行說明。在圖33的流程圖中，對于與實施例1的圖12所示的聲音強調裝置的工作同樣的工作，付與相同的參考標記以進行說明。關于同樣的工作，在此對其不重復進行詳細的說明。
首先，按照圖32，對通過終端71進行聲音信號的取得和發(fā)送的工作進行說明。
麥克風76通過用戶發(fā)出的聲音的輸入，取得作為模擬電信號的聲音(步驟S701)。模數(shù)轉換器77將由麥克風76輸入的模擬聲音信號，以預先規(guī) 定的采樣頻率來進行采樣，并轉換成數(shù)字信號(步驟S702)。例如，采樣頻率為22050Hz等。另外，只要采樣頻率為再生聲音的精確度及信號處理精確度所需要的頻率以上，可以為任意的頻率。模數(shù)轉換器77將在步驟 S702中轉換成數(shù)字信號的聲音信號存儲在輸入聲音數(shù)據(jù)記憶部78 (步驟 S703)。聲音數(shù)據(jù)發(fā)送部79將在步驟S702中轉換成數(shù)字信號的聲音信號，與終端71的終端標識符或者應當接收處理聲音的其他的終端的終端標識符配在一起，并通過網(wǎng)絡72發(fā)送到聲音處理服務器73 (步驟S704)。' 其次，按照圖33對聲音處理服務器73的工作進行說明。聲音數(shù)據(jù)接收部74通過網(wǎng)絡72，接收終端71在步驟S704發(fā)送的終端標識符和聲音信號(步驟S71)。由聲音數(shù)據(jù)接收部74取得的聲音信號、即聲音波形被輸入到強調發(fā)音區(qū)間檢測部12的用力聲音判斷部15，用力聲音判斷部15進行聲音中的振幅波動區(qū)間的檢測(步驟S12)。其次，用力聲音附加處理判斷部16對用力聲音區(qū)間的振幅波動的調制度進行分析
(步驟S13)。調制度判斷部25判斷，在步驟S13求出的調制度是否小于預先規(guī)定的基準值(步驟S14)。在調制度被判斷為在基準值以上的情況下
(步驟S14的"否")，調制度判斷部25判斷該用力聲音區(qū)間的振幅調制度為充分，從而不將該區(qū)間作為用力聲音處理對象區(qū)間，并向調幅部18輸出區(qū)間信息。調幅部18不對輸入聲音進行處理，就將聲音波形輸出到聲音數(shù) 據(jù)發(fā)送部75。聲音數(shù)據(jù)發(fā)送部75通過網(wǎng)絡72，向具有在步驟S71接收的終端標識符的終端發(fā)送由調幅部18輸出的聲音波形(步驟S72)。
在調制度被判斷為小于基準值的情況下(步驟S14的"是")，周期信號生成部17生成80Hz的正弦波(步驟S15)，并生成在此正弦波信號中加上直流分量的信號(步驟S16)。調幅部18關于在輸入聲音波形之中作為用力聲音處理對象區(qū)間被確定的區(qū)間，通過周期信號生成部17生成的以 80Hz振動的周期信號乘以輸入聲音信號來進行振幅調制。通過這樣的處理，調幅部18進行從輸入聲音向包含振幅的周期性波動的"用力"聲音的轉換(步驟S17)。調幅部18向聲音數(shù)據(jù)發(fā)送部75輸出轉換后的聲音波形。聲音數(shù)據(jù)發(fā)送部75通過網(wǎng)絡72，向具有在步驟S71接收的終端標識符的終端，發(fā)送在步驟S17由調幅部18輸出的聲音波形(步驟S72)。
其次，按照圖34，對終端71的聲音信號的接收和聲音輸出的工作進行說明。
聲音數(shù)據(jù)接收部80通過網(wǎng)絡，接收由聲音處理服務器73發(fā)送的聲音波形(步驟S705)。聲音數(shù)據(jù)接收部80將取得了的聲音波形存儲在強調聲音數(shù)據(jù)記憶部81 (步驟S706)。在根據(jù)接收時的應用軟件等存在聲音輸出指示的情況下(步驟S707的"是")，輸出聲音抽取部85從強調聲音數(shù)據(jù) 記憶部81所存儲的聲音數(shù)據(jù)之中抽取對象的聲音波形，并輸入到數(shù)模轉換器82 (步驟S708)。數(shù)模轉換器82以與模數(shù)轉換器77在步驟S702中進行了采樣的周期相同的周期，將數(shù)字信號轉換成模擬電信號(步驟S709)。在步驟S709由數(shù)模轉換器82輸出的模擬電信號，通過電聲轉換器83作為聲音被輸出(步驟S710)。終端71在無聲音輸出指示的情況下(步驟 S707的"否")，結束工作。
除接收工作之外，在用戶的聲音輸出指示被輸入到聲音輸出指示輸入部84的情況下(步驟S711)，輸出聲音抽取部85按照被輸入到聲音輸出指示輸入部84的聲音輸出指示，從強調聲音數(shù)據(jù)記憶部81所存儲的聲音數(shù)據(jù)之中抽取對象的聲音波形，并輸入到數(shù)模轉換器82 (步驟S708)。數(shù) 模轉換器82將數(shù)字信號轉換成模擬電信號(步驟S709)。模擬電信號通過電聲轉換器83作為聲音被輸出(步驟S710)。
根據(jù)這樣的構成，將在終端71被輸入的用戶或發(fā)聲者的聲音發(fā)送到聲音處理服務器73。聲音處理服務器73檢測輸入聲音的振幅波動區(qū)間，并將對作為聲音的表現(xiàn)的調制度不足的部分進行振幅波動補償?shù)穆曇舭l(fā)送到終端。終端能夠利用被進行了強調處理的聲音。因此，為了向聽眾充分進行傳達，對強調或用力講話的"用力聲音"的表現(xiàn)或者"哼聲"的音樂表現(xiàn)進行強調，從而能夠提高聲音的表現(xiàn)力。與此同時，有效地利用輸入聲音原本具備的調制度足夠大的振幅波動，從而能夠生成更加自然且表現(xiàn)力高的聲音。根據(jù)本實施例所涉及的聲音強調系統(tǒng)，能夠將以未受過特殊訓練的普通的發(fā)聲者或用戶的自然的嗓音而難以實現(xiàn)的表現(xiàn)力高的聲音，作為來電聲音用聲音、語音電子郵件或者化身用聲音等來利用。不僅發(fā)聲者或用戶本身利用這樣的聲音，也可以通過將其發(fā)送到別人的終端，從而以更加豐富的表現(xiàn)向別人傳達消息。而且，不需要在終端進行聲音分析和信號處理之類的計算量大的處理。因此，即使是計算能力低的終端也能夠利用表現(xiàn)力高的聲音。
再者，在本實施例中，設采樣頻率與終端71內的模數(shù)轉換器77和數(shù) 模轉換器82相同，并將聲音處理服務器73中的輸入聲音信號的采樣頻率作為固定的頻率進行了說明。但是，在每個終端的采樣頻率不同的情況下，也可以設為終端配合聲音信號，將采樣頻率發(fā)送到聲音處理服務器73。因此，設聲音處理服務器73按照所接收的采樣頻率，對接收的聲音信號進行處理。并且，設聲音處理服務器73通過重新采樣處理，將采樣頻率轉換成信號處理時的采樣頻率。而且，設在發(fā)送未處理聲音的終端與接收進行了強調處理的聲音的終端不同的情況下，或聲音處理服務器73輸出的聲音信號的采樣頻率與終端的采樣頻率不同的情況等情況下，聲音處理服務器73 向終端發(fā)送進行了強調處理的聲音波形，并發(fā)送采樣頻率，數(shù)模轉換器82 根據(jù)接收的采樣頻率，生成模擬電信號。
再者，在本實施例中，雖然設為將采樣后的波形數(shù)據(jù)照原樣從終端71 發(fā)送到聲音處理服務器73，但是，當然也可以利用作為通過網(wǎng)絡72進行通信的數(shù)據(jù)的，由MP3 (MPEG Audio Layer—3:活動圖像壓縮標準音頻第三層)或CELP (Code—Excited Linear Prediction:碼激勵線性預測)等波形壓縮編碼器壓縮的數(shù)據(jù)。同樣，作為從聲音處理服務器73向終端71發(fā)送的聲音數(shù)據(jù)，也可以利用被壓縮后的數(shù)據(jù)。
再者，在本實施例中，雖然將輸入聲音數(shù)據(jù)記憶部78和強調聲音數(shù)據(jù) 記憶部81作為獨立的部分進行了說明，但是，也可以在一個記憶部中，對輸入聲音數(shù)據(jù)及強調聲音數(shù)據(jù)都進行記憶。此時設為，配合聲音信號存儲對輸入聲音數(shù)據(jù)和強調聲音數(shù)據(jù)進行識別的信息的構成。而且，雖然設輸
入聲音數(shù)據(jù)記憶部78和強調聲音數(shù)據(jù)記憶部81存儲數(shù)字信號，但是也可以設為存儲作為由麥克風76輸入的、通過模數(shù)轉換器77轉換成數(shù)字信號之前的模擬電信號的輸入聲音信號；以及存儲作為通過數(shù)模轉換器82將數(shù) 字信號轉換成模擬信號后的模擬電信號的強調聲音信號。此時，設聲音信號被記錄在磁帶或唱片之類的模擬介質上。
再者，雖然在本實施例中，設在終端71進行模數(shù)轉換及數(shù)模轉換，并通過網(wǎng)絡72收發(fā)數(shù)據(jù)信號，但是，也可以收發(fā)模擬信號，并在聲音處理服務器73進行模數(shù)轉換及數(shù)模轉換。此時，網(wǎng)絡需要通過經由交換機的模擬電路來實現(xiàn)。
再者，雖然設聲音處理服務器73的聲音強調部13與實施例1同樣，通過周期信號生成部17和調幅部18，使周期信號乘以聲音波形來進行振幅調制，但并不只限于此。例如，還可以如實施例1的變形例所述，利用全通濾波器，或可以如實施例2所述，通過對原波形的振幅波動的動態(tài)范圍進行擴張，來強調振幅調制。進而與實施例2同樣，為了擴張動態(tài)范圍，也可以利用模擬電路。
以上，關于本發(fā)明，根據(jù)上述的實施例l至5進行了說明，但是，本發(fā)明并不只限于上述的實施例。
例如，在實施例3、實施例4中，分別利用由壓力傳感器43得到的把持壓、根據(jù)由EGG傳感器51得到得EGG波形計算出的聲門關閉區(qū)間比率，來判斷用力聲音處理對象區(qū)間。但是，用力聲音處理對象區(qū)間的判斷方法并不只限于此。例如，也可以安裝能夠測定手持式傳聲器內的回轉儀等的加速度或移動的傳感器，或者可以在頭部安裝傳感器，在講話者或者唱歌者的移動的速度或移動的距離為一定值以上的情況下，作為用力聲音處理對象區(qū)間來判斷。
而且，設在實施例1、實施例2中對輸入聲音的振幅波動的調制度進行分析，并對調制度不充分的區(qū)間施行強調處理。但是，也能夠無論調制度如何，都對輸入聲音的所有被判斷為具有振幅波動的區(qū)間施行強調處理。因此，不需要多項式近似等發(fā)生延遲的調制度的分析處理。并且，延遲時間被削減。因此，在適用于卡拉OK或擴音器等需要實時處理的系統(tǒng)的情況下比較有效。此時，實施例2的振幅動態(tài)范圍擴張部31如圖35所示，由平均輸入振幅計算部61和振幅放大壓縮部62構成。而且，平均輸入振幅計算部61至少以用力聲音的振幅包絡的波動的一個周期的時間幅度，求出輸入聲音的振幅的平均。例如，設振幅包絡波動為40Hz以上，以1/40 秒、即25ms的時間幅度來求出振幅的平均值。振幅放大壓縮部62將從平均輸入振幅計算部61輸出的平均值作為圖20的邊界輸入電平來設定。振幅放大壓縮部62進行放大，以使超過平均值的輸入、即振幅包絡的波動周期中的振幅大的部分變得更大。并且，振幅放大壓縮部62進行壓縮，以使低于平均值的輸入、即振幅包絡的波動周期中的振幅小的部分變得更小。通過這樣的處理，能夠強調輸入聲音的振幅波動。求出振幅的平均值的時間幅度不僅限于25ms，也可以將振幅包絡波動的頻率縮短為與120Hz對應的8.3ms左右。在部分吉他放大器中，在使聲音失真時使用類似的構成。根據(jù)這樣的構成，能夠以延遲少的簡單的處理，來強調輸入聲音的振幅波動。而且，能夠對輸入聲音附加"用力聲音"或者"哼聲"的豐富的表現(xiàn) 力，并仍然有效地利用了輸入聲音的特征。
而且，在實施例3、實施例4中，為了附加"用力聲音"或者"哼聲" 的表現(xiàn)，與實施例1同樣，對輸入聲音附加周期性振幅波動。但是，也可以通過如實施例2所示的擴張輸入聲音的振幅動態(tài)范圍，來對聲音附加"用力聲音"或者"哼聲"的表現(xiàn)。但是，在擴張輸入聲音的振幅動態(tài)范圍的情況下，如實施例1或實施例2的步驟S12所述，需要辨別輸入聲音中具有相當于"用力聲音"或者"哼聲"的波動頻率范圍內的振幅波動。
并且，設在實施例l、實施例3、實施例4中，周期信號生成部17生成80Hz的周期信號。但是，周期發(fā)信號生成部17也可以在能夠將波動作為"用力聲音"聽取的40Hz至120Hz之間，生成具有隨機周期波動的信號。由于調制頻率隨機波動，能夠更接近實際的聲音的振幅波動，從而能夠生成自然的聲音。
而且，為了檢測講話者或唱歌者用力的狀態(tài)，判定用力聲音附加處理區(qū)間，在實施例l、 2中利用聲音波形的振幅波動，在實施例3中利用手持式傳聲器的把持壓，在實施例4中利用從EGG波形觀察到的聲門關閉區(qū)間比率。但是，也可以將這些信息進行組合以判定用力聲音附加處理區(qū)間。并且，具體而言，上述各個裝置也可以作為由微處理器、ROM、 RAM、硬盤驅動器、顯示器件、鍵盤、滑鼠等構成的計算機系統(tǒng)來構成。計算機程序被記憶在RAM或硬盤驅動器中。通過微處理器按照計算機程序工作，使得各個裝置完成其功能。在此，計算機程序為了完成規(guī)定的功能，表示針對計算機的指令的指令碼為進行多個組合的構成。
進且，構成上述各個裝置的構成元件的一部分或全部也可以設為由一個系統(tǒng)LSI (Large Scale Integration:大規(guī)模集成電路)構成。系統(tǒng)LSI 是在一個芯片上集積多個構成部而制造的超級多功能LSI，具體而言，是包含微處理器、ROM、 RAM等而構成的計算機系統(tǒng)。計算機程序被記憶在RAM中。通過微處理器按照計算機程序來工作，使得系統(tǒng)LSI完成其功能。
進而還有，構成上述各個裝置的構成元件的一部分或全部也可以設為，由能夠在各個裝置上裝卸得IC (Integrated Circuit凍成電路)卡或者單體的模塊構成。IC卡或模塊是由微處理器、ROM、 RAM等構成的計算機系統(tǒng)。IC卡或模塊也可以設為包含上述超級多功能LSI。通過微處理器按照計算機程序工作，使得IC卡或模塊完成其功能。此IC卡或模塊也可以設為具有抗干擾性。
而且，本發(fā)明也可以作為如上所述的方法。并且，也可以是通過計算機來實現(xiàn)這些方法的計算機程序，還可以是由所述計算機程序形成的數(shù)字信號。
進而，本發(fā)明也可以將上述計算機程序或上述數(shù)字信號記錄在計算機能夠讀取的記錄介質，例如軟盤、硬盤、CD—ROM、 MO、 DVD、 DVD —ROM、 DVD—RAM、 BD (BlirrayDisc (注冊商標)藍光光盤)、半導體存儲器等上。而且，也可以是記錄在這些記錄媒體上的上述數(shù)據(jù)信號。
并且，本發(fā)明也可以將上述計算機程序或上述數(shù)字信號，經由以電氣通訊線路、無線或有線通訊線路、互聯(lián)網(wǎng)為代表的網(wǎng)絡、數(shù)據(jù)廣播等進行傳輸。
而且，本發(fā)明也可以是具備微處理器和存儲器的計算機系統(tǒng)，上述存儲器記憶上述計算機程序，上述微處理器按照上述計算機程序進行工作。并且，通過將上述程序或上述數(shù)字信號記錄在上述記錄介質上并進行轉送，或者通過將上述程序或上述數(shù)字信號經由上述網(wǎng)絡等進行轉送，也
可以通過其他的獨立的計算機系統(tǒng)來實施。
進而，也可以分別將上述實施例及上述變形例進行組合。應該能夠認識到，此次公開的實施例的所有內容都是例示而非限制性
的內容。本發(fā)明的范圍并非上述說明的范圍，而是根據(jù)權利要求的范圍來
表述的，并試圖包含與權利要求的范圍同等的意思以及在范圍內的所有的變更。
本發(fā)明所涉及的聲音強調裝置，檢測講話者或唱歌者用力說話、唱歌的部分，以確定講話者或唱歌者試圖進行較強的聲音表現(xiàn)的部分，并對此部分的聲音波形進行加工，從而能夠生成"用力聲音"或"哼聲"的表現(xiàn)。
因此，本發(fā)明能夠應用于具有用力聲音強調功能的擴音器或卡拉OK等。而且，本發(fā)明還能夠應用于游戲機、通訊設備、移動電話等。即，能夠對游戲機或通訊設備的角色聲音、化身的聲音、語音電子郵件的聲音、移動電話的來電通知用音樂或來電聲音、或者使用家用攝像機等制作影片內容時的解說聲音等進行聲音用戶化。
權利要求
1、一種聲音強調裝置，其特征在于，包括強調發(fā)音區(qū)間檢測部，檢測輸入聲音波形之中的強調區(qū)間，所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間；以及聲音強調部，使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加，所述強調發(fā)音區(qū)間檢測部，將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的狀態(tài)，作為在聲帶上用了力的狀態(tài)來檢測，并將被檢測出在聲帶上用了力的狀態(tài)的時間區(qū)間作為所述強調區(qū)間來檢測。
2、如權利要求l所述的聲音強調裝置，其特征在于，所述聲音強調部對所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形施行調制，以使所述聲音波形伴隨周期性振幅波動。
3、如權利要求2所述的聲音強調裝置，其特征在于，所述聲音強調部利用40Hz以上且120Hz以下的頻率的信號，對在所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形施行調制，以使所述聲音波形伴隨周期性振幅波動。
4、如權利要求3所述的聲音強調裝置，其特征在于，所述聲音強調部還使信號的頻率在40Hz—120Hz的范圍內波動，所述信號是在為了使所述聲音波形伴隨周期性振幅波動，而對所述聲音波形施行調制時被使用的信號。
5、如權利要求2所述的聲音強調裝置，其特征在于，所述聲音強調部通過使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形乘以周期信號，從而對聲音波形給予伴隨周期性振幅波動的調制。
6、如權利要求2所述的聲音強調裝置，其特征在于，所述聲音強調部具有全通濾波器，移動所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的相位；以及加法運算單元，使被輸入到所述全通濾波器的所述強調區(qū)間所包含的所述聲音波形，與由所述全通濾波器移動了相位后的聲音波形相加。
7、如權利要求1所述的聲音強調裝置，其特征在于，所述聲音強調部擴大所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的振幅的動態(tài)范圍。
8、如權利要求7所述的聲音強調裝置，其特征在于，在所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形中，在所述聲音波形的振幅包絡的值在規(guī)定的值以下的情況下，所述聲音強調部對所述聲音波形的振幅進行壓縮；且在所述聲音波形的振幅包絡的值比所述規(guī)定的值大的情況下，所述聲音強調部對所述聲音波形的振幅進行放大。
9、如權利要求1所述的聲音強調裝置，其特征在于，所述強調發(fā)音區(qū)間檢測部將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的、且振幅調制度不足0.04的時間區(qū)間作為所述強調區(qū)間來檢測，所述振幅調制度表示所述輸入聲音波形的振幅包絡的振幅波動的程度。
10、如權利要求l所述的聲音強調裝置，其特征在于，所述強調發(fā)音區(qū)間檢測部根據(jù)所述發(fā)聲者的聲門關閉著的時間區(qū)間，來決定所述強調區(qū)間。
11、一種聲音強調方法，其特征在于，包括強調發(fā)音區(qū)間檢測步驟，檢測輸入聲音波形之中的強調區(qū)間，所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間；以及聲音強調步驟，使所述輸入聲音波形之中的、在所述強調發(fā)音區(qū)間檢測步驟中檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加，在所述強調發(fā)音區(qū)間檢測步驟中，將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的狀態(tài)，作為在聲帶上用了力的狀態(tài)來檢測，并將被檢測出在聲帶上用了力的狀態(tài)的時間區(qū)間作為所述強調區(qū)間來檢測。
12、一種程序，其特征在于，使計算機執(zhí)行以下步驟強調發(fā)音區(qū)間檢測步驟，檢測輸入聲音波形之中的強調區(qū)間，所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間；以及聲音強調步驟，使所述輸入聲音波形之中的、在所述強調發(fā)音區(qū)間檢測步驟中檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加，在所述強調發(fā)音區(qū)間檢測步驟中，將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的狀態(tài)，作為在聲帶上用了力的狀態(tài)來檢測，并將被檢測出在聲帶上用了力的狀態(tài)的時間區(qū)間作為所述強調區(qū)間來檢測。
13、一種聲音強調系統(tǒng)，其特征在于，包括聲音強調裝置，通過對輸入聲音波形的一部分施行規(guī)定的轉換處理，來生成輸出聲音波形；以及終端，再生所述輸出聲音波形，所述終端包括輸入聲音波形發(fā)送部，將所述輸入聲音波形發(fā)送到所述聲音強調裝置；輸出聲音波形接收部，從所述聲音強調裝置接收所述輸出聲音波形；以及再生部，再生所述輸出聲音波形接收部所接收的所述輸出聲音波形，所述聲音強調裝置包括輸入聲音波形接收部，從所述終端接收所述輸入聲音波形；強調發(fā)音區(qū)間檢測部，檢測所述輸入聲音波形接收部所接收的所述輸入聲音波形之中的強調區(qū)間，所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間；聲音強調部，通過使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加，從而生成所述輸出聲音波形；以及輸出聲音波形發(fā)送部，將所述輸出聲音波形發(fā)送到所述終端，所述強調發(fā)音區(qū)間檢測部，將所述輸入聲音波形的所述振幅波動的頻率存在于10Hz以上且不足170Hz的預先規(guī)定了的范圍內的狀態(tài)，作為在聲帶上用了力的狀態(tài)來檢測，并將被檢測出在聲帶上用了力的狀態(tài)的時間區(qū)間作為所述強調區(qū)間來檢測。
全文摘要
一種聲音強調裝置，通過使所述的“用力”聲音出現(xiàn)在講話者或用戶試圖附加強調或者音樂表現(xiàn)的位置上，從而附加由憤怒、興奮或緊張、精力充沛的說話方式所表現(xiàn)的強調，及附加演歌、布魯斯歌曲或者搖滾樂等的音樂表現(xiàn)，以實現(xiàn)豐富的聲音表現(xiàn)，該聲音強調裝置包括強調發(fā)音區(qū)間檢測部(12)，檢測輸入聲音波形之中的強調區(qū)間，所述強調區(qū)間是指發(fā)出該輸入聲音波形的發(fā)聲者想要使聲音波形發(fā)生變化的時間區(qū)間；以及聲音強調部(13)，使所述輸入聲音波形之中的、由所述強調發(fā)音區(qū)間檢測部(12)檢測出的所述強調區(qū)間所包含的聲音波形的振幅包絡的波動增加。
文檔編號G10L21/02GK101627427SQ200880007020
公開日2010年1月13日申請日期2008年9月29日優(yōu)先權日2007年10月1日
發(fā)明者加藤弓子, 星見昌克, 釜井孝浩申請人:松下電器產業(yè)株式會社

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：加藤弓子;釜井孝浩;星見昌克
技術所有人：松下電器產業(yè)株式會社
我是此專利的發(fā)明人

上一篇：用于對穩(wěn)態(tài)背景噪聲進行平滑的方法和設備的制作方法
上一篇：編碼裝置和編碼方法

相關技術

編碼裝置和編碼方法
自適應激勵矢量量化裝置和自適...
一種數(shù)字語音信號的改進編解碼...
語音識別裝置、語音識別方法及...
提供傳統(tǒng)和其他無線網(wǎng)絡子系統(tǒng)...
編碼裝置以及編碼方法
編碼裝置以及編碼方法
用于信號分離的系統(tǒng)、方法及設...
聲音合成裝置、聲音合成方法以...
語音解碼裝置和語音解碼方法

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

1

精彩留言，會給你點贊！

聲音裝置相關技術
中繼裝置、通信中繼方法、程序以及聲音通信系統(tǒng)與制造工藝
一種可擴展聲音的投影裝置的制造方法
一種壁掛聲音播放裝置的制造方法
一種多功能喇叭的制作方法
擺布機構及運用該機構的擺布裝置的制造方法
一種畜禽咳嗽聲監(jiān)測預警裝置的制造方法
基于模糊控制的聲音自適應裝置及影音播放系統(tǒng)的制作方法
一種在線展平裝置的制造方法
競賽娛樂機器人的制作方法
一種顯示人聲音高數(shù)據(jù)的方法和裝置的制造方法
聲音互動裝置藝術案例相關技術
撥號聲音的處理方法及裝置與制造工藝
中繼裝置、通信中繼方法、程序以及聲音通信系統(tǒng)與制造工藝
一種可擴展聲音的投影裝置的制造方法
一種林業(yè)英語翻譯互動裝置的制造方法
一種戲水世界互動科技裝置的制造方法
一種壁掛聲音播放裝置的制造方法
產品互動調研派發(fā)裝置的制造方法
一種畜禽咳嗽聲監(jiān)測預警裝置的制造方法
基于模糊控制的聲音自適應裝置及影音播放系統(tǒng)的制作方法
一種學前教育智能互動裝置的制造方法
聲音裝置藝術相關技術
一種在線展平裝置的制造方法
一種顯示人聲音高數(shù)據(jù)的方法和裝置的制造方法
聲音記錄裝置以及聲音記錄方法
聲音輸出裝置及其控制方法
一種具有聲音處理系統(tǒng)的開放式播音裝置的制造方法
一種多功能國際會議記錄和播放裝置的制造方法
一種帶聲音提示裝置的皮膚縫合器的制造方法
一種女性聲動保健裝置的制造方法
基于聲音識別的到站提醒裝置的制造方法
展熱裝置的制造方法
聲音復核裝置相關技術
一種可擴展聲音的投影裝置的制造方法
車載聲音收集裝置以及聲音收集方法與制造工藝
聲音屏蔽裝置的制造方法
一種背紙復合裝置的制造方法
一種復用水裝置的制造方法
一種棗用去核裝置的制造方法
一種楊桃去核裝置的制造方法
去核裝置的制造方法
一種壁掛聲音播放裝置的制造方法
一種粗線復繞繞線裝置的制造方法
聲音互動裝置相關技術
撥號聲音的處理方法及裝置與制造工藝
中繼裝置、通信中繼方法、程序以及聲音通信系統(tǒng)與制造工藝
一種可擴展聲音的投影裝置的制造方法
一種林業(yè)英語翻譯互動裝置的制造方法
一種戲水世界互動科技裝置的制造方法
一種壁掛聲音播放裝置的制造方法
產品互動調研派發(fā)裝置的制造方法
一種畜禽咳嗽聲監(jiān)測預警裝置的制造方法
基于模糊控制的聲音自適應裝置及影音播放系統(tǒng)的制作方法
一種學前教育智能互動裝置的制造方法
聲音交互裝置相關技術
一種信息交互方法和裝置與流程
信息交互方法及裝置與流程
中繼裝置、聲音通信系統(tǒng)、聲音通信方法以及程序與制造工藝
一種信息交互的方法及裝置與制造工藝
基于視頻流的直播交互方法及其相應的裝置與制造工藝
移動終端信息會話交互控制方法、裝置和移動終端與制造工藝
撥號聲音的處理方法及裝置與制造工藝
一種直播中信息交互的方法及裝置與制造工藝
基于深度問答的交互方法和裝置與制造工藝
多輪交互信息繼承識別方法、裝置以及交互系統(tǒng)與制造工藝
國際聲音裝置藝術展相關技術
異常聲音診斷裝置的制造方法
用于空間可展機構的展收鎖定裝置及空間可展機構的制作方法
聲音轉換方法和裝置的制造方法
一種薄片介質的展平裝置及金融自助設備的制造方法
一種聲音調節(jié)方法、裝置以及智能手表的制作方法
一種芳綸纖維浸膠及展絲裝置的制造方法
聲音處理裝置及聲音處理系統(tǒng)的制作方法
聲音產生器及具備其的聲音產生裝置、電子設備的制造方法
聲音增強裝置的制造方法
吸風展平裝置和具有它的印刷品檢測設備的制造方法
交互式聲音體驗裝置相關技術
直爬梯傾翻體驗裝置的制造方法
交互式智能水利管理裝置的制造方法
表情交互方法及裝置的制造方法
一種顯示人聲音高數(shù)據(jù)的方法和裝置的制造方法
信息交互方法及裝置的制造方法
交互式網(wǎng)絡電視的遙控方法和裝置的制造方法
一種交互式音樂演奏和娛樂裝置的制造方法
邀請用戶參與交互式對話的方法，系統(tǒng)和裝置的制造方法
一種基于應用圖標的交互方法及裝置的制造方法
烹飪設備以及烹飪設備的交互裝置和方法
聲音傳送裝置相關技術
聲音傳送裝置的制造方法
一種中醫(yī)聲音信息檢測裝置的制造方法
具有基于聲音的信息提醒裝置的手機及手機套的制作方法
一種手機傳聲裝置及帶有該裝置的包具的制作方法
聲音輔助裝置以及操作方法
聲音裝置及其方法
聲音播放裝置的制造方法
具有基于聲音的信息提醒裝置的手機及手機套的制作方法
便于檢修的聲音傳送裝置的制作方法
聲音輸出裝置的制作方法

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

聲音強調裝置及聲音強調方法