两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

便攜式終端裝置的制作方法

文檔序號:2821594閱讀:223來源:國知局
專利名稱:便攜式終端裝置的制作方法
技術領域
本發(fā)明涉及通過聲音合成把基于翻譯部件的翻譯結果或字典檢索結果發(fā)音的便攜式終端裝置。
背景技術
近年,對于移動電話(Cellular Phone等)提供各種服務或功能,例如實施只通過輸入用某語言記述的文章,就自動機械翻譯為其他語言,把翻譯結果作為聲音發(fā)音,使用戶能夠聽到的無線通信網(wǎng)的服務。現(xiàn)在,使用這樣的移動電話,除了作為電話機的通信功能,也實現(xiàn)了通過所述服務等提供的其他語言間的翻譯、口譯功能。
此外,關于所述翻譯服務的專利文獻也存在,在日本專利申請公開編號“特開2002-125050號公報”中,描述了從移動電話經(jīng)由因特網(wǎng),把用戶的輸入聲音向翻譯服務器發(fā)送,把由該翻譯服務器機械翻譯(或自動翻譯)的聲音發(fā)回給移動電話的技術。
可是,在所述服務或專利文獻記載的技術中,為了提供基于聲音的翻譯結果,因利用了公共電話線路,所以移動電話的聲音數(shù)據(jù)(或聲音信號)的收發(fā)必須受到給定線路容量的使用限制。因此,所述以往的技術,還無法說能有效利用近年已寬帶化的、具有高速化和大容量化傾向的通信資源。
此外,在所述以往的技術中,在移動電話中,只能實現(xiàn)作為翻譯結果的文本顯示或作為翻譯結果的聲音輸出,除了這些翻譯信息的提供,并未設計為也同時提供關聯(lián)的圖象或聲音信息,無法說是能對應于伴隨著今后的通信技術發(fā)展的用戶一側的期待和希望。

發(fā)明內容
本發(fā)明是鑒于所述問題而提出的,其目的在于在通過聲音合成輸出翻譯結果或字典檢索結果的便攜式終端裝置中,能減少翻譯和字典檢索結果的信息的收發(fā)所需的容量,并且關于關聯(lián)信息,能以實時,至少使用聲音(進而圖象)對用戶提供。
本發(fā)明的便攜式終端裝置,向把輸入的文本翻譯為其他語言的翻譯部件(例如,外部的翻譯發(fā)送服務器)發(fā)送翻譯對象的文本,使其進行翻譯處理,然后使其發(fā)回包含與翻譯結果有關的文本和表示發(fā)音方法的發(fā)音數(shù)據(jù)的翻譯結果信息,并根據(jù)接收的發(fā)音數(shù)據(jù),用所需的語言和自然的聲調把翻譯結果的文本發(fā)音。這里,作為發(fā)音數(shù)據(jù),使用共振峰參數(shù)。
這樣,能把翻譯結果作為聲音發(fā)音,所以便攜式終端裝置的用戶通過聽覺能容易識別和把握輸入的文本的翻譯結果。此外,從翻譯部件發(fā)回的發(fā)音數(shù)據(jù),指示和決定各音素的合成中使用的共振峰參數(shù)(例如,共振峰頻率、共振峰水平、帶寬等),其數(shù)據(jù)容量比通常的聲音信號小,因此,當在便攜式終端裝置中通過通信網(wǎng)接收發(fā)音數(shù)據(jù)的回信時,用比以往的聲音信號的回信小的傳輸容量就可以了。
此外,當便攜式終端裝置中具有顯示部件(例如液晶顯示器)時,能顯示翻譯結果的文本,因此,用戶能在視覺上識別和把握翻譯結果。
可以在便攜式終端裝置的外部設置所述翻譯部件,通過通信網(wǎng)進行翻譯處理的執(zhí)行指示和翻譯結果的接收等,此外,可以把翻譯部件設置在便攜式終端裝置內部。
此外,本發(fā)明的便攜式終端裝置,輸入給定的聲音數(shù)據(jù)后發(fā)出聲音,對于字典數(shù)據(jù)庫把詞條信息作為檢索關鍵字發(fā)送,檢索它的意思信息,把包含表示該意思信息的發(fā)音方法的聲音數(shù)據(jù)的檢索結果信息發(fā)回,根據(jù)接收的發(fā)音數(shù)據(jù),用聲音讀出檢索結果。這里,使用共振峰參數(shù)構成發(fā)音數(shù)據(jù)。
這樣,能把使用詞條信息作為檢索關鍵字檢索的意思信息作為聲音讀出,能通過聽覺容易地識別和把握該意思信息。此外,從字典數(shù)據(jù)庫發(fā)回的檢索結果信息表示共振峰參數(shù),因此,關于檢索結果的回信,只用小的傳輸容量就可以了。
所述檢索結果信息包含表示所述意思信息的文本、表示與檢索關鍵字的詞條信息關聯(lián)的圖象的圖象數(shù)據(jù)、表示與詞條信息關聯(lián)的聲音的第二發(fā)音數(shù)據(jù)。這時,通過便攜式終端裝置中具備的顯示部件,能顯示文本和圖象。此外,根據(jù)第二發(fā)音數(shù)據(jù),能發(fā)出與詞條信息關聯(lián)的聲音。據(jù)此,便攜式終端裝置的用戶不僅能取得檢索關鍵字的詞條信息的意思,還能取得豐富的關聯(lián)信息。
所述發(fā)音數(shù)據(jù)包含表示翻譯結果或檢索結果的發(fā)音文字列、和規(guī)定把該發(fā)音文字列聲音化時的發(fā)音的抑揚(聲調或重音)的韻律記號。具體而言,由通過通常的文字(當為日語時,平假名和片假名)、數(shù)字、給定記號的組合規(guī)定的所謂的HV-Script記述。


下面簡要說明附圖。
圖1表示本發(fā)明的實施例中的移動電話和通過通信網(wǎng)連接的發(fā)送服務器構成的系統(tǒng)的概略結構。
圖2表示字典數(shù)據(jù)庫中登記的字典內容例。
圖3表示各序列數(shù)據(jù)中的事件數(shù)據(jù)和持續(xù)時間數(shù)據(jù)的關系。
圖4是用于說明SMAF的數(shù)據(jù)存儲和處理構造的圖。
圖5表示對以往的SMAF文件追加HV磁道塊(Track Chunk),用于本發(fā)明實施例的例子。
圖6表示3種聲音再現(xiàn)用格式,(a)表示TSeq型,(b)表示PSeq型,(c)表示FSeq型。
圖7表示聲音再現(xiàn)序列數(shù)據(jù)的數(shù)據(jù)交換格式的一例。
圖8A表示序列數(shù)據(jù)的結構。
圖8B表示持續(xù)時間和控制時間的關系。
圖9是用于說明韻律控制信息的圖。
圖10是表示控制時間和延遲時間的關系的圖。
圖11表示各共振峰波形的水平和中心頻率。
圖12表示FSeq數(shù)據(jù)塊的主體部的數(shù)據(jù)例。
圖13A表示HV-Script的記號的意思。
圖13B表示由HV-Script的記號指示的定調變化。
圖14表示給共振峰付與特征的參數(shù)。
圖15是表示本實施例的移動電話的概略結構的框圖。
圖16表示聲音合成部件的結構。
圖17表示圖16所示的共振峰生成部的結構。
圖18是說明執(zhí)行翻譯處理時的移動電話的動作的程序流程圖。
圖19是說明執(zhí)行翻譯處理時的發(fā)送服務器的動作的程序流程圖。
圖20是說明執(zhí)行字典檢索處理時的移動電話的動作的程序流程圖。
圖21是說明執(zhí)行字典檢索處理時的發(fā)送服務器的動作的程序流程圖。
圖22表示格式類型的一例。
圖23表示語言類型的一例。
圖24表示時基的一例。
圖25表示HV聲音參數(shù)的一例。
圖26表示韻律控制信息的構造的一例。
圖27表示FSeq型的幀數(shù)據(jù)列的一例。
具體實施例方式
下面,參照附圖詳細說明本發(fā)明實施例。
圖1表示由本發(fā)明的實施例的移動電話1、和對該移動電話1通過通信網(wǎng)(包含無線通信網(wǎng)和數(shù)字數(shù)據(jù)網(wǎng))提供翻譯服務和字典檢索信息的發(fā)送服務器2構成的系統(tǒng)的概略結構。
移動電話1具有用所需的語言念出翻譯結果或檢索結果的功能,與給定的內容提供者管理的發(fā)送服務器2通過所述通信網(wǎng)連接。發(fā)送服務器2包含控制該發(fā)送服務器的各部的控制部2a和字典數(shù)據(jù)庫2b。
字典數(shù)據(jù)庫2b存儲由控制部2a執(zhí)行的翻譯處理中使用的翻譯字典和用于檢索單詞的意思的各種字典。在翻譯字典中登記有對于翻譯對象的文章或單詞(文本數(shù)據(jù))的翻譯結果、用基于給定語言的發(fā)音方法(例如讀法)進行聲音合成的發(fā)音數(shù)據(jù)(以下,稱作“第一發(fā)音數(shù)據(jù)”)。此外,在各種字典中,把表示與成為檢索關鍵字的詞條信息對應的意思信息(即檢索對象的詞條的意思)的文本、讀法的發(fā)音數(shù)據(jù)(以下稱作“第二發(fā)音數(shù)據(jù)”)、關聯(lián)的信息(圖象、聲音)關聯(lián)登記。
控制部2a按照來自移動電話1的翻譯要求或檢索要求進行給定的處理,當是翻譯要求時,使用所述翻譯字典執(zhí)行從移動電話1發(fā)送的翻譯對象的文本的翻譯處理,生成包含與翻譯結果相關的文本和與讀法相關的發(fā)音數(shù)據(jù)的翻譯結果信息,發(fā)回給移動電話1。而當是檢索要求時,把該檢索要求中包含的檢索對象的詞條作為檢索關鍵字,使用指定的字典執(zhí)行檢索處理,生成包含表示檢索結果的文本、讀法的發(fā)音數(shù)據(jù)、表示與詞條關聯(lián)的音的發(fā)音數(shù)據(jù)、表示關聯(lián)的圖象的圖像數(shù)據(jù)的檢索結果信息,發(fā)回給移動電話1。
下面,詳細說明字典數(shù)據(jù)庫2b的結構。
字典數(shù)據(jù)庫2b如上所述,存儲有翻譯字典和各種字典。例如,當存儲在字典數(shù)據(jù)庫2b中的翻譯字典具有英日字典的功能時,作為與英文“It’svery fine,isn’t it?”對應的譯文的文本,登記有“とてもいい天気ですね?!?天氣非常好),作為讀法的發(fā)音數(shù)據(jù),登記有“とつ’ても、S54’い/いて$ん_き/です_ね-2*-”這樣的文字和記號的混合數(shù)據(jù)。須指出的是,在翻譯字典中雖然也登記有后面描述的發(fā)音用序列數(shù)據(jù),但是這里省略說明。這樣,與本實施例的聲音(即人的聲音)有關的發(fā)音數(shù)據(jù)中,包含了規(guī)定基于聲音合成的發(fā)音時的聲音的抑揚的韻律記號。
如上所述,后面描述由文本記述的發(fā)音數(shù)據(jù)的記述規(guī)則(在本實施例中,稱作“HV-Script”。此外,在本實施例中,移動電話1把從發(fā)送服務器2接收的基于HV-Script的發(fā)音數(shù)據(jù)變換為各音素的共振峰參數(shù),并且根據(jù)附加的韻律記號,變更改共振峰參數(shù),形成幀數(shù)據(jù)類,使用它執(zhí)行聲音合成。這時,能利用基于音素記述類型的數(shù)據(jù)和基于共振峰幀記述類型的數(shù)據(jù)。
如上所述,在翻譯字典中登記有與短文章或單詞對應的譯文的文本和讀法的發(fā)音數(shù)據(jù)。當翻譯比較長的文章時,進行基于眾所周知的手法的構文分析等,在翻譯字典中包含用于進行翻譯的各種數(shù)據(jù)。此外,在翻譯字典中登記有與構成文章的分段或各單詞對應的發(fā)音數(shù)據(jù),通過構成文章的分段或單詞依次置換為對應的發(fā)音數(shù)據(jù),生成與文章全體對應的發(fā)音數(shù)據(jù)。在字典數(shù)據(jù)庫2b中登記有從使用文章或單詞的條件(與文章開頭、文中、疑問文等種類有關的條件)選出和決定的韻律記號的選出和決定規(guī)則,據(jù)此,能決定、追加所需的韻律記號,或者適當變更該韻律記號。
在所述字典數(shù)據(jù)庫2b中也存儲有各種字典,各字典如圖2所示,集中多個把詞條信息(索引)、與該詞條信息對應的意思信息作為一組的字典項目信息而構成。意思信息由表示詞條信息的意思的數(shù)據(jù)(“數(shù)據(jù)1”)、表示詞條的發(fā)音方法的第一發(fā)音數(shù)據(jù)(“數(shù)據(jù)2”)、表示與詞條關聯(lián)的音的第二發(fā)音數(shù)據(jù)(“數(shù)據(jù)3”)、表示與詞條關聯(lián)的圖象的圖象數(shù)據(jù)(“數(shù)據(jù)4”)構成。
例如,當翻譯字典具有英日字典的功能時,如圖2所示,在索引欄目中登記有作為檢索關鍵字而指定的英語單詞。作為與各詞條的英語單詞對應的數(shù)據(jù)1,登記有表示其意思信息的單詞的翻譯(例如當詞條為“Duck”時,登記有“あひゐ”(鴨子),作為數(shù)據(jù)2,登記翻譯的發(fā)音數(shù)據(jù),作為數(shù)據(jù)3,登記與詞條的英語單詞關聯(lián)的音的發(fā)音數(shù)據(jù)(例如當詞條為“Duck”時,登記與鴨子的鳴叫聲有關的發(fā)音數(shù)據(jù)),作為數(shù)據(jù)4,登記與詞條的英語單詞關聯(lián)的圖象數(shù)據(jù)(當詞條為“Duck”時,例如鴨子的圖象數(shù)據(jù))。
須指出的是,在索引和數(shù)據(jù)1的欄目中登記有文本序列數(shù)據(jù),它由事件數(shù)據(jù)(表示文本文字列、再現(xiàn)位置等)和持續(xù)時間數(shù)據(jù)構成。后面描述它的細節(jié)。
在數(shù)據(jù)2的欄目中,當只登記一個單詞時,只記述基于HV-Script的發(fā)音數(shù)據(jù),而當?shù)怯浺幌盗械亩鄠€單詞時,記述聲音序列數(shù)據(jù)。
聲音序列數(shù)據(jù)由多個聲音數(shù)據(jù)(由HV-Script表現(xiàn)的數(shù)據(jù))和發(fā)音用序列數(shù)據(jù)構成,對各發(fā)音數(shù)據(jù)分配發(fā)音編號。發(fā)音用序列數(shù)據(jù)如圖3所示,由事件數(shù)據(jù)和表示事件間隔的持續(xù)時間數(shù)據(jù)構成。該事件數(shù)據(jù)具有表示指示對應的發(fā)音數(shù)據(jù)的發(fā)音編號的數(shù)據(jù)、表示基于該發(fā)音數(shù)據(jù)的發(fā)音期間的數(shù)據(jù)。通過再現(xiàn)發(fā)音用序列數(shù)據(jù),在根據(jù)持續(xù)時間數(shù)據(jù)的時刻再現(xiàn)與各事件數(shù)據(jù)對應的發(fā)音數(shù)據(jù),所以一系列的多個單詞就被依次發(fā)音。
在數(shù)據(jù)3的欄目中記述有PCM(Pulse-Code Modulation)序列數(shù)據(jù)或FM(Frequency Modulation)序列數(shù)據(jù),PCM序列數(shù)據(jù),由相當于發(fā)音數(shù)據(jù)的波形數(shù)據(jù)和PCM用序列數(shù)據(jù)構成。波形數(shù)據(jù)由波形編號指定。PCM用序列數(shù)據(jù)如圖3所示,由事件數(shù)據(jù)(即表示波形編號、發(fā)音時間)和持續(xù)時間數(shù)據(jù)(表示事件間隔)構成。此外,F(xiàn)M序列數(shù)據(jù)由依據(jù)MIDI(Musical Instrument Digital Interface)規(guī)格的發(fā)音數(shù)據(jù)即音色數(shù)據(jù)、FM用序列數(shù)據(jù)構成。音色數(shù)據(jù)是表示FM合成算法的數(shù)據(jù),由給定的音色編號指定。FM用序列數(shù)據(jù)如圖3所示,由事件數(shù)據(jù)(即表示音色編號、音程(例如定調)、音長等)和持續(xù)時間數(shù)據(jù)(表示事件間隔)構成。
須指出的是,PCM序列數(shù)據(jù)的波形數(shù)據(jù)是錄音采取的聲音數(shù)據(jù),而FM序列數(shù)據(jù)是用于控制FM音源,合成樂音的數(shù)據(jù)。因此,當使用PCM序列數(shù)據(jù)時,樂音和聲音都能再現(xiàn)真正的音,但是數(shù)據(jù)量大,因此,存儲器的使用容量比FM序列數(shù)據(jù)大。而FM序列數(shù)據(jù)適合于真實再現(xiàn)樂器的音,并且有數(shù)據(jù)量小,存儲器的使用容量小的優(yōu)點。
在數(shù)據(jù)4的欄目中記述圖象序列數(shù)據(jù)。該圖象序列數(shù)據(jù)由給定形式(例如JPEG(Joint Photograph Experts Group)規(guī)格)的圖象數(shù)據(jù)和圖象顯示用的序列數(shù)據(jù)構成。圖象數(shù)據(jù)由給定的圖象編號指定。圖象顯示用的序列數(shù)據(jù)如圖3所示,由事件數(shù)據(jù)(即表示圖象編號、顯示時間、顯示形態(tài)等)和持續(xù)時間數(shù)據(jù)(表示事件間隔)構成。
此外,各字典如上所述,由多個字典項目構成,但是除此之外,還可以對各字典項目付與給定的鏈接地址,以便從以各字典為鏈接目標的其他帶鏈接的字典的文章能跳到該字典的給定的字典項目。
此外,當向移動電話1發(fā)回檢索結果信息時,在移動電話1一側再現(xiàn)該檢索結果信息中包含的再現(xiàn)用數(shù)據(jù),所以具有給定的數(shù)據(jù)交換格式。它是由本申請人把已經(jīng)公開的SMAF規(guī)格Ver.3.06,雅馬哈公司“平成14年10月18日檢索”,因特網(wǎng)<URLhttp//smaf.yamaha.co.jp>的格式擴張為能對應聲音(即人的聲音)的發(fā)音。
該SMAF(Synthetic Music Mobile Application Format)是用于在便攜式終端等中表現(xiàn)多媒體內容的數(shù)據(jù)格式規(guī)格。
這里,參照圖4說明SMAF。
在圖4中,符號100表示SMAF文件,稱作塊的數(shù)據(jù)塊成為基本構造。塊由固定長度(8字節(jié))的標題部和任意長度的主體部構成,標題部劃進一步分為4字節(jié)的塊ID和4字節(jié)的塊尺寸。塊ID作為塊的標識符使用,塊尺寸表示主體部的長度。SMAF文件100自身和其中包含的各種數(shù)據(jù)都為塊構造。
如圖4所示,SMAF文件100由記述管理用的信息的內容信息塊(Contents Info Chunk)101、包含對于輸出設備的序列數(shù)據(jù)的一個以上的磁道塊102~108構成。序列數(shù)據(jù)是按照時間定義和表現(xiàn)對于輸出設備的控制內容的數(shù)據(jù)。一個SMAF文件100中包含的全部序列數(shù)據(jù)定義為在時刻0同時開始再現(xiàn),結果,全部的序列數(shù)據(jù)同步再現(xiàn)。
序列數(shù)據(jù)由事件和持續(xù)時間的組合表現(xiàn)。事件是表示對于序列數(shù)據(jù)所對應的輸出設備的控制內容的數(shù)據(jù),持續(xù)時間數(shù)據(jù)是表示事件和事件間的經(jīng)過時間的數(shù)據(jù)。事件的處理時間實際上不是0,但是在SMAF中,視為實質為0,時間流全部由持續(xù)時間表示。通過累計從該序列數(shù)據(jù)的開頭的持續(xù)時間,能唯一決定執(zhí)行某事件的時刻。事件的處理時間不影響下一事件的處理開始時間是原則。因此,解釋為同時執(zhí)行夾著值為0的持續(xù)時間連續(xù)的事件。
在SMAF中,作為輸出設備,定義有用相當于MIDI的控制數(shù)據(jù)進行發(fā)音的FM音源設備、進行PCM數(shù)據(jù)的再現(xiàn)的PCM音源設備、進行文本或圖象的顯示的LCD(Liquid Crystal Display)等。
作為所述磁道塊,與定義的各輸出設備對應,設置有樂譜磁道塊102~105、PCM音頻磁道塊106、圖形磁道塊107、主磁道塊108。這里,除了主磁道塊108,關于樂譜磁道塊102~105、PCM音頻磁道塊106、圖形磁道塊107,分別能記述最多256磁道。
在圖4的例子中,樂譜磁道塊102~105存儲用于在FM音源設備(音源111)中執(zhí)行再現(xiàn)處理的序列數(shù)據(jù),PCM磁道塊106以事件形式存儲用PCM音源設備(PCM解碼器)發(fā)音的ADPCM(Adaptive Differential Pulse-Code Modulation)或MP3(MPEG Audio Layer3)、TwinVQ等波形數(shù)據(jù),圖形磁道塊107存儲背景畫面或中斷靜止畫面等的圖象數(shù)據(jù)、文本數(shù)據(jù)、用于使顯示設備(LDC顯示器113)再它們的序列數(shù)據(jù)。此外,主磁道塊108存儲用于控制SMAM音序器自身的序列數(shù)據(jù)。
SMAM具有所述的格式,包含相當于MIDI的數(shù)據(jù)(樂曲數(shù)據(jù))、PCM音頻數(shù)據(jù)、文本或圖象的顯示用數(shù)據(jù)等各種序列數(shù)據(jù),能同步再現(xiàn)全部序列??墒?,關于表現(xiàn)人的聲音,并未特別定義,所以在本實施例中,把以往的SMAF的功能擴張如下。
即如圖5所示,擴張SMAF文件100,還具有存儲使用給定的音源再現(xiàn)聲音(人的聲音)的聲音再現(xiàn)序列數(shù)據(jù)的HV(Human Voice)磁道塊h4。該聲音再現(xiàn)序列數(shù)據(jù)把指示基于表示共振峰參數(shù)的發(fā)音數(shù)據(jù)的聲音再現(xiàn)的聲音再現(xiàn)事件、指定從執(zhí)行該聲音再現(xiàn)事件的時刻之前的聲音再現(xiàn)事件開始的經(jīng)過時間的持續(xù)時間數(shù)據(jù)作為組,按時間順序配置它們。
根據(jù)所述擴張,與使用以往的SMAF文件100的再現(xiàn)同樣,通過同時開始各序列數(shù)據(jù)的再現(xiàn),能在相同的時間軸上同步再現(xiàn)各數(shù)據(jù)。
須指出的是,作為所述聲音再現(xiàn)事件,可以使用以下的3種再現(xiàn)指示信息中的任意一個。
(1)由表示合成的聲音的讀法的文字列和指定聲音表現(xiàn)(發(fā)音的抑揚)的韻律符號構成的文本記述型的信息。
(2)由表示合成的聲音的音素信息和韻律控制信息構成的音素記述型的信息。
(3)由表示再現(xiàn)的聲音的各幀時間的共振峰參數(shù)構成的共振峰幀記述型的信息。
文本記述型(稱為“TSeq”)是通過文本記述應該發(fā)音的聲音的格式,包含基于各語言的文字代碼的文字列和指示重音等聲音表現(xiàn)的記號(韻律記號)。在移動電話1一側的再現(xiàn)時,如圖6(a)所示,通過中間件處理,(通過第一轉換處理)把該TSeq型的序列數(shù)據(jù)變換為PSeq型,接著,(通過第二轉換處理)把PSeq型變換為FSeq型,輸出到聲音合成設備。
通過參照存儲了依存于語言的信息的文字列(例如日語的平假名和片假名等的文本)和韻律符號、表示與此對應的不依存于語言的發(fā)音的信息(音素)和用于控制韻律的韻律控制信息的第一字典,執(zhí)行從TSeq型變換為PSeq型的第一轉換處理。而通過參照存儲了各音素和與此對應的共振峰參數(shù)(用于生成各共振峰的共振峰頻率、帶寬、水平等參數(shù))的第二字典,執(zhí)行從PSeq型變換為FSeq型的第二轉換處理,根據(jù)韻律控制信息,變更變換結果的共振峰參數(shù)。
音素記述型(PSeq型)通過類似于由SMF(Standard MIDI FILE)定義的MIDI事件的形式記述關于應該發(fā)音的聲音的信息,作為該聲音記述,以不基于語言依存的音素單位為基礎。如圖6(b)所示,在發(fā)送服務器2中,把從字典數(shù)據(jù)庫2b中存儲的字典檢索的TSeq型的發(fā)音數(shù)據(jù)通過第一轉換處理變換為PSeq型。當用移動電話1再現(xiàn)該PSeq型的發(fā)音數(shù)據(jù)時,通過作為中間件處理而執(zhí)行的第二轉換處理把PSeq型變換為FSeq型,輸出到聲音合成設備。
共振峰幀記述型(FSeq型)是把共振峰參數(shù)表現(xiàn)為幀數(shù)據(jù)列的格式。如圖6(c)所示,在發(fā)送服務器2中,執(zhí)行TSeq型→第一轉換處理→PSeq型→第二轉換處理→FSeq型的一系列的變換處理。此外,對于采樣的波形數(shù)據(jù),執(zhí)行與通常的聲音分析處理同樣的處理即第三轉換處理,能生成FSeq型的數(shù)據(jù)。在用移動電話1的再現(xiàn)時,能原封不動把提供的FSeq型的文件輸出到聲音合成設備,再現(xiàn)。
下面,參照圖7,詳細說明HV磁道塊h4的內容。
如圖7所示,在各HV磁道塊h4中記述著分別指定表示該塊中包含的聲音再現(xiàn)序列數(shù)據(jù)是上述上種格式中的哪種類型的格式類型(FormatType)、表示使用的語言種類的語言種類(Language Type)、以及時基(Timebase)的數(shù)據(jù)。
圖22表示格式類型的一例。
圖23表示語言類型的一例。這里,只表示日語(0x00;0x表示16進制)和韓語(0x02),但是關于中文或英語等其他語言,也能同樣定義。
時基決定該磁道塊中包含的序列數(shù)據(jù)塊內的持續(xù)時間和控制時間的基準時間。圖25表示時基的一例,這里,時間值(例如20msec)能適當變更。
下面,詳細說明所述3種格式類型的數(shù)據(jù)。
(a)TSeq型(格式類型0x00)如上所述,該格式類型是使用基于文本的序列表現(xiàn)(TSeqTextSequence)的格式,包含序列數(shù)據(jù)塊h5和n個(n是1以上的整數(shù))TSeq數(shù)據(jù)塊(TSeq#00~TSeq#n)h6、h7、h8(參照圖7)。通過序列數(shù)據(jù)中包含的聲音再現(xiàn)事件(音符基事件(note-on-event)),指示TSeq數(shù)據(jù)塊中包含的數(shù)據(jù)的再現(xiàn)。
(a-1)序列數(shù)據(jù)塊序列數(shù)據(jù)塊h5與SMAF中的序列數(shù)據(jù)塊同樣,包含按時間順序配置持續(xù)時間和事件的組合的序列數(shù)據(jù)。圖8A表示序列數(shù)據(jù)的結構,這里,持續(xù)時間表示事件和事件之間的時間。開始的持續(xù)時間(Durationl)表示從時刻0開始經(jīng)過的時間。圖8B表示事件為音符信息時,持續(xù)時間和音符信息中包含的控制時間的關系,這里,控制時間表示該音符信息的發(fā)音時間。須指出的是,圖8A和圖8B所示的序列數(shù)據(jù)塊的構造在PSeq和FSeq型的序列數(shù)據(jù)塊中也同樣。
作為由該序列數(shù)據(jù)塊支持的事件,存在以下三種事件。須指出的是,以下記述的初始值是沒有事件指定時的缺省值。
(a-1-1)音符信息“0x9n kk gt”這里,“n”表示頻道編號(0x0[固定]),“kk”表示TSeq數(shù)據(jù)編號(0x00~0x7F),“gt”表示控制時間(1~3字節(jié))。
音符信息是解釋由頻道編號n指定的頻道中的由TSeq數(shù)據(jù)編號kk指定的TSeq數(shù)據(jù)塊,開始發(fā)音的信息。須指出的是,關于控制時間gt為“0”的音符信息,不進行發(fā)音。
(a-1-2)音量“0xBn 0x07 vv”這里,“n”表示頻道編號(0x0[固定]),“vv”表示控制值(0x00~0x7F)。須指出的是,頻道音量的初始值為“0x64”。
此外,音量是指定給定頻道的音量的信息。
(a-1-3)假立體聲錄音法(panpot)“0xBn 0x0A vv”這里,“n”表示頻道編號(0x0[固定]),“vv”表示控制值(0x00~0x7F)。須指出的是,假立體聲錄音法的初始值為“0x40(中心)”。
此外,假立體聲錄音法信息是對于具有立體聲的音響系統(tǒng)的利用裝置指定給定頻道的立體聲音場位置的信息。
(a-2)TSeq數(shù)據(jù)塊(TSeq#00~TSeq#n)TSeq數(shù)據(jù)塊(h6、h7、h8)是作為聲音合成用的信息,包含關于語言或文字代碼的信息、發(fā)的音(抑揚等)的設定、(基于聲音合成的)讀信息的說話(chat)用格式,由HV-Script記述。
(b)PSeq型(格式類型0x01)PSeq型是使用基于類似于MIDI事件的形式的音素的序列表現(xiàn)(PSeqPhoneme Sequence)的格式類型。該形式記述音素,所以不依存于語言。此外,音素能通過表示發(fā)音的文字信息表現(xiàn),例如在多個語言間能使用公共的美國信息交換標準碼。
如圖7所是,PSeq型包含設置數(shù)據(jù)塊h9、字典數(shù)據(jù)塊h10、序列數(shù)據(jù)塊h11,指示由序列數(shù)據(jù)塊中的聲音再現(xiàn)事件(音符信息)指定的頻道的音素和韻律控制信息的再現(xiàn)。
(b-1)設置數(shù)據(jù)塊(Setup Data Chunk)(選項)它是存儲音源部分的音色數(shù)據(jù)的塊,存儲獨占信息的并列。在本實施例中,作為獨占信息,存儲有HV音色參數(shù)登記信息。
HV音色參數(shù)登記信息例如為“0xF0 Size 0x43 0x79 0x07 0x7F 0x01PCdata…0xF7”的格式,這里,“PC”表示程序編號(0x02~0x0F),“data”表示HV聲音參數(shù)。在該信息中,登記相應的程序編號“PC”的HV音色參數(shù)。
圖25表示HV音色參數(shù)的一例。
如圖25所示,在HV音色參數(shù)中包含有定調移動量、對于第一~第二(n是2以上的整數(shù))的共振峰的共振峰頻率移動量、共振峰水平移動量、操作者波形選擇信息。在利用裝置即移動電話1中,存儲著記述各音素和與它對應的共振峰參數(shù)(即共振峰頻率、帶寬、水平等)的預置字典(所述的“第二字典”),HV音色參數(shù)規(guī)定對于存儲存儲在該預置字典中的參數(shù)的移動量。據(jù)此,關于全部音素進行同樣移動,因此,能改變合成的聲音的質量。
須指出的是,通過該HV音色參數(shù),能登記與0x02~0x0F對應的數(shù)(即程序編號的數(shù)值)的音色。
(b-2)字典數(shù)據(jù)塊(Dictionary Data Chunk)在該塊中存儲與語言種類對應的字典數(shù)據(jù),例如包含與所述預置字典比較的差分數(shù)據(jù)或預置字典中未定義的音素數(shù)據(jù)等的字典數(shù)據(jù)。據(jù)此,能合成音色不同的具有個性的聲音。
(b-3)序列數(shù)據(jù)塊(Sequence Data Chunk)與所述序列數(shù)據(jù)塊同樣,包含按時間順序配置持續(xù)時間和事件的組合的序列數(shù)據(jù)。
下面,列舉由該PSeq型的序列數(shù)據(jù)塊h11支持的事件(或信息)。在讀入一側,忽視這些信息意外。此外,以下記載的所需設定值是沒有事件指定時的缺省值。
(b-3-1)音符信息“0x9n Nt Vel Gatetime Size data…”這里,“n”表示頻道編號(0x0[固定]),“Nt”音符編號(絕對值音符的指定0x00~0x7F、相對值音符的指定、0x80~0xFF),“Vel”表示速度(0x00~0x7F),“Gatetime”表示控制時間長度(可變),“Size”表示數(shù)據(jù)部的尺寸(可變長度)。
通過該音符信息,開始指定頻道的聲音的發(fā)音。
須指出的是,音符編號的MSB(Most Significant Bit)是把解釋切換為“絕對值”和“相對值”的標志。通過該MSB以外的7位,表示音符編號。須指出的是,聲音的發(fā)音只是非立體聲的,所以在控制時間重疊時,作為后到的優(yōu)先,進行發(fā)音處理。
此外,數(shù)據(jù)部包含音素和與它對應的韻律控制信息(定調傾向、音量),成為圖26所示的數(shù)據(jù)構造。
如圖26所示,數(shù)據(jù)部由音素的數(shù)(#1)例如用美國信息交換標準碼記述的各音素(音素1~音素n)(#2~#4)、韻律控制信息構成。在韻律控制信息中具有定調傾向、音量。關于定調傾向,把該發(fā)音區(qū)間劃分為由音素定調傾向(#5)規(guī)定的N個區(qū)間,作為指定各區(qū)間中的定調傾向的定調傾向信息,記述音素定調傾向1(#6、#7)~音素定調傾向位置1和音素定調傾向N(#9、#10)。此外,關于音量,把發(fā)音區(qū)間劃分為由音素音量數(shù)(#11)規(guī)定的M個區(qū)間,作為指定各區(qū)間中的音量的音量信息,記述音素音量位置和音素音量的組(即音素音量位置1和音素音量1(#12、#13)~音素音量位置和音素音量M(#15、#16)。
圖9是用于說明韻律控制信息的圖。這里,表示發(fā)音的文字信息為“你好”(“ohayou”)時的例子。(ohayou)的發(fā)音區(qū)間劃分為129(=N=M)個區(qū)間,用所述的定調傾向信息和音量信息表現(xiàn)各區(qū)間的定調和音量,控制韻律。
圖10表示控制時間長度(Gatetime)和延遲時間(Delay Time(#0))的關系。如圖10所示,能使實際的發(fā)音比由持續(xù)時間規(guī)定的時刻晚延遲時間。須指出的是,在本實施例中,Gatetime=0為禁止。
(b-3-2)程序變化“0xCn pp”這里,“n”表示頻道編號(0x0(固定)),“pp”表示程序編號“0x00~0xFF”。此外,程序編號的初始值設定為0x00。
設定由該程序變化信息指定的頻道的音色。這里,作為頻道編號的設定值,有“0x00”(男性的預置音色)、“0x01”(女性的預置音色)、“0x02”~“0x0F”。
(b-3-3)控制變化本實施例使用以下的控制變化信息。
(b-3-3-1)頻道音量“0xBn 0x07 vv”這里,“n”表示頻道編號(0x0(固定)),“vv”表示控制值(0x00~0x7F)。此外,頻道音量的初始值設定為0x64。
該頻道音量信息指定給定頻道的音量,其目的在于設定頻道間的音量平衡。
(b-3-3-2)假立體聲錄音法(panpot)“0xBn 0x0A vv”這里,“n”表示頻道編號(0x0(固定)),“vv”表示控制值(0x00~0x7F)。假立體聲錄音法的初始值設定為0x40(中心)。
該信息對于具有立體聲的音響系統(tǒng)的利用裝置,指定給定頻道的立體聲音場位置。
(b-3-3-3)聲調“0xBn 0x0B vv”這里,“n”表示頻道編號(0x0(固定)),“vv”表示控制值(0x00~0x7F)。該聲調信息的初始值設定為0x7F(最大值)。
該信息指示在給定頻道中用頻道音量指定的音量變化。它是為了改變樂曲中的音量而使用的。
(b-3-3-4)定調傾向“0xEn ll mm”這里,“n”表示頻道編號(0x0(固定)),“l(fā)l”表示傾向值LSB(0x00~0x7F),“mm”表示傾向值MSB(0x00~0x7F)。定調傾向的初始值為MSB(或高位字節(jié))設定為0x40,LSB(或低位字節(jié))設定為0x00。
該信息使給定頻道的定調上下(即頻率的高低方向)變化。變化幅度(即定調傾向范圍)的初始值為±2半音,所述傾向值的組合為0x00/0x00時,向下的定調傾向變?yōu)樽畲蟆?br> (b-3-3-5)定調傾向靈敏度“0x8n bb”這里,“n”表示頻道編號(0x0(固定)),“bb”表示數(shù)據(jù)值(0x00~0x18)。該定調傾向靈敏度的初始值設定為0x02。
該信息進行給定頻道的定調傾向的靈敏度的設定,其單位為伴音。例如,當bb=01時,變?yōu)椤?半音(變化范圍合計2半音)。
這樣,PSeq型的格式類型把用表示發(fā)音的文字信息表現(xiàn)的音素單位作為基準,用類似與MIDI事件的形式記述聲音信息,該數(shù)據(jù)尺寸比TSeq型大,但是比FSeq型小。
據(jù)此,與MIDI規(guī)格同樣,能在時間軸上細致控制定調和音量,此外,用音素基準描述,所以沒有語言依存性,能細致編輯音色(音質)。即在本實施例中,能進行類似于MIDI規(guī)格的聲音控制,所以對于以往的MIDI儀器,具有容易追加安裝的優(yōu)點。
(c)共振峰幀記述(FSeq)型(格式類型0x02)它是把共振峰參數(shù)(即用于生成各共振峰的共振峰頻率、增益等參數(shù))表現(xiàn)為幀數(shù)據(jù)列的格式。即在一定時間(幀)中發(fā)音的聲音的共振峰一定,使用更新與各幀中發(fā)的聲音對應的共振峰參數(shù)(共振峰頻率或增益)的序列表現(xiàn)(FSeqFormant Sequence)。據(jù)此,指示由序列數(shù)據(jù)中包含的音符信息指定的FSeq數(shù)據(jù)塊的數(shù)據(jù)再現(xiàn)。
該格式類型包含序列數(shù)據(jù)塊h12和n個(n為1以上的整數(shù))的FSeq數(shù)據(jù)塊(FSeq#00~FSeq#nh13、h14、h15)。
(c-1)序列數(shù)據(jù)塊FSeq數(shù)據(jù)塊由FSeq幀數(shù)據(jù)列構成。即是把聲音數(shù)據(jù)分割為具有給定時間長度(例如20msec)的各幀,把分析各幀期間內的聲音數(shù)據(jù)而取得的共振峰參數(shù)(共振峰頻率或增益)表現(xiàn)為表示各幀的聲音數(shù)據(jù)的幀數(shù)據(jù)列的格式。
圖27表示FSeq型的幀數(shù)據(jù)列的一例。
在圖27中,#0~#3表示指定聲音合成中使用的多個(在本實施例中n個)共振峰波形的種類(即正弦波、矩形波)的數(shù)據(jù)。#4~#11表示通過共振峰水平(振幅)(#4~#7)和中心頻率(#8~#11)的組合規(guī)定n個共振峰的參數(shù)。即#4和#8表示規(guī)定第一共振峰波形(#0)的參數(shù),#5和#9表示規(guī)定第二共振峰波形(#1)的參數(shù)。以下同樣,#7和#11表示規(guī)定第n共振峰波形(#3)的參數(shù)。此外,#12是表示無聲/有聲的切換的標志。
圖11表示各共振峰波形的水平和中心頻率。在本實施例中,使用第一~第n共振峰的n個共振峰數(shù)據(jù)。關于各鎮(zhèn)的第一~第n共振峰的參數(shù)和關于定調頻率的參數(shù)提供給移動電話1具有的聲音合成設備,如上所述,生成輸出關于各幀的聲音合成輸出。
圖12表示FSeq數(shù)據(jù)塊的主體部的數(shù)據(jù)。在圖27所示的FSeq型的幀數(shù)據(jù)列內,#0~#3是指定各共振峰波形的種類的數(shù)據(jù),因此,沒必要對各幀指定。此外,如圖12所示,關于最初的幀,設定圖27所示的全部數(shù)據(jù),關于后續(xù)的幀,只設定圖27的#4以后的數(shù)據(jù)。通過使FSeq數(shù)據(jù)塊如圖12所示,能減少總數(shù)據(jù)數(shù)。
這樣,F(xiàn)Seq型是把共振峰參數(shù)(共振峰頻率或增益)表現(xiàn)為幀數(shù)據(jù)列的格式,所以通過原封不動把FSeq型的文件輸出到聲音合成設備,能再現(xiàn)聲音。因此,在處理一側,沒必要象TSeq型或PSeq型那樣進行變換處理,CPU(中央處理單元)每隔給定時間進行幀的更新處理。須指出的是,對于已經(jīng)存儲的發(fā)音數(shù)據(jù),通過考慮一定的格式,能變更它的音色(音質)。
把按如上生成的任意類型的文件發(fā)送給移動電話1。據(jù)此,在具有在由序列數(shù)據(jù)中包含的持續(xù)時間規(guī)定的時刻對聲音合成設備供給控制參數(shù)的發(fā)音用音序器、根據(jù)由在發(fā)音用音序器供給的控制數(shù)據(jù)再現(xiàn)輸出聲音的聲音合成設備的利用裝置即移動電話1中,與其它信息(意思信息、關聯(lián)的聲音或圖象等信息)一起,同步再現(xiàn)聲音。
下面,如上所述,使用基于HV-Script的文本記述型的聲音再現(xiàn)序列數(shù)據(jù),說明本實施例。
首先,詳細說明基于HV-Script的發(fā)音數(shù)據(jù)(可是除了發(fā)音用序列數(shù)據(jù))。
例如,基于HV-Script的發(fā)音數(shù)據(jù)的一例“か_3さがほ^し_い’4ね-$2”是在“かさがほしいね-”(需要雨傘)的文章中附加給定的聲調,用于進行聲音合成的基于HV-Script的記述。本例子中記述的記號“’”、“^”、“_”、“$”等是表示對文字(假名)附加的聲調的種類的韻律記號,對于該韻律記號的后續(xù)文字(當在后續(xù)文字后面存在數(shù)值時,接著該數(shù)值的文字),附加給定的重音。
圖13A表示基于HV-Script的各記號(代表例)的意思。
即記號意味著進行聲音合成,使“’”表示在詞頭把定調上揚(參照圖13B的①),記號“^”表示把發(fā)音中的定調上揚(參照圖13C的③),記號“_”表示在詞頭把定調下(降參照圖13B的②),記號“$”表示把把發(fā)音中的定調下降(參照圖13C的④)。
當在記號的后面附加數(shù)值時,數(shù)值指定附加的重音的變化量。例如在“か_3さが”的詞匯中,最初的文字“か”以標準的定調發(fā)音,在接著的“さ”的詞頭把定調下降3的量,在接著的“が”,用該下降的定調發(fā)音。
這樣,在HV-Script中,當對發(fā)音的詞中包含的文字附加重音(聲調)時,成為在文字之前附加韻律記號(表示聲調的變化量的數(shù)值),記述的結構。須指出的是,所述說明只記載了控制定調的記號,但是此外,也能使用控制聲音的強弱、速度、音質的記號。
例如,與所述“It’s very fine,isn’t it?”對應的譯文“とてもいいてんきですね?!?天氣非常好),對應的發(fā)音數(shù)據(jù)“とつ’ても、S54’い/いて$ん_き/です_ね-2*-”中包含的記號“S54”的“S”是使速度變化的控制文字之一,從該控制文字以后進行改變說話速度的工作。接著該控制文字“S”的“54”是表示速度的數(shù)值,初始值為50,所以指示把速度比初始值提高4的量。如果根據(jù)該控制文字S,一旦改變說話速度,則維持相同的速度直到速度變更。
此外,“/”是聲調變化清除記號(即用于使變化的聲調恢復的記號)之一,使由韻律記號改變的定調回0。須指出的是,控制由韻律記號改變的定調或音量,使該定調或音量持續(xù)到“、”或“?!钡缺硎径温鋭澐值挠浱?以下稱作段落劃分記號)產(chǎn)生。此外,“*”是指示在下一文字的后半把定調和音量下降的記號,“-”是指示把之前的音節(jié)延伸發(fā)音的記號。
此外,詞匯“ね-2*-”中的“2”與之前的長音符號“-”有關,指示該長音為2倍。即“ね-2*-”把“ね”的發(fā)音期間延伸為合計3的量,通過“*”,指示最后把定調和音量下降(1的量)。此外,關于記號“’”、“$”,如上所述。
如上所述,表示共振峰參數(shù)的數(shù)據(jù)之一的基于HV-Script的發(fā)音數(shù)據(jù)能以較少的信息量更自然地發(fā)出聲音,所以適合于念出翻譯結果那樣的用途。須指出的是,這里說明的HV-Script適合于日語的聲音合成,關于其他語言的聲音合成,可以利用所述的PSeq型或FSeq型。
下面,詳細說明所述的共振峰和共振峰參數(shù)。
共振峰為圖14所示的形態(tài),由共振峰頻率、共振峰水平、共振峰帶寬等各種參數(shù)(即共振峰參數(shù))決定。因此,人的聲音中包含的共振峰的數(shù)、各共振峰的頻率、振幅、帶寬等是決定聲音的性質的重要要素,根據(jù)發(fā)出聲音的人的性格、體格、年齡等,大大不同。
可是,無論是誰說話,詞匯“あ”就發(fā)“あ”的音,詞匯“い”就發(fā)“い”的音,所以,如果是相同的詞匯,聽起來就相同。即這是因為對于用人的聲音發(fā)音的詞匯的各種類,決定特征的共振峰的組合。如果根據(jù)種類把共振峰分類,則能分類為用于合成有聲音的具有定調信息的有聲共振峰、用于合成無聲音的不具有定調信息的無聲共振峰。
這里,有聲音表示在發(fā)聲時聲帶振動的聲,例如元音和半元音,包含日語的“バ行”、“ガ行”、“マ行”、“ラ行”等中使用的有聲輔音。此外,無聲音表示在發(fā)聲時聲帶不振動的聲,例如包含日語的“ハ行”、“カ行”、“サ行”中使用的輔音。一個音素如圖11所示,由多個共振峰構成。
因此,在移動電話1中預先登記某特定人的聲音的各詞匯的共振峰,根據(jù)文本記述型的基于HV-Script的韻律記號,把對于各共振峰形成所述共振峰參數(shù)(即共振峰頻率、共振峰水平、共振峰帶寬)和共振峰的基本波形進行聲音合成,或者根據(jù)所述音素記述型的韻律控制信息變更,進行聲音合成,能發(fā)出具有各種聲調的聲音。
須指出的是,在所述發(fā)送服務器2中,當由存儲器和CPU(中央處理單元)構成的控制部2a執(zhí)行翻譯處理時,通過把由用于翻譯對象的文本的翻譯和翻譯結果信息的回信的處理步驟構成的程序加載到存儲器中執(zhí)行,實現(xiàn)該功能。此外,當執(zhí)行字典檢索時,通過把由用于以提供的詞條作為檢索關鍵字的相應字典的檢索和檢索結果信息的回信的處理步驟構成的程序加載到存儲器中執(zhí)行,實現(xiàn)該功能。
此外,在發(fā)送服務器2上,作為外圍設備,連接輸入裝置、顯示裝置(都未圖示)。這里,輸入裝置意味著鍵盤、鼠標等輸入設備,顯示裝置意味著CRT(Cathode Ray Tube)或液晶顯示裝置。
此外,字典數(shù)據(jù)庫2b由硬盤、光盤等非易失性的存儲裝置構成,可以在發(fā)送服務器2的內部設置它,或者在能從發(fā)送服務器2訪問的外部或其他服務器內設置。
下面,說明本實施例的移動電話1的結構和動作。
須指出的是,本發(fā)明并不局限于移動電話(Cellar Phone),也能應用于PHS(注冊商標)(Personal Handyphone System)或能進行無線通信的便攜式信息終端(PDAPersonal Digital Assistant)等。
在圖15中,符號11表示CPU(中央處理單元),通過執(zhí)行各種程序,控制移動電話1的各部的動作。
符號12表示通信部,進行用該通信部12中具備的天線12a接收的信號的解調,并且把發(fā)送的信號調制,提供給天線12a。
所述CPU11根據(jù)給定的協(xié)議把由通信部12解調的來自發(fā)送服務器2的信號譯碼,對于基于HV-Script的文本記述型的聲音再現(xiàn)序列數(shù)據(jù),執(zhí)行所述的第一轉換處理和第二轉換處理,生成由共振峰參數(shù)構成的幀數(shù)據(jù)列。此外,通信部12按照接收的文件中的數(shù)據(jù)為顯示用數(shù)據(jù)還是發(fā)音用數(shù)據(jù),把該信號提供給顯示用音序器21a或發(fā)音用音序器16a。
符號13表示聲音處理部。即由通信部12解調的經(jīng)由電話線的聲音信號在聲音處理部13譯碼,據(jù)此,由揚聲器14發(fā)出對應的聲音。而把由麥克風采集的聲音信號數(shù)字化,在聲音處理部13中壓縮編碼。然后,由通信部12調制,從天線12a向移動電話網(wǎng)的基站(未圖示)發(fā)送。聲音處理部13例如通過CELP(Code Excited Linear Predictive Coding)方式或ADPCM(Adaptive Differential Pulse-Code Modulation)方式,高效率把聲音數(shù)據(jù)壓縮編碼/譯碼。
符號16a表示發(fā)音用音序器,接收指示在給定的時刻使音響系統(tǒng)發(fā)出給定的聲音或樂音的發(fā)音控制用序列數(shù)據(jù),據(jù)此,控制帶聲音合成功能的音源16b。
符號16b表示帶聲音合成功能的音源,由未圖示的聲音合成部件和FM音源設備和/或PCM音源設備過程。該帶聲音合成功能的音源16b除了執(zhí)行后面描述的聲音合成處理,還把作為收信音而選擇的樂曲數(shù)據(jù)再現(xiàn),從揚聲器17播出。須指出的是,后面描述該聲音合成部件的結構的細節(jié)。此外,F(xiàn)M音源設備可以是WT(Wave Table)音源、高頻合成音源、矩形波音源,PCM音源可以是MP3解碼器。
符號18表示操作部,它是檢測來自設置在移動電話1的主體(housing)中的包含英文數(shù)字的各種按鈕(未圖示)或其他輸入設備的輸入的輸入部件。
符號19表示RAM(Random-Access Memory),這里,設定有所述CPU11的工作區(qū)、下載的樂曲數(shù)據(jù)或伴奏數(shù)據(jù)(它們在收信音調的再現(xiàn)等中使用)的存儲區(qū)、存儲接收的電子郵件的數(shù)據(jù)的郵件數(shù)據(jù)存儲區(qū)、存儲由發(fā)送服務器2接收的翻譯結果信息或檢索結果信息的區(qū)域。
符號20表示ROM(Read-Only Memory),在這里存儲CPU11執(zhí)行的發(fā)送和接收等控制的各種電話功能程序和輔助樂曲再現(xiàn)處理的程序、控制電子郵件的收發(fā)的郵件收發(fā)功能程序、輔助聲音合成處理的程序,并且存儲所述第一字典、第二字典的內容和樂曲數(shù)據(jù)等各種數(shù)據(jù)。
符號21a表示顯示用音序器,接收指示在給定時刻使顯示部21b顯示給定的圖象或文本的顯示控制用序列數(shù)據(jù),控制顯示部21b。
顯示部21b由液晶顯示器(LCDLiquid Crystal Display)構成,在CPU11和顯示用音序器21a的控制下,進行所需文本或圖象的顯示、與操作部18的操作相應的顯示。
符號22表示在收信時,代替收信音,通過使移動電話1的主體振動,對用戶通知收信的振動器。
須指出的是,所述功能塊通過總線30相互連接,據(jù)此,進行數(shù)據(jù)或命令的收發(fā)。
下面,詳細說明帶聲音合成功能的音源16b中包含的聲音合成部件的結構。
圖16表示聲音合成部件的概略結構。
圖16所示的聲音合成部件具有多個共振峰生成部40a~40m和一個定調生成部50。共振峰生成部40a~40m根據(jù)從發(fā)音用音序器16a輸出的共振峰參數(shù)(用于生成各共振峰的共振峰頻率、共振峰水平等)和定調信息,生成共振峰信號。這些共振峰信號在混合部60中合成,據(jù)此,生成給定的音素。須指出的是,各共振峰生成部40a~40m產(chǎn)生成為用于生成共振峰信號的基礎的基本波形,但是關于該基本波形的發(fā)生,例如能利用眾所周知的FM音源的波形發(fā)生器。此外,定調生成部50具有通過給定的演算生成定調(音程)的功能,只當發(fā)音的音素為有聲音時,對生成的音素附加演算的定調。
下面,參照圖17說明所述共振峰生成部40a~40m的結構。
如圖17所示,各共振峰生成部40a~40m由波形發(fā)生器41、噪聲發(fā)生器42、加法器43、放大器44構成。
波形發(fā)生器41根據(jù)為各音素的共振峰指定的共振峰頻率、共振峰基本波形(正弦波、三角波)和波形的相位,發(fā)聲構成一個音素的一個共振峰。噪聲發(fā)生器42按照波形發(fā)生器41中發(fā)聲的共振峰為有聲音還是無聲音工作,當為無聲音時,產(chǎn)生噪聲,提供給加法公共電極43。
加法器43對于在波形發(fā)生器中生成的共振峰,加上從噪聲發(fā)生器42供給的噪聲。該加法器43的輸出由放大器44方達到給定的共振峰水平,輸出。
各共振峰生成部40a~40m關于構成音素的一個共振峰。須指出的是,關于一個音素,合成形成多個共振峰。因此,為了生成一個音素,生成構成音素的多個共振峰,有必要合成它們。因此,如圖16所示,設置多個共振峰生成部40a~40m。
下面,詳細說明按上述構成的本實施例的移動電話1和翻譯服務器2的動作。須指出的是,這里,關于基于通常的電話功能的發(fā)信和收信時的動作等眾所周知的動作,省略說明。
首先,參照圖18和圖19所示的程序流程圖,說明進行反一時的移動電話1和翻譯服務器2的動作。
移動電話1的用戶輸入想翻譯的文本(例如英文“It’s very fine,isn’tit?”),并且,指定翻譯語言(這里,把英語反譯成日語),發(fā)送包含這些信息的翻譯要求(步驟S101)。
發(fā)送服務器2在接收來自移動電話1的翻譯要求之前,反復執(zhí)行步驟S201的判定步驟,處于待機狀態(tài),但是如果從移動電話1接收到翻譯要求,就使用字典數(shù)據(jù)庫2b的翻譯字典翻譯該翻譯要求中包含的翻譯對象的文本(步驟S202)。
這時,移動電話1在收到翻譯結果數(shù)據(jù)之前,重復執(zhí)行步驟S101的判定步驟,變?yōu)榇龣C狀態(tài)。
發(fā)送服務器2使用字典數(shù)據(jù)庫2b的翻譯字典,把翻譯的文本變換為基于HV-Script的發(fā)音數(shù)據(jù)(步驟S203)。這里,變換為與翻譯后的文書、段落或單詞單位對應基于HV-Script的發(fā)音數(shù)據(jù)。
然后,生成具有包含翻譯結果的文本和發(fā)音數(shù)據(jù)的所述數(shù)據(jù)變換格式的翻譯結果信息,把該翻譯結果信息發(fā)回給移動電話1(步驟S204)。
移動電話1如果從發(fā)送服務器2收到翻譯結果信息,步驟S120的判定結果就變?yōu)椤癥ES”,流程轉移到步驟S103,把接收數(shù)據(jù)存儲到RAM19中。
然后,在移動電話1的用戶進行給定鍵的操作之前,重復步驟S104的判定,變?yōu)榇龣C狀態(tài)。
當移動電話1的用戶操作給定鍵,再現(xiàn)翻譯結果時,步驟S104的判定結果變?yōu)椤癥ES”,流程轉移到步驟S105。
CPU11在步驟S105中,從RAM19讀出從發(fā)送服務器2接收的翻譯結果信息,把翻譯結果信息中包含的文本數(shù)據(jù)內容在顯示部21b顯示,并且在帶聲音合成功能的音源16b把發(fā)音數(shù)據(jù)進行聲音合成。在所述翻譯結果信息的再現(xiàn)結束前(即步驟S106的判定結果變?yōu)椤癥ES”之前),執(zhí)行翻譯結果的文本顯示和基于發(fā)音數(shù)據(jù)的發(fā)音。
這樣,在移動電話1和發(fā)送服務器2之間進行翻譯作業(yè)。
下面,說參照圖20和圖21所示的程序流程圖,說明利用發(fā)送服務器 2的字典檢索功能時的移動電話1和發(fā)送服務器2的動作。
首先,移動電話1的用戶輸入想檢索的文本(例如,英語單詞的“Duck”),指定使用的字典種類(這里,為英日字典),發(fā)送包含這些信息的檢索要求(步驟S111)。
發(fā)送服務器2在收到來自移動電話1的檢索要求之前,重復步驟S211的判定,處于待機狀態(tài),如果從移動電話1收到所述檢索要求,就把該檢索要求中包含的詞條作為檢索關鍵字,使用字典數(shù)據(jù)庫2b的英日字典,關于指定的詞條執(zhí)行檢索(步驟S212)。
這時,移動電話1在收到檢索結果數(shù)據(jù)(即檢索結果信息)之前,重復步驟S112的判定,處于待機狀態(tài)。
發(fā)送服務器2如果檢索處理結束,就把包含表示該檢索結果的意思信息的文本(例如“Duck”的翻譯“あひゐ”)、讀法的發(fā)音數(shù)據(jù)、作為與詞條(“Duck”)關聯(lián)的聲音的鴨子叫聲的聲音數(shù)據(jù)、作為關聯(lián)信息的鴨子的圖象數(shù)據(jù)具有所述數(shù)據(jù)變換格式的檢索結果信息發(fā)送給移動電話1(步驟S213)。
移動電話1如果從發(fā)送服務器2接收到所述檢索結果信息,則步驟S112的判定結果變?yōu)椤癥ES”,流程轉移到步驟S113,把該數(shù)據(jù)存儲到RAM中。
然后,在移動電話1的用戶操作給定鍵之前,重復步驟S114的判定,處于待機狀態(tài)。
如果移動電話1的用戶操作給定鍵,則步驟S114的判定結果變?yōu)椤癥ES”,流程轉移到步驟S115。
CPU11在步驟S115中,從RAM19讀入從發(fā)送服務器2接收的內由用戶指定的信息,執(zhí)行它的再現(xiàn)。把包含在檢索結果信息中,由用戶指定的序列數(shù)據(jù)提供給對應的線使用音序器21a、發(fā)音用音序器16a,適當控制它們,進行所需的顯示、聲音輸出。例如,當移動電話1的用戶使用英日字典檢索英語單詞“Duck”時,如果用戶指定檢索結果的文本顯示,則文本的“あひゐ”(鴨子)在顯示部21b上顯示,此外如果指定發(fā)音,就在帶聲音合成功能的音源16b中執(zhí)行聲音合成,進行發(fā)音。此外,如果用戶指定關聯(lián)的聲音的再現(xiàn),就用帶聲音合成功能的音源16b再現(xiàn)作為關聯(lián)聲音的鴨子叫聲,如果指示關聯(lián)的圖象的再現(xiàn),就在顯示部21b顯示作為關聯(lián)圖象的鴨子圖象。此外,當由移動電話1的用戶指示所述數(shù)據(jù)的同時再現(xiàn)時,通過發(fā)音用音序器和顯示用音序器21a的控制,同步再現(xiàn)各數(shù)據(jù)(即文本、第一和第二發(fā)音數(shù)據(jù)、圖象數(shù)據(jù))。
在指定的檢索結果信息的再現(xiàn)結束之前,重復所述步驟S115和S116的處理。
須指出的是,所述說明中使用的流程和步驟是一個例子,因此,本發(fā)明并不局限于所述處理流。
以上參照

了本發(fā)明的實施例,但是本發(fā)明的具體結構并不局限于本實施例,因此,也包含不脫離本發(fā)明的宗旨的范圍內的結構。例如,在移動電話1中存儲發(fā)送服務器2的字典數(shù)據(jù)庫2b的內容,在移動電話1內設置翻譯功能和字典檢索功能。這時,移動電話1在進行翻譯或字典檢索時,沒必要進行與發(fā)送服務器2的通信。
如上所述,在本發(fā)明中存在各種效果和技術上的特征,下面簡單記述。
(1)在本發(fā)明中,能通過便攜式終端裝置用聲音再現(xiàn)翻譯結果,所以用戶能通過聽覺識別和把握翻譯結果。此外,從翻譯部件(例如,外部的發(fā)送服務器)發(fā)回的發(fā)音數(shù)據(jù)表示共振峰參數(shù),這時,本發(fā)明不以往技術那樣的聲音信號的回信形式,所以在來自外部裝置的發(fā)音數(shù)據(jù)的接收中,不需要大的傳輸容量。
(2)在本發(fā)明中,能在便攜式終端裝置中具備的顯示部件中顯示代表翻譯結果的文本,所以用戶通過視覺也能識別翻譯結果。
(3)在本發(fā)明中,把詞條信息作為檢索關鍵字檢索的意思信息作為聲音發(fā)音,用戶通過聽覺能識別該意思信息。此外,從字典數(shù)據(jù)庫發(fā)回的檢索結果信息表示共振峰參數(shù),當從便攜式終端裝置的外部裝置接收檢索結果信息時,需要的傳輸容量小。
(4)在本發(fā)明中,不僅能看到檢索結果的意思信息,還能看到關聯(lián)的圖象。通過發(fā)音部件,不僅是表示意思信息的文本的聲音,還能發(fā)出與詞條關聯(lián)的聲音,所以用戶不僅能取得檢索關鍵字的詞條的意思,而且能取得關聯(lián)的豐富的信息。
權利要求
1.一種便攜式終端裝置,包括把用給定的語言輸入的文本數(shù)據(jù)通過通信線路向給定的服務器(2)發(fā)送的發(fā)送部件(12);從所述服務器通過通信線路接收包含表示把輸入的文本數(shù)據(jù)翻譯為其他語言的翻譯結果的文字列和用于控制其讀法的抑揚的數(shù)據(jù)的翻譯結果信息的接收部件(12);和根據(jù)所述翻譯結果信息中包含的數(shù)據(jù)具有抑揚地發(fā)出與所述文字列對應的聲音的發(fā)音部件(16a、16b)。
2.根據(jù)權利要求1所述的便攜式終端裝置,其中還具有顯示部件(21a、21b),顯示與所述文字列對應的文本數(shù)據(jù)。
3.根據(jù)權利要求1所述的便攜式終端裝置,其中所述服務器具有把詞條信息和意思信息關聯(lián)的字典數(shù)據(jù)庫,所述文字列是通過檢索與在字典數(shù)據(jù)庫中輸入的文本數(shù)據(jù)對應的所述詞條信息而取得的意思信息。
4.根據(jù)權利要求3所述的便攜式終端裝置,其中還具有顯示部件(21a、21b),顯示表示所述翻譯結果信息中包含的所述意思信息的文本數(shù)據(jù)和與所述詞條信息對應的圖象數(shù)據(jù)。
5.根據(jù)權利要求4所述的便攜式終端裝置,其中所述翻譯結果信息還包含表示與所述詞條信息關聯(lián)的音的數(shù)據(jù)。
6.根據(jù)權利要求1所述的便攜式終端裝置,其中把所述翻譯結果信息中包含的數(shù)據(jù)變換為共振峰參數(shù),因此,所述發(fā)音部件具有根據(jù)該共振峰參數(shù)的抑揚地發(fā)出與所述文字列對應的聲音。
7.一種便攜式終端裝置,包括把用給定語言輸入的文本數(shù)據(jù)翻譯為其他語言,生成包含表示翻譯結果的文字列和用于控制其讀法的抑揚的數(shù)據(jù)的翻譯結果信息的翻譯部件(11、19、20);和具有根據(jù)所述翻譯結果信息中包含的數(shù)據(jù)的抑揚地發(fā)出與所述文字列對應的聲音的發(fā)音部件(16a、16b)。
8.根據(jù)權利要求7所述的便攜式終端裝置,其中還具有顯示部件(21a、21b),顯示表示所述翻譯結果信息中包含的翻譯結果的文本數(shù)據(jù)。
9.根據(jù)權利要求7所述的便攜式終端裝置,其中還具有把詞條信息和意思信息關聯(lián)的字典數(shù)據(jù)庫,把檢索與在字典數(shù)據(jù)庫中輸入的文本數(shù)據(jù)對應的詞條信息而取得的意思信息作為所述文字列生成。
10.根據(jù)權利要求9所述的便攜式終端裝置,其中還具有所述顯示部件(21a、21b),顯示表示所述翻譯結果信息中包含的所述意思信息的文本數(shù)據(jù)和與所述詞條信息對應的圖象數(shù)據(jù)。
11.根據(jù)權利要求10所述的便攜式終端裝置,其中所述翻譯結果信息包含表示與所述詞條信息關聯(lián)的音的發(fā)音數(shù)據(jù)。
12.根據(jù)權利要求7所述的便攜式終端裝置,其中把所述翻譯結果信息中包含的數(shù)據(jù)變換為共振峰數(shù)據(jù),因此,所述發(fā)音部件具有根據(jù)該共振峰參數(shù)的抑揚地發(fā)出與所述文字列對應的聲音。
13.根據(jù)權利要求1或7所述的便攜式終端裝置,其中所述發(fā)音部件具有多個共振峰生成部(40),合成由各共振峰生成部生成的特定共振峰頻率的波形。
14.一種便攜式終端裝置中的翻譯方法,其中通過便攜式終端裝置,把用給定的語言輸入的文本數(shù)據(jù)通過通信線路向給定的服務器(2)發(fā)送;從所述服務器通過通信線路接收包含表示把輸入的文本數(shù)據(jù)翻譯為其他語言的翻譯結果的文字列和用于控制其讀法的抑揚的數(shù)據(jù)的翻譯結果信息;根據(jù)所述翻譯結果信息中包含的數(shù)據(jù)具有抑揚地發(fā)出與所述文字列對應的聲音。
15.一種便攜式終端裝置中的翻譯方法,其中把用給定語言輸入的文本數(shù)據(jù)翻譯為其他語言,生成包含表示翻譯結果的文字列和用于控制其讀法的抑揚的數(shù)據(jù)的翻譯結果信息;具有根據(jù)所述翻譯結果信息中包含的數(shù)據(jù)的抑揚地發(fā)出與所述文字列對應的聲音。
16.一種應用于存儲程序的便攜式終端裝置的存儲媒體,存儲由便攜式終端裝置中具備的處理裝置執(zhí)行的程序,該程序通過便攜式終端裝置,把用給定的語言輸入的文本數(shù)據(jù)通過通信線路向給定的服務器(2)發(fā)送;從所述服務器通過通信線路接收包含表示把輸入的文本數(shù)據(jù)翻譯為其他語言的翻譯結果的文字列和用于控制其讀法的抑揚的數(shù)據(jù)的翻譯結果信息;根據(jù)所述翻譯結果信息中包含的數(shù)據(jù)具有抑揚地發(fā)出與所述文字列對應的聲音。
17.一種應用于存儲程序的便攜式終端裝置的存儲媒體,存儲由便攜式終端裝置中具備的處理裝置執(zhí)行的程序,該程序把用給定語言輸入的文本數(shù)據(jù)翻譯為其他語言,生成包含表示翻譯結果的文字列和用于抑制其讀法的抑揚的數(shù)據(jù)的翻譯結果信息;具有根據(jù)所述翻譯結果信息中包含的數(shù)據(jù)的抑揚地發(fā)出與所述文字列對應的聲音。
全文摘要
一種便攜式終端裝置,對于把以給定語言輸入的文本翻譯為其他語言的翻譯部件(發(fā)送服務器),發(fā)送該文本,使其進行翻譯處理,把包含翻譯結果的文本和表示發(fā)音方法的發(fā)音數(shù)據(jù)的翻譯結果信息發(fā)回,根據(jù)該發(fā)音數(shù)據(jù)把翻譯結果的文本發(fā)音,使用共振峰參數(shù)作為所述發(fā)音數(shù)據(jù),進行聲音合成。據(jù)此,通過比較少的通信容量,翻譯結果信息的通信成為可能,此外,在便攜式終端裝置一側也能接收聲音和圖象。
文檔編號G10L19/00GK1534955SQ20041003178
公開日2004年10月6日 申請日期2004年3月25日 優(yōu)先權日2003年3月27日
發(fā)明者川合雅彥 申請人:雅馬哈株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
酒泉市| 南汇区| 台南县| 镇远县| 沙田区| 叶城县| 阳曲县| 白朗县| 页游| 卢龙县| 论坛| 盐池县| 新营市| 固安县| 白朗县| 靖边县| 若尔盖县| 宣恩县| 奉新县| 玛纳斯县| 定日县| 阆中市| 曲阜市| 沈阳市| 西华县| 大名县| 闽侯县| 建平县| 桓台县| 边坝县| 松桃| 鲜城| 玉门市| 肥城市| 尼勒克县| 海城市| 凌云县| 安平县| 阿合奇县| 麻栗坡县| 怀柔区|