專利名稱:基于文本-語音轉(zhuǎn)換生成并處理數(shù)字內(nèi)容的方法和系統(tǒng)的制作方法
基于文本-語音轉(zhuǎn)換生成并處理數(shù)字內(nèi)容的方法和系統(tǒng) 相關(guān)申請(qǐng)的交叉引用本發(fā)明要求韓國(guó)專利申請(qǐng)No. 10-2007-0058764 (2007年6月15日提交)在 35 U.S.C. 119和35 U.S.C. 365下的優(yōu)先權(quán),該申請(qǐng)通過引用整體結(jié)合于此。
背景技術(shù):
本公開涉及數(shù)字內(nèi)容的生成和處理。一般而言,連接到因特網(wǎng)的內(nèi)容服務(wù)器向用戶計(jì)算機(jī)提供通過將離線文檔轉(zhuǎn) 換成web文檔而構(gòu)成數(shù)據(jù)庫(kù)的其自身內(nèi)容或者在因特網(wǎng)上搜索并適于用戶請(qǐng)求的 內(nèi)容。用戶在使用能夠再現(xiàn)媒體的任何便攜式終端訪問連接于因特網(wǎng)的內(nèi)容服務(wù)器 之后搜索他/她希望的內(nèi)容、通過該便攜式終端下載搜索到的內(nèi)容并通過該便攜式 終端的輸出單元將所下載的內(nèi)容再現(xiàn)為圖像或聲音。同時(shí),從內(nèi)容服務(wù)器提供的內(nèi) 容可由從服務(wù)頻道廣播等所提供的圖像、聲音、文本、數(shù)據(jù)構(gòu)成。內(nèi)容的使用根據(jù) 內(nèi)容提供者的服務(wù)范圍而受限。如果文本以及與該文本同步的聲音被一起提供作為 由內(nèi)容服務(wù)器提供的內(nèi)容,則便攜式終端的用戶可選擇性地使用文本和聲音數(shù)據(jù)源 中的所需之一。然而,如果由內(nèi)容服務(wù)器提供的特定內(nèi)容僅包括文本相關(guān)數(shù)據(jù),則 用戶只能通過便攜式終端看到文本中的內(nèi)容,而無法按照他/她所希望地立即使用 該文本的音頻輸出。特別地,即使用戶希望在閱讀國(guó)外新聞的同時(shí)聽到相應(yīng)外語的國(guó)外新聞,如果與國(guó)外新聞相關(guān)聯(lián)的內(nèi)容不包括相應(yīng)外語的音頻文件,則用戶無法 立即聽到相應(yīng)外語的國(guó)外新聞。這樣,該內(nèi)容在語言培訓(xùn)或?qū)W習(xí)上的使用受到限制。 將web服務(wù)器上的文本轉(zhuǎn)換成語音的接口技術(shù),即文本-語音(TTS)技術(shù)被 應(yīng)用于個(gè)人計(jì)算機(jī)、便攜式終端或內(nèi)容服務(wù)器,使得其將所選文本轉(zhuǎn)換成語音并輸 出所轉(zhuǎn)換的語音。然而,這種技術(shù)僅用于將所選文本轉(zhuǎn)換成語音,而不能將所選文 本提供為用戶需要的聲音文件。具體而言,如果用戶想要使用與從因特網(wǎng)的web 服務(wù)器提供的所選腳本相對(duì)應(yīng)的聲音文件學(xué)習(xí)外語,則所選腳本較佳地適于帶有與 用戶要求水平或用戶的語言能力水平相對(duì)應(yīng)的合適的語音文件。然而,該請(qǐng)求并至 今未得到滿足。發(fā)明內(nèi)容因此,實(shí)施方式涉及一種用于生成和處理數(shù)字內(nèi)容的方法和系統(tǒng),其中將由 用戶指定的預(yù)定腳本轉(zhuǎn)換成與用戶水平相對(duì)應(yīng)的音頻數(shù)據(jù)文件,并且存儲(chǔ)所轉(zhuǎn)換的 音頻數(shù)據(jù)文件,由此使得用所存儲(chǔ)的音頻數(shù)據(jù)文件進(jìn)行適于用戶水平的語言學(xué)習(xí)成 為可能。根據(jù)各實(shí)施方式, 一種用于生成和處理數(shù)字內(nèi)容的方法和系統(tǒng),其中將由用戶準(zhǔn)備的腳本或者用戶從由連接到因特網(wǎng)的web服務(wù)器提供的web頁面上的腳本 指定的預(yù)定腳本轉(zhuǎn)換成對(duì)應(yīng)于用戶水平的音頻數(shù)據(jù)文件,并且存儲(chǔ)所轉(zhuǎn)換的音頻數(shù) 據(jù)文件,由此使得用所存儲(chǔ)的音頻數(shù)據(jù)文件進(jìn)行適于用戶水平的語言學(xué)習(xí)成為可 能。根據(jù)一實(shí)施方式, 一種用于生成和處理數(shù)字內(nèi)容的系統(tǒng)包括腳本選擇器, 選擇預(yù)定腳本;文件格式確定器,確定用于將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件的格式; 音頻數(shù)據(jù)文件生成器,根據(jù)所確定的音頻數(shù)據(jù)文件的格式生成對(duì)應(yīng)于所選腳本的音 頻數(shù)據(jù)文件。根據(jù)一實(shí)施方式, 一種用于生成數(shù)字內(nèi)容的方法包括以下步驟選擇預(yù)定腳 本;確定用于將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件的格式;以及根據(jù)所確定的音頻數(shù)據(jù) 文件的轉(zhuǎn)換格式將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件。根據(jù)一實(shí)施方式, 一種用于生成和處理數(shù)字內(nèi)容的方法包括以下步驟選擇 預(yù)定腳本;確定用于將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件的格式;根據(jù)所確定的音頻數(shù) 據(jù)文件的轉(zhuǎn)換格式將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件;以及再現(xiàn)所轉(zhuǎn)換的音頻數(shù)據(jù)文 件。根據(jù)一實(shí)施方式, 一種用于處理數(shù)字內(nèi)容的方法,該方法包括以下步驟選 擇預(yù)定腳本;設(shè)置用于將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件的格式;根據(jù)所設(shè)置的轉(zhuǎn)換 格式將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件,并將表達(dá)轉(zhuǎn)換格式的信息與音頻數(shù)據(jù)一起描 述為元數(shù)據(jù);以及連同元數(shù)據(jù)一起提供音頻數(shù)據(jù)文件。通過根據(jù)各實(shí)施方式的用于生成和處理數(shù)字內(nèi)容的方法和系統(tǒng),從由用戶準(zhǔn) 備的腳本生成并存儲(chǔ)對(duì)應(yīng)于由用戶設(shè)置的水平的音頻數(shù)據(jù)文件,使得不僅允許所生 成的音頻數(shù)據(jù)文件在適于用戶水平的語言學(xué)習(xí)中使用而且可被下載到便攜式終端。 因此,用戶可在走動(dòng)期間使用便攜式終端進(jìn)行適合用戶水平的語言學(xué)習(xí)。
附圖被包括以提供對(duì)本發(fā)明的進(jìn)一步理解并且被納入并構(gòu)成本申請(qǐng)的一部 分。這些附圖與描述一起示出本發(fā)明的實(shí)施方式,并且用于解釋本發(fā)明的原理。 圖1是示出根據(jù)一實(shí)施方式用于生成并處理數(shù)字內(nèi)容的系統(tǒng)的視圖;圖2是示出根據(jù)一實(shí)施方式的便攜式終端的配置的視圖;圖3是示出根據(jù)一實(shí)施方式的用于生成和處理數(shù)字內(nèi)容的方法的概念的流程圖;圖4是用于解釋根據(jù)一實(shí)施方式的生成數(shù)字內(nèi)容的方法的視圖; 圖5是用于解釋根據(jù)另一實(shí)施方式的生成數(shù)字內(nèi)容的方法的視圖; 圖6是用于解釋根據(jù)又一實(shí)施方式的生成數(shù)字內(nèi)容的方法的視圖。
具體實(shí)施方式
下文中,將參照附圖詳細(xì)描述實(shí)施方式。用戶從腳本直接生成音頻文件的情 形將作為實(shí)施方式進(jìn)行描述。就用戶直接生成音頻文件(即數(shù)字內(nèi)容)這個(gè)事實(shí)而 言,音頻文件可以被理解為用戶生成內(nèi)容(UGC)。然而,在該實(shí)施方式中所述的 術(shù)語"UGC"僅供以幫助理解本發(fā)明,所以本發(fā)明并不限于該術(shù)語。參照?qǐng)Dl,根據(jù)一實(shí)施方式的生成和操作UGC的系統(tǒng)包括至少一個(gè)便攜式 終端110或用戶個(gè)人計(jì)算機(jī)(PC),選擇用于生成音頻文件的預(yù)定腳本;用戶界面, 通過便攜式終端110或用戶PC 120提供以便確定所選腳本的音頻數(shù)據(jù)文件格式; 以及文本-語音(TTS)弓l擎121或141,被提供給便攜式終端110或用戶PC 120 和UGC服務(wù)器的至少一個(gè),以便根據(jù)所確定的音頻數(shù)據(jù)文件格式生成對(duì)應(yīng)于所選 腳本的音頻數(shù)據(jù)文件。在此,便攜式終端110包括從都是在用戶走動(dòng)時(shí)可用的信息處理設(shè)備的個(gè)人 數(shù)字助理(PDA)、袖珍PC、手持式PC (HPC)、掌上機(jī)(webpad)、膝上型計(jì)算 機(jī)、和電子書終端中選擇的至少一個(gè),并且通常具有再現(xiàn)包括視頻、音頻等的多媒 體的功能。預(yù)定腳本是從由用戶準(zhǔn)備的腳本以及從連接到因特網(wǎng)的至少一個(gè)web 服務(wù)器提供的web頁面上的腳本中選擇的一個(gè)。在web頁面上的腳本的情形中, web頁面的整個(gè)腳本或用戶指定區(qū)域內(nèi)的部分腳本被選擇。用于處理各種輸入指令的各種程序被存儲(chǔ)在或安裝在便攜式終端110或用戶 PC 120上。UGC服務(wù)器140支持由通過因特網(wǎng)130彼此連接的多個(gè)便攜式終端110 或用戶PC 120請(qǐng)求的上傳和下載UGC的功能。與UGC服務(wù)器140連接的數(shù)據(jù)150充當(dāng)數(shù)據(jù)庫(kù)并存儲(chǔ)由UGC服務(wù)器140生成或向UGC服務(wù)器140上傳的內(nèi)容, 并提供對(duì)應(yīng)于多個(gè)便攜式終端110或用戶PC 120的請(qǐng)求的內(nèi)容。同時(shí),多個(gè)web 服務(wù)器160存儲(chǔ)諸如視頻、音頻、文本(腳本)等各種格式的各類內(nèi)容,并且向?qū)?應(yīng)設(shè)備提供與來自通過因特網(wǎng)130訪問的便攜式終端110或用戶PC 120或UGC 服務(wù)器140的請(qǐng)求相對(duì)應(yīng)的內(nèi)容。對(duì)應(yīng)于由用戶選擇的腳本的音頻文件適于由安裝 在用戶PC 120上的TTS引擎121生成或者由安裝在UGC服務(wù)器140上的TTS引 擎141生成。此外,對(duì)應(yīng)于由用戶選擇的腳本的音頻文件可通過UGC服務(wù)器140 基于由安裝在用戶PC 120上的UGC服務(wù)器專有瀏覽器提供的菜單項(xiàng)的輸入來生 成。參照?qǐng)D2,便攜式終端110包括控制器111、用戶輸入單元112、存儲(chǔ)113、收 發(fā)器114、音頻信號(hào)處理器115、音頻輸出單元116、視頻信號(hào)處理器117以及視 頻輸出單元118。用戶輸入單元112包括具有用于選擇和操控對(duì)應(yīng)于用戶期望執(zhí)行 的各種功能的鍵按鈕的多個(gè)按鈕,以及輸出對(duì)應(yīng)于用戶輸入的語音或者預(yù)定聯(lián)系信 號(hào)的預(yù)定指令數(shù)據(jù)的觸摸面板??刂破?11通??刂票銛y式終端的各個(gè)元件,以執(zhí) 行對(duì)應(yīng)于通過用戶輸入單元112輸入的指令的操作。存儲(chǔ)113可包括高速數(shù)據(jù)處理 所需的信息存儲(chǔ)器單元(即存儲(chǔ)器)和存儲(chǔ)高容量信息的硬盤驅(qū)動(dòng)器(HDD),并 且存儲(chǔ)便攜式終端操作所需的操作程序和其它應(yīng)用程序或者用戶所需的數(shù)字內(nèi)容。 收發(fā)器114根據(jù)外部設(shè)備與便攜式終端之間的接口以及通信協(xié)議在便攜式終端的 控制器111的控制下向外部設(shè)備發(fā)送或者從其接收數(shù)據(jù)。音頻信號(hào)處理器115將音 頻數(shù)據(jù)處理成音頻信號(hào)以適于音頻輸出設(shè)備,然后向音頻輸出單元116輸出經(jīng)處理 的音頻信號(hào)。音頻輸出單元116具有揚(yáng)聲器,并輸出與從音頻信號(hào)處理器115輸出 的音頻信號(hào)相對(duì)應(yīng)的語音或聲音。視頻信號(hào)處理器117將諸如視頻圖像信號(hào)、用戶 界面屏幕等的視頻數(shù)據(jù)處理成視頻信號(hào)以適于視頻輸出設(shè)備,并且向視頻輸出單元 118輸出該視頻信號(hào)。視頻輸出單元118包括顯示設(shè)備,并且適于在控制器lll的 控制下在顯示器件上顯示由視頻信號(hào)處理器117處理的視頻信號(hào)以及與便攜式電 子設(shè)備的操作選擇相關(guān)聯(lián)的用戶界面屏幕。圖3是用于說明根據(jù)一實(shí)施方式的生成和操作UGC的方法的概念的流程圖。 由用戶選擇在便攜式終端110的視頻輸出單元118上或者用戶PC 120的顯示單元 的屏幕上顯示的預(yù)定腳本(S310)。預(yù)定腳本包括用戶直接制作的腳本或由服務(wù)預(yù) 定類型的內(nèi)容并通過因特網(wǎng)130連接的web服務(wù)器160提供的web頁面上的腳本。 在web頁面上的腳本中,僅落在整個(gè)web頁面的預(yù)置區(qū)域內(nèi)的部分腳本可通過用戶的鼠標(biāo)操作信號(hào)或觸摸面板操作信號(hào)來選擇。在選擇腳本的步驟S310,當(dāng)要轉(zhuǎn) 換成音頻數(shù)據(jù)文件的預(yù)定腳本被用戶選擇時(shí),對(duì)應(yīng)于所選腳本的待生成音頻數(shù)據(jù)文件的格式被新近設(shè)置,或者先前設(shè)置格式的任一種被選擇(S320)。對(duì)應(yīng)于所選腳本的待生成音頻數(shù)據(jù)文件的格式可被設(shè)置成用戶希望使用由便攜式終端110或用戶PC 120提供的菜單功能的格式,或者通過使用戶能夠?yàn)橛蒛GC服務(wù)器140提 供的音頻數(shù)據(jù)文件選擇預(yù)置轉(zhuǎn)換格式中的任一種或通過使UGC服務(wù)器140能夠使 用對(duì)UGC服務(wù)器140注冊(cè)的用戶信息來選擇適于用戶水平的音頻數(shù)據(jù)文件轉(zhuǎn)換格 式來確定。當(dāng)對(duì)應(yīng)于所選腳本的音頻數(shù)據(jù)文本的格式被確定時(shí),執(zhí)行將所選腳本的字符 (文本)信息轉(zhuǎn)換成音頻信息的TTS功能。由此,對(duì)應(yīng)于所選腳本的音頻數(shù)據(jù)文 件被生成并存儲(chǔ)在存儲(chǔ)設(shè)備中(S330)。將所選腳本轉(zhuǎn)換成音頻信息的TTS功能適 于由用戶PC 120或UGC服務(wù)器140執(zhí)行或者直接由便攜式終端110執(zhí)行。在通 過用戶PC 120基于腳本生成并存儲(chǔ)音頻數(shù)據(jù)文件的情形中,用戶向他/她自己的用 戶PC 120安裝同步程序,并且可將對(duì)應(yīng)的音頻數(shù)據(jù)文件下載到通過通用串行總線 (USB)端口或串行端口連接的便攜式終端110。一方面,在音頻數(shù)據(jù)文件由UGC服務(wù)器140生成并被存儲(chǔ)在連接到該UGC 服務(wù)器140的數(shù)據(jù)庫(kù)150中的情形中,用戶可通過用戶PC 120下載對(duì)應(yīng)的音頻數(shù) 據(jù)文件、使用通用串行總線(USB)端口或串行端口將他/她自己的用戶PC120與 便攜式終端110連接、通過收發(fā)器114下載對(duì)應(yīng)的音頻數(shù)據(jù)文件、以及將所下載的 音頻數(shù)據(jù)文件存儲(chǔ)在存儲(chǔ)113中。另一方面,在音頻數(shù)據(jù)文件由UGC服務(wù)器140 生成并被存儲(chǔ)在連接于該UGC服務(wù)器140的數(shù)據(jù)庫(kù)150中的情形中,便攜式終端 110可通過收發(fā)器114接入無線因特網(wǎng)或?qū)GC服務(wù)器140操作的提供商的通信 網(wǎng)絡(luò)、直接下載對(duì)應(yīng)的音頻數(shù)據(jù)文件、以及將所下載的音頻數(shù)據(jù)文件存儲(chǔ)在存儲(chǔ) 113中。然后,當(dāng)用戶執(zhí)行對(duì)應(yīng)的音頻數(shù)據(jù)文件以便于相關(guān)于對(duì)應(yīng)腳本進(jìn)行語言學(xué)習(xí) 或音頻聽力時(shí),音頻信號(hào)處理器115再現(xiàn)對(duì)應(yīng)的音頻數(shù)據(jù)文件,并且音頻輸出單元 116根據(jù)用戶選擇或者在適于用戶的學(xué)習(xí)水平的狀態(tài)中輸出對(duì)應(yīng)于腳本的音頻信 號(hào)。由此,用戶可在期望狀態(tài)中收聽對(duì)應(yīng)于腳本的語音(S340)。同時(shí),當(dāng)再現(xiàn)音 頻數(shù)據(jù)文件時(shí),對(duì)應(yīng)于音頻數(shù)據(jù)文件的腳本的文本數(shù)據(jù)可被視頻信號(hào)處理器117 根據(jù)通過用戶輸入單元112輸入的用戶指令處理成視頻信號(hào),并且與視頻數(shù)據(jù)文件 的輸出同步地輸出。根據(jù)一實(shí)施方式的生成和操作UGC的方法可取決于設(shè)置對(duì)應(yīng)于由用戶選擇的 腳本而生成的音頻數(shù)據(jù)文件的格式的方法以及基于音頻數(shù)據(jù)文件的生成裝置的位 置而不同地實(shí)現(xiàn)。根據(jù)該實(shí)施方式,對(duì)應(yīng)于所選腳本生成的音頻數(shù)據(jù)文件的格式可適于由用戶通過便攜式終端110或用戶PC 120的用戶界面屏幕進(jìn)行設(shè)置。參照?qǐng)D4,在便攜式終端110或用戶PC 120的屏幕上顯示的預(yù)定腳本由用戶 選擇(S410)。當(dāng)腳本被用戶選擇時(shí),設(shè)置對(duì)應(yīng)于所選腳本生成的音頻數(shù)據(jù)文件的 格式的用戶布置進(jìn)程得到執(zhí)行(S420)。具體而言,在用戶選擇在便攜式終端110 或用戶PC 120的屏幕上顯示的預(yù)定腳本的情形中,便攜式終端110或用戶PC 120 的控制器導(dǎo)致界面屏幕被輸出,使得用戶能夠設(shè)置對(duì)應(yīng)于所選腳本生成的音頻數(shù)據(jù) 文件的格式。例如,當(dāng)預(yù)定腳本被選擇時(shí),控制器使得自動(dòng)顯示諸如片段重復(fù)、速 度調(diào)節(jié)、閱讀后停用之類用于指定對(duì)應(yīng)于所選腳本生成的音頻數(shù)據(jù)文件的格式的子 菜單項(xiàng)成為可能。作為一個(gè)示例,用戶指定被視為較難或特別重要的特定部分或特 定詞或句子的腳本,然后在自動(dòng)顯示的子菜單項(xiàng)中選擇片段重復(fù)。然后,用戶可設(shè) 置待生成音頻數(shù)據(jù)文件的格式,使得所指定部分的音頻輸出被連續(xù)重復(fù)兩次或三 次。作為另一示例,在用于期望調(diào)節(jié)所選腳本的閱讀速度的情形中,用戶指定特 定區(qū)域、或特定詞或句子的腳本,然后在自動(dòng)顯示的子菜單項(xiàng)中選擇速度調(diào)節(jié)。在 本情形中,額外提供各種速度的選擇項(xiàng)以供用戶選擇,或者額外提供速度輸入界面 屏幕,使得用戶能夠輸入所需速度。由此,用戶可直接設(shè)置待生成的語音數(shù)據(jù)文件 的格式使得所選腳本的閱讀速度可按用戶指定輸出。作為又一示例,在用戶期望在 所選的特定部分的音頻輸出之后插入預(yù)定時(shí)間(例如10秒)的不活動(dòng)片段的情形 中,用戶在對(duì)應(yīng)于特定部分的選擇而顯示的子菜單項(xiàng)中選擇在閱讀之后的預(yù)定不活 動(dòng)時(shí)間。由此,待生成音頻數(shù)據(jù)文件的格式反映這一特征,因此在再現(xiàn)對(duì)應(yīng)音頻數(shù) 據(jù)文件的情形中,用戶可設(shè)置待生成音頻數(shù)據(jù)文件的格式使得他/她能夠認(rèn)真考慮 或重復(fù)對(duì)應(yīng)的特定部分的輸出語音。然后,判定設(shè)置待生成音頻數(shù)據(jù)文件的格式的用戶布置進(jìn)程是否完成(S430)。 如果用戶布置進(jìn)程完成,則執(zhí)行TTS功能以使用或以對(duì)所選腳本設(shè)置的音頻數(shù)據(jù) 文件的格式生成音頻數(shù)據(jù)文件,并且將所生成的音頻數(shù)據(jù)文件與對(duì)應(yīng)腳本同步。然 后,將經(jīng)同步的音頻數(shù)據(jù)文件存儲(chǔ)在預(yù)定存儲(chǔ)設(shè)備中(S440)。在通過執(zhí)行TTS功 能生成所選腳本的音頻數(shù)據(jù)文件的情形中,對(duì)應(yīng)腳本信息適于對(duì)應(yīng)于與在所生成音 頻數(shù)據(jù)文件被再現(xiàn)時(shí)的語音輸出相同的格式或序列而一起被存儲(chǔ),或者獨(dú)立的腳信息文件適于被生成和存儲(chǔ)以與音頻數(shù)據(jù)文件同步。換言之,當(dāng)添加片段重復(fù)功能 時(shí),片段的腳本適于重復(fù)生成和存儲(chǔ)使得它也可被重復(fù)和顯示。將所生成的數(shù)據(jù)文 件下載到便攜式終端110,然后存儲(chǔ)在存儲(chǔ)113中。由此,可用適合于用戶的音頻 數(shù)據(jù)文件有效地進(jìn)行語言學(xué)習(xí)。根據(jù)另一實(shí)施方式,對(duì)應(yīng)于所選腳本而生成的音頻數(shù)據(jù)文件可適于由UGC服 務(wù)器生成,并且該待生成音頻數(shù)據(jù)文件可適于被設(shè)置成通過用戶界面屏幕從由 UGC服務(wù)器140提供的格式選擇的一個(gè)。參照?qǐng)D5,在便攜式終端110或用戶PC 120的屏幕上顯示的預(yù)定腳本被用戶 選擇(S510)。用戶通過便攜式終端110或用戶PC120訪問支持UGC的生成和操 作的UGC服務(wù)器140(S520)。當(dāng)用戶通過便攜式終端110或用戶PC 120訪問UGC 服務(wù)器140時(shí),UGC服務(wù)器140判定訪問用戶是否是第一連接者(S530)。作為判 定(S530)的結(jié)果,如果訪問用戶是第一連接者,則首先執(zhí)行注冊(cè)關(guān)于訪問用戶 的用戶認(rèn)證信息的進(jìn)程(S540),然后執(zhí)行認(rèn)證用戶的進(jìn)程(S550)。然而,如果 訪問用戶不是第一連接者,則立即執(zhí)行認(rèn)證該用戶的進(jìn)程(S550)。隨后,UGC服 務(wù)器140判定用戶水平是否被注冊(cè)以便于確定對(duì)應(yīng)于由用戶選擇的腳本而生成的 音頻數(shù)據(jù)文件的格式(S560)。如果用戶水平未被注冊(cè),則提供界面屏幕使得用戶 能夠選擇對(duì)應(yīng)于所選腳本而生成的音頻數(shù)據(jù)文件的格式(S570)。用所提供的界面 屏幕基于輸入信息注冊(cè)用戶水平(S580)。在注冊(cè)用戶水平(S580)的進(jìn)程之后, 或者當(dāng)在步驟S560中注冊(cè)用戶水平時(shí),選擇對(duì)應(yīng)于所注冊(cè)用戶水平生成的音頻數(shù) 據(jù)文件的格式(S590)。待生成的對(duì)應(yīng)于用戶水平的音頻數(shù)據(jù)文件的格式可被設(shè)置成能夠根據(jù)用戶水 平以不同閱讀速度輸出語音的音頻數(shù)據(jù)文件的格式。例如,在按照水平1至水平5 對(duì)用戶水平進(jìn)行分類的情形中,音頻數(shù)據(jù)文件的格式被分配成允許以一閱讀速度輸 出語音,其中在水平3中該速度是標(biāo)準(zhǔn)閱讀速度,在水平1和2中慢于水平3的標(biāo) 準(zhǔn)閱讀速度,而在水平4和5中快于水平3的標(biāo)準(zhǔn)閱讀速度。由此,對(duì)應(yīng)于用戶水 平而生成的音頻數(shù)據(jù)文件的格式可適于被自動(dòng)設(shè)置成具有對(duì)應(yīng)于訪問UGC服務(wù)器 140的用戶的注冊(cè)用戶水平的閱讀速度的音頻數(shù)據(jù)文件的格式。此外,對(duì)應(yīng)于用戶 水平而生成的音頻數(shù)據(jù)文件的格式可適于被設(shè)置成如下生成的音頻數(shù)據(jù)文件的格 式可相對(duì)于所選腳本根據(jù)預(yù)定用戶水平輸出對(duì)應(yīng)于單次閱讀、兩次重復(fù)閱讀、三 次重復(fù)閱讀等的語音。然后,根據(jù)所選語音數(shù)據(jù)文件格式生成對(duì)應(yīng)于由用戶選擇的腳本的語音數(shù)據(jù)文件,并且將所生成的音頻數(shù)據(jù)文件與對(duì)應(yīng)的腳本同步并存儲(chǔ)在數(shù)據(jù)庫(kù)150中(S595)。 一方面,用戶可通過將其下載到便攜式終端110或用戶PC 120來立即使 用存儲(chǔ)在數(shù)據(jù)庫(kù)150中的音頻數(shù)據(jù)文件。另一方面,如果以后有必要,用戶可在任 何時(shí)刻通過認(rèn)證進(jìn)程訪問UGC服務(wù)器140,然后通過將其下載到便攜式終端110 或用戶PC 120來使用所存儲(chǔ)的音頻數(shù)據(jù)文件。根據(jù)再一實(shí)施方式,對(duì)應(yīng)于所選腳本生成的音頻數(shù)據(jù)文件的位置和格式可適 于由用戶通過用戶界面屏幕來選擇,或者由UGC服務(wù)器140自動(dòng)生成和設(shè)定。參照?qǐng)D6,在便攜式終端110或用戶PC 120的屏幕上顯示的預(yù)定腳本可被用 戶選擇(S410)。當(dāng)在屏幕上顯示的預(yù)定腳本被選擇時(shí),判定該用戶是否適于直接 設(shè)置待生成音頻數(shù)據(jù)文件的格式。如果該用戶適于直接設(shè)置待生成音頻數(shù)據(jù)文件的 格式,則執(zhí)行設(shè)置待生成音頻數(shù)據(jù)文件的格式的用戶布置進(jìn)程(S420)。然后,判 定用戶布置進(jìn)程(S420)是否完成(S430)。如果設(shè)置待生成音頻數(shù)據(jù)文件的格式 的用戶布置進(jìn)程完成,則以所設(shè)置的音頻數(shù)據(jù)文件格式生成對(duì)應(yīng)于所選腳本的音頻 數(shù)據(jù)文件。將所生成的音頻數(shù)據(jù)文件與對(duì)應(yīng)腳本同步,然后存儲(chǔ)在預(yù)定存儲(chǔ)裝置中 (S440)。同時(shí),如果用戶不適于直接設(shè)置音頻數(shù)據(jù)文件的格式,則對(duì)應(yīng)于所選腳 本的音頻數(shù)據(jù)文件的格式適于由UGC服務(wù)器140設(shè)置(S500)。之后,所選腳本 的音頻數(shù)據(jù)文件適于由UGC服務(wù)器140生成。然后,將所生成的音頻數(shù)據(jù)文件與 對(duì)應(yīng)腳本同步,然后存儲(chǔ)在所連接的數(shù)據(jù)庫(kù)150中(S440)。 一方面,用戶可通過 將其下載到便攜式終端110和用戶PC 120來立即使用在步驟S440生成并存儲(chǔ)的音 頻數(shù)據(jù)文件。另一方面,如果以后有必要,則用戶可在任何時(shí)刻通過認(rèn)證進(jìn)程訪問 UGC服務(wù)器140,并可通過將其下載到便攜式終端110或用戶PC 120來將所存儲(chǔ) 的音頻數(shù)據(jù)文件用作適合于用戶水平的語言學(xué)習(xí)的數(shù)據(jù)。在本公開中,可將基于TTS生成的音頻數(shù)據(jù)文件分類成若干類型。生成音頻 數(shù)據(jù)文件的方法可包括常規(guī)轉(zhuǎn)換、用戶轉(zhuǎn)換、水平轉(zhuǎn)換、和聽寫轉(zhuǎn)換。從這些轉(zhuǎn)換 模式的選擇可基于用戶界面來預(yù)置,并且TTS引擎可基于設(shè)置結(jié)果將對(duì)應(yīng)腳本生 成為音頻數(shù)據(jù)文件以適于預(yù)置轉(zhuǎn)換。常規(guī)轉(zhuǎn)換是將腳本毫無變化地轉(zhuǎn)換成語音。用 戶轉(zhuǎn)換是通過用戶直接設(shè)置腳本中待轉(zhuǎn)換的片段、速度、間隔等來將腳本轉(zhuǎn)換成語 音。水平轉(zhuǎn)換是按經(jīng)注冊(cè)的用戶水平將腳本轉(zhuǎn)換成語音。聽寫轉(zhuǎn)換是通過例如轉(zhuǎn)換 腳本中的一個(gè)句子、等待預(yù)置時(shí)間然后轉(zhuǎn)換下一個(gè)句子來生成音頻數(shù)據(jù)文件。在預(yù) 置的非活動(dòng)時(shí)間內(nèi)聽寫對(duì)應(yīng)的句子。在本方面,這被表達(dá)為聽寫轉(zhuǎn)換,但是聽寫轉(zhuǎn) 換還可用于重復(fù)轉(zhuǎn)換。換言之,在再現(xiàn)一個(gè)句子的音頻數(shù)據(jù)之后,可通過在給定的不活動(dòng)時(shí)間重復(fù)該句子來進(jìn)行語言學(xué)習(xí)。作為一個(gè)示例,在音頻數(shù)據(jù)文件由用戶轉(zhuǎn)換生成的情形中,腳本還能夠以與用戶所確定的相同的格式生成并顯示。例如,當(dāng)對(duì)腳本或腳本中的部分文本設(shè)置片段重復(fù)時(shí),對(duì)應(yīng)的音頻數(shù)據(jù)文件被重復(fù),同時(shí)該 片段的文本也被重復(fù)并顯示?;赥TS生成的音頻數(shù)據(jù)文件可包括元數(shù)據(jù)。元數(shù)據(jù)可被配置成包含在音頻數(shù)據(jù)文件的報(bào)頭中、包含在音頻數(shù)據(jù)中或者添加到報(bào)頭或音頻數(shù)據(jù)之外。在音頻數(shù) 據(jù)文件中包含元數(shù)據(jù)的方法可以由本領(lǐng)域技術(shù)人員根據(jù)音頻數(shù)據(jù)文件格式、終端或 服務(wù)器的性能、服務(wù)方法、網(wǎng)絡(luò)環(huán)境等適應(yīng)性地自由選擇。元數(shù)據(jù)描述對(duì)應(yīng)的音頻數(shù)據(jù)。在元數(shù)據(jù)中描述的信息是一種與音頻數(shù)據(jù)文件 的轉(zhuǎn)換相關(guān)聯(lián)的信息。作為一個(gè)示例,在元數(shù)據(jù)中描述的信息可以表達(dá)對(duì)應(yīng)的音頻數(shù)據(jù)文件是否是基于TTS轉(zhuǎn)換的音頻數(shù)據(jù)。作為另一示例,在元數(shù)據(jù)中描述的信 息可表達(dá)對(duì)應(yīng)音頻數(shù)據(jù)文件通過何種分類進(jìn)行轉(zhuǎn)換。例如,在元數(shù)據(jù)中描述的信息 可表達(dá)對(duì)應(yīng)的音頻數(shù)據(jù)文件通過常規(guī)轉(zhuǎn)換、用戶轉(zhuǎn)換、水平轉(zhuǎn)換和聽寫轉(zhuǎn)換中的何 種轉(zhuǎn)換而被轉(zhuǎn)換。此外,在元數(shù)據(jù)中描述的信息可表達(dá)對(duì)應(yīng)的音頻數(shù)據(jù)文件是否通 過常規(guī)轉(zhuǎn)換、用戶轉(zhuǎn)換、水平轉(zhuǎn)換和聽寫轉(zhuǎn)換中的至少兩個(gè)的組合而被轉(zhuǎn)換。在元 數(shù)據(jù)中描述的信息可以包括表達(dá)對(duì)應(yīng)的音頻數(shù)據(jù)文件是否是基于TTS轉(zhuǎn)換的音頻 數(shù)據(jù)的信息以及表達(dá)對(duì)應(yīng)的音頻數(shù)據(jù)文件通過何種分類進(jìn)行轉(zhuǎn)換的信息。作為元數(shù)據(jù)的生成和管理的另一實(shí)施方式,通過TTS生成的音頻數(shù)據(jù)文件可 具有作為與音頻數(shù)據(jù)文件分離的數(shù)據(jù)的元數(shù)據(jù)。當(dāng)所生成的音頻數(shù)據(jù)文件具有與音 頻數(shù)據(jù)文件分離的對(duì)應(yīng)音頻數(shù)據(jù)的元數(shù)據(jù)時(shí),可用獨(dú)立數(shù)據(jù)庫(kù)管理該元數(shù)據(jù)。在本 情形中,元數(shù)據(jù)包括表達(dá)音頻數(shù)據(jù)文件是否基于TTS而被轉(zhuǎn)換的信息和/或表達(dá)音 頻數(shù)據(jù)文件是否通過常規(guī)轉(zhuǎn)換、用戶轉(zhuǎn)換、水平轉(zhuǎn)換和聽寫轉(zhuǎn)換中的至少一個(gè)或至 少兩個(gè)的組合而被轉(zhuǎn)換的信息。元數(shù)據(jù)在基于元數(shù)據(jù)根據(jù)每次轉(zhuǎn)換來管理或使用對(duì)應(yīng)音頻數(shù)據(jù)文件時(shí)提供了 優(yōu)點(diǎn)。例如,當(dāng)對(duì)基于TTS生成的音頻數(shù)據(jù)文件進(jìn)行分類時(shí),可基于終端或服務(wù) 器對(duì)元數(shù)據(jù)的分析結(jié)果自動(dòng)判定音頻數(shù)據(jù)文件通過常規(guī)轉(zhuǎn)換、用戶轉(zhuǎn)換、水平轉(zhuǎn)換 和聽寫轉(zhuǎn)換而進(jìn)行轉(zhuǎn)換。基于判定的結(jié)果對(duì)音頻數(shù)據(jù)文件分類,以確保能夠根據(jù)分 類使用音頻數(shù)據(jù)文件的環(huán)境。根據(jù)該實(shí)施方式,音頻學(xué)習(xí)文件根據(jù)用戶的語言能力水平以適當(dāng)格式從預(yù)定 腳本生成,并被再現(xiàn)以允許用戶開始學(xué)習(xí),從而提供適合于用戶水平的有效語言學(xué) 習(xí)效果。此外,對(duì)應(yīng)于該水平的音頻數(shù)據(jù)文件通過UGC服務(wù)器或用戶PC從預(yù)定腳本生成,并被下載到便攜式終端并在其中使用,使得便攜式終端的生成音頻數(shù)據(jù) 文件的裝配得以減小,進(jìn)而尺寸更小、重量更輕且功耗更低的便攜式終端可使用適 合于用戶水平的音頻數(shù)據(jù)文件來學(xué)習(xí)。此外,通常用作專用軟件的字典程序、電子 書程序等可應(yīng)用到便攜式終端,使得特定腳本的集中學(xué)習(xí)成為可能。此外,當(dāng)基于 外語準(zhǔn)備講演時(shí),用戶可基于對(duì)應(yīng)外語制作腳本、生成對(duì)應(yīng)腳本的音頻內(nèi)容、以及 接著對(duì)所生成音頻內(nèi)容的輸出進(jìn)行聽取。由此,用戶很容易準(zhǔn)備基于外語的講演。
權(quán)利要求
1.一種生成數(shù)字內(nèi)容的方法,所述方法包括以下步驟選擇預(yù)定腳本;確定用于將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件的格式;以及根據(jù)所確定的所述音頻數(shù)據(jù)文件的轉(zhuǎn)換格式將所選腳本轉(zhuǎn)換成所述音頻數(shù)據(jù)文件。
2. 如權(quán)利要求l所述的方法,其特征在于,所述預(yù)定腳本包括從由用戶準(zhǔn)備 的腳本和由連接到因特網(wǎng)的至少一個(gè)web服務(wù)器提供的web頁面上的腳本中選擇 的一個(gè)。
3. 如權(quán)利要求l所述的方法,其特征在于,對(duì)應(yīng)于用戶水平設(shè)置所述音頻數(shù) 據(jù)文件的所述轉(zhuǎn)換格式。
4. 如權(quán)利要求3所述的方法,其特征在于,所述用戶水平由用戶設(shè)置或者由 用戶生成內(nèi)容(UGC) web服務(wù)器自動(dòng)設(shè)置。
5. 如權(quán)利要求l所述的方法,其特征在于,將所選腳本轉(zhuǎn)換成所述音頻數(shù)據(jù) 文件的所述步驟由用戶個(gè)人計(jì)算機(jī)(PC)或UGCweb服務(wù)器來執(zhí)行。
6. 如權(quán)利要求l所述的方法,其特征在于,在將所選腳本轉(zhuǎn)換成所述音頻數(shù) 據(jù)文件的所述步驟中,所轉(zhuǎn)換的音頻數(shù)據(jù)文件被存儲(chǔ)在預(yù)定存儲(chǔ)設(shè)備中。
7. 如權(quán)利要求6所述的方法,其特征在于,在將所選腳本轉(zhuǎn)換成所述音頻數(shù) 據(jù)文件的所述步驟中,所述腳本與所轉(zhuǎn)換的音頻數(shù)據(jù)文件同步,并存儲(chǔ)在預(yù)定存儲(chǔ) 區(qū)域中。
8. 如權(quán)利要求l所述的方法,其特征在于,還包括將所轉(zhuǎn)換的音頻數(shù)據(jù)文件 連同與所轉(zhuǎn)換的音頻數(shù)據(jù)文件同步的所述腳本一起發(fā)送到便攜式終端的步驟。
9. 一種用于處理數(shù)字內(nèi)容的方法,所述方法包括以下步驟 選擇預(yù)定腳本;確定用于將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件的格式;根據(jù)所確定的所述音頻數(shù)據(jù)文件的轉(zhuǎn)換格式將所選腳本轉(zhuǎn)換成所述音頻數(shù)據(jù) 文件;以及再現(xiàn)所轉(zhuǎn)換的音頻數(shù)據(jù)文件。
10. 如權(quán)利要求9所述的方法,其特征在于,將所選腳本轉(zhuǎn)換成所述音頻數(shù)據(jù)文件的所述步驟由便攜式終端和用戶個(gè)人計(jì)算機(jī)(PC)中的至少一個(gè)所訪問的用戶生成內(nèi)容(UGC)服務(wù)器來執(zhí)行。
11. 如權(quán)利要求9所述的方法,其特征在于,還包括在將所選腳本轉(zhuǎn)換成所述音頻數(shù)據(jù)文件的所述步驟之后存儲(chǔ)所轉(zhuǎn)換的音頻數(shù)據(jù)文件的步驟。
12. 如權(quán)利要求9所述的方法,其特征在于,所轉(zhuǎn)換的音頻數(shù)據(jù)文件被存儲(chǔ) 在由便攜式終端和用戶個(gè)人計(jì)算機(jī)(PC)中的至少一個(gè)訪問的UGC服務(wù)器管理的 數(shù)據(jù)庫(kù)中。
13. —種用于處理數(shù)字內(nèi)容的系統(tǒng),所述系統(tǒng)包括.-腳本選擇器,選擇預(yù)定腳本;文件格式確定器,確定用于將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件的格式; 音頻數(shù)據(jù)文件生成器,根據(jù)所確定的所述音頻數(shù)據(jù)文件格式生成對(duì)應(yīng)于所選 腳本的所述音頻數(shù)據(jù)文件。
14. 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述音頻數(shù)據(jù)文件生成器包括 被提供給便攜式終端、用戶個(gè)人計(jì)算機(jī)(PC)和用戶生成內(nèi)容(UGC)服務(wù)器中 的至少一個(gè)的文本-語音(TTS)引擎。
15. —種用于處理數(shù)字內(nèi)容的方法,所述方法包括以下步驟 選擇預(yù)定腳本;設(shè)置用于將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件的格式;根據(jù)所設(shè)置的轉(zhuǎn)換格式將所選腳本轉(zhuǎn)換成所述音頻數(shù)據(jù)文件,并將表達(dá)轉(zhuǎn)換 格式的信息連同音頻數(shù)據(jù)一起描述為元數(shù)據(jù);以及 提供連同所述元數(shù)據(jù)一起的音頻數(shù)據(jù)文件。
16. 如權(quán)利要求15所述的方法,其特征在于,所述元數(shù)據(jù)包括從表達(dá)所述音 頻數(shù)據(jù)文件是否基于文本-語音(TTS)被轉(zhuǎn)換的信息以及表達(dá)所述轉(zhuǎn)換的分類的 信息中選擇的至少一個(gè)。
17. 如權(quán)利要求16所述的方法,其特征在于,表達(dá)所述轉(zhuǎn)換的分類的所述信 息包括相對(duì)于與所述對(duì)應(yīng)音頻數(shù)據(jù)文件相對(duì)應(yīng)的所述腳本從關(guān)于常規(guī)轉(zhuǎn)換的信息、 關(guān)于用戶轉(zhuǎn)換的信息、關(guān)于水平轉(zhuǎn)換的信息和關(guān)于聽寫轉(zhuǎn)換的信息中選擇的至少一 個(gè)。
18. 如權(quán)利要求15所述的方法,其特征在于,提供連同所述元數(shù)據(jù)一起的所 述音頻數(shù)據(jù)文件的所述步驟通過所述對(duì)應(yīng)音頻數(shù)據(jù)文件的存儲(chǔ)、發(fā)送和再現(xiàn)中的至 少一個(gè)來執(zhí)行。
全文摘要
提供一種用文本-語音(TTS)轉(zhuǎn)換生成數(shù)字內(nèi)容的方法和系統(tǒng)。用便攜式終端或用戶個(gè)人計(jì)算機(jī)(PC)選擇預(yù)定腳本。確定用于將所選腳本轉(zhuǎn)換成音頻數(shù)據(jù)文件的格式。使用向用戶PC和web服務(wù)器中至少一個(gè)提供的TTS引擎,根據(jù)所確定的音頻數(shù)據(jù)文件的轉(zhuǎn)換格式將所選腳本生成為音頻數(shù)據(jù)文件。
文檔編號(hào)G10L13/04GK101325502SQ20081008173
公開日2008年12月17日 申請(qǐng)日期2008年3月5日 優(yōu)先權(quán)日2007年6月15日
發(fā)明者李東勛, 金姾希 申請(qǐng)人:Lg電子株式會(huì)社