两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

字轉(zhuǎn)音的使用者界面系統(tǒng)及修改方法

文檔序號(hào):6558402閱讀:231來(lái)源:國(guó)知局
專利名稱:字轉(zhuǎn)音的使用者界面系統(tǒng)及修改方法
技術(shù)領(lǐng)域
本發(fā)明指一種字轉(zhuǎn)音的使用者界面系統(tǒng)及修改方法,特別是應(yīng)用于語(yǔ)音辨識(shí)技術(shù)的一種字轉(zhuǎn)音的使用者界面系統(tǒng)及修改方法。
背景技術(shù)
在非特定語(yǔ)者(speaker-independent)語(yǔ)音辨識(shí)領(lǐng)域(例如Hmm-based speechrecognition)之中,辨識(shí)詞匯(recognition vocabulary)常常是通過(guò)文字(text)轉(zhuǎn)換成音標(biāo)(phonetic symbol)的形式所構(gòu)成;而且,每個(gè)音標(biāo)都有其相對(duì)應(yīng)的聲學(xué)模型(acoustic model)。對(duì)于每一個(gè)辨識(shí)語(yǔ)(word)來(lái)說(shuō),其組成音標(biāo)的相應(yīng)聲學(xué)模型系串連成一個(gè)辨識(shí)語(yǔ)模塊(word model),然后供辨識(shí)引擎進(jìn)行比對(duì)之用。
但由于一字(word)多音、或是辭典里的發(fā)音不正確、或是新詞(new words)的出現(xiàn),此時(shí)便需要靠發(fā)音規(guī)則來(lái)產(chǎn)生其音標(biāo),但有時(shí)該發(fā)音規(guī)則又不足以囊括或適用于這些新詞時(shí),便常常造成此一字轉(zhuǎn)音(text-to-phone)的過(guò)程中極易出現(xiàn)誤差。舉例來(lái)說(shuō),中文詞的”單身”其正確發(fā)音應(yīng)為<d a n sh ax n>,但有可能被誤轉(zhuǎn)為<sha n sh ax n>;另外,英文字“record”作為名詞時(shí)發(fā)音為<’r eh k r d>,作為動(dòng)詞時(shí)發(fā)音則變?yōu)?amp;lt;r ih‘k or d>,這種情形下便有可能選錯(cuò);再者,專有名詞(商標(biāo))“BenQ”在辭典里面雖然找不到,但根據(jù)發(fā)音規(guī)則它應(yīng)該念成<b eh n k>,可是大家卻都將該詞讀成<b eh n k y uw>,諸如此類(lèi)的錯(cuò)誤林林總總而不勝枚舉。
由于這種錯(cuò)誤會(huì)增加語(yǔ)音辨識(shí)上的錯(cuò)誤率,因此現(xiàn)行非特定語(yǔ)者的語(yǔ)音辨識(shí)系統(tǒng)對(duì)于字轉(zhuǎn)音錯(cuò)誤的處理上,光靠有限的發(fā)音辭典和發(fā)音規(guī)則是很難滿足人類(lèi)生活中所不斷出產(chǎn)的變化萬(wàn)千的詞匯。因此,實(shí)際所使用的系統(tǒng)上常常會(huì)提供一個(gè)圖形化使用界面(Graphical User Interface,GUI),讓使用者自行來(lái)修改這些音標(biāo)或詞匯,然而,過(guò)去的GUI設(shè)計(jì)由于是將所有語(yǔ)匯及其標(biāo)音同時(shí)列出,并未再提供任何得以判斷該標(biāo)音的正確性的根據(jù),導(dǎo)致使用者在進(jìn)行修改操作時(shí)必須把所有的語(yǔ)匯一個(gè)一個(gè)地從頭到尾檢查一次,才能驗(yàn)證完它們的發(fā)音;但當(dāng)詞匯量較大(數(shù)百個(gè)以上)時(shí),這種地毯式的搜索就顯得耗時(shí)、不夠人性化以及欠缺實(shí)用性了。

發(fā)明內(nèi)容本發(fā)明的構(gòu)想為提出一種字轉(zhuǎn)音的使用者界面系統(tǒng)及修改方法,提供一離線(off-line)式的修改界面及方法以利后續(xù)語(yǔ)音辨識(shí)的進(jìn)行。
根據(jù)本發(fā)明一第一構(gòu)想,提出一種字轉(zhuǎn)音的使用者界面系統(tǒng)及修改方法,該字轉(zhuǎn)音的使用者界面系統(tǒng)至少包括一語(yǔ)匯欄、一發(fā)音欄、一類(lèi)型欄以及一信心分?jǐn)?shù)欄。該語(yǔ)匯欄系用以呈現(xiàn)以字母構(gòu)成的至少一語(yǔ)匯;該發(fā)音欄系用以呈現(xiàn)對(duì)應(yīng)于每一該語(yǔ)匯的至少一母發(fā)音模塊,每一該母發(fā)音模塊包括多個(gè)發(fā)音音標(biāo);該類(lèi)型欄系用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一來(lái)源;該信心分?jǐn)?shù)欄系用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一信心分?jǐn)?shù)(confidence score),通過(guò)該信心分?jǐn)?shù)提供使用者修改該語(yǔ)匯所對(duì)應(yīng)的該母發(fā)音模塊的依據(jù),以便后續(xù)語(yǔ)音辨識(shí)的進(jìn)行。
根據(jù)本發(fā)明一第二構(gòu)想,提出一種字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法,該字轉(zhuǎn)音的使用者界面系統(tǒng)如上所述,該修改方法包括利用一輸入界面選定該語(yǔ)匯的部份字母;呈現(xiàn)對(duì)應(yīng)于所選定的所述這些字母的至少一子發(fā)音模塊,其中每一該子發(fā)音模塊包括多個(gè)發(fā)音音標(biāo),且每一該子發(fā)音模塊決定部份該母發(fā)音模塊;以及利用該輸入界面于所述這些子發(fā)音模塊的中選定一子發(fā)音模塊,以修改部份該母發(fā)音模塊,以便于其后進(jìn)行語(yǔ)音辨識(shí)時(shí)、提供所述這些語(yǔ)匯一正確的聲學(xué)模型。
根據(jù)本發(fā)明一第三構(gòu)想,提出一種字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法,該字轉(zhuǎn)音的使用者界面系統(tǒng)如上所述,該修改方法包括利用一輸入界面例如鼠標(biāo)選定欲修改的語(yǔ)匯(word),再對(duì)該使用者界面系統(tǒng)輸入一對(duì)應(yīng)于該語(yǔ)匯的語(yǔ)音;然后系統(tǒng)啟動(dòng)一語(yǔ)音辨識(shí)程序,以尋找對(duì)應(yīng)于該語(yǔ)匯的至少一可能的母發(fā)音模塊,然后呈現(xiàn)所述這些母發(fā)音模塊,使用者便可利用鼠標(biāo)等界面自有限個(gè)該發(fā)音模塊中選取其中的一,便于后續(xù)語(yǔ)音辨識(shí)的進(jìn)行。
較佳者,其中所述這些語(yǔ)匯為系選自中文語(yǔ)匯及英文語(yǔ)匯其中的一。
較佳者,其中該來(lái)源包括一常用詞庫(kù)、一發(fā)音辭典以及一發(fā)音規(guī)則。
較佳者,其中該字轉(zhuǎn)音的使用者界面系統(tǒng)更包括一標(biāo)示欄,用以標(biāo)示并提供是否選用該母發(fā)音模塊。
較佳者,其中每一該信心分?jǐn)?shù)、以及對(duì)應(yīng)于每一該信心分?jǐn)?shù)的該語(yǔ)匯、該母發(fā)音模塊和該來(lái)源皆具有相同的一顯示顏色。
較佳者,其中該字轉(zhuǎn)音的使用者界面系統(tǒng)更包括一顯示顏色設(shè)定界面,用以修改對(duì)應(yīng)于每一該信心分?jǐn)?shù)的該顯示顏色。
較佳者,其中該字轉(zhuǎn)音的使用者界面系統(tǒng)更包括一發(fā)音音標(biāo)選單,用以呈現(xiàn)對(duì)應(yīng)于每一該語(yǔ)匯的部份字母的至少一子發(fā)音模塊,其中每一該子發(fā)音模塊包括多個(gè)發(fā)音音標(biāo),且每一該子發(fā)音模塊決定部份該母發(fā)音模塊。
較佳者,其中該字轉(zhuǎn)音的使用者界面系統(tǒng)系通過(guò)一輸入界面決定及修改對(duì)應(yīng)于所述這些部份字母的該子發(fā)音模塊。
較佳者,其中該輸入界面包括一鍵盤(pán)、一鼠標(biāo)、一觸控板、一觸控筆以及一語(yǔ)音輸入裝置。
本發(fā)明得通過(guò)下列圖式及詳細(xì)說(shuō)明,俾得更深入的了解
圖1為本發(fā)明所提字轉(zhuǎn)音的使用者界面系統(tǒng)一較佳實(shí)施例的界面示意圖;圖2為本發(fā)明所提字轉(zhuǎn)音的使用者界面系統(tǒng)的顯示顏色設(shè)定界面的示意圖;圖3為本發(fā)明所提字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法一較佳實(shí)施例的界面示意圖;以及圖4為本發(fā)明所提字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法一較佳實(shí)施例的流程圖。
具體實(shí)施方式請(qǐng)參閱圖1,其為本發(fā)明所提字轉(zhuǎn)音(text-to-phone)的使用者界面系統(tǒng)一較佳實(shí)施例的界面示意圖,該字轉(zhuǎn)音的使用者界面系統(tǒng)系應(yīng)用于語(yǔ)音辨識(shí),該字轉(zhuǎn)音的使用者界面系統(tǒng)的界面1至少包括一語(yǔ)匯欄10、一發(fā)音欄11、一類(lèi)型欄12以及一信心分?jǐn)?shù)欄13。
在圖1中,該語(yǔ)匯欄10系用以呈現(xiàn)以字母構(gòu)成的至少一語(yǔ)匯,該發(fā)音欄11系用以呈現(xiàn)對(duì)應(yīng)于每一該語(yǔ)匯的至少一母發(fā)音模塊,且每一該母發(fā)音模塊包括多個(gè)發(fā)音音標(biāo),該類(lèi)型欄12系用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一來(lái)源,而該信心分?jǐn)?shù)欄13系用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一信心分?jǐn)?shù)(confidence score),以提供使用者修改該語(yǔ)匯所對(duì)應(yīng)的該母發(fā)音模塊的依據(jù)。
需要特別注意的是,本發(fā)明所述以字母構(gòu)成的所述這些語(yǔ)匯可以是中文語(yǔ)匯、英文語(yǔ)匯或是其他種文字的語(yǔ)匯,只要是可以通過(guò)字母構(gòu)成其讀音的文字,盡皆適用于本發(fā)明的修改方法。然而,為了方便敘述,以下的實(shí)施例系以英文語(yǔ)匯(如”resume”、”benQ”)來(lái)做說(shuō)明,但其并無(wú)法限制本發(fā)明對(duì)于中文語(yǔ)匯(如”好吃”-----<hao chih>)...等其他種文字的適用性。
以圖1中的實(shí)際語(yǔ)匯作為例子來(lái)幫助理解。在圖1中,第八列的語(yǔ)匯”resume”系為以英文字母構(gòu)成的一語(yǔ)匯,其相對(duì)應(yīng)的發(fā)音欄11的內(nèi)具有兩個(gè)母發(fā)音模塊<r iyz uw m>及<r eh z ax m ey>以供選擇,類(lèi)型欄12顯示這兩個(gè)母發(fā)音模塊<r iy z uwm>及<r eh z ax m ey>的來(lái)源皆為辭典,而其所對(duì)應(yīng)的兩個(gè)信心分?jǐn)?shù)欄13中的信心分?jǐn)?shù)60及40分別代表母發(fā)音模塊<r iy z uw m>及<r eh z ax m ey>的常用度。
在圖1中,每個(gè)語(yǔ)匯相應(yīng)的發(fā)音也許是從常用詞庫(kù)中取得、也許從發(fā)音辭典中取得......等等。
本發(fā)明的第一個(gè)技術(shù)特征在于為傳統(tǒng)的字轉(zhuǎn)音的使用者界面系統(tǒng)提供一信心分?jǐn)?shù)欄以減少逐一判定及修改字轉(zhuǎn)音錯(cuò)誤的窘?jīng)r。以語(yǔ)匯‘computer’為例,其發(fā)音可以在發(fā)音詞典里被找到,而且該語(yǔ)匯僅有此一發(fā)音,故信心分?jǐn)?shù)是100分;又例如圖中第十四列的語(yǔ)匯“www”是在我們預(yù)先搜集的常用詞庫(kù)里找到,發(fā)現(xiàn)它有<tr ih pax l d ah b ax l y uw>和<d ah b ax l y uw d ah b ax l y uw d ah b ax l y uw>兩種不同的發(fā)音(母發(fā)音模塊),但是根據(jù)判斷大約60%的人采取前者而發(fā)音的較多,僅40%的人采取后者而發(fā)音,故訂定兩者的信心分?jǐn)?shù)分別為60分及40分。由于字轉(zhuǎn)音的使用者界面系統(tǒng)多了此一功能,便能夠通過(guò)該信心分?jǐn)?shù)提供使用者修改該語(yǔ)匯所對(duì)應(yīng)的該母發(fā)音模塊的依據(jù),更可以大幅減少前面所提傳統(tǒng)的GUI設(shè)計(jì)并未提供判斷的根據(jù)所造成在進(jìn)行修改操作時(shí)需把所有的語(yǔ)匯一個(gè)一個(gè)地從頭到尾檢查一次以驗(yàn)證其發(fā)音的時(shí)間浪費(fèi),再者,亦可以輕松處理當(dāng)詞匯量較大時(shí)的情況。
在圖1的界面1,更可以包括一標(biāo)示欄14,其系用以標(biāo)示通過(guò)該信心分?jǐn)?shù)所決定的該語(yǔ)匯所對(duì)應(yīng)的該母發(fā)音模塊;舉例來(lái)說(shuō),由于母發(fā)音模塊<r iy z uw m>的信心分?jǐn)?shù)60大于母發(fā)音模塊<r eh z ax m ey>的信心分?jǐn)?shù)40,因此勾選母發(fā)音模塊<riy z uw m>所對(duì)應(yīng)的標(biāo)示欄14,代表此時(shí)將語(yǔ)匯”resume”的字轉(zhuǎn)音發(fā)音訂為<r iy zuw m>。
此外,界面1中較大信心分?jǐn)?shù)列與較小信心分?jǐn)?shù)列的先后順序是可以自由調(diào)整的,使用者可以依照使用時(shí)的習(xí)慣將較大信心分?jǐn)?shù)列設(shè)定在較小信心分?jǐn)?shù)列的前或的后,以便于觀察或修改。
值得一提的是,在圖1中,根據(jù)不同的信心分?jǐn)?shù),還可以將每一該信心分?jǐn)?shù)、以及對(duì)應(yīng)于每一該信心分?jǐn)?shù)的該語(yǔ)匯、該母發(fā)音模塊和該來(lái)源設(shè)定成為皆具有相同的一顯示顏色;也就是說(shuō),在圖1中,不同信心分?jǐn)?shù)的列具有不同的顯示顏色,此舉更加使得在進(jìn)行修改操作時(shí)的順利度。以實(shí)際的例子來(lái)看,母發(fā)音模塊<r eh z axm ey>所屬列的所有顯示文字的顏色與母發(fā)音模塊<r iy z uw m>所屬列的所有顯示文字的顏色并不相同,以增添鑒別度。
此外,界面1中的設(shè)定按鈕15關(guān)聯(lián)到顯示顏色設(shè)定界面2,如圖2所示,由圖中可看出,通過(guò)信心分?jǐn)?shù)的適當(dāng)定義可以修改對(duì)應(yīng)于每一該信心分?jǐn)?shù)的該顯示顏色。
本發(fā)明另一附加功能是,整個(gè)界面1亦可以依據(jù)使用者喜好而根據(jù)該語(yǔ)匯欄10、該發(fā)音欄11、該類(lèi)型欄12或是該信心分?jǐn)?shù)欄13來(lái)進(jìn)行排序,使得整個(gè)字轉(zhuǎn)音修改界面更為人性化。
本發(fā)明的第二個(gè)技術(shù)特征在于,提供一種字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法,更特定而言的,系提供可應(yīng)用于前述字轉(zhuǎn)音的使用者界面系統(tǒng)的一種修改界面。請(qǐng)參閱圖3,其為本發(fā)明所提字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法一較佳實(shí)施例的界面示意圖,其系以圖1的單一列為制作根據(jù)。
在圖3的單一列3中,當(dāng)使用如鍵盤(pán)、鼠標(biāo)、觸控板或是觸控筆...等的類(lèi)的輸入界面選定一語(yǔ)匯30的部份英文字母時(shí),即會(huì)隨著此一選定而出現(xiàn)一發(fā)音音標(biāo)選單36,該發(fā)音音標(biāo)選單36包括了對(duì)應(yīng)于該語(yǔ)匯30的該選定的部份英文字母的多個(gè)子發(fā)音模塊36x;其中每一該子發(fā)音模塊皆包括多個(gè)發(fā)音音標(biāo),而每一該子發(fā)音模塊決定部份該母發(fā)音模塊31。接著,通過(guò)所述這些輸入界面選定其中一種子發(fā)音模塊36x,便可以順利地改變?cè)撃赴l(fā)音模塊31,以便于其后進(jìn)行語(yǔ)音辨識(shí)時(shí)、提供所述這些語(yǔ)匯一個(gè)比較正確的聲學(xué)模型(acoustic model)。
以實(shí)際的例子來(lái)看,當(dāng)使用所述這些輸入界面將圖3中的語(yǔ)匯”benQ”中的”ben”部份選定成為反白時(shí),便會(huì)出現(xiàn)與”ben”相對(duì)應(yīng)的多個(gè)子發(fā)音模塊361~364,此時(shí)若再利用所述這些輸入界面選定其中的子發(fā)音模塊363,便可以將圖3中原來(lái)的母發(fā)音模塊<b eh n>改變?yōu)?amp;lt;b ay n>。
本發(fā)明的第三個(gè)技術(shù)特征在于,提供一種字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法,更特定而言之,系提供可應(yīng)用于前述字轉(zhuǎn)音的使用者界面系統(tǒng)的一種修改界面。與前一個(gè)利用輸入界面以手動(dòng)方式進(jìn)行的修改方法不太相同的是,以下所述的另一種修改方法主要系利用語(yǔ)音以自動(dòng)方式進(jìn)行修改。
同樣以前述的語(yǔ)匯”benQ”為例進(jìn)行說(shuō)明。
操作流程如下,首先,先以諸如瀏覽鍵、鼠標(biāo)、觸筆...等使用者界面選擇欲修改的語(yǔ)匯”benQ”,接著使用者便利用語(yǔ)音方式對(duì)著麥克風(fēng)說(shuō)出”benQ”的發(fā)音,此時(shí),系統(tǒng)便會(huì)對(duì)該語(yǔ)音進(jìn)行一額外的語(yǔ)音辨識(shí),由于已經(jīng)選定了欲修改的語(yǔ)匯(此實(shí)施例為”benQ”),因此其可能的發(fā)音就可以被限縮,逐字母來(lái)看(1)”b”的發(fā)音可以是”b”;(2)”e”的發(fā)音可以是”eh”、”ae”、”iy”、”ih”、”ay”或不發(fā)音;(3)”n”的發(fā)音可以是”n”、”ng”;以及(4)”Q”的發(fā)音可以是”k”、”kyuw”。
是故,”benQ”這個(gè)字的發(fā)音便被限縮到下述一較窄的辨識(shí)范圍1.<b eh n k>
2.<b ae n k>
3.<b iy n k>
4.<b ih n k>
5.<b ay n k>
6.<b n k>
7.<b eh ng k>
8.<b ae ng k>
9.<b iy ng k>
10.<b ih ng k>
11.<b ay ng k>
12.<b ng k>
13.<b eh n k y uw>
14.<b ae n k y uw>
15.<b iy n k y uw>
16.<b ih n k y uw>
17.<b ay n k y uw>
18.<b n k y uw>
19.<b eh ng k y uw>
20.<b ae ng k y uw>
21.<b iy ng k y uw>
22.<b ih ng k y uw>
23.<b ay ng k y uw>
24.<b ng k y uw>
系統(tǒng)是從上述24個(gè)母發(fā)音模塊所構(gòu)成的一較窄范圍中選取其中的一作為辨識(shí)出的音標(biāo)結(jié)果,再將其顯示于發(fā)音欄中,接著便將類(lèi)型欄的內(nèi)容更改為”語(yǔ)音校正”即可。
此種利用語(yǔ)音自動(dòng)辨識(shí)方式進(jìn)行修改的技術(shù)特征的優(yōu)點(diǎn)在于,,利用有限數(shù)目的(如本實(shí)施例中的24個(gè))母發(fā)音模塊進(jìn)行一詞匯(lexicon)產(chǎn)生程序所得到的詞匯(lexicon)、或是利用語(yǔ)言模型(language model)的形式,可以限制(constrain)語(yǔ)音辨識(shí)時(shí)所產(chǎn)生辨識(shí)的結(jié)果為僅屬于上列的多種發(fā)音的一,故能得到較正確的發(fā)音;相對(duì)于習(xí)用技術(shù)中毫無(wú)限制的辨識(shí)選所述來(lái)說(shuō),本發(fā)明方法的優(yōu)點(diǎn)為可使得語(yǔ)音辨識(shí)的結(jié)果更為精準(zhǔn),而不會(huì)平白無(wú)故地冒出太離譜的結(jié)果。
此一技術(shù)特征的另一優(yōu)點(diǎn)在于如此便不需要用鍵盤(pán)直接輸入音標(biāo)符號(hào)以進(jìn)行修改,這對(duì)于一般不知如何編輯音標(biāo)的人來(lái)說(shuō)是極為方便的創(chuàng)舉,特別是在小螢?zāi)坏氖殖盅b置上的利用更能顯現(xiàn)其獨(dú)特的處。
圖4為對(duì)應(yīng)圖3的操控的流程圖,由于步驟與前面所述大致相同,惟圖4的多了將所述這些輸入界面于所選定的反白區(qū)停留一段時(shí)間t以起動(dòng)該發(fā)音音標(biāo)選單36的第二步驟(第二欄),但此步驟系屬熟習(xí)本所述技術(shù)者所能輕易完成的,故于此處不再詳加贅述。
最后,若是針對(duì)圖4的字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法進(jìn)行改善,還可以將其中須使用如鍵盤(pán)、鼠標(biāo)、觸控板或是觸控筆...等之類(lèi)輸入界面的輸入方式提升為使用語(yǔ)音輸入判別的方式;以前面所述”benQ”的例子說(shuō)明,使用者界面系統(tǒng)針對(duì)所念出來(lái)的語(yǔ)音”ben”自動(dòng)加以辨識(shí)且根據(jù)辭典或發(fā)音規(guī)則...等選取一種子發(fā)音模塊36x以定義出母發(fā)音模塊31。這種作法相較于圖4的修改方法的進(jìn)步的處在于,更進(jìn)一步地省卻了使用者花時(shí)間選取子發(fā)音模塊36x的時(shí)間,對(duì)于效率的提升有極大助益。
綜上所述,本發(fā)明所提出字轉(zhuǎn)音的使用者界面系統(tǒng),系于讓字轉(zhuǎn)音過(guò)程可能產(chǎn)生的錯(cuò)誤(或信心分?jǐn)?shù))通過(guò)不同的顏色的圖形化使用界面(GUI)呈現(xiàn)出來(lái),使得潛在的錯(cuò)誤能一目了然,并提供以字轉(zhuǎn)音的信心分?jǐn)?shù)(confidence score)為標(biāo)的排序的功能,使信心分?jǐn)?shù)較差的語(yǔ)匯能集中顯示于最前端,讓使用者不必頻頻卷動(dòng)卷軸(Scroll Bar)就能一覽無(wú)遺這些可能需要修改的語(yǔ)匯或音標(biāo),而能夠更為方便地將心力集中在修改這些詞匯或標(biāo)音上,使得后續(xù)進(jìn)行語(yǔ)音辨識(shí)時(shí)能夠獲得更為精準(zhǔn)的辨識(shí)結(jié)果;而本發(fā)明所提出字轉(zhuǎn)音的使用者界面的修改方法,則系允許使用者通過(guò)各種輸入界面呈現(xiàn)有限數(shù)目的可能的發(fā)音模塊供選??;或是語(yǔ)音的方式,以此有限數(shù)目的可能的發(fā)音模塊縮限辨識(shí)詞匯(lexicon)、因而產(chǎn)生較具正確性的語(yǔ)匯發(fā)音,便于后續(xù)語(yǔ)音辨識(shí)的進(jìn)行。是故,本發(fā)明不但可大幅提升了字轉(zhuǎn)音過(guò)程中呈現(xiàn)界面與修改界面的操控速度與使用便利性,實(shí)為一不可多得的發(fā)明創(chuàng)見(jiàn)。
本發(fā)明得由熟悉本技藝的人士任施匠思而為諸般修飾,然皆不脫如附申請(qǐng)專利范圍所欲保護(hù)者。
權(quán)利要求
1.一種字轉(zhuǎn)音(text-to-phone)的使用者界面系統(tǒng),系應(yīng)用于語(yǔ)音辨識(shí),該字轉(zhuǎn)音的使用者界面系統(tǒng)包括一語(yǔ)匯欄,用以呈現(xiàn)以字母構(gòu)成的至少一語(yǔ)匯;一發(fā)音欄,用以呈現(xiàn)對(duì)應(yīng)于每一該語(yǔ)匯的至少一母發(fā)音模塊,每一該母發(fā)音模塊包括多個(gè)發(fā)音音標(biāo);一類(lèi)型欄,用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一來(lái)源;以及一信心分?jǐn)?shù)欄,用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一信心分?jǐn)?shù)(confidence score),通過(guò)該信心分?jǐn)?shù)提供使用者修改該語(yǔ)匯所對(duì)應(yīng)的該母發(fā)音模塊的依據(jù),以便后續(xù)語(yǔ)音辨識(shí)的進(jìn)行。
2.根據(jù)權(quán)利要求1所述的字轉(zhuǎn)音的使用者界面系統(tǒng),其特征在于所述這些語(yǔ)匯為選自中文語(yǔ)匯及英文語(yǔ)匯其中之一;及/或該來(lái)源包括一常用詞庫(kù)、一發(fā)音辭典、語(yǔ)音校正、以及一發(fā)音規(guī)則。
3.根據(jù)權(quán)利要求1所述的字轉(zhuǎn)音的使用者界面系統(tǒng),其特征在于,更包括一標(biāo)示欄,用以標(biāo)示并提供是否選用該母發(fā)音模塊。
4.根據(jù)權(quán)利要求1所述的字轉(zhuǎn)音的使用者界面系統(tǒng),其特征在于每一該信心分?jǐn)?shù)、以及對(duì)應(yīng)于每一該信心分?jǐn)?shù)的該語(yǔ)匯、該母發(fā)音模塊和該來(lái)源皆具有相同的一顯示顏色;及該使用者界面系統(tǒng)更包括一顯示顏色設(shè)定界面,用以修改對(duì)應(yīng)于每一該信心分?jǐn)?shù)的該顯示顏色。
5.根據(jù)權(quán)利要求1所述的字轉(zhuǎn)音的使用者界面系統(tǒng),其特征在于,更包括一發(fā)音音標(biāo)選單,用以呈現(xiàn)對(duì)應(yīng)于每一該語(yǔ)匯的部份字母的至少一子發(fā)音模塊,其中每一該子發(fā)音模塊包括多個(gè)發(fā)音音標(biāo),且每一該子發(fā)音模塊決定部份該母發(fā)音模塊,其中該使用者界面系統(tǒng)通過(guò)一輸入界面決定及修改對(duì)應(yīng)于所述這些部份字母的該子發(fā)音模塊,而該輸入界面包括一鍵盤(pán)、一鼠標(biāo)、一觸控板、一觸控筆以及一語(yǔ)音輸入裝置。
6.一種字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法,該字轉(zhuǎn)音的使用者界面系統(tǒng)至少包括一語(yǔ)匯欄、一發(fā)音欄及一信心分?jǐn)?shù)欄,該語(yǔ)匯欄系用以呈現(xiàn)以字母構(gòu)成的至少一語(yǔ)匯,該發(fā)音欄系用以呈現(xiàn)對(duì)應(yīng)于每一該語(yǔ)匯的至少一母發(fā)音模塊,且每一該母發(fā)音模塊包括多個(gè)發(fā)音音標(biāo),而該信心分?jǐn)?shù)欄系用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一信心分?jǐn)?shù),該修改方法包括步驟如下利用一輸入界面選定該語(yǔ)匯的部份字母;呈現(xiàn)對(duì)應(yīng)于所選定的所述這些字母的至少一子發(fā)音模塊,其中每一該子發(fā)音模塊包括多個(gè)發(fā)音音標(biāo),且每一該子發(fā)音模塊決定部份該母發(fā)音模塊;以及利用該輸入界面于所述這些子發(fā)音模塊的中選定一子發(fā)音模塊,以修改部份該母發(fā)音模塊,以便于其后進(jìn)行語(yǔ)音辨識(shí)時(shí)、提供所述這些語(yǔ)匯一正確的聲學(xué)模型。
7.根據(jù)權(quán)利要求6所述的字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法,其特征在于該字轉(zhuǎn)音的使用者界面系統(tǒng)更包括一類(lèi)型欄,用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一來(lái)源;該字轉(zhuǎn)音的使用者界面系統(tǒng)中每一該信心分?jǐn)?shù)、以及對(duì)應(yīng)于每一該信心分?jǐn)?shù)的該語(yǔ)匯、該母發(fā)音模塊和該來(lái)源皆具有相同的一顯示顏色;及該字轉(zhuǎn)音的使用者界面系統(tǒng)更包括一顯示顏色設(shè)定欄,利用該輸入界面可于該顯示顏色設(shè)定欄內(nèi)修改對(duì)應(yīng)于每一該信心分?jǐn)?shù)的該顯示顏色。
8.根據(jù)權(quán)利要求6所述的字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法,其特征在于,該字轉(zhuǎn)音的使用者界面系統(tǒng)更包括一標(biāo)示欄,利用該輸入界面可于該標(biāo)示欄內(nèi)標(biāo)示并提供是否選用該母發(fā)音模塊。
9.一種字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法,該字轉(zhuǎn)音的使用者界面系統(tǒng)至少包括一語(yǔ)匯欄、一發(fā)音欄及一信心分?jǐn)?shù)欄,該語(yǔ)匯欄系用以呈現(xiàn)以字母構(gòu)成的至少一語(yǔ)匯,該發(fā)音欄系用以呈現(xiàn)對(duì)應(yīng)于每一該語(yǔ)匯的至少一母發(fā)音模塊,且每一該母發(fā)音模塊包括多個(gè)發(fā)音音標(biāo),而該信心分?jǐn)?shù)欄系用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一信心分?jǐn)?shù),該修改方法包括步驟如下利用一輸入界面選定該語(yǔ)匯;對(duì)該使用者界面系統(tǒng)輸入一對(duì)應(yīng)于該語(yǔ)匯的一語(yǔ)音;啟動(dòng)一語(yǔ)音辨識(shí)程序,以上述所選定語(yǔ)匯相應(yīng)的有限個(gè)可能發(fā)音為辨識(shí)詞匯(lexicon)進(jìn)行語(yǔ)音辨認(rèn)以尋找對(duì)應(yīng)于該語(yǔ)匯的至少一母發(fā)音模塊,并呈現(xiàn)所述這些母發(fā)音模塊;以及利用該輸入界面自有限個(gè)該母發(fā)音模塊中選取其中的一,便于后續(xù)語(yǔ)音辨識(shí)的進(jìn)行。
10.根據(jù)權(quán)利要求9所述的字轉(zhuǎn)音的使用者界面系統(tǒng)的修改方法,其特征在于,該辨識(shí)詞匯(lexicon)是通過(guò)選定該語(yǔ)匯所組成的英文字母的可能發(fā)音組合而成;或是通過(guò)選定該語(yǔ)匯所組成的中文字的可能的破音字組合而成。
全文摘要
本發(fā)明系指一種字轉(zhuǎn)音的使用者界面系統(tǒng)及修改方法,該字轉(zhuǎn)音的使用者界面系統(tǒng)至少包括一語(yǔ)匯欄、一發(fā)音欄、一類(lèi)型欄以及一信心分?jǐn)?shù)欄。該語(yǔ)匯欄系用以呈現(xiàn)以字母構(gòu)成的至少一語(yǔ)匯;該發(fā)音欄系用以呈現(xiàn)對(duì)應(yīng)于每一該語(yǔ)匯的至少一母發(fā)音模塊,每一該母發(fā)音模塊包括多個(gè)發(fā)音音標(biāo);該類(lèi)型欄系用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一來(lái)源;該信心分?jǐn)?shù)欄系用以呈現(xiàn)對(duì)應(yīng)于每一該母發(fā)音模塊的一信心分?jǐn)?shù)(confidence score),通過(guò)該信心分?jǐn)?shù)提供使用者修改該語(yǔ)匯所對(duì)應(yīng)的該母發(fā)音模塊的依據(jù),以便后續(xù)語(yǔ)音辨識(shí)的進(jìn)行。
文檔編號(hào)G06F9/44GK101064105SQ20061007766
公開(kāi)日2007年10月31日 申請(qǐng)日期2006年4月25日 優(yōu)先權(quán)日2006年4月25日
發(fā)明者黃良聲, 許天明, 洪健洲, 葉耿宏, 王閔鴻, 沈家麟 申請(qǐng)人:臺(tái)達(dá)電子工業(yè)股份有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
岑巩县| 泽库县| 晴隆县| 宜阳县| 扎鲁特旗| 邯郸县| 佛冈县| 休宁县| 商水县| 遂昌县| 岳阳市| 成安县| 额尔古纳市| 浠水县| 伊通| 苏尼特左旗| 龙门县| 连南| 虞城县| 枣强县| 调兵山市| 六安市| 正安县| 巴塘县| 富源县| 道孚县| 嵩明县| 万宁市| 维西| 西城区| 常山县| 达拉特旗| 昆明市| 荣昌县| 云林县| 湖州市| 雷山县| 安福县| 东乌珠穆沁旗| 河间市| 会宁县|