两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

在智能漢語語音口述記錄校正中使用字符描述器有效輸入模糊字符的制作方法

文檔序號(hào):8435919閱讀:638來源:國知局
在智能漢語語音口述記錄校正中使用字符描述器有效輸入模糊字符的制作方法
【專利說明】在智能漢語語音口述記錄校正中使用字符描述器有效輸入模糊字符
[0001]本申請(qǐng)要求通過引用被并入本文的2012年8月29日提交的美國臨時(shí)專利申請(qǐng)61/694,450的優(yōu)先權(quán)。
技術(shù)領(lǐng)域
[0002]本發(fā)明涉及漢語中的自動(dòng)語音識(shí)別,且具體地涉及基于自發(fā)用戶字符描述提示的漢語字符的消歧。
【背景技術(shù)】
[0003]自動(dòng)語音識(shí)別(ASR)系統(tǒng)確定語音輸入的語義意義。通常,輸入語音被處理成一序列數(shù)字語音特征幀。每個(gè)語音特征幀可被考慮為代表在短的語音時(shí)間窗期間存在的語音信號(hào)的各種特征的多維矢量。例如,可從語音信號(hào)的短時(shí)傅立葉變換頻譜的倒譜特征(MFCC)—一給定頻帶的短時(shí)功率或分量一一以及相應(yīng)的第一和第二階導(dǎo)數(shù)(“ δ ”和“ S-δ ”)得到每個(gè)語音幀的多維矢量。在連續(xù)識(shí)別系統(tǒng)中,可變數(shù)量的語音幀被組織為代表后面是停頓的一段時(shí)間的語音的“發(fā)音”,這在現(xiàn)實(shí)生活中不嚴(yán)謹(jǐn)?shù)貙?duì)應(yīng)于說出的句子或短語。
[0004]ASR系統(tǒng)比較多個(gè)輸入語音幀以查找最好地匹配語音特征特性的統(tǒng)計(jì)模型,并接著確定與統(tǒng)計(jì)模型相關(guān)的相應(yīng)的代表性文本或語義意義?,F(xiàn)代統(tǒng)計(jì)模型是狀態(tài)序列模型,例如使用高斯分布的混合來模仿語音聲音(通常是音素)的隱馬爾可夫模型(HMM)。這些統(tǒng)計(jì)模型常常代表被稱為PEL(語音要素)的特定上下文中的音素,例如具有已知的左上下文和/或右上下文的三音子或音素。狀態(tài)序列模型可按比例增加以將詞表示為聲音建模的音素的連接序列、或?qū)⒍陶Z或句子表示為詞的連接序列。當(dāng)統(tǒng)計(jì)模型被一起組織為詞、短語和句子時(shí),額外的語言相關(guān)的信息也一般合并到以語言建模的形式的模型中。
[0005]與最佳匹配模型結(jié)構(gòu)相關(guān)的詞或短語被稱為識(shí)別候選項(xiàng)或假設(shè)。系統(tǒng)可產(chǎn)生單個(gè)最佳識(shí)別候選項(xiàng)一一識(shí)別結(jié)果一一或被稱為N最佳列表的幾個(gè)假設(shè)的列表。在標(biāo)題為“連續(xù)語音識(shí)別(Continuous Speech Recognit1n) ”的編號(hào)為5,794, 189的美國專利和標(biāo)題為“語音識(shí)別語言模型(Speech Recognit1n Language Models) ” 的編號(hào)為 6,167,377 的美國專利中提供了關(guān)于連續(xù)語音識(shí)別的另外的細(xì)節(jié),這兩個(gè)專利的內(nèi)容通過引用被并入本文。
[0006]在語音識(shí)別中的完美準(zhǔn)確性不能被實(shí)現(xiàn),且在識(shí)別結(jié)果中的一些詞將不可避免地需要校正。在例如駕駛的一些情況中,手操作是不可用的,且所有校正需要只通過話音命令來實(shí)現(xiàn)。
[0007]對(duì)于西方語言,通常在單詞級(jí)別上來完成識(shí)別校正(例如,通過再次說出正確的單詞)。如果單詞太模棱兩可或由于其他原因難以識(shí)別,則用戶可總是能夠依靠拼讀該單詞來輸入它。然而漢語詞由不能被拼寫的一個(gè)或多個(gè)音調(diào)字符組成,且語音識(shí)別引擎必須正確地識(shí)別期望字符。
[0008]在漢語中的基本獨(dú)立語音單位是字符,其像在西方語言中的單詞所起的作用一樣在句子中起重要的作用。當(dāng)輸入不能被語言模型和統(tǒng)計(jì)頻率引導(dǎo)的名字、地址、專有名詞和商標(biāo)時(shí),準(zhǔn)確的字符輸入是十分重要的。而且,通過話音或拼音的字符輸入很難,因?yàn)楹芏嘧址灿孟嗤陌l(fā)音。例如,如圖1所示,字符“李”與248個(gè)其它字符共用“Li”的發(fā)音。因此非常難以在不告知上下文的情況下準(zhǔn)確地口述記錄或識(shí)別單個(gè)漢語字符。
[0009]講漢語的人已經(jīng)接受了描述和弄清楚在日常對(duì)話中的給定字符的方式:
[0010]?通過使用在示例詞、短語或?qū)S忻~(例如著名人士的名字、品牌或廣告)中的字符
[0011]?通過說出期望字符的一個(gè)或多個(gè)偏旁部分
[0012]?通過說出期望字符的一個(gè)或多個(gè)結(jié)構(gòu)要素
[0013].通過提供期望字符的音調(diào)描述信息
[0014]概述
[0015]本發(fā)明的實(shí)施方式目的在于用于基于自發(fā)字符描述提示的漢語語音識(shí)別輸入的用戶消歧的計(jì)算機(jī)實(shí)現(xiàn)的布置。從用戶接收用于自動(dòng)語音識(shí)別的漢語語音輸入。也從用戶接收描述在語音輸入中的一個(gè)或多個(gè)字符的自發(fā)字符描述提示。然后基于字符描述提示來執(zhí)行語音輸入的自動(dòng)語音識(shí)別以確定對(duì)應(yīng)于語音輸入的一個(gè)或多個(gè)漢語語言字符。
[0016]可在命令模式約束格式輸入中從用戶或在無約束自然語音輸入中從用戶傳送字符描述提示。字符描述提示也可包括音調(diào)描述、字符動(dòng)作和/或字符位置信息。字符描述提示可包括使用所描述的字符的示例詞、或所描述字符的一個(gè)或多個(gè)偏旁成分的描述、或所描述的字符的一個(gè)或多個(gè)字符結(jié)構(gòu)要素的描述。
[0017]自動(dòng)語音識(shí)別可使用用于操縱字符描述提示的識(shí)別語法和/或模糊匹配口述記錄引擎。
[0018]附圖的簡要說明
[0019]圖1是示出具有“Li”的基本發(fā)音的很多不同的漢語字符中的部分漢語字符的表格。
[0020]圖2A-2C示出根據(jù)本發(fā)明的實(shí)施方式的使用字符描述提示的漢語語音識(shí)別輸入的消歧的例子。
[0021]圖3A-3B示出基于示例詞的字符描述提示的另一例子。
[0022]圖4A-4B示出說明使用基于描述性偏旁部分的字符描述提示的另一例子的例子。
[0023]圖5A-5B示出說明使用基于音調(diào)描述的字符描述提示的另一例子的例子。
[0024]圖6示出用于本發(fā)明的實(shí)施方式的基于語法的語音識(shí)別體系結(jié)構(gòu)的例子。
[0025]圖7示出用于本發(fā)明的實(shí)施方式的模糊匹配口述記錄引擎語音識(shí)別體系結(jié)構(gòu)的例子。
[0026]詳細(xì)描述
[0027]本發(fā)明的各種實(shí)施方式目的在于基于自發(fā)字符描述提示的漢語語音識(shí)別的消歧。使用用于字符消歧的自發(fā)字符描述提示與在日常生活中的講漢語的人的現(xiàn)有自然說話習(xí)慣很好地匹配。
[0028]在講漢語的人的日常生活中,人們有各種不同的機(jī)制,他們通過這些機(jī)制從具有類似發(fā)音的很多候選項(xiàng)指定一個(gè)特定的字符。一個(gè)這樣的方式是描述字符的結(jié)構(gòu)要素。例如,圖2A-2C示出使用描述字符的結(jié)構(gòu)要素的字符描述提示的漢語語音識(shí)別輸入的消歧的例子。圖2A示出從用戶到用于自動(dòng)語音識(shí)別的系統(tǒng)的漢語語音輸入201。如圖2B所示,用戶還提供自發(fā)字符描述提示202,其通過語音輸入“木子Li”描述第一字符的結(jié)構(gòu)要素。系統(tǒng)然后基于字符描述提示202執(zhí)行語音輸入201的自動(dòng)語音識(shí)別以確定對(duì)應(yīng)于語音輸入201 (在這種情況下是向用戶顯示為如圖2C所示的識(shí)別輸出203的字符“李”)的一個(gè)或多個(gè)漢語語言字符。
[0029]講漢語的人使說出的字符消除歧義的另一常見方式是通過說出包含目標(biāo)字符的流行詞來講述上下文。例如,如果說話者簡單地說“Wei”,則人們將不知道哪個(gè)字符是預(yù)期的,因?yàn)橛刑嗟淖止灿谩癢ei”的發(fā)音,例如“威”、“巍”、“?!?、“微”等。但是如圖3A所示,說話者可提供字符描述提示302 “巍蛾的巍”,意指如在常用詞“巍蛾”(意指高聳的詞)中的字符“巍”,從而排除其它候選字符。與單個(gè)字符“巍”比較,常用詞“巍蛾”更明確且容易識(shí)別。這非常類似于在英語中說“one two three”中的“two,,、或“me too”中的“too”。系統(tǒng)然后基于字符描述提示302執(zhí)行自動(dòng)語音識(shí)別以確定語音輸入301對(duì)應(yīng)于向用戶顯示為如圖3B所示的識(shí)別輸出303的字符“巍”。
[0030]字符描述提示可包括所描述的字符的一個(gè)或多個(gè)偏旁部分的描述。例如,“山字頭的巍”意指具有“山”的偏旁部分的“巍”。通過如此解釋,聽者可非常快地確定這個(gè)字符,因?yàn)橹挥小拔 本哂羞@個(gè)偏旁部分且發(fā)音為“Wei”。這有點(diǎn)像在英語中的拼讀:“T,W,0,two”或“T,double O, too "ο在如圖4Α所示的另一例子中,說話者給出“Xu”的語音輸入401和“具有偏旁4的Xu”的字符描述提示402,且系統(tǒng)然后基于字符描述提示402執(zhí)行自動(dòng)語音識(shí)別以確定語音輸入401對(duì)應(yīng)于字符“徐”,其如圖4B所示向用戶顯示為識(shí)別輸出403。
[0031]在一些實(shí)施方式中,字符描述提示也可包括所描述的字符的音調(diào)描述信息。例如,如圖5A所示,說話者可給出“2聲的Li”的字符描述提示50
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
六盘水市| 武冈市| 金秀| 绥江县| 富宁县| 和龙市| 松江区| 饶河县| 石屏县| 兴化市| 临沧市| 江山市| 冷水江市| 石河子市| 旌德县| 武鸣县| 渭源县| 濮阳县| 石渠县| 扬州市| 桓台县| 高雄县| 余干县| 三亚市| 西林县| 安多县| 仁布县| 宝鸡市| 阿坝| 岫岩| 琼中| 玉环县| 长春市| 客服| 兴海县| 牟定县| 静海县| 固安县| 博客| 宁南县| 长葛市|