專利名稱:用于識別孤立、非相關(guān)漢字的語音識別方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及漢字語音識別技術(shù),更具體地說,涉及孤立、非相關(guān)漢字的語音識別技術(shù)。
隨著現(xiàn)代科學和計算機技術(shù)的發(fā)展,人與機器之間的信息交換變得越來越重要了。傳統(tǒng)的信息交換方式主要是通過鍵盤輸入,通過顯示器或打印機輸出。在進行漢字輸入時,還得記住漢字編碼。這種傳統(tǒng)的方式非常不方便。如果計算機能獲得象人一樣的用聲音進行信息交流的能力,那么,人與計算機之間便可以通過聲音進行對話,這將使人機之間的信息交流發(fā)生根本性的變化,能大大提高信息處理的效率。目前在計算機工作者的努力下,已開發(fā)出各種語音識別系統(tǒng)。
因為漢字通常具有多個同音或近音字,所以在現(xiàn)有的漢語識別系統(tǒng)中人們借助詞、詞組或高層語言信息來解決漢字級上的歧義性,以便正確識別出每個漢字。人們一般使用聲音模型來確定對應于輸入的音節(jié)的最大可能漢字是什么,而用詞典和儲存有高層語言使用模式信息的語言模型來解決漢字級上的歧義性。
然而,在脫離上下文環(huán)境的情況下,識別孤立、非相關(guān)漢字是非常困難的。其識別結(jié)果通常是給出一組具有相同或相似發(fā)音的漢字。這樣在輸入人名、地名等不具有高層語言信息的情況下,語音輸入變得極不可靠。另外,當現(xiàn)有的語音識別系統(tǒng)給出的識別結(jié)果中包含錯誤的漢字時,希望能借助語音輸入來修改。
綜上所述,需要一種智能輸入方案以解決在漢語識別系統(tǒng)中一個或多個不相關(guān)漢字的識別問題。
根據(jù)本發(fā)明的第一個方面提供一種在中文語音識別系統(tǒng)中識別孤立、非相關(guān)漢字的方法,該方法包括步驟·用各種類型的漢字描述語言來描述要輸入的孤立、非相關(guān)漢字;
·對輸入的漢字描述語言進行語法分析;·根據(jù)分析結(jié)果產(chǎn)生相應的孤立、非相關(guān)漢字。
根據(jù)本發(fā)明的第二個方面提供一種可以識別孤立、非相關(guān)漢字的語音識別系統(tǒng),該系統(tǒng)包括基于漢字描述語言的語言識別器,用于接收人們通過語音輸入的各種類型漢字描述語言;CDL語法分析器,對輸入的漢字描述語言進行語法分析;和,漢字發(fā)生器,根據(jù)CDL語法分析器分析的結(jié)果產(chǎn)生相應的孤立、非相關(guān)漢字。
本發(fā)明可以解決漢字語音識別系統(tǒng)中,當通過語音輸入一個或多個不相關(guān)漢字時,所產(chǎn)生的不可靠識別問題。
通過以下結(jié)合附圖的說明,會使本發(fā)明的優(yōu)點更加明確。
圖1是根據(jù)本發(fā)明的語音識別系統(tǒng)的功能方框圖;圖2是圖1中所示的基于CDL語法的語音識別器的功能方框圖;圖3為一流程圖,說明如何使用基于CDL語法的語言模型;圖4用于解釋圖1中所示的CDL語法分析器和漢字發(fā)生器工作原理;圖5為一流程圖,說明如何對輸入的漢字描述語言進行語法分析以產(chǎn)生相應的孤立、非相關(guān)漢字。
根據(jù)本發(fā)明的一個實施例,可將漢字描述語言分為以下幾類A借助人們常用的特定詞來描述一孤立、非相關(guān)的漢字。在此我們記為Type A=(W),其中“W”表示特定的詞。該詞實際上表明一漢字或偏旁部首,例如“mu4 zi3 li3(木子李)”表示“李”,“kou3tian1 wu2(口天吳)”表示“吳”,“cao3 zi4 tou2(草字頭)”表示“艸”。大多數(shù)漢字的偏旁部首或用于姓氏等的漢字都可以用A類描述語言來描述。
B借助構(gòu)詞來描述一個漢字。在此我們記為Type B=(W“de(的)”C)。這類描述語言以某一詞開頭,其后跟著漢字“de的”,然后是該詞中的一個字。當用戶試圖輸入單個漢字時,用戶可以使用包含該字的某一詞來標識它。這樣的詞理想上應是在聲音上易識別的字典中的條目,如日常使用的詞、成語、通用名稱等。例如“tai2 wan2 detai2(臺灣的臺)”用于標識“tai2(臺)”,“tai2 dou2 de tai2(抬頭的抬)”用于標識“tai2(抬)”,“bao3 bei4 de bei4(寶貝的貝)”用于標識“bei4(貝)”,“zhun3 bei4 de bei4(準備的備)”用于標識“bei4(備)”,“mo4 ming2 qi2 miao4 de mo4(莫名其妙的莫)”用于標識“mo4(莫)”,“deng4 xiao3 ping2 de deng4(鄧小平的鄧)”用于標識“deng4(鄧)”等等。通常類型B中的“C”也可以用來描述多個漢字。例如“deng4 xiao3 ping2 de xiao3 ping2(鄧小平的小平)”用于標識“xiao3 ping2(小平)”,而“da4 cai2 xiao3 yong4 deda4 cai2(大材小用的大材)”用于標識“da4 cai2(大材)”。
C借助漢字的結(jié)構(gòu)信息來描述漢字。漢語是表意字符,大多數(shù)漢字可以分解成簡單漢字和偏旁部首。于是我們或者可以從一復雜的漢字中減去不需要的部分或者將簡單的漢字和偏旁部首加在一起而得到所需的漢字。當找不能包含所希望漢字的詞時,可以使用這類描述語言,或者當用戶不知道漢字的發(fā)音時,也可以使用這類描述語言。根據(jù)不同用途,可將C類描述語言進一步細分成C1使用其在復雜漢字中的位置來說明一漢字。在此我們記為Type C1=(cd“de(的)”pos),其中“cd”描述一漢字(或偏旁部首在下文中我們不對它們進行區(qū)分),而“pos”是一位置詞。我們使用“cd”代替漢字C本身,是因為對C的識別可能不可靠。位置詞“pos”可以是“zuo3 bian1(左邊)”“you4 bian1(右邊)”,“shang4mian4(上面)”,“l(fā)i3 mian4(里面)”,“zhong1 jian1(中間)”等等。例如,“xing2 zheng4 juan4 de xing2 de you4 bian1(行政院的行的右邊)”用于描述“chu4(亍)”。
C2從一漢字中去掉一成份形成一新的漢字。在此我們記為“TypeC2=(cd1 pos“qu4 diao4(去掉)”cd2)。例如ye3 xu3 de ye3 zhong1jian1 qu4 diao4 yj2 shu4(也許的也中間去掉一豎)”用來描述乜。位置詞是任選的。
C3增加一些成份(漢字或偏旁部首)形成一個更復雜的漢字。類型C3的形式是(pos1“shi4(是)”cd1,pos2“shi4(是)”cd2…),用于指明每個漢字成份在最終形成漢字中的位置。例如“zuo3 bian1 shi4ti2 shou3 pang2,you4 bian1 shi4 wu2 chan3 jie1 ji2 de wu2(左邊是提手旁,右邊是無產(chǎn)階級的無)”用于標識“fu3(撫)”。注意,第一子句中cd1是類型A,而第二子句中的cd2是類型B。類型C3可以有許多種變化,例如,“shang4 mian4 he2 shan1 po1 de shan1 yi2 yang4,xia4 mian4 shi4 yi2 ge4 gu4 ti3 de gu4(上面和山坡的山一樣,下面是一個固體的固)”用手描述“gu4(崮)”,“san2 dian3 shui3 jia1 shang4ge4 li4 zao3 zhang1(三點水加上個立早章)”用于描述“zhang1(漳)”。正如這些例子所示出的,類型C3的句法可以覆蓋自然語言的大多數(shù)模式。這將增強用戶友好性。
D.借助字義來描述一個字符。在此我們記為Type=(C“yi4 si1shi4(意思是)”W)。例如,“jin3 yi4 si1 shi4 yu4 shi2(瑾意思是玉石)”由此給出“jin3(瑾)”。“jin3 ji4 si1 shi4 ji1 huang1(饉意思是饑荒)”由此給出“jin3(饉)”。
E使用筆畫來描述一漢字。所有漢字最終可以被分解成筆畫。粗略而計,大約有6類筆畫,即“heng2(橫)”,“shu4(豎)”,“pie3(撇)”,“na4(捺)”,“zhe2(折)”,“dian3(點)”。Type E=(C“bi3 hua4 shi4(筆畫是)”n1s1 n2s2 n3s3…),其中C是任選的,n1、n2、n3是數(shù)字,s1、s2、s3是筆畫。例如,“mabi3 hua4 shi4 yi4 pie3 yi4 zhe2 yi4 dian3(么筆畫是一撇一折一點)”表示“ma(么)”。沒有必要給出一字符的所有筆畫,只給出一些開始的筆畫就足夠了。此外,可以將筆畫加在一起,例如“wang2 bi3 hua4shi4 san1 heng2 yi2 shu4(王筆畫是三橫一豎)”,其中漢字“wang2(王)”的三個水平筆畫,表示成“san1 heng2(三橫)”。此外,還可以簡單地給出筆畫數(shù),例如“ta1 bi3 hua4 shi4 wu3 hua4(它筆畫是五劃)”,表示“ta1(它)”。
F用詞語的漢語拼音來表示英文字母。盡管許多中國人對英文字母的發(fā)音不清楚,但他們熟悉漢語拼音。Type F=(W“de tou2 yi1ge4 pin1 yin1 zi4 mu3(的頭一個拼音字母)”),或者說,Type F=(W“de tou2 pin1(的頭拼)”)。例如“a1 yi2 de tou2 pin1(阿姨的頭拼)”表示“A”,“zhong1 guo2 de tou2 pin1(中國的頭拼)”表示“Z”。因為在漢語拼音中“I”“U”“V”不會是第一個字母所以為此設(shè)計了三個特殊的規(guī)則。我們使用“yi(,移,以,易等)”用于“I”,“yu(淤,魚,雨,玉,等)”用于“V”,其它以“y”開始的拼音用于“Y”,即“yan1(煙)”,yun4(韻)”,等等。類似地,我們使用“wu(屋、無、五、物、等)”表示“U”,其它以“w”開頭的拼音用于“W”,即“wa1(蛙)”,“weng1(翁)”等等。此外,漢語拼音的最后一個字母也可使用,例如(W“de wei3 pin1(的尾拼)”)。
以上各種類型可以同時使用,形成復雜而有效的描述。例如“shang4 mian4 yi2 ge4 cao3 zi4 tou2,xia4 mian4 you4 bian1 shi4 ba1li2 de ba1(上面一個草字頭,下面左邊是白色的白,下面右邊是巴黎的巴)”,這樣來描述“pa1(葩)”。
通過以上描述,我們可以看到,用這些漢字描述語言可以方便、準確地確定一個具體的漢字。
根據(jù)本發(fā)明的用于孤立、非相關(guān)漢字的語音識別系統(tǒng)如圖1所示。
圖1所示的系統(tǒng)由三部分組成基于CDL的語音識別機、CDL語法分析器和漢字發(fā)生器。
為了提高識別精確度,本發(fā)明的孤立、非相關(guān)漢字語言識別系統(tǒng)采用基于CDL的語音識別機來接收人們通過語音輸入的對漢字的描述語言。如圖2所示,基于CDL的語音識別機與常規(guī)的漢字語音識別機的區(qū)別在于語言模型上。通常的漢字語音識別機由詞匯表、聲音模型、基于統(tǒng)計的語言模型組成,如圖2左部分所示。聲音模型用于確定對應于輸入語音的漢字有可能是什么,而用統(tǒng)計語言模型來解決單個漢字級上的歧義性。為了提高識別的精確度,即為了使孤立、非相關(guān)漢字語音識別系統(tǒng)能更好地接收、理解各類CDL語言,常規(guī)的語音識別機的統(tǒng)計語言模型上加上了一個基于CDL語法的語言模型。這樣,當人們使用CDL語言描述一個漢字時,基于CDL的語音識別機由于具有基于CDL語法的語言模型,就能更好地理解人們的語音輸入。假設(shè)我們以基于規(guī)則的方式針對第一實施例中的各類描述語言建立了語言模型,這樣當人們通過語音輸入“tai2 wan1 de tai2(臺灣的臺)”,由于基于CDL的語言模型中已儲存有這樣的規(guī)則,Type B=(W“de(的)”C),所以當“tai2 wan2”與統(tǒng)計語言模型中的一詞匹配后,很容易將其識別成(W“de(的)”C)類型的描述語言。
圖3所示的流程圖說明了如何使用基于CDL語法的語言模型。
首先輸入以前已識別出的詞串h1、h2…h(huán)i;根據(jù)CDL語法查找h1、h2…h(huán)i可能遵循的一些語法規(guī)則R1、R2…Rj;找出在所有這些可能的語法規(guī)則R1、R2…Rj下,詞串h1、h2…h(huán)i的下一個詞hi+1有哪些可能性,即所有可能成為hi+1的詞所組成的集合為S;調(diào)整語言模型對詞匯集內(nèi)所有詞w的輸出概率P(w|h1、h2…h(huán)i),若w是S以外的詞,將概率置為0,再重新歸一化以上概率分布;最后輸出P(w|h1、h2…h(huán)i),即w在上下文h1、h2…h(huán)i中出現(xiàn)的可能性。
將基于CDL語法的語音識別機識別出的結(jié)果,即一條符合CDL語言語法的句子送到孤立、非相關(guān)漢字的語音識別系統(tǒng)的第二部分,CDL語法分析器,對其進行語法分析。在本實施例中CDL語法分析器所基于的規(guī)則如下CD漢字描述PD漢字部件描述POS位置詞W一個詞C一個漢字n數(shù)詞CD:=Type A|Type B|Type C1|Type C2|Type C3|TypeD|Type E|Type FType A:=wType B:=w“de(的)”CPOS:=“zou3 bian1(左邊)”|“you4 bian1(右邊)”|“xia4mian4 zuo3 bian1(下面左邊)”|…TypeC1:=CD“de(的)”POSTypeC2:=CD“qu4 diao4(去掉)”[[“yi1(一)”]“ge4(個)”]CDPD:=[[ POS]“shi4(是)”|“you3(有)”]][“jia1 shang4(加上)”][[“ji1(一)”]“ge4(個)”]]CD|POS“he2(和)”CD“yi2 yang4(一樣)”TypeC3:=PD|PDTypeC3TypeD:=c“yi4 si1 shi4(意思是)”wSTROKE:=[n]“heng2(橫)”|“shu4(豎)”|“pie3(撇)”|“na4(捺)”|“zhe2(折)”|“dian3(點)”|“hua4(劃)”STROKES:=STROKE|STRO KE STROKESTypeE:=[c]“bi3 hua4 shi4(筆畫是)”STROKESTypeF:=w“de(的)”“tou2 yi1 ge4 pin1 yin1 zi4 mu3(頭一個拼音字母)”|“tou2 pin1(頭拼)”|“wei3 pin1(尾拼)”CDL語法分析器運用以上規(guī)則對基于CDL的語音識別機的輸出結(jié)果進行語法分析,當滿足一類語法的定義后,就調(diào)用漢字生成器的相應部分產(chǎn)生相應的漢字。這個過程是遞歸的,直到對整個描述語句完成了語法分析。
漢字生成器由與CDL描述語言相對應的各部分組成。當CDL語法分析器將某一語法規(guī)則運用到描述語句上時,就調(diào)用漢字生成器的相應的部分。而漢字生成器的相應部分就根據(jù)已有的知識產(chǎn)生一漢字。
漢字生成器的組成如下CG-A輸入是(W)。簡單地通過查表將W翻譯成一個漢字。
CG-B輸入是(W,C),如以上所述W是一詞,而C是一漢字。此時識別結(jié)果C可能不正確,可能被識別成C的同音字“C~”。CG-B在詞“W”中根據(jù)聲音模型找出與C~發(fā)音類似的“C”。
CG-C輸入各種組成成份(漢字或偏旁部首),位置、和動作(加減等)。應事先建主包含位置成份數(shù)據(jù)的字典。這樣的字典可以根據(jù)偏旁部首或筆畫數(shù)來存儲。從該字典中,可形成漢字和分解漢字??梢允褂酶鞣N查詢技術(shù)來提高搜索的效率。
CG-D輸入是(C,W)其中W是描述“C”的含義的詞。如在CG-B中所述,“C”可能被誤識別成“C~”(同音字)。需要一個包含各漢字語義的字典。由于“W”可能并不完全與字典中對“C”的解釋相同,所以需要一種計算“語義間距離”的方法。
CG-E輸入是“C”(任選)和其部分或全部筆畫信息。需要一個包含每個漢字筆畫的字典。如果給出“C”,我們可以使用其聲音信息來縮小搜索空間。
CG-F輸入是W。取W的漢語拼音的頭一個(或最后一個)字母。
圖3給出了CDL語法分析器與漢字生成器的各部分協(xié)調(diào)工作的情況。
下面就一簡單例子說明CDL語法分析器與漢字生成器的工作情況。
假設(shè)基于CDL的語音識別機輸出的識別結(jié)果是“上面一個草字頭,下面左邊是白色的白,下面的右邊是巴黎的巴”。
白~表示白的同音字;巴~表示巴的同音字;CDL語法分析的過程如下上面一個草字頭, 下面左邊是白色的白~, 下面右邊是巴黎的巴~POS TypeA POSTypeB POS TypeBCD CD CDPDPDPDType C3CD對字符發(fā)生器相應的部分調(diào)用過程下CG-A艸CG-B白CG-B巴CG-C葩圖5以流程圖的形式說明了如何對輸入的漢字描述語言進行語法分析以產(chǎn)生相應的孤立、非相關(guān)漢字。
如圖5所示,如果當前歸約使用規(guī)則TypeA,則查找特定詞-單字對照表,找到單字。如果當前歸約使用規(guī)則TypeB,則按聲音相似度找到詞中與單字近音的字。如果當前歸約使用規(guī)則TypeC,則查找位置部首-漢字表,找到漢字。如果當前歸約使用規(guī)則TypeD,則查找字義及同義詞典,并根據(jù)發(fā)音確定單字。如果當前歸約使用規(guī)則TypeE,則查筆劃字典并根據(jù)發(fā)音確定單字。如果當前歸約使用TypeF,則取詞的拼音的頭一個或最后一個字母,重復以上過程,直至句子歸約終結(jié)。
在以上實施例中,基于CDL的語音識別機不是必需的,也可以采用一般的漢語語音識別機。
通過以上結(jié)合實施例的描述,可以看出本發(fā)明可以可靠地識別出孤立、非相關(guān)的漢字。所有這些實施例都是用于說明本發(fā)明,而不應看成是對本發(fā)明的限制。本發(fā)明要求的保護范圍由權(quán)利要求書來確定。
權(quán)利要求
1.一種在中文語音識別系統(tǒng)中識別孤立、非相關(guān)漢字的方法,其特征在于以下步驟·用各種類型的漢字描述語言來描述要輸入的孤立、非相關(guān)漢字;·對輸入的漢字描述語言進行語法分析;·根據(jù)分析結(jié)果產(chǎn)生相應的孤立、非相關(guān)漢字。
2.根據(jù)權(quán)利要求1的識別孤立、非相關(guān)漢字的方法,其特征在于所述的漢字描述語言可分為以下幾種類型A借助人們經(jīng)常使用的特定詞來描述孤立、非相關(guān)漢字;B借助構(gòu)詞來描述孤立、非相關(guān)漢字;C利用漢字的結(jié)構(gòu)信息來描述孤立、非相關(guān)漢字;D通過字義來描述孤立、非相關(guān)漢字;E使用筆畫來描述孤立、非相關(guān)漢字;F用詞語的漢語拼音來描述單個英文字母;可以用以上各種類型描述語言之一或其組合來描述要輸入的孤立、非相關(guān)漢字。
3.一種可以識別孤立、非相關(guān)漢字的語音識別系統(tǒng),其特征在于包括·基于CDL語法的語音識別器,用于接收人們通過語音輸入的各種類型漢字描述語言;·CDL語法分析器,對基于CDL語法的語言識別器輸出的漢字描述語言講行語法分析;·漢字發(fā)生器,根據(jù)CDL語法分析器分析結(jié)果產(chǎn)生相應的字符。
全文摘要
一種可以識別孤立、非相關(guān)漢字的語音識別方法和系統(tǒng)。所述方法使用各種類型的漢字描述語言來描述要輸入的孤立、非相關(guān)漢字,而所述的語音識別系統(tǒng)使用基于漢字描述語言(CDL)的識別器接收人們通過語音輸入的各種類型漢字描述語言,在運用CDL語法分析器對其進行分析的基礎(chǔ)上由漢字發(fā)生器根據(jù)分析結(jié)果產(chǎn)生相應的漢字。這樣,在脫離上下文環(huán)境的情況下,也可以可靠地識別出孤立、非相關(guān)的漢字。
文檔編號G10L15/00GK1212403SQ9711964
公開日1999年3月31日 申請日期1997年9月19日 優(yōu)先權(quán)日1997年9月19日
發(fā)明者唐道南, 朱曉瑾, 沈麗琴 申請人:國際商業(yè)機器公司