两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

在語音識(shí)別過程中用于緩存識(shí)別的單詞的方法和系統(tǒng)的制作方法

文檔序號(hào):2820349閱讀:187來源:國知局

專利名稱::在語音識(shí)別過程中用于緩存識(shí)別的單詞的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及計(jì)算機(jī)語音識(shí)別,更具體說,涉及由語音識(shí)別系統(tǒng)產(chǎn)生的聽寫內(nèi)容的編輯。允許講話者有效地聽寫以及允許聽寫內(nèi)容被自動(dòng)的識(shí)別的計(jì)算機(jī)語音信息系統(tǒng)是計(jì)算機(jī)語音系統(tǒng)開發(fā)者長期以來研究的目標(biāo)。由這種計(jì)算機(jī)語音識(shí)別(CSR)系統(tǒng)產(chǎn)生的好處是具有實(shí)質(zhì)性的。例如,不是通過打字的方法將文件輸入到計(jì)算機(jī)系統(tǒng)中,而是簡單地通過念出該文件的單詞,CSR系統(tǒng)就將會(huì)識(shí)別這些單詞并將每個(gè)單詞的字母存儲(chǔ),如同這些單詞是被打字進(jìn)去的一樣。由于人們通常講話比打字快,所以可以提高效率。而且,人們也無需要再去學(xué)習(xí)打字。由于人的手被除了打字以外的其他工作所占用,所以計(jì)算機(jī)可具有的許多應(yīng)用,在目前來講是不可能的。典型的CSR系統(tǒng)具有一個(gè)識(shí)別部分和一個(gè)聽寫編輯部分。識(shí)別部分控制講話者的一系列的發(fā)音的接收,識(shí)別每一發(fā)音,并且將每一個(gè)發(fā)音所識(shí)別的詞發(fā)送到聽寫編輯部分。聽寫編輯部分顯示識(shí)別的詞并允許使用者糾正被誤識(shí)別的詞。例如,聽寫編輯部分允許使用者或者通過重新念這個(gè)單詞或者打出正確的單詞來替代一個(gè)被誤識(shí)別的單詞。識(shí)別部分典形地包括字典中每個(gè)單詞的發(fā)音的模型。當(dāng)識(shí)別部分接收到講話發(fā)音時(shí),識(shí)別部分將講話發(fā)音與詞典中的每個(gè)單詞的模型發(fā)音相比較以便發(fā)現(xiàn)與講話發(fā)音最接近的模型發(fā)音。典形的識(shí)別部分計(jì)算每個(gè)模型發(fā)音與講話發(fā)音匹配的可能性。這種識(shí)別部分向聽寫編輯部分發(fā)送一系列的與講話發(fā)音最高可能性相匹配的單詞作為識(shí)別的單詞表。聽寫編輯部分從具有最高可能性的識(shí)別的單詞表中選擇出單詞作為所識(shí)別的與講話發(fā)音相對(duì)應(yīng)的單詞。聽寫編輯部分然后顯示該單詞。但是如果顯示的單詞是講話發(fā)音的錯(cuò)誤識(shí)別,則聽寫編輯部分允許講話者糾正錯(cuò)誤識(shí)別的單詞。當(dāng)講話者指示糾正錯(cuò)誤識(shí)別的單詞時(shí),聽寫編輯部分顯示一個(gè)糾正窗口,該窗口包含以上識(shí)別的單詞表中的單詞。當(dāng)該表中的單詞中的一個(gè)是正確的單詞時(shí),講話者可以單擊此單詞來執(zhí)行糾正。但是,如果正確的詞或不在該表中,講話者則或者重新講話或者打出正確的單詞。一些CSR系統(tǒng)被用作字處理器的聽寫裝置。這種CSR系統(tǒng)控制講話發(fā)音的接收和識(shí)別并且還向字處理器發(fā)送與識(shí)別的單詞相對(duì)應(yīng)的每個(gè)字符。這種配置的優(yōu)點(diǎn)是當(dāng)講話者試圖糾正己講的單詞時(shí),字處理器不對(duì)已經(jīng)識(shí)別的單字表進(jìn)行訪問,因此不能夠顯示這些單詞以便于糾正。本發(fā)明提供了一種新型的和改進(jìn)型的計(jì)算機(jī)語音識(shí)別(CSR)系統(tǒng),這種系統(tǒng)具有一個(gè)識(shí)別部分和一個(gè)聽寫編輯部分。聽寫編輯部分可以用來快速糾正誤識(shí)別的單詞。聽寫編輯部分允許講話者通過調(diào)整糾正窗口的大小來選擇在糾正窗口中顯示的替換單詞號(hào)。聽寫編輯部分在糾正窗口中以字母次序顯示單詞,以便于找出正確的單詞。根據(jù)本發(fā)明的另一方面,基于對(duì)先前的講話發(fā)音和最新的講話發(fā)音之間的分析,當(dāng)誤識(shí)別的單詞或短語被講出時(shí),這種CSR系統(tǒng)消除了新的講話發(fā)音被再次識(shí)別成與誤識(shí)別的單詞或短語相同的單詞或短語。這種聽寫編輯部分也能夠允許講話者在將識(shí)別的單詞轉(zhuǎn)移到字處理器之前,規(guī)定在聽寫編輯部分中緩存的語音的數(shù)量。該聽寫編輯系統(tǒng)也可以使用一種單詞糾正類比器(metaphor)或者短語糾正類比器,來改變編輯工作,這種工作通常是以字符為基礎(chǔ)的,來將其改變成或者是以單詞為基礎(chǔ)的或者是以短語為基礎(chǔ)的。附圖1A顯示了可調(diào)整大小的糾正窗口的例子。附圖1B顯示了在調(diào)整大小之后的糾正窗口的例子。附圖2A顯示一個(gè)可調(diào)整的聽寫窗口。附圖2B顯示了使用一個(gè)糾正窗口在聽寫窗口中糾正文本。附圖3A-B顯示了用于聽寫編輯部分的單詞/短語糾正類比器。附圖4A-C是最佳實(shí)施例的計(jì)算機(jī)系統(tǒng)的方框圖。附圖5A是具有可調(diào)整大小的糾正窗口的聽寫編輯部分的流程圖。附圖5B是可調(diào)整大小的糾正窗口的窗口程序的流程圖。附圖6是具有可調(diào)整的聽寫窗口的聽寫編輯部分的流程圖。附圖7是執(zhí)行單詞糾正類比器的字處理器或者聽寫編輯部分的窗口程序的流程圖。附圖8是能從進(jìn)一步的識(shí)別中消除誤識(shí)別單詞的CSR系統(tǒng)的流程圖。附圖9是自動(dòng)識(shí)別訓(xùn)練的流程圖。本發(fā)明提供的聽寫編輯部分允許對(duì)計(jì)算機(jī)語音識(shí)別(CSR)系統(tǒng)產(chǎn)生的聽寫材料進(jìn)行編輯。在一個(gè)示例性的實(shí)施例中,通過調(diào)整糾正窗口的大小,這種聽寫編輯部分允許講話者選擇在糾正窗口中顯示的替換單詞的數(shù)目。這一聽寫編輯部分也以字母次序的順序在糾正窗口中顯示單詞。當(dāng)一個(gè)被錯(cuò)誤識(shí)別的單詞被再次講出來的時(shí)候,聽寫編輯部分最好還能夠消除這個(gè)被再次講出的發(fā)音被再識(shí)別為同一個(gè)錯(cuò)誤識(shí)別的單詞的可能性。當(dāng)將識(shí)別的單詞提供一個(gè)應(yīng)用程序,例如一個(gè)字處理器時(shí),這種聽寫編輯部分最好能夠允許講話者規(guī)定在將識(shí)別的單詞轉(zhuǎn)移到應(yīng)用程序之前由聽寫編輯部分緩存的語音的數(shù)量。下面結(jié)合一種離散的CSR系統(tǒng)(即,講話者在每個(gè)單詞之間有停頓)描述本發(fā)明的各個(gè)方面。但是,這些方面可以用于連續(xù)CSR系統(tǒng)。例如,糾正窗口可以被調(diào)整大小,以指示要被顯示的替換短語的數(shù)目。而且,當(dāng)講話者選擇一個(gè)要被替換的短語時(shí),用戶界面系統(tǒng)可以保證同一個(gè)短語不會(huì)被再次識(shí)別。附圖1A顯示了一個(gè)示例性的可調(diào)整大小的糾正窗口。聽寫編輯部分窗口101包括識(shí)別的單詞102和糾正窗口103。在這個(gè)例子中,講話者講出了下面的單詞“Iwillmakethecake”。識(shí)別部分將單詞“make”錯(cuò)誤地識(shí)別為單詞“fake”。然后,講話者指出單詞“fake”應(yīng)該被糾正。在顯示糾正窗口之前,聽寫編輯部分確定可調(diào)整大小的糾正窗口的當(dāng)前大小并且計(jì)算在糾正窗口中顯示的單詞的數(shù)目。然后,聽寫編輯部分從具有最高可能性的識(shí)別的單詞(即,替換單詞)中選擇單詞數(shù)目,并且利用標(biāo)準(zhǔn)窗口調(diào)整技術(shù)(例如利用鼠標(biāo)指向窗口的邊界并且拖動(dòng)鼠標(biāo))在糾正窗口中顯示這些單詞。如果講話者想從表中看到更多的單詞,講話者可以簡單地調(diào)整糾正窗口的大小。當(dāng)糾正窗口被調(diào)整大小時(shí),聽寫編輯部分再次確定可以在糾正窗口中顯示的單詞的數(shù)目,并在糾正窗口中顯示這些數(shù)目的單詞。當(dāng)下次講話者要糾正一個(gè)單詞時(shí),聽寫編輯部分在糾正窗口中顯示與上次調(diào)整大小的窗口相吻合的那些數(shù)目的單詞。這樣,通過簡單的調(diào)整糾正窗口的大小,講話者可以有效地選擇要被顯示的單詞的數(shù)目。附圖1B顯示了在調(diào)整大小后的示例性的糾正窗口。另外,聽寫編輯部分最好以字母的次序在糾正窗口中顯示單詞。當(dāng)單詞被顯示時(shí),以字母次序顯示單詞可以允許講話者迅速的找到正確的單詞?,F(xiàn)有技術(shù)的聽寫編輯部分是根據(jù)識(shí)別部分確定的可能性為基礎(chǔ)確定的次序在糾正窗口中顯示單詞的。但是,當(dāng)以可能性次序顯示時(shí),除非正確的單詞被顯示在第一位或第二位,否則對(duì)講話者來說很難找到正確的單詞。附圖2A顯示了一個(gè)用于與一個(gè)字處理器相鏈接的計(jì)算機(jī)語音識(shí)別系統(tǒng)的可調(diào)整聽寫窗口。計(jì)算機(jī)語音識(shí)別系統(tǒng)輸入一系列的來自講話者的發(fā)音,識(shí)別這些發(fā)音,并在聽寫窗口201中顯示對(duì)這些發(fā)音識(shí)別的單詞。由于聽寫窗口是由聽寫編輯部分控制的,講話者可以在聽寫窗口中糾正這些單詞。因此,當(dāng)講話者在聽寫窗口內(nèi)選擇糾正一個(gè)單詞時(shí),講話者可以利用由聽寫編輯部分支持的任何糾正設(shè)施。例如,對(duì)于目前在聽寫窗口中顯示的任何單詞,講話者可以利用糾正窗口顯示在識(shí)別的單詞表中的單詞。附圖2B顯示了在聽寫窗口中使用糾正窗口糾正文本。在一個(gè)實(shí)施例中,聽寫編輯部分允許講話者調(diào)整聽寫窗口可以容納的語音的數(shù)量。由于講話者只能對(duì)聽寫窗口內(nèi)的單詞使用糾正設(shè)施,而不能對(duì)字處理器窗口內(nèi)的單詞使用糾正設(shè)施,講話者可以根據(jù)講話者的聽寫習(xí)慣調(diào)整聽寫窗口的大小以容納語音的數(shù)量。例如,講話者可以規(guī)定聽寫窗口只能容納一個(gè)句子,一個(gè)段落,或固定數(shù)目的單詞。一方面,講話者可以利用標(biāo)準(zhǔn)的窗口調(diào)整技術(shù)調(diào)整聽寫窗口大小,使得聽寫窗口可以容納適合于窗口的數(shù)目的單詞。當(dāng)聽寫窗口變滿時(shí),計(jì)算機(jī)語音識(shí)別系統(tǒng)或者將聽寫窗口中的所有的單詞或者將部分單詞發(fā)送到字處理器中。例如,如果講話者指示聽寫窗口應(yīng)該容納一個(gè)句子時(shí),那么,在任何時(shí)候一個(gè)新的句子被開始時(shí),計(jì)算機(jī)語音識(shí)別系統(tǒng)將把所有的單詞(也就是說一個(gè)句子)發(fā)送到字處理器中。相反,如果講話者調(diào)整聽寫窗口的大小,那么計(jì)算機(jī)語音識(shí)別系統(tǒng)可以一次只發(fā)送一行單詞到字處理器中。附圖3A顯示了用于聽寫編輯部分的單詞糾正類比器。當(dāng)字處理系統(tǒng)處于聽寫模式時(shí),聽寫編輯部分自動(dòng)地改變各種編輯事件(例如,鍵盤事件,鼠標(biāo)事件,筆事件,和語音事件)的定義,成為以單詞為基礎(chǔ)的,而不是以字符為基礎(chǔ)的。例如,在聽寫模式中,退格鍵,通常只后退一個(gè)字符,被設(shè)定為一次后退一個(gè)單詞。因此,當(dāng)在聽寫模式中使用者按下退格鍵時(shí),在當(dāng)前插入點(diǎn)左側(cè)的整個(gè)單詞將被刪除。類似地,當(dāng)在聽寫模式時(shí),左和右箭頭鍵將使插入點(diǎn)向左或向右移動(dòng)一個(gè)單詞,并且刪除鍵將刪除插入點(diǎn)右側(cè)的整個(gè)的單詞。而且,當(dāng)使用者單擊鼠標(biāo)鍵而且鼠標(biāo)光標(biāo)在一個(gè)單詞之上時(shí),聽寫編輯部分選擇鼠標(biāo)光標(biāo)正處于之上的單詞,而不是簡單地在該單詞內(nèi)設(shè)置插入點(diǎn)。但是,如果鼠標(biāo)光標(biāo)處于單詞之間時(shí),則插入點(diǎn)被設(shè)置在單詞之間。行301-304顯示了單詞糾正類比器的示例性效果。每一行都顯示了當(dāng)指示的事件發(fā)生時(shí)之前和之后的文本。例如,行302顯示了如果插入點(diǎn)在單詞“test,”之后時(shí),左箭頭事件將引起插入點(diǎn)被移動(dòng)到單詞“test.”之前。單詞糾正類比器的使用方便了在聽寫模式狀態(tài)中的單詞的糾正,因?yàn)橥ǔVv話者在糾正時(shí)希望重新講出整個(gè)單詞。因此,當(dāng)講話者單擊一個(gè)單詞時(shí),整個(gè)單詞被選擇,并且講話者可以講話以便替換被選擇的單詞。當(dāng)語音識(shí)別是連續(xù)的情況時(shí),最好使用短語糾正類比器。因?yàn)檫B續(xù)語音識(shí)別不能夠正確地鑒別單詞之間的界限,單詞糾正類比器可能會(huì)選擇一個(gè)發(fā)音只代表單詞的一部分或者代表多個(gè)單詞的錯(cuò)誤識(shí)別的單詞。在這種情況下,最好重新講出整個(gè)短語。結(jié)果,各種編輯事件的定義將被改變成為以短語為基礎(chǔ),而不是被改變成為以單詞為基礎(chǔ)的。例如,使用者說單詞“backspace”的編輯事件通常是后退到前面一個(gè)字符,現(xiàn)在則改變?yōu)橐淮魏笸艘粋€(gè)短語。附圖3B顯示了這種短語糾正類比器。在一個(gè)實(shí)施例中,計(jì)算機(jī)語音識(shí)別系統(tǒng)提供了錯(cuò)誤識(shí)別的單詞刪除,以防止重新發(fā)音的被再次識(shí)別為已經(jīng)被糾正的同一個(gè)單詞。當(dāng)講話者糾正一個(gè)錯(cuò)誤識(shí)別的單詞時(shí),聽寫編輯部分作出確定。講話者可以不同方式糾正錯(cuò)誤識(shí)別的單詞。例如,講話者可以刪除該單詞,然后在該單詞被刪除的位置的插入點(diǎn)再說出該單詞。另外,講話者可以點(diǎn)中錯(cuò)誤識(shí)別的單詞然后講話以便替換被點(diǎn)中的單詞。當(dāng)識(shí)別部分接收到一個(gè)重新說出的發(fā)音時(shí),識(shí)別部分識(shí)別該發(fā)音并向聽寫編輯部分發(fā)送一個(gè)新識(shí)別的單詞表。聽寫編輯部分從新識(shí)別的單詞表中選擇并顯示出被糾正的單詞以外的具有最高可能性的單詞。在一個(gè)實(shí)施例中,聽寫編輯部分利用以前錯(cuò)誤識(shí)別的發(fā)音的識(shí)別單詞表和新識(shí)別的單詞表來選擇與兩種發(fā)音相匹配的具有最高可能性的單詞(除被糾正的單詞以外)。為了計(jì)算最高可能性,聽寫編輯部分確定兩個(gè)識(shí)別的單詞表中的單詞并且乘以它們的可能性。例如,下面的表中顯示了示例性的識(shí)別的單詞表和對(duì)應(yīng)的可能性。</tables>如果講話者說單詞“make”,則沒有錯(cuò)誤識(shí)別的單詞消除,聽寫編輯部分二次都將選擇單詞“fake”,因?yàn)樗趦蓚€(gè)表中都具有最高的可能性。利用錯(cuò)誤識(shí)別的單詞消除,當(dāng)單詞“fake”被糾正時(shí),聽寫編輯部分選擇單詞“mace”,因?yàn)槌龁卧~“fake”以外,單詞“mace”在當(dāng)前的單詞表中有最高的可能性。但是,當(dāng)來自兩個(gè)識(shí)別的單詞表中的可能性被結(jié)合在一起時(shí),聽寫編輯部分選擇單詞“make”作為正確的單詞,因?yàn)樗哂凶罡叩慕Y(jié)合的可能性。單詞“make”的結(jié)合的可能性為.06(.3×.2),對(duì)于單詞“mace為.03(.1×.3),對(duì)于單詞“bake”,為.01(.1×.1)。計(jì)算機(jī)語音識(shí)別系統(tǒng)也自動(dòng)向其單詞表中添加單詞并且自動(dòng)進(jìn)行訓(xùn)練。當(dāng)使用者通過打正確的單詞來糾正一個(gè)錯(cuò)誤識(shí)別的單詞時(shí),聽寫編輯部分確定被打的單詞是否在單詞表中。如果被打單詞不在單詞表中,則聽寫編輯部分指示識(shí)別部分利用被錯(cuò)誤識(shí)別的講話發(fā)音來訓(xùn)練該單詞的模型來將其加入到單詞表中。但是,如果被打的單詞在單詞表中,則聽寫編輯部分自動(dòng)指示識(shí)別部分利用被錯(cuò)誤識(shí)別的講話發(fā)音訓(xùn)練這個(gè)被打的單詞。當(dāng)與連續(xù)聽寫系統(tǒng)使用時(shí),除了單詞糾正以外,該聽寫編輯部分允許短語糾正。在連續(xù)聽寫系統(tǒng)中,識(shí)別部分可能會(huì)錯(cuò)誤地鑒別單詞的界限。例如,講話者可能會(huì)說短語“Iwanttorecognizespeech.”。識(shí)別部分可能會(huì)將該短語識(shí)別為“Iwanttowreckanicebeach.”。但是,單個(gè)單詞糾正的使用不能給講話者提供一個(gè)友好的方式糾正這種錯(cuò)誤識(shí)別。如果講話者期望看到單詞“beach”的替換的單詞,在糾正窗口中可顯示“peach”,“teach”,和“speech”。如果講話者希望看到單詞“nice”的替換單詞,“ice”和“rice”可被顯示,而對(duì)單詞“wreck”,單詞“heck”和單詞“rack”可被顯示。這種單個(gè)單詞糾正不能夠鑒別單詞“recognizespeech”。這種聽寫編輯部分允許短語糾正,使得因?yàn)殄e(cuò)誤的單詞邊界引起的錯(cuò)誤識(shí)別可以被有效地糾正。當(dāng)講話者選擇一個(gè)要糾正的短語時(shí),聽寫編輯部分選擇并且顯示一列替換的短語。例如,如果講話者選擇“wreckanicebeach”,替換的短語可能是“wreckanicepeach”,“rackaniceleach”和“recognizespeech”。而且,如果講話者選擇“wreckanice”,替換的短語可以是“rackonice”和“recognize”。此外,當(dāng)使用者選擇一個(gè)要糾正的錯(cuò)誤識(shí)別的短語時(shí),聽寫編輯部分假定當(dāng)前的短語與錯(cuò)誤識(shí)別的短語的差別大于一個(gè)單詞。如果在錯(cuò)誤識(shí)別的短語中只有一個(gè)單詞是不正確的,那么講話者將可以簡單地只選擇錯(cuò)誤識(shí)別的單詞而不是整個(gè)錯(cuò)誤識(shí)別的短語。利用這種假定,聽寫編輯部分不顯示只與錯(cuò)誤識(shí)別的短語有一個(gè)單詞不同的替換短語。繼續(xù)講述前面的例子,如果講話者選擇“wreckanicebeach”,則只有替換短語“rackaniceleach”和“recognizespeech”將被顯示。由于替換短語“wreckanicepeach”只有一個(gè)單詞不同,它不被顯示。此外,在一個(gè)實(shí)施例中,聽寫編輯部分假定講話者選擇一個(gè)要糾正的短語時(shí),錯(cuò)誤識(shí)別是由于不正確的鑒別單詞界限造成的。具體說,如果短語能夠通過選擇一個(gè)顯示的替換單詞來糾正,講話者則將選擇這些替換的單詞。結(jié)果,聽寫編輯部分將不顯示可以從替換表中糾正具體的單詞來糾正的任何替換短語。例如,如果單詞“rack”,“an”,“ice”,和“l(fā)each”是對(duì)應(yīng)的錯(cuò)誤識(shí)別的單詞的替換單詞的話,聽寫編輯部分將不顯示短語“rackaniceleach”。附圖4A是最佳實(shí)施例的計(jì)算機(jī)系統(tǒng)的方框圖。計(jì)算機(jī)系統(tǒng)400包括一個(gè)存儲(chǔ)器401,中央處理單元402,輸出輸入接口單元403,存儲(chǔ)裝置404,顯示裝置405,鍵盤406,鼠標(biāo)407,以及麥克風(fēng)408。存儲(chǔ)器包括一個(gè)計(jì)算機(jī)語音識(shí)別系統(tǒng),該系統(tǒng)包括一個(gè)模型部分408,一個(gè)識(shí)別部分409,一個(gè)聽寫編輯部分410并且包含一個(gè)應(yīng)用程序411。模型部分包括單詞表中的各種單詞的模型發(fā)音。識(shí)別部分接收講話發(fā)音并訪問模型部分以便產(chǎn)生識(shí)別的單詞表。聽寫編輯部分接受識(shí)別的單詞表,并顯示識(shí)別的單詞。識(shí)別部分,聽寫編輯部分,應(yīng)用程序可以各種方式互聯(lián)。附圖4B-4C是顯示識(shí)別部分,聽寫編輯部分,和應(yīng)用程序之間各種互連的方框圖。在附圖4B中,識(shí)別部分與聽寫編輯部分的編程接口(API)相連,它反過來與應(yīng)用程序的編程接口API相連。在附圖4C中,識(shí)別部分與聽寫編輯部分和應(yīng)用程序提供的應(yīng)用程序編程接口API相連。另外,應(yīng)用程序也可以與識(shí)別部分和聽寫編輯部分提供的API相連。附圖5A是具有可調(diào)整大小的糾正窗口的計(jì)算機(jī)語音識(shí)別系統(tǒng)的流程圖。通過調(diào)整糾正窗口的大小,講話者可以從識(shí)別的單詞表中指示應(yīng)該被顯示的單詞的數(shù)目。在步驟5A01-5A10中,計(jì)算機(jī)語音識(shí)別系統(tǒng)接收單詞的發(fā)音,顯示識(shí)別的單詞,允許講話者糾正該單詞并且循環(huán)進(jìn)行。在步驟5A01中,如果講話者繼續(xù)進(jìn)行聽寫,則系統(tǒng)在步驟5A02繼續(xù),否則聽寫完成。在步驟5A02中,系統(tǒng)輸入來自講話者的下一個(gè)發(fā)音。在步驟5A03,系統(tǒng)使得識(shí)別部分識(shí)別所發(fā)出的發(fā)音。識(shí)別部分給出具有在單詞表中對(duì)應(yīng)于講話發(fā)音的每個(gè)單詞的多大可能性的識(shí)別的單詞表。在步驟5A04,系統(tǒng)選擇并且顯示在識(shí)別的單詞表中的具有最高可能性的單詞。在步驟5A05-5A10中,系統(tǒng)循環(huán)允許講話者糾正被顯示的單詞。在步驟5A05中,如果講話者要糾正被顯示的單詞,則系統(tǒng)在步驟5A06繼續(xù),否則系統(tǒng)返回到步驟5A01繼續(xù)進(jìn)行聽寫。在步驟5A06,系統(tǒng)確定糾正窗口的當(dāng)前大小。在步驟5A07,系統(tǒng)根據(jù)窗口當(dāng)前的大小確定可以適合糾正窗口的單詞的個(gè)數(shù)。在步驟5A08,系統(tǒng)從識(shí)別的單詞表中選擇具有最高可能性的單詞并在糾正窗口中顯示這些單詞。在一個(gè)實(shí)施例中,系統(tǒng)在顯示這些單詞之前按字母次序?qū)@些選擇的單詞排隊(duì)。在步驟5A09中,系統(tǒng)接受來自講話者的正確的單詞。在步驟5A10,系統(tǒng)利用正確的單詞替換被顯示單詞并返回到步驟5A05。附圖5B是用于糾正窗口的窗口程序的流程圖。窗口程序接受并且控制指向糾正窗口的所有的事件(即,消息)的處理。在步驟5B01中,如果接收的消息指示窗口正在被調(diào)整大小,則程序在步驟5B02繼續(xù),否則程序繼續(xù)進(jìn)行其他消息的正常處理。在步驟5B02,程序存儲(chǔ)糾正窗口的新的大小。此外,程序可以指示,計(jì)算機(jī)語音識(shí)別系統(tǒng)應(yīng)該重新計(jì)算適合于糾正窗口的單詞的數(shù)目,再次顯示具有這些數(shù)目的單詞的糾正窗口。附圖6是計(jì)算機(jī)語音識(shí)別系統(tǒng)的可調(diào)節(jié)的聽寫窗口處理的流程圖??烧{(diào)節(jié)的聽寫窗口允許講話者規(guī)定聽寫窗口可以容納的語音的數(shù)量。講話者然后可以使用聽寫編輯部分的糾正設(shè)施糾正上次講話的語音的數(shù)量。在步驟601,系統(tǒng)顯示聽寫窗口。在步驟602-609,系統(tǒng)循環(huán)處理每個(gè)語音單元(例如,一句或一段),當(dāng)一個(gè)單元被說出時(shí),將該單元送到一個(gè)應(yīng)用程序。當(dāng)聽寫窗口被調(diào)整大小時(shí),語音單元也可以是一行單詞。在步驟602,如果接收到語音單元的結(jié)尾,那么系統(tǒng)在步驟610繼續(xù),否則系統(tǒng)在步驟603繼續(xù)。在步驟610,系統(tǒng)向應(yīng)用程序發(fā)送語音單元并在步驟603繼續(xù)。在步驟603,講話者指示聽寫完成,然后系統(tǒng)結(jié)束,否則系統(tǒng)在步驟604繼續(xù)。在步驟604,系統(tǒng)輸入來自講話者的講話發(fā)音。在步驟605,系統(tǒng)使得識(shí)別部分識(shí)別講話發(fā)音并給出識(shí)別的單詞表。在步驟606,系統(tǒng)保存識(shí)別的單詞表并供以后糾正使用。在步驟607,系統(tǒng)選擇并顯示識(shí)別的單詞表中的具有最高可能性的單詞。在步驟608,如果講話者指示進(jìn)入糾正模式,則系統(tǒng)在步驟609繼續(xù),否則系統(tǒng)返回到步驟602確定是否語音單元的結(jié)尾已經(jīng)到達(dá)。在步驟609,系統(tǒng)允許講話者糾正聽寫窗口內(nèi)的任何單詞。當(dāng)講話者請(qǐng)求時(shí),系統(tǒng)顯示具有保存的識(shí)別單詞表中的單詞糾正窗口。然后系統(tǒng)返回到步驟602輸入下一個(gè)發(fā)音。附圖7是實(shí)現(xiàn)單詞糾正類比器的應(yīng)用程序或者聽寫編輯部分的窗口程序的流程圖。當(dāng)在聽寫模式時(shí),該部分改變編輯習(xí)慣成為以單詞為基礎(chǔ),而不是以字符為基礎(chǔ)。在步驟701-705,程序確定指哪一種消息被接收到。在步驟701,如果一個(gè)聽寫啟動(dòng)消息被接收到,程序在步驟701A繼續(xù),否則程序在步驟702繼續(xù)。在步驟701A,程序?qū)⒛J皆O(shè)定為聽寫模式并且返回。在步驟702,如果消息是聽寫不能執(zhí)行消息,則程序在步驟702A繼續(xù),否則程序在步驟703繼續(xù)。在步驟702A,程序?qū)⒛J皆O(shè)定為數(shù)據(jù)輸入是通過鍵盤而不是通過聽寫并且返回。在步驟703,如果消息是接收字符消息,則程序在步驟703A繼續(xù),否則,程序在步驟704繼續(xù)。在步驟703A,程序顯示接收的字符。字符可以或者通過鍵盤輸入或者作為識(shí)別的單詞字符中的一個(gè)被接收到。在步驟704,如果消息是退格消息,則程序在步驟704A繼續(xù),否則,步驟在705繼續(xù)。在步驟704A,如果當(dāng)前模式是聽寫模式,則程序在步驟704C繼續(xù),否則程序在步驟704B繼續(xù)。在步驟704C,程序從當(dāng)前的插入點(diǎn)后退一個(gè)單詞。后退一個(gè)單詞刪除了插入點(diǎn)左側(cè)的單詞并且返回。在步驟704B,程序執(zhí)行正常的一個(gè)字符的后退并且返回。在步驟705,如果消息為鼠標(biāo)單擊消息,則在程序在步驟705A繼續(xù),否則程序繼續(xù)進(jìn)行正常的處理。在步驟705A,如果當(dāng)前模式為聽寫,則程序在步驟705C繼續(xù),否則,在步驟705B繼續(xù)。在步驟705C,如果是在一個(gè)單詞內(nèi)單擊,則程序選擇整個(gè)單詞。否則,程序在單詞之間設(shè)置插入點(diǎn)并返回。在步驟705B,程序正常地設(shè)置插入點(diǎn)并返回。附圖8是從進(jìn)一步的識(shí)別當(dāng)中消除了錯(cuò)誤識(shí)別的單詞的聽寫編輯部分的流程圖。當(dāng)講話者講話糾正一個(gè)錯(cuò)誤識(shí)別的單詞時(shí),聽寫編輯部分進(jìn)行檢測(cè)并防止被錯(cuò)誤識(shí)別的單詞被再次識(shí)別為重新講話的發(fā)音。在步驟801,如果聽寫完成,則該部分結(jié)束,否則該部分在步驟803繼續(xù)。在步驟803,聽寫編輯部分從聽寫部分接收一個(gè)識(shí)別的單詞表。在步驟804,如果重新講話的發(fā)音的目的是用于糾正一個(gè)錯(cuò)誤識(shí)別的單詞,則該部分在步驟805繼續(xù),否則該部分在步驟806繼續(xù)。在步驟805,該部分選擇除從識(shí)別的單詞表中被糾正單詞以外的一個(gè)單詞并且在步驟807繼續(xù)。在步驟806,該部分從識(shí)別的單詞表中選擇最有可能性的單詞。在步驟807,該部分顯示選擇的單詞。在步驟808,如果講話者指示進(jìn)入糾正模式,則該部分在步驟809繼續(xù),否則該部分返回到步驟801輸入另一個(gè)發(fā)音。在步驟809,該部分接收用于一個(gè)顯示的單詞的糾正。在步驟810,如果糾正是通過鍵盤輸入的,則該部分在步驟811繼續(xù),否則該部分返回到步驟801選擇下一個(gè)輸入的發(fā)音。在步驟811,如果所打的詞已經(jīng)在單詞表中,則該部分在步驟813繼續(xù),否則該部分在步驟812繼續(xù)。在步驟812,該部分將所打的單詞加到單詞表中。在步驟813,該部分針對(duì)打入的單詞訓(xùn)練識(shí)別系統(tǒng)并返回到步驟801輸入下一個(gè)發(fā)音。附圖9是自動(dòng)訓(xùn)練識(shí)別程序的聽寫編輯部分的流程圖。聽寫編輯部分收集被錯(cuò)誤識(shí)別的發(fā)音以及正確的單詞和短語。聽寫編輯部分然后指示識(shí)別部分訓(xùn)練識(shí)別程序,將錯(cuò)誤識(shí)別的發(fā)音識(shí)別成為正確的單詞和者短語。這種訓(xùn)練可以在每當(dāng)錯(cuò)誤識(shí)別的發(fā)音被糾正時(shí)進(jìn)行或者將信息存儲(chǔ)起來在以后進(jìn)行訓(xùn)練。在步驟901-903,該部分收集錯(cuò)誤識(shí)別的發(fā)音以及正確的單詞和短語。這種信息可以在該部分檢測(cè)到講話者已經(jīng)糾正了一個(gè)單詞或者短語時(shí)被收集。在步驟903,該部分確定是否識(shí)別器應(yīng)該被訓(xùn)練。這種訓(xùn)練可以在計(jì)算機(jī)系統(tǒng)空閑時(shí)進(jìn)行或者當(dāng)識(shí)別準(zhǔn)確率不能接受時(shí)進(jìn)行。在步驟904,該部分針對(duì)收集的發(fā)音訓(xùn)練識(shí)別器。盡管本發(fā)明是針對(duì)最佳實(shí)施例進(jìn)行描述的,但是本發(fā)明并不限于該實(shí)施例。在本發(fā)明精神范圍之內(nèi)的各種修改對(duì)于本領(lǐng)域的技術(shù)人員來說將是顯而易見的。本發(fā)明的范圍將由后面的權(quán)利要求書所限定。權(quán)利要求1.一種在聽寫編輯系統(tǒng)中,在向應(yīng)用程序發(fā)送之前用于緩存識(shí)別的單詞的方法,該方法包括接收來自講話者的語音數(shù)量的指示;接收來自講話者的發(fā)音;識(shí)別接收的發(fā)音,作為識(shí)別的單詞;在聽寫窗口中顯示識(shí)別的單詞;響應(yīng)來自講話者糾正一個(gè)顯示的單詞的請(qǐng)求,為要糾正的單詞顯示替換單詞表;以及利用單詞表中的正確的單詞替換要糾正的單詞;以及當(dāng)指示數(shù)量的語音被識(shí)別并顯示時(shí),向應(yīng)用程序系統(tǒng)轉(zhuǎn)移在聽寫窗口中顯示的單詞。2.根據(jù)權(quán)利要求1的方法,其中語音的數(shù)量被指示為一句話。3.根據(jù)權(quán)利要求1的方法,其中語音的數(shù)量被指示為一個(gè)短語。4.根據(jù)權(quán)利要求1的方法,其中語音的數(shù)量是通過調(diào)整聽寫窗口的大小來指示的。5.根據(jù)權(quán)利要求1的方法,其中的識(shí)別步驟利用連續(xù)語音識(shí)別。6.根據(jù)權(quán)利要求1的方法,其中的識(shí)別步驟利用離散語音識(shí)別。7.根據(jù)權(quán)利要求1的方法,其中的應(yīng)用程序?yàn)樽痔幚砥鳌?.一種在計(jì)算機(jī)系統(tǒng)中,用于顯示從聽寫編輯系統(tǒng)向處理系統(tǒng)傳輸單詞,使使用者可以糾正任何錯(cuò)誤識(shí)別的單詞的方法,該方法包括從使用者接收識(shí)別的單詞的數(shù)量的指示;接收單詞的表達(dá);識(shí)別接收的所述的表達(dá)為識(shí)別的單詞;顯示識(shí)別的單詞;糾正使用者指示的被顯示的單詞,以及當(dāng)指示的數(shù)量的識(shí)別的單詞被識(shí)別和顯示時(shí),向處理系統(tǒng)傳送某些顯示的單詞。9.根據(jù)權(quán)利要求8的方法,其中接收的表達(dá)為講話發(fā)音。10.根據(jù)權(quán)利要求8的方法,識(shí)別單詞的數(shù)量被指示為一句話。11.根據(jù)權(quán)利要求8的方法,其中識(shí)別的單詞的數(shù)量被指示為一段話。12.根據(jù)權(quán)利要求8的方法,其中識(shí)別的單詞的數(shù)量是通過調(diào)整顯示單詞的窗口的大小來指示的。13.根據(jù)權(quán)利要求8的方法,其中識(shí)別步驟利用了連續(xù)語音識(shí)別。14.根據(jù)權(quán)利要求8的方法,其中識(shí)別步驟利用了離散語音識(shí)別。15.一種計(jì)算機(jī)系統(tǒng),用于從聽寫編輯系統(tǒng)向處理系統(tǒng)延遲傳輸單詞,使使用者可以通過該聽寫編輯系統(tǒng)糾正任何錯(cuò)誤識(shí)別的單詞,該系統(tǒng)包括從使用者接收識(shí)別的單詞的數(shù)量的指示的裝置;接收單詞的表達(dá)的裝置;識(shí)別接收的所述的表達(dá)為識(shí)別的單詞的裝置;顯示識(shí)別的單詞的裝置;糾正使用者指示的被顯示的單詞的裝置,以及當(dāng)指示的數(shù)量的單詞被識(shí)別和顯示時(shí),用于將某些顯示的單詞轉(zhuǎn)移到處理系統(tǒng)的裝置。16.根據(jù)權(quán)利要求15的計(jì)算機(jī)系統(tǒng),其中接收的表達(dá)為講話發(fā)音。17.根據(jù)權(quán)利要求15的計(jì)算機(jī)系統(tǒng),其中識(shí)別單詞的數(shù)量被指示為一句話。18.根據(jù)權(quán)利要求15的計(jì)算機(jī)系統(tǒng),其中識(shí)別的單詞的數(shù)量被指示為一段話。19.根據(jù)權(quán)利要求15的計(jì)算機(jī)系統(tǒng),其中識(shí)別的單詞的數(shù)量是通過調(diào)整顯示單詞的窗口的大小來指示的。20.一種計(jì)算機(jī)可閱讀介質(zhì),包括用于使計(jì)算機(jī)系統(tǒng)延遲從聽寫編輯系統(tǒng)向處理系統(tǒng)傳輸單詞的指令,使得使用者可以糾正任何錯(cuò)誤識(shí)別的單詞,包括接收來自使用者的識(shí)別的單詞的數(shù)量的指示;從使用者接收講話發(fā)音;識(shí)別接收的講話發(fā)音為識(shí)別的單詞;顯示識(shí)別的單詞;糾正使用者指示的顯示的單詞;以及當(dāng)指示的數(shù)量的識(shí)別的單詞被識(shí)別和顯示時(shí),向處理系統(tǒng)轉(zhuǎn)移糾正的顯示的單詞的一部分。21.根據(jù)權(quán)利要求20的計(jì)算機(jī)可閱讀介質(zhì),其中識(shí)別的單詞的數(shù)量被指示為一句話。22.根據(jù)權(quán)利要求20的計(jì)算機(jī)可閱讀介質(zhì),其中識(shí)別的單詞的數(shù)量被指示為一段話。23.根據(jù)權(quán)利要求20的計(jì)算機(jī)可閱讀介質(zhì),其中識(shí)別的單詞的數(shù)量是通過調(diào)整顯示單詞的窗口的大小來指示的。24.根據(jù)權(quán)利要求20的計(jì)算機(jī)可閱讀介質(zhì),其中的識(shí)別步驟利用連續(xù)語音識(shí)別。25.根據(jù)權(quán)利要求20的計(jì)算機(jī)可閱讀介質(zhì),其中的識(shí)別步驟利用離散語音識(shí)別。全文摘要一種用于編輯被錯(cuò)誤識(shí)別的單詞的方法和系統(tǒng)。通過調(diào)整糾正窗口的大小,該系統(tǒng)允許講話者規(guī)定在糾正窗口中顯示的替換單詞的數(shù)目。該系統(tǒng)在糾正窗口中以字母次序顯示單詞。當(dāng)被錯(cuò)誤識(shí)別的單詞被再次說出時(shí),該系統(tǒng)避免了重新講話的發(fā)音被再次識(shí)別為同一個(gè)錯(cuò)誤識(shí)別的單詞的可能性。當(dāng)與一個(gè)字處理器一起工作時(shí),該系統(tǒng)允許講話者規(guī)定在被轉(zhuǎn)送到字處理器之前被緩存的語音的數(shù)量。文檔編號(hào)G10L15/28GK1183608SQ9712124公開日1998年6月3日申請(qǐng)日期1997年10月30日優(yōu)先權(quán)日1996年10月31日發(fā)明者邁克爾·J·羅扎克申請(qǐng)人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
邵武市| 博白县| 平顶山市| 从化市| 黄骅市| 稷山县| 武城县| 铜陵市| 通州市| 司法| 淮南市| 兰溪市| 阿拉善盟| 安新县| 淮安市| 景宁| 天水市| 东丰县| 驻马店市| 阿荣旗| 宜黄县| 彩票| 论坛| 莎车县| 滦平县| 金堂县| 苗栗县| 陆川县| 赤峰市| 玛纳斯县| 平原县| 岳普湖县| 铁岭市| 庄浪县| 英德市| 大安市| 青龙| 高阳县| 大丰市| 衡阳市| 巴林左旗|