两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

信息處理方法和信息處理設(shè)備的制作方法

文檔序號(hào):6560699閱讀:177來(lái)源:國(guó)知局
專利名稱:信息處理方法和信息處理設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種對(duì)諸如文字或圖形的輸入信息執(zhí)行處理的信息處理方法。具體地說(shuō),本發(fā)明涉及一種用于提高輸入文字、圖形等的識(shí)別率的技術(shù)。
背景技術(shù)
可以將手寫文字或圖形輸入到具有能夠接收通過(guò)筆或輸入筆的直接輸入的屏幕的設(shè)備。這樣的設(shè)備的示例包括觸摸屏、電子白板、具有觸摸屏的PDA、以及平板PC。通過(guò)該設(shè)備,可以如同在紙張或白板上繪畫手寫文字或圖形一樣實(shí)現(xiàn)自然的輸入。如果與手寫文字識(shí)別或圖形識(shí)別相關(guān)的技術(shù)與該設(shè)備集成在一起,則可以將通過(guò)手寫而生成的筆劃信息轉(zhuǎn)換成文本等形式的數(shù)字?jǐn)?shù)據(jù),由此有可能將該數(shù)據(jù)用于各種后續(xù)處理。
同時(shí),隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展和硬件性能的提高,變得有可能不僅向PC或工作站而且向各種計(jì)算機(jī)控制設(shè)備輸入語(yǔ)音。
在這樣的情形下,代替單獨(dú)采用筆輸入或者單獨(dú)采用語(yǔ)音輸入,提出了用于通過(guò)組合使用筆和語(yǔ)音經(jīng)由多個(gè)模式輸入來(lái)提高操作效率的技術(shù)。在該技術(shù)領(lǐng)域內(nèi),術(shù)語(yǔ)多模式有時(shí)用來(lái)表示使用兩個(gè)或更多個(gè)不同模式的輸入。日本專利公開No.06-085983提出了這樣一種系統(tǒng),其中通過(guò)以手寫方式用筆繪畫圖形并且同時(shí)念出圖形類型,對(duì)手寫圖形進(jìn)行整形并且顯示。
手寫輸入和語(yǔ)音輸入都具有實(shí)現(xiàn)直觀輸入的優(yōu)點(diǎn),但是具有“誤識(shí)”的缺點(diǎn)。例如,將考慮這樣的情況,其中用戶通過(guò)手寫來(lái)繪畫圖形,并且對(duì)該圖形應(yīng)用圖形識(shí)別處理,以便進(jìn)行自動(dòng)整形。即使當(dāng)用戶意欲繪畫“四邊形”時(shí),該圖形可能由于誤識(shí)而被識(shí)別為“圓形”,并且被整形為圓形以便顯示。與此相對(duì),根據(jù)日本專利公開No.06-085983,當(dāng)用戶繪畫圖形同時(shí)念出圖形類型時(shí),在語(yǔ)音上識(shí)別該發(fā)音,以識(shí)別圖形類型,從而根據(jù)所識(shí)別的圖形類型對(duì)輸入圖形進(jìn)行整形。然而,語(yǔ)音識(shí)別也遭受誤識(shí)。即使當(dāng)用戶念出“四邊形”時(shí),如果該發(fā)音被識(shí)別為“三角形”,則將圖形整形為三角形,并且顯示,從而執(zhí)行用戶不意欲的錯(cuò)誤整形。也就是,存在由于誤識(shí)而不能實(shí)現(xiàn)系統(tǒng)目的的問(wèn)題。
在本例中,為了描述起見,采取了使用圖形識(shí)別和語(yǔ)音識(shí)別的特定示例,但是諸如文字識(shí)別、面部識(shí)別、以及姿勢(shì)識(shí)別的模式識(shí)別也具有相同的問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明是鑒于上述問(wèn)題而提出的,以便提高諸如輸入文字或圖形的信息的識(shí)別準(zhǔn)確度。
為了解決上述問(wèn)題,根據(jù)本發(fā)明的一方面,提供了一種信息處理設(shè)備,包括圖形識(shí)別裝置,被適配成通過(guò)對(duì)給定目標(biāo)執(zhí)行的圖形識(shí)別來(lái)獲得候選圖形;語(yǔ)音識(shí)別裝置,被適配成通過(guò)對(duì)輸入語(yǔ)音信息執(zhí)行的語(yǔ)音識(shí)別來(lái)獲得候選圖形;以及選擇裝置,被適配成基于由圖形識(shí)別裝置獲得的候選圖形以及由語(yǔ)音識(shí)別裝置獲得的候選圖形,選擇圖形。
另外,為了解決上述問(wèn)題,根據(jù)本發(fā)明的另一方面,提供了一種信息處理設(shè)備,包括文字識(shí)別裝置,被適配成通過(guò)對(duì)給定目標(biāo)執(zhí)行的文字識(shí)別來(lái)獲得候選文字;語(yǔ)音識(shí)別裝置,被適配成通過(guò)對(duì)輸入語(yǔ)音信息執(zhí)行的語(yǔ)音識(shí)別來(lái)獲得候選文字讀音;以及選擇裝置,被適配成基于由文字識(shí)別裝置獲得的候選文字以及由語(yǔ)音識(shí)別裝置獲得的候選文字,選擇文字。
另外,為了解決上述問(wèn)題,根據(jù)本發(fā)明的另一方面,提供了一種信息處理方法,包括圖形識(shí)別結(jié)果獲得步驟,獲得作為對(duì)給定目標(biāo)執(zhí)行圖形識(shí)別的結(jié)果的候選圖形;語(yǔ)音識(shí)別結(jié)果獲得步驟,獲得作為在語(yǔ)音上識(shí)別語(yǔ)音信息的結(jié)果的候選圖形;以及選擇步驟,基于在圖形識(shí)別結(jié)果獲得步驟中獲得的候選圖形以及在語(yǔ)音識(shí)別結(jié)果獲得步驟中獲得的候選圖形,選擇圖形。
另外,為了解決上述問(wèn)題,根據(jù)本發(fā)明的另一方面,提供了一種信息處理方法,包括文字識(shí)別結(jié)果獲得步驟,獲得作為對(duì)給定目標(biāo)執(zhí)行文字識(shí)別的結(jié)果的候選文字;語(yǔ)音識(shí)別結(jié)果獲得步驟,獲得作為在語(yǔ)音上識(shí)別語(yǔ)音信息的結(jié)果的候選文字讀音;以及選擇步驟,基于在文字識(shí)別結(jié)果獲得步驟中獲得的候選文字以及在語(yǔ)音識(shí)別結(jié)果獲得步驟中獲得的候選文字讀音,選擇文字。
根據(jù)下面參照附圖對(duì)示例性實(shí)施例的描述,本發(fā)明的其它特征將會(huì)變得清楚。


圖1是根據(jù)本發(fā)明第一實(shí)施例的信息處理設(shè)備中的輸入處理的框圖。
圖2是根據(jù)第一實(shí)施例的信息處理設(shè)備的硬件配置圖。
圖3是示出根據(jù)第一實(shí)施例的圖形識(shí)別單元的操作的流程圖。
圖4是示出根據(jù)第一實(shí)施例的語(yǔ)音識(shí)別單元的操作的流程圖。
圖5是示出根據(jù)第一實(shí)施例的綜合評(píng)價(jià)單元的操作的流程圖。
圖6示出了根據(jù)第一實(shí)施例的、用戶在觸摸屏上通過(guò)手寫來(lái)繪畫圖形同時(shí)進(jìn)行語(yǔ)音輸入的情況。
圖7示出了根據(jù)第一實(shí)施例的、來(lái)自圖形識(shí)別單元的識(shí)別結(jié)果的示例。
圖8示出了根據(jù)第一實(shí)施例的、來(lái)自語(yǔ)音識(shí)別單元的識(shí)別結(jié)果的示例。
圖9示出了根據(jù)第一實(shí)施例的、由綜合評(píng)價(jià)單元做出的綜合評(píng)價(jià)的示例。
圖10是示出根據(jù)第一實(shí)施例的、應(yīng)當(dāng)包括與語(yǔ)音輸入相對(duì)應(yīng)的筆輸入的時(shí)間間隔的圖。
圖11是示出根據(jù)第一實(shí)施例的綜合評(píng)價(jià)單元和生成單元的操作的流程圖。
圖12示出了根據(jù)第一實(shí)施例的、由綜合評(píng)價(jià)單元得到的特征點(diǎn)的示例。
圖13示出了如何顯示根據(jù)第一實(shí)施例基于輸入而生成的圖形。
圖14是根據(jù)第二實(shí)施例的信息處理設(shè)備中的輸入處理的框圖。
圖15是示出根據(jù)第二實(shí)施例的文字識(shí)別單元的操作的流程圖。
圖16是根據(jù)第四實(shí)施例的圖形識(shí)別處理的流程圖。
圖17是示出根據(jù)第二實(shí)施例的綜合評(píng)價(jià)單元的操作的流程圖。
圖18示出了根據(jù)第二實(shí)施例的、用戶在觸摸屏上通過(guò)手寫來(lái)繪畫文字同時(shí)進(jìn)行語(yǔ)音輸入的情況。
圖19是示出根據(jù)第二實(shí)施例的文字識(shí)別單元的操作的流程圖。
圖20是示出根據(jù)第二實(shí)施例的語(yǔ)音識(shí)別單元的操作的圖。
圖21示出了根據(jù)第二實(shí)施例的、由綜合評(píng)價(jià)單元做出的綜合評(píng)價(jià)的示例。
圖22示出了以任意字體顯示根據(jù)第二實(shí)施例基于輸入而識(shí)別的文字的情況。
圖23示出了根據(jù)第四實(shí)施例的、用戶在觸摸屏上通過(guò)手寫來(lái)繪畫文字同時(shí)進(jìn)行語(yǔ)音輸入的情況。
圖24是根據(jù)第五實(shí)施例的多功能設(shè)備的硬件配置圖。
圖25是根據(jù)第五實(shí)施例的圖形生成處理的流程圖。
具體實(shí)施例方式
以下參照附圖僅僅作為示例來(lái)描述本發(fā)明的優(yōu)選實(shí)施例。
第一實(shí)施例在本實(shí)施例中,將描述這樣的示例,其中用筆繪畫圖形同時(shí)念出圖形類型,以對(duì)輸入圖形進(jìn)行整形,以顯示在具有大觸摸屏的信息處理設(shè)備上,其中該信息處理設(shè)備可以在諸如會(huì)議的情形中使用。
圖1是根據(jù)第一實(shí)施例的信息處理設(shè)備中的輸入處理的框圖。在該圖中,標(biāo)號(hào)101表示語(yǔ)音信息接收單元,其用于接收語(yǔ)音信息。標(biāo)號(hào)102表示語(yǔ)音識(shí)別單元,其用于在語(yǔ)音上識(shí)別所接收的語(yǔ)音信息。標(biāo)號(hào)103表示筆輸入信息接收單元,其用于接收筆輸入信息。標(biāo)號(hào)104表示圖形識(shí)別單元,其用于基于所接收的坐標(biāo)信息而識(shí)別圖形。標(biāo)號(hào)105表示綜合評(píng)價(jià)單元,其用于通過(guò)語(yǔ)音識(shí)別結(jié)果和圖形識(shí)別結(jié)果的綜合評(píng)價(jià)來(lái)選擇圖形。標(biāo)號(hào)106表示特征量提取單元,其用于從由筆輸入信息接收單元103接收的筆輸入信息提取特征量。標(biāo)號(hào)107表示生成單元,其用于基于由特征量提取單元106提取的特征量,生成由綜合評(píng)價(jià)單元選擇的圖形。標(biāo)號(hào)108表示顯示控制單元,其用于執(zhí)行控制,以便顯示由生成單元107生成的圖形等。
圖2是根據(jù)本實(shí)施例的信息處理設(shè)備的硬件配置圖。在該圖中,標(biāo)號(hào)201表示CPU,其用于根據(jù)下面將要描述的、用于執(zhí)行信息處理設(shè)備的操作過(guò)程的程序來(lái)控制輸入處理。標(biāo)號(hào)202表示RAM,其用于提供上述程序的操作所需的存儲(chǔ)區(qū)域。標(biāo)號(hào)203表示ROM,其用于保存程序等。標(biāo)號(hào)204表示觸摸屏,可以執(zhí)行通過(guò)筆和手指的輸入。筆輸入信息接收單元103接收在觸摸屏204上輸入的筆輸入信息。另外,顯示控制單元108控制觸摸屏204顯示上述圖形等。標(biāo)號(hào)205表示硬盤驅(qū)動(dòng)器(HDD),其用于保存程序等。在本實(shí)施例中要執(zhí)行的程序可以是保存在ROM 203中的程序、或者保存在HDD 205中的程序。另外,該程序可以被分割并且保存在ROM 203和HDD 205中,并且通過(guò)引用這些程序來(lái)執(zhí)行。標(biāo)號(hào)206表示A/D轉(zhuǎn)換器,其用于將輸入語(yǔ)音轉(zhuǎn)換成數(shù)字信號(hào)。標(biāo)號(hào)207表示麥克風(fēng),其用于接收語(yǔ)音。標(biāo)號(hào)208表示總線。
在本實(shí)施例中,如圖6所示,將考慮這樣的情況,其中,用戶使用筆602在觸摸屏601上繪畫手寫筆劃603,同時(shí)念出“四邊形”。下面將參照流程圖來(lái)描述具有上述配置的信息處理設(shè)備的操作。
圖3是示出筆輸入信息接收單元103和圖形識(shí)別單元104的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
首先,檢查是否存在從用戶到觸摸屏204的筆輸入(S301)。當(dāng)存在筆輸入時(shí),由筆輸入信息接收單元103接收筆輸入信息,并且圖形識(shí)別單元104基于所接收的筆輸入信息而識(shí)別圖形(S302)。將識(shí)別結(jié)果推入到在圖中未示出的圖形識(shí)別結(jié)果棧中(S303)。圖形識(shí)別結(jié)果棧存儲(chǔ)在RAM 202或HDD 205中。圖7示出了推入到圖形識(shí)別結(jié)果棧中的圖形識(shí)別結(jié)果的示例。以這種方式,圖形識(shí)別結(jié)果包括筆輸入開始和結(jié)束時(shí)間戳(701、702)、以及用置信得分表示圖形類型的N個(gè)最佳候選者703(在本例中,N=3)。置信得分可以通過(guò)公知方法來(lái)得出??梢允褂萌魏畏椒?,只要該方法能夠得出與置信得分相同的概念即可,例如不相似度。
圖4是示出語(yǔ)音信息接收單元101和語(yǔ)音識(shí)別單元102的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
首先,語(yǔ)音信息接收單元檢查是否存在來(lái)自用戶的語(yǔ)音輸入(S401)。語(yǔ)言輸入的檢測(cè)是公知技術(shù),并且例如,基于輸入語(yǔ)音功率的幅度等而確定檢測(cè)。當(dāng)存在語(yǔ)音輸入時(shí),接收并且在語(yǔ)音上識(shí)別語(yǔ)音輸入(S402)。此后,將識(shí)別結(jié)果推入到在圖中未示出的語(yǔ)音識(shí)別結(jié)果棧中(S403)。語(yǔ)音識(shí)別結(jié)果棧保存在RAM 202或HDD 205中。圖8示出了推入到語(yǔ)音識(shí)別結(jié)果棧中的語(yǔ)音識(shí)別結(jié)果的示例。以這種方式,語(yǔ)音識(shí)別結(jié)果包括發(fā)音開始和結(jié)束時(shí)間戳(801、802)、以及用置信得分表示圖形類型的N個(gè)最佳候選者803(在本例中,N=3)。語(yǔ)音識(shí)別置信得分可以通過(guò)公知方法來(lái)得出。
圖5是示出綜合評(píng)價(jià)單元105的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
綜合評(píng)價(jià)單元105監(jiān)視圖形識(shí)別結(jié)果棧,以檢查是否有任何圖形識(shí)別結(jié)果保存在該棧中(S501)。當(dāng)保存了圖形識(shí)別結(jié)果時(shí),檢查與該圖形識(shí)別結(jié)果相對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果是否保存在語(yǔ)音識(shí)別結(jié)果棧中(S502)。這里,可以一直監(jiān)視或者定期檢查圖形識(shí)別結(jié)果棧。另外,可以監(jiān)視語(yǔ)音識(shí)別結(jié)果棧,而非圖形識(shí)別結(jié)果棧。在這種情況下,S501和S502的順序顛倒。
首先,例如基于時(shí)間戳而確定語(yǔ)音識(shí)別結(jié)果是否對(duì)應(yīng)于圖形識(shí)別結(jié)果。具體地說(shuō),如圖10所示,如果圖形識(shí)別結(jié)果的筆輸入開始時(shí)間戳701或筆輸入結(jié)束時(shí)間戳702包括在從語(yǔ)音開始時(shí)間之前的T1秒跨越到結(jié)束時(shí)間之后的T2秒的時(shí)間段D內(nèi),則相互關(guān)聯(lián)語(yǔ)音識(shí)別結(jié)果和圖形識(shí)別結(jié)果。在本例中,將在假定圖8的語(yǔ)音識(shí)別結(jié)果對(duì)應(yīng)于圖7的圖形識(shí)別結(jié)果時(shí)給出描述。
當(dāng)在圖形識(shí)別結(jié)果中的一個(gè)或多個(gè)圖形類型和語(yǔ)音識(shí)別結(jié)果中的一個(gè)或多個(gè)圖形類型當(dāng)中找到對(duì)應(yīng)于圖形識(shí)別結(jié)果的語(yǔ)音識(shí)別結(jié)果時(shí),對(duì)匹配圖形類型的置信度進(jìn)行求和。在圖7和8中,對(duì)作為圖形識(shí)別結(jié)果的橢圓形的置信得分60和作為語(yǔ)音識(shí)別結(jié)果的橢圓形的置信得分10進(jìn)行求和,并且獲得70。三角形和四邊形的置信度分別是90和110。然后,選擇具有求和置信得分的最大值的圖形類型(S503)。在本例中,選擇具有最大求和置信得分的四邊形。應(yīng)當(dāng)注意,在S502中,如果不存在對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果,則在圖形識(shí)別結(jié)果中的一個(gè)或多個(gè)圖形類型當(dāng)中選擇具有最大置信得分的圖形(S504)。如同以上述方式一樣,完成用于在圖形識(shí)別結(jié)果中的一個(gè)或多個(gè)圖形類型當(dāng)中選擇一個(gè)圖形的處理,并且全部清除圖形識(shí)別結(jié)果棧和語(yǔ)音識(shí)別結(jié)果棧(S505)。作為上述處理的結(jié)果,如圖9所示基于綜合評(píng)價(jià)結(jié)果而將圖形類型確定為“四邊形”。
圖11是示出特征量提取單元106、生成單元107和顯示控制單元108的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
根據(jù)由綜合評(píng)價(jià)單元105確定的圖形類型,在本例中提取輸入筆劃的特征點(diǎn)。在四邊形的情況下,找出圖12的四個(gè)頂點(diǎn)1201到1204(S1101)。用于找出特征點(diǎn)的算法是公知技術(shù)。根據(jù)特征點(diǎn),如圖13的標(biāo)號(hào)1301所示生成圖形(S1102),并且顯示該圖形(S1103)。在顯示的時(shí)候,關(guān)閉原始筆劃顯示。整形后的圖形存儲(chǔ)在RAM 202和/或HDD 205中。
在上述示例中,根據(jù)從筆輸入筆劃的圖形識(shí)別,識(shí)別結(jié)果的第一候選者是“橢圓形”,其不同于用戶的意圖。另一方面,語(yǔ)音識(shí)別結(jié)果的第一候選者是“三角形”,其也不同于用戶的意圖。然而,這兩個(gè)識(shí)別結(jié)果都經(jīng)受綜合評(píng)價(jià),從而有可能作為“四邊形”整形和顯示該圖形,而符合用戶的意圖。以這種方式,圖形識(shí)別結(jié)果和語(yǔ)音識(shí)別結(jié)果經(jīng)受綜合評(píng)價(jià),從而獲得提高按照用戶意圖的識(shí)別準(zhǔn)確度的效果。
應(yīng)當(dāng)注意,在本實(shí)施例中,已經(jīng)描述了直到圖形生成步驟的過(guò)程,但是僅僅直到圖5的圖形類型選擇處理的過(guò)程就滿足本發(fā)明的要求。
第二實(shí)施例在第二實(shí)施例中,將描述這樣的情況,其中在由信息處理設(shè)備提供的觸摸屏上使用筆繪畫文字,同時(shí)念出文字的讀音,并且整形和顯示輸入文字。圖14是根據(jù)本實(shí)施例的信息處理設(shè)備中的輸入處理的框圖。在該圖中,標(biāo)號(hào)1401表示語(yǔ)音信息接收單元。標(biāo)號(hào)1402表示語(yǔ)音識(shí)別單元。標(biāo)號(hào)1403表示筆輸入信息接收單元。標(biāo)號(hào)1404表示文字識(shí)別單元。標(biāo)號(hào)1405表示綜合評(píng)價(jià)單元。標(biāo)號(hào)1406表示顯示控制單元,其用于執(zhí)行控制,以便顯示由綜合評(píng)價(jià)單元1405輸出的文字等。綜合評(píng)價(jià)單元1407是單漢字字典。標(biāo)號(hào)1408表示語(yǔ)音識(shí)別語(yǔ)法。
根據(jù)第二實(shí)施例的信息處理設(shè)備的硬件配置與圖2的相同。在本實(shí)施例中,將考慮這樣的情況,其中用戶使用筆1802在觸摸屏1801上通過(guò)手寫來(lái)繪畫文字筆劃1803,同時(shí)念出“ai”,如圖18所示。應(yīng)當(dāng)注意,在圖18中,用戶以書寫漢字“藍(lán)”的意圖繪畫文字筆劃。漢字“藍(lán)”具有“ai”的讀音。
圖15是示出筆輸入信息接收單元1403和文字識(shí)別單元1404的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
首先,檢查是否存在從用戶到觸摸屏204的筆輸入(S1501)。當(dāng)存在筆輸入時(shí),筆輸入信息接收單元接收筆輸入信息,然后文字識(shí)別單元104將筆輸入信息識(shí)別為文字(S1502)。將識(shí)別結(jié)果推入到在圖中未示出的文字識(shí)別結(jié)果棧中(S1503)。文字識(shí)別結(jié)果棧保存在RAM 202或HDD 205中。圖19示出了推入到文字識(shí)別結(jié)果棧中的文字識(shí)別結(jié)果的示例。以這種方式,文字識(shí)別結(jié)果包括筆輸入開始和結(jié)束時(shí)間戳(1901、1902)、以及用置信得分表示文字類型的N個(gè)最佳候選者1903(在本例中,N=3)。識(shí)別結(jié)果的每個(gè)文字被提供了讀音(或者在存在多種讀法時(shí),全部讀音)。當(dāng)文字是片假名語(yǔ)音符號(hào)、平假名語(yǔ)音符號(hào)或字母時(shí),從標(biāo)記(notation)獲得該讀音信息,而當(dāng)文字為漢字時(shí),從單漢字字典1407獲得該讀音信息(在諸如“?”和“#”的符號(hào)被視作漢字之一時(shí),單漢字字典可以處理符號(hào))。
語(yǔ)音信息接收單元1401和語(yǔ)音識(shí)別單元1402的操作與圖4中的相同。首先,語(yǔ)音信息接收單元檢查是否存在來(lái)自用戶的語(yǔ)音輸入(S401)。語(yǔ)言輸入的檢測(cè)是公知技術(shù),并且例如,基于輸入語(yǔ)音的幅度等而確定檢測(cè)。當(dāng)存在語(yǔ)音輸入時(shí),接收并且在語(yǔ)音上識(shí)別語(yǔ)音信息(S402)。語(yǔ)音識(shí)別單元1402基于語(yǔ)音識(shí)別語(yǔ)法1408而識(shí)別語(yǔ)音。語(yǔ)音識(shí)別語(yǔ)法1408由無(wú)重疊地收集日語(yǔ)音節(jié)系統(tǒng)中的50個(gè)文字和包括在單漢字字典1407中的所有單漢字的讀音的列表構(gòu)成。因此,語(yǔ)音識(shí)別結(jié)果是日語(yǔ)音節(jié)系統(tǒng)中的50個(gè)文字和包括在單漢字字典1407中的單漢字的讀音當(dāng)中的一個(gè)。然后,將識(shí)別結(jié)果推入到在圖中未示出的語(yǔ)音識(shí)別結(jié)果棧中(S403)。語(yǔ)音識(shí)別結(jié)果棧保存在RAM 202或HDD 205中。圖20示出了推入到語(yǔ)音識(shí)別結(jié)果棧中的語(yǔ)音識(shí)別結(jié)果的示例。以這種方式,語(yǔ)音識(shí)別結(jié)果包括發(fā)音開始和結(jié)束時(shí)間戳(2001、2002)、以及用置信得分表示單漢字讀音的N個(gè)最佳候選者2003(在本例中,N=3)。
圖17是示出綜合評(píng)價(jià)單元1405的操作的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。
綜合評(píng)價(jià)單元1405監(jiān)視文字識(shí)別結(jié)果棧,以檢查是否有任何文字識(shí)別結(jié)果保存在該棧中(S1701)。如果保存了文字識(shí)別結(jié)果,則檢查與該文字識(shí)別結(jié)果相對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果是否保存在語(yǔ)音識(shí)別結(jié)果棧中(S1702)。這里,可以一直監(jiān)視或者可以定期檢查文字識(shí)別結(jié)果棧。另外,可以監(jiān)視語(yǔ)音識(shí)別結(jié)果棧,而非文字識(shí)別結(jié)果棧。首先基于時(shí)間戳而確定是否保存了與文字識(shí)別結(jié)果棧相對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果。該確定方法與第一實(shí)施例1的情況相同。
當(dāng)發(fā)現(xiàn)與文字識(shí)別結(jié)果棧相對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果時(shí),還通過(guò)使用語(yǔ)音識(shí)別結(jié)果來(lái)校正向文字識(shí)別結(jié)果中的一個(gè)或多個(gè)文字類型的每一個(gè)給予的置信得分。以下面方式執(zhí)行置信得分校正。作為文字識(shí)別結(jié)果的第一候選者的“監(jiān)”具有兩種讀法“kan”和“ken”。對(duì)于各個(gè)讀音,計(jì)算語(yǔ)音識(shí)別結(jié)果中的三個(gè)候選讀音“ei”、“sai”和“ai”的相似度。例如,作為“監(jiān)”的讀音的“kan”和語(yǔ)音識(shí)別結(jié)果中的“ei”根本沒(méi)有相互匹配的組成音素,從而相似度是0。因此,如下表達(dá)用“ei”對(duì)“kan”的校正識(shí)別置信得分MC(“kan”|“ei”)。
MC(“kan”|“ei”)=C1(“kan”)+C2(“ei”)/相似度=70+60/0=70其中C1文字識(shí)別置信得分,C2語(yǔ)音識(shí)別置信得分。
在“kan”和“sai”的情況下,在“kan”的三個(gè)音素當(dāng)中,僅僅一個(gè)音素與“sai”中的音素“a”相匹配,從而相似度是1/3=0.33。因此,獲得下面表達(dá)式。
MC(“kan”|“ai”)=70+55/3=88.3以相同的方式,獲得下面表達(dá)式。
MC(“kan”|“sai”)=70+30/3=80在置信度當(dāng)中,采用最大值,因此“kan”的校正識(shí)別置信得分MC(“kan”)是88.3。對(duì)于“監(jiān)”的另一讀音“ken”,類似地獲得校正識(shí)別置信得分MC(“ken”),其為70+60/3=90。文字“監(jiān)”的校正識(shí)別置信得分MC(“監(jiān)”)采用這些置信度當(dāng)中的最大值,并且獲得下面表達(dá)式。
MC(“監(jiān)”)=90以相同的方式,獲得下面表達(dá)式。
MC(“蘭”)=50+55/3=68.3MC(“藍(lán)”)=40+55/1.0=95如同以上述方式一樣獲得校正識(shí)別置信得分,選擇具有最大校正識(shí)別置信得分的文字“藍(lán)”作為最終識(shí)別結(jié)果(S1703)。應(yīng)當(dāng)注意,在S1702中,如果不存在對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果,則在文字識(shí)別結(jié)果中的一個(gè)或多個(gè)文字當(dāng)中選擇具有最大置信得分的文字(S1704)。此后,確定所選文字作為所采用的文字。
如同以上述方式一樣,完成用于在文字識(shí)別結(jié)果中的一個(gè)或多個(gè)文字當(dāng)中選擇一個(gè)文字的處理,并且全部清除文字識(shí)別結(jié)果棧和語(yǔ)音識(shí)別結(jié)果棧(S1705)。作為上述處理的結(jié)果,如圖21所示基于綜合評(píng)價(jià)結(jié)果而將文字確定為“藍(lán)”,并且如圖22所示以任意字體顯示文字“藍(lán)”。所選文字存儲(chǔ)在RAM或HDD中。
在上述示例中,根據(jù)基于筆輸入筆劃的文字識(shí)別,識(shí)別結(jié)果的第一候選者是“監(jiān)”,其不同于用戶的意圖。另一方面,語(yǔ)音識(shí)別結(jié)果的第一候選者是“ei”,其也不同于用戶的意圖。然而,這兩個(gè)識(shí)別結(jié)果都經(jīng)受綜合評(píng)價(jià),由此有可能顯示文字“藍(lán)”而符合用戶的意圖。以這種方式,文字識(shí)別結(jié)果和語(yǔ)音識(shí)別結(jié)果經(jīng)受綜合評(píng)價(jià),從而獲得提高按照用戶意圖的識(shí)別準(zhǔn)確度的效果。
第三實(shí)施例在上述實(shí)施例中,當(dāng)筆輸入時(shí)間戳在輸入語(yǔ)音的輸入時(shí)間段D中時(shí),相互關(guān)聯(lián)語(yǔ)音識(shí)別結(jié)果和圖形識(shí)別結(jié)果或文字識(shí)別結(jié)果,但是本發(fā)明不限于上述方案。對(duì)于不擅長(zhǎng)在書寫時(shí)發(fā)音的用戶,還可以考慮這樣的情況更方便,其中在完成書寫之后進(jìn)行發(fā)音。因此,在本實(shí)施例中,在完成筆輸入之后念出的語(yǔ)音與筆輸入相關(guān)聯(lián)。具體地說(shuō),記錄筆輸入的時(shí)間戳,并且將在該時(shí)間戳所表示的時(shí)間之后輸入的語(yǔ)音與筆輸入相關(guān)聯(lián)。這里,可以提供這樣的限制,其中語(yǔ)音輸入僅僅與完成筆輸入之后的預(yù)定時(shí)間內(nèi)的筆輸入相關(guān)聯(lián)。當(dāng)然,與此相對(duì),可以將在完成語(yǔ)音輸入之后進(jìn)行的筆輸入與語(yǔ)音相關(guān)聯(lián)。
通過(guò)這樣的配置,提供了念出在筆輸入之后輸入的、與文字或圖形相對(duì)應(yīng)的語(yǔ)音的實(shí)施例,以及在發(fā)音之后使用筆輸入對(duì)應(yīng)的圖形或文字的實(shí)施例。
第四實(shí)施例在上述實(shí)施例中,雖未明確表明,已經(jīng)描述了這樣的示例,其中筆輸入和語(yǔ)音輸入每次都經(jīng)受綜合評(píng)價(jià),但是本發(fā)明不限于上述方案??蛇x地,可以重復(fù)執(zhí)行用于使筆輸入經(jīng)受圖形識(shí)別或文字識(shí)別以顯示識(shí)別結(jié)果的處理,并且當(dāng)用戶確定了識(shí)別結(jié)果不正確時(shí),進(jìn)行語(yǔ)音輸入,從而整形圖形或文字。
圖16是這種情況下的處理的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。在本例中描述識(shí)別圖形的示例。
首先,檢查是否存在來(lái)自用戶的筆輸入(S1601)。當(dāng)存在筆輸入時(shí),從筆劃識(shí)別圖形(S1602)。然后,將識(shí)別結(jié)果推入到圖形識(shí)別結(jié)果棧中(S1603)。此后,顯示作為識(shí)別結(jié)果的、具有最大置信得分的圖形(S1604)。此時(shí),用戶確認(rèn)所顯示的圖形。當(dāng)圖形與所意欲的圖形相同時(shí),不輸入語(yǔ)音。因而,在S1605中確定否,清除圖形識(shí)別結(jié)果(S1606),并且該流程返回到S1601。應(yīng)當(dāng)注意,用于清除圖形識(shí)別結(jié)果棧的定時(shí)可以為開始下一個(gè)筆輸入的定時(shí),或者可以在給定時(shí)間流逝之后清除該棧。
作為用戶的圖形確認(rèn)的結(jié)果,當(dāng)用戶確定了圖形不同于所意欲的圖形時(shí),用戶進(jìn)行發(fā)音,以將圖形校正成所意欲的圖形。本系統(tǒng)接受發(fā)音(S1605),在語(yǔ)音上識(shí)別所接受的發(fā)音(S1607),并且將語(yǔ)音識(shí)別結(jié)果推入到語(yǔ)音識(shí)別結(jié)果棧中(S1608)。后續(xù)處理與圖5的相同。
應(yīng)當(dāng)注意,當(dāng)連續(xù)進(jìn)行筆輸入而非逐文字地進(jìn)行筆輸入時(shí),用戶可能在注意到前面輸入不正確之前輸入下一個(gè)圖形。因此,可以考慮,在S1604中顯示的圖形中,指定要被校正的圖形,并且相對(duì)于該圖形念出所意欲的圖形名稱。
通過(guò)這樣的配置,從用戶的視點(diǎn),基本上整形使用筆的圖形輸入,并且當(dāng)確定了圖形不正確時(shí),念出所意欲的圖形的名稱,從而使得有可能將圖形校正成期望圖形。
應(yīng)當(dāng)注意,已經(jīng)描述了這樣的示例,其中通過(guò)使用筆來(lái)進(jìn)行輸入,并且當(dāng)輸入不正確時(shí),如上進(jìn)行語(yǔ)音輸入。作為可選方案,可以通過(guò)使用語(yǔ)音來(lái)進(jìn)行輸入,并且當(dāng)輸入不正確時(shí),可以通過(guò)筆輸入來(lái)進(jìn)行校正。
另外,已經(jīng)描述了如上輸入圖形的示例。然而,當(dāng)然,本發(fā)明可以應(yīng)用于與第二實(shí)施例類似地輸入文字的情況。
第五實(shí)施例在上述實(shí)施例中,已經(jīng)描述了在進(jìn)行筆輸入時(shí)進(jìn)行發(fā)音的情況,但是本發(fā)明不限于上述方案。本發(fā)明也適用于這樣的情況,其中當(dāng)通過(guò)掃描來(lái)閱讀手寫紙件文檔等時(shí),整形所書寫內(nèi)容。
在本實(shí)施例中,將作為示例描述多功能設(shè)備,其中多功能設(shè)備具有掃描在其上形成了多個(gè)手寫圖形的紙張并且整形所掃描的圖形的功能。圖24是根據(jù)本實(shí)施例的多功能設(shè)備的硬件配置圖。標(biāo)號(hào)2401、2402、2403和2404分別表示CPU、RAM、ROM和硬盤驅(qū)動(dòng)器。標(biāo)號(hào)2405表示A/D轉(zhuǎn)換器,其用于將輸入語(yǔ)音轉(zhuǎn)換成數(shù)字信號(hào)。標(biāo)號(hào)2406表示麥克風(fēng)。標(biāo)號(hào)2407表示圖像讀取單元,其用于從紙張讀出信息。標(biāo)號(hào)2408表示觸摸屏。標(biāo)號(hào)2409表示打印機(jī)單元。
圖25是示出根據(jù)本實(shí)施例的處理流程的流程圖。用于執(zhí)行該流程圖的程序保存在ROM 203或HDD 205中,并且在CPU 201的控制下執(zhí)行。首先,圖像讀取單元2407讀出在其上繪畫了多個(gè)手寫圖形的紙張,以將該信息轉(zhuǎn)換成圖像數(shù)據(jù)(S2501)。此后,從圖像數(shù)據(jù)提取圖形(S2502)。所提取的圖形經(jīng)受圖形識(shí)別(S2503),并且將識(shí)別結(jié)果推入到圖形識(shí)別結(jié)果棧中(S2504)。從識(shí)別結(jié)果中,選擇具有最大置信得分的圖形,并且基于所選圖形而從在S2503中提取的圖形提取特征量(S2505)?;谒崛〉奶卣髁慷蓤D形(S2506),并且將該圖形顯示在觸摸屏2408上(S2507)。由于在所閱讀的紙張上繪畫了多個(gè)圖形,因此在本例中顯示多個(gè)圖形。用戶確認(rèn)所顯示的圖形,并且如果存在非意欲的圖形,則指定該圖形。這里,在觸摸屏上直接指定所顯示的圖形。多功能設(shè)備確定指定了由用戶指示的圖形(S2508)。用戶念出所意欲的圖形,然后多功能設(shè)備接收該發(fā)音作為輸入語(yǔ)音(S2509)。在識(shí)別接收語(yǔ)音(S2510)之后,語(yǔ)音識(shí)別結(jié)果和在S2504中推入到圖形識(shí)別結(jié)果棧中的圖形識(shí)別結(jié)果經(jīng)受綜合評(píng)價(jià)(S2511)。綜合評(píng)價(jià)處理與第一實(shí)施例的相同?;谧鳛榫C合評(píng)價(jià)的結(jié)果而選擇的圖形,從在S2503中提取的圖形提取特征量,使用該特征量來(lái)生成圖形,并且顯示所生成的圖形(S2512)。
通過(guò)上述配置,可以通過(guò)使用語(yǔ)音來(lái)不僅將實(shí)時(shí)筆輸入而且將先前繪畫的圖形校正成所意欲的圖形。應(yīng)當(dāng)注意,文字當(dāng)然如同在第二實(shí)施例中一樣可以是目標(biāo)。
第六實(shí)施例根據(jù)第二實(shí)施例,處理一個(gè)文字的識(shí)別,但是本發(fā)明可以應(yīng)用于一次識(shí)別兩個(gè)或更多個(gè)文字的短語(yǔ)的情況。在這種情況下,使用短語(yǔ)詞典來(lái)代替單漢字字典1407,并且語(yǔ)音識(shí)別語(yǔ)法1408由無(wú)重疊地收集短語(yǔ)的讀音的列表組成。短語(yǔ)詞典保存各個(gè)短語(yǔ)標(biāo)記和讀音的配對(duì)數(shù)據(jù)。然后,文字識(shí)別單元1404識(shí)別多個(gè)文字,并且在短語(yǔ)詞典中搜索所識(shí)別的文字串,以獲得讀音。此后,將包括讀音信息的結(jié)果推入到文字識(shí)別棧中。隨后,與第二實(shí)施例中的算法相同的算法可以處理該處理。
通過(guò)上述配置,不僅可以提高一個(gè)文字的識(shí)別準(zhǔn)確度,而且可以提高短語(yǔ)的識(shí)別準(zhǔn)確度。
第七實(shí)施例根據(jù)第六實(shí)施例,已經(jīng)描述了一次識(shí)別多個(gè)文字的情況。然而,作為可選方案,多個(gè)文字可以通過(guò)使用根據(jù)第二實(shí)施例的方法來(lái)一次識(shí)別一個(gè)文字,以確認(rèn)結(jié)果,然后可以識(shí)別下一個(gè)文字。在這種情況下,通過(guò)按例如安裝在信息處理設(shè)備上的預(yù)定按鈕,執(zhí)行每個(gè)文字的識(shí)別結(jié)果的確認(rèn)。此外,當(dāng)要識(shí)別一個(gè)文字時(shí),使用緊靠在這個(gè)文字之前的已確認(rèn)文字的識(shí)別結(jié)果。因此,圖14的配置還包括短語(yǔ)詞典。將描述在觸摸屏上繪畫短語(yǔ)“憂郁”(由兩文字組合“憂”和“郁”構(gòu)成)的情況?!皯n郁”的讀音為“yuuutsu”,并且“憂”的讀音為“yuu”并且“郁”的讀音為“utsu”。首先,用戶在使用筆書寫文字“憂”時(shí)念出“yuu”,并且通過(guò)根據(jù)第二實(shí)施例的方法輸入文字“憂”。在通過(guò)確認(rèn)按鈕確認(rèn)之后,在觸摸屏上以任意字體顯示文字“憂”。在緊靠在該文字的右邊,在以書寫文字“郁”的意圖使用筆書寫由圖23中的標(biāo)號(hào)2303表示的這樣的筆劃時(shí),用戶念出“utsu”。在基于文字識(shí)別和語(yǔ)音識(shí)別而通過(guò)綜合評(píng)價(jià)識(shí)別該手寫文字之前,從短語(yǔ)詞典中搜索以緊靠之前的文字“憂”開始的短語(yǔ)。然后,獲得“憂郁(yuu/utsu)”、“憂國(guó)(yuu/koku)”、“憂傷(yuu/shuu)”、“憂愁(yuu/shoku)”以及“憂慮(yuu/ryo)”。這樣,第二文字有可能是“郁(utsu)”、“國(guó)(koku)”、“傷(shuu)”、“愁(shoku)”和“慮(ryo)”。在語(yǔ)音識(shí)別語(yǔ)法1408中的識(shí)別詞匯表當(dāng)中,增大“utsu”、“koku”、“shuu”、“shoku”和“ryo”的權(quán)重,并且?guī)椭暨x這些文字作為識(shí)別結(jié)果。另一方面,文字識(shí)別單元1404還對(duì)筆劃2303設(shè)置適當(dāng)?shù)臋?quán)重,以挑選諸如“郁”、“國(guó)”、“傷”、“愁”以及“慮”的文字作為該識(shí)別的識(shí)別結(jié)果。通過(guò)這樣的配置,獲得獲得按照“短語(yǔ)”的可能識(shí)別結(jié)果的效果。
第八實(shí)施例根據(jù)第二實(shí)施例,語(yǔ)音識(shí)別單元1402基于語(yǔ)音識(shí)別語(yǔ)法1408而執(zhí)行語(yǔ)音識(shí)別。語(yǔ)音識(shí)別語(yǔ)法1408由無(wú)重疊地收集50個(gè)文字日語(yǔ)音節(jié)和單漢字字典1407中的所有單漢字的讀音的列表組成。然而,本發(fā)明不局限于上述方案。準(zhǔn)備了用于接受任何音素的組合的串聯(lián)語(yǔ)音識(shí)別語(yǔ)法作為語(yǔ)音識(shí)別語(yǔ)法1408,并且允許語(yǔ)音識(shí)別單元1402執(zhí)行串聯(lián)語(yǔ)音識(shí)別處理。這樣,該單元可以不加限制地將任意的音素串識(shí)別為單漢字字典1407中的單漢字的讀音。
第九實(shí)施例根據(jù)第二實(shí)施例,語(yǔ)音識(shí)別單元1402與文字識(shí)別單元1404的識(shí)別處理相獨(dú)立地執(zhí)行語(yǔ)音識(shí)別。與此相對(duì),也可以采用下面配置。等待文字識(shí)別單元1404的識(shí)別,并且在N個(gè)最佳候選者列表中包括文字讀音的列表。為了有可能在語(yǔ)音識(shí)別結(jié)果中挑選讀音,在語(yǔ)音識(shí)別語(yǔ)法1408上設(shè)置適當(dāng)?shù)臋?quán)重,以執(zhí)行語(yǔ)音識(shí)別處理。例如,當(dāng)獲得如圖19所示的文字識(shí)別結(jié)果時(shí),可以執(zhí)行加權(quán),使得有可能在語(yǔ)音識(shí)別結(jié)果中挑選“kan”、“ken”、“ran”和“ai”。
第十實(shí)施例與第九實(shí)施例相對(duì),還可以采用下面配置。等待語(yǔ)音識(shí)別單元1402的識(shí)別結(jié)果,并且在N個(gè)最佳者中包括文字讀音的列表。為了有可能在文字識(shí)別結(jié)果中挑選具有該讀音的文字,在文字識(shí)別單元1404上設(shè)置適當(dāng)?shù)臋?quán)重,以執(zhí)行該處理。例如,當(dāng)獲得如圖20所示的語(yǔ)音識(shí)別結(jié)果時(shí),可以執(zhí)行加權(quán),使得有可能在文字識(shí)別結(jié)果中挑選具有讀音“ei”、“ai”和“sai”的文字。
第十一實(shí)施例在上述實(shí)施例中,已經(jīng)作為示例描述了這樣的示例,其中當(dāng)語(yǔ)音識(shí)別結(jié)果和圖形識(shí)別結(jié)果或文字識(shí)別結(jié)果經(jīng)受綜合評(píng)價(jià)時(shí),對(duì)置信度進(jìn)行求和,但是也有可能對(duì)結(jié)果進(jìn)一步執(zhí)行加權(quán)。
例如,當(dāng)在喧鬧的周圍噪聲環(huán)境中執(zhí)行該處理時(shí),可以考慮,語(yǔ)音識(shí)別的準(zhǔn)確度由于噪聲的影響而降低。鑒于上述情形,檢測(cè)周圍噪聲,并且可以根據(jù)周圍噪聲的幅度而調(diào)整語(yǔ)音識(shí)別結(jié)果上的權(quán)重。當(dāng)噪聲電平高時(shí),如果減小語(yǔ)音識(shí)別結(jié)果上的權(quán)重,則有可能減小噪聲影響。作為實(shí)施例模式,例如,圖1的配置還包括用于檢測(cè)噪聲的噪聲檢測(cè)單元(未示出),并且由綜合評(píng)價(jià)單元105接收由噪聲檢測(cè)單元檢測(cè)的噪聲。當(dāng)進(jìn)行綜合評(píng)價(jià)時(shí),可以根據(jù)所接收的噪聲幅度來(lái)調(diào)整語(yǔ)音識(shí)別結(jié)果上的權(quán)重。
另外,在通過(guò)諸如筆的定點(diǎn)設(shè)備輸入的情況下,當(dāng)輸入速度高時(shí),可以建立所書寫圖形或文字粗略的假設(shè)。因此,可以考慮檢測(cè)筆輸入速度,并且根據(jù)輸入速度來(lái)調(diào)整圖形識(shí)別結(jié)果或文字識(shí)別結(jié)果上的權(quán)重。當(dāng)速度高時(shí),減小圖形識(shí)別結(jié)果或文字識(shí)別結(jié)果上的權(quán)重,由此可以預(yù)期整個(gè)識(shí)別準(zhǔn)確度的提高。作為實(shí)施例模式,例如,圖1的配置還包括用于檢測(cè)筆輸入速度的筆輸入速度檢測(cè)單元(未示出),并且由綜合評(píng)價(jià)單元105接收由筆輸入速度檢測(cè)單元檢測(cè)的筆輸入速度。當(dāng)進(jìn)行綜合評(píng)價(jià)時(shí),可以根據(jù)所接收的筆輸入速度來(lái)調(diào)整圖形識(shí)別結(jié)果或文字識(shí)別結(jié)果上的權(quán)重。
第十二實(shí)施例在上述實(shí)施例中,已經(jīng)描述了這樣的示例,其中圖形識(shí)別或文字識(shí)別和語(yǔ)音識(shí)別經(jīng)受綜合評(píng)價(jià),但是目標(biāo)可以是面部識(shí)別或姿勢(shì)識(shí)別。具體地說(shuō),為了識(shí)別人,在語(yǔ)音上識(shí)別名稱的發(fā)音,并且隨同面部識(shí)別一起進(jìn)行綜合評(píng)價(jià),有可能提高該人的識(shí)別率。另外,在表現(xiàn)姿勢(shì)時(shí),念出對(duì)應(yīng)于該姿勢(shì)的語(yǔ)音發(fā)音,從而使得有可能提高姿勢(shì)的識(shí)別率。
第十三實(shí)施例應(yīng)當(dāng)注意,可以如下實(shí)現(xiàn)本發(fā)明。也就是,將存儲(chǔ)用于實(shí)現(xiàn)上述實(shí)施例功能的軟件的程序代碼的存儲(chǔ)介質(zhì)提供給系統(tǒng)或設(shè)備。然后,該系統(tǒng)或設(shè)備的計(jì)算機(jī)(可選地,CPU或MPU)讀出并且執(zhí)行存儲(chǔ)在存儲(chǔ)介質(zhì)中的程序代碼。同樣以這種方式,當(dāng)然可以實(shí)現(xiàn)本發(fā)明。
在這種情況下,從存儲(chǔ)介質(zhì)讀出的程序代碼本身實(shí)現(xiàn)上述實(shí)施例功能,因此存儲(chǔ)該程序代碼的存儲(chǔ)介質(zhì)構(gòu)成本發(fā)明。
例如,軟盤、硬盤驅(qū)動(dòng)器、光盤、磁光盤、CD-ROM、CD-R、磁帶、非易失性存儲(chǔ)卡、ROM等可以用作提供該程序代碼的存儲(chǔ)介質(zhì)。
另外,根據(jù)本發(fā)明的實(shí)施例不局限于執(zhí)行由計(jì)算機(jī)讀出的程序代碼以實(shí)現(xiàn)上述實(shí)施例功能的情況。例如,基于程序代碼的指令,在計(jì)算機(jī)等上運(yùn)行的操作系統(tǒng)(OS)執(zhí)行實(shí)際處理的部分或全部,并且通過(guò)該處理實(shí)現(xiàn)上述實(shí)施例功能。當(dāng)然,這種情況也在本發(fā)明的范圍內(nèi)。
此外,可以以下面方式實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的功能。也就是,將從存儲(chǔ)介質(zhì)讀出的程序代碼寫入到在插入到計(jì)算機(jī)的功能擴(kuò)展板或者連接到計(jì)算機(jī)的功能擴(kuò)展單元中提供的存儲(chǔ)器。然后,基于程序代碼的指令,向功能擴(kuò)展板或功能擴(kuò)展單元提供的CPU執(zhí)行實(shí)際處理的全部或部分。當(dāng)然,通過(guò)該處理實(shí)現(xiàn)了上述實(shí)施例功能。
在上面描述中,程序和硬件的組合實(shí)現(xiàn)本發(fā)明,但是可以減小程序的比重,并且可以增加硬件的使用。此外,在這些實(shí)施例中描述了從輸入步驟到輸出步驟的流程,但是本發(fā)明適用于這些實(shí)施例的一部分。
此外,在上述實(shí)施例中,作為信息處理方法的步驟,為了描述起見而給出了包括語(yǔ)音識(shí)別步驟的示例和包括圖形識(shí)別步驟或文字識(shí)別步驟的示例,但是本發(fā)明不限于上述方案。代替執(zhí)行諸如語(yǔ)音識(shí)別、圖形識(shí)別或文字識(shí)別的識(shí)別,可以實(shí)現(xiàn)包括接收識(shí)別結(jié)果的步驟和對(duì)所接收的識(shí)別結(jié)果執(zhí)行處理的步驟的流程。如果OS接收語(yǔ)音識(shí)別、圖形識(shí)別、文字識(shí)別等的結(jié)果,并且包括對(duì)這些結(jié)果執(zhí)行綜合評(píng)價(jià)的步驟,則可以執(zhí)行本發(fā)明。
在本發(fā)明中,給定目標(biāo)是諸如圖形識(shí)別或文字識(shí)別的模式識(shí)別的目標(biāo),例如,第一實(shí)施例的用筆繪畫的圖形、第二實(shí)施例的用筆繪畫的文字、或者第五實(shí)施例的掃描圖形。圖形識(shí)別裝置例如是根據(jù)第一實(shí)施例的圖形識(shí)別單元104。語(yǔ)音識(shí)別裝置例如是根據(jù)第一實(shí)施例的語(yǔ)音識(shí)別單元102。上述實(shí)施例中的選擇裝置從綜合評(píng)價(jià)結(jié)果選擇圖形或文字。提取裝置例如是根據(jù)第一實(shí)施例的特征量提取單元106。生成裝置例如是根據(jù)第一實(shí)施例的生成單元107。顯示控制裝置例如是根據(jù)第一實(shí)施例的顯示控制單元108。置信得分是表示作為識(shí)別結(jié)果而獲得的候選者是各個(gè)目標(biāo)時(shí)的確信度的值,例如,圖7所示的值。文字識(shí)別裝置例如是根據(jù)第二實(shí)施例的文字識(shí)別單元1404。用于識(shí)別模式的信息在圖形的情況下為圖形名稱/類型,并且在文字的情況下為文字讀音。圖形類型是表示圖形種類的信息,換句話說(shuō),圖形名稱等。
雖然參考示例性實(shí)施例描述了本發(fā)明,但是應(yīng)當(dāng)理解,本發(fā)明不局限于所公開的示例性實(shí)施例。所附權(quán)利要求的范圍應(yīng)當(dāng)被給予最寬的解釋,以便囊括所有變型、等效結(jié)構(gòu)和功能。
權(quán)利要求
1.一種信息處理設(shè)備,包括圖形識(shí)別裝置,被適配成通過(guò)對(duì)給定目標(biāo)執(zhí)行的圖形識(shí)別來(lái)獲得候選圖形;語(yǔ)音識(shí)別裝置,被適配成通過(guò)對(duì)輸入語(yǔ)音信息執(zhí)行的語(yǔ)音識(shí)別來(lái)獲得候選圖形;以及選擇裝置,被適配成基于由圖形識(shí)別裝置獲得的候選圖形以及由語(yǔ)音識(shí)別裝置獲得的候選圖形,選擇圖形。
2.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,還包括提取裝置,被適配成基于由選擇裝置選擇的圖形而從給定目標(biāo)提取特征量;生成裝置,被適配成基于由提取裝置提取的特征量而生成由選擇裝置選擇的圖形;以及顯示控制裝置,被適配成執(zhí)行控制,以顯示由生成裝置生成的圖形。
3.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中圖形識(shí)別裝置獲得置信得分,其表示候選圖形和各個(gè)候選者是目標(biāo)圖形的確信度;語(yǔ)音識(shí)別裝置獲得置信得分,其表示候選圖形和各個(gè)候選者是目標(biāo)圖形的確信度;以及選擇裝置相加由圖形識(shí)別裝置獲得的候選圖形和由語(yǔ)音識(shí)別裝置獲得的候選圖形的對(duì)應(yīng)置信度,并且基于結(jié)果置信得分而選擇圖形。
4.根據(jù)權(quán)利要求3所述的信息處理設(shè)備,還包括檢測(cè)裝置,被適配成檢測(cè)語(yǔ)音信息中的噪聲度;其中選擇裝置根據(jù)噪聲度而對(duì)由語(yǔ)音識(shí)別裝置獲得的候選圖形的置信得分設(shè)置權(quán)重,并且相應(yīng)地增加置信得分。
5.根據(jù)權(quán)利要求3所述的信息處理設(shè)備,還包括接收裝置,被適配成接收來(lái)自定點(diǎn)設(shè)備的輸入;以及檢測(cè)裝置,被適配成檢測(cè)來(lái)自定點(diǎn)設(shè)備的輸入的速度;其中給定目標(biāo)包括由接收部件接收的來(lái)自定點(diǎn)設(shè)備的輸入;并且選擇裝置根據(jù)由檢測(cè)裝置檢測(cè)的來(lái)自定點(diǎn)設(shè)備的輸入的速度,對(duì)由圖形識(shí)別裝置獲得的候選圖形的置信得分設(shè)置權(quán)重,并且相應(yīng)地增加置信得分。
6.一種信息處理設(shè)備,包括文字識(shí)別裝置,被適配成通過(guò)對(duì)給定目標(biāo)執(zhí)行的文字識(shí)別來(lái)獲得候選文字;語(yǔ)音識(shí)別裝置,被適配成通過(guò)對(duì)輸入語(yǔ)音信息執(zhí)行的語(yǔ)音識(shí)別來(lái)獲得候選文字讀音;以及選擇裝置,被適配成基于由文字識(shí)別裝置獲得的候選文字以及由語(yǔ)音識(shí)別裝置獲得的候選文字,選擇文字。
7.根據(jù)權(quán)利要求6所述的信息處理設(shè)備,其中文字識(shí)別裝置獲得置信得分、以及每個(gè)候選者的至少一個(gè)讀音信息,其中置信得分表示候選圖形和各個(gè)候選者是目標(biāo)圖形的確信度;語(yǔ)音識(shí)別裝置獲得置信得分,其表示候選圖形和各個(gè)候選者是目標(biāo)圖形的確信度;以及選擇裝置包括第一計(jì)算裝置,被適配成針對(duì)包括在文字識(shí)別結(jié)果中的每個(gè)候選文字,計(jì)算對(duì)候選文字給出的讀音和文字識(shí)別結(jié)果中的相應(yīng)讀音之間的相似度;以及第二計(jì)算裝置,被適配成基于候選文字的原始置信得分、相似度、以及由語(yǔ)音識(shí)別裝置獲得的讀音的置信得分而計(jì)算校正識(shí)別置信得分,并且確定具有最大校正識(shí)別置信得分的文字作為選擇結(jié)果。
8.根據(jù)權(quán)利要求6所述的信息處理設(shè)備,還包括短語(yǔ)詞典,包括短語(yǔ)的標(biāo)記和讀音的組合;顯示控制裝置,被適配成控制由選擇裝置選擇的文字,以將其顯示在對(duì)應(yīng)于給定目標(biāo)的位置;確認(rèn)裝置,被適配成確認(rèn)由顯示控制裝置顯示的文字;接收裝置,被適配成在確認(rèn)了一個(gè)或多個(gè)文字之后,接收給定目標(biāo)和語(yǔ)音信息;搜索裝置,被適配成在短語(yǔ)詞典中搜索具有與標(biāo)記部分匹配的已確認(rèn)一個(gè)或多個(gè)文字的短語(yǔ);后續(xù)文字獲得裝置,被適配成在由搜索裝置搜索的一個(gè)或多個(gè)短語(yǔ)的標(biāo)記中,獲得已確認(rèn)一個(gè)或多個(gè)文字的后續(xù)文字;第二文字識(shí)別裝置,被適配成相對(duì)于由后續(xù)文字獲得裝置獲得的后續(xù)文字,使由接收裝置接收的連續(xù)坐標(biāo)信息經(jīng)受文字識(shí)別,以便幫助將后續(xù)文字包括在識(shí)別結(jié)果中;第二語(yǔ)音識(shí)別裝置,被適配成在語(yǔ)音上識(shí)別由接收裝置接收的語(yǔ)音信息,以便幫助將后續(xù)文字包括在識(shí)別結(jié)果中;第二選擇裝置,被適配成基于由第二文字識(shí)別裝置獲得的候選文字和由第二語(yǔ)音識(shí)別裝置獲得的候選文字讀音而選擇文字;以及第二顯示控制裝置,被適配成控制由第二選擇裝置選擇的文字,以將其顯示在對(duì)應(yīng)于坐標(biāo)信息的位置。
9.一種信息處理設(shè)備,包括識(shí)別裝置,被適配成使給定目標(biāo)經(jīng)受模式識(shí)別,以獲得候選模式;語(yǔ)音識(shí)別裝置,被適配成在語(yǔ)音上識(shí)別輸入語(yǔ)音信息,以獲得用于指定模式的信息;以及選擇裝置,被適配成基于由識(shí)別裝置獲得的候選模式以及由語(yǔ)音識(shí)別裝置獲得的用于指定模式的信息,選擇模式。
10.一種信息處理設(shè)備,包括識(shí)別裝置,被適配成使給定目標(biāo)經(jīng)受模式識(shí)別,以獲得候選模式;語(yǔ)音識(shí)別裝置,被適配成對(duì)由識(shí)別裝置獲得的候選模式設(shè)置權(quán)重,并且在語(yǔ)音上識(shí)別輸入語(yǔ)音信息,以獲得候選模式;以及選擇裝置,被適配成在由語(yǔ)音識(shí)別裝置獲得的候選模式當(dāng)中選擇模式。
11.一種信息處理設(shè)備,包括語(yǔ)音識(shí)別裝置,被適配成在語(yǔ)音上識(shí)別輸入語(yǔ)音信息,以獲得候選模式;識(shí)別裝置,被適配成對(duì)由語(yǔ)音識(shí)別裝置獲得的候選模式設(shè)置權(quán)重,并且使給定目標(biāo)經(jīng)受模式識(shí)別,以獲得候選模式;以及選擇裝置,被適配成在由識(shí)別裝置獲得的候選模式當(dāng)中選擇模式。
12.一種信息處理方法,包括圖形識(shí)別結(jié)果獲得步驟,獲得作為對(duì)給定目標(biāo)執(zhí)行圖形識(shí)別的結(jié)果的候選圖形;語(yǔ)音識(shí)別結(jié)果獲得步驟,獲得作為在語(yǔ)音上識(shí)別語(yǔ)音信息的結(jié)果的候選圖形;以及選擇步驟,基于在圖形識(shí)別結(jié)果獲得步驟中獲得的候選圖形以及在語(yǔ)音識(shí)別結(jié)果獲得步驟中獲得的候選圖形,選擇圖形。
13.一種信息處理方法,包括文字識(shí)別結(jié)果獲得步驟,獲得作為對(duì)給定目標(biāo)執(zhí)行文字識(shí)別的結(jié)果的候選文字;語(yǔ)音識(shí)別結(jié)果獲得步驟,獲得作為在語(yǔ)音上識(shí)別語(yǔ)音信息的結(jié)果的候選文字讀音;以及選擇步驟,基于在文字識(shí)別結(jié)果獲得步驟中獲得的候選文字以及在語(yǔ)音識(shí)別結(jié)果獲得步驟中獲得的候選文字讀音,選擇文字。
14.一種信息處理方法,包括識(shí)別步驟,使給定目標(biāo)經(jīng)受模式識(shí)別,以獲得候選模式;語(yǔ)音識(shí)別步驟,在語(yǔ)音上識(shí)別輸入語(yǔ)音信息,以獲得用于指定模式的信息;以及選擇步驟,基于在識(shí)別步驟中獲得的候選模式以及在語(yǔ)音識(shí)別步驟中獲得的用于指定模式的信息,選擇模式。
15.一種信息處理方法,包括識(shí)別步驟,使給定目標(biāo)經(jīng)受模式識(shí)別,以獲得候選模式;語(yǔ)音識(shí)別步驟,對(duì)在識(shí)別步驟中獲得的候選模式設(shè)置權(quán)重,并且在語(yǔ)音上識(shí)別輸入語(yǔ)音信息,以獲得候選模式;以及選擇步驟,從在語(yǔ)音識(shí)別步驟中獲得的候選模式當(dāng)中選擇模式。
16.一種信息處理方法,包括語(yǔ)音識(shí)別步驟,在語(yǔ)音上識(shí)別輸入語(yǔ)音信息,以獲得候選模式;識(shí)別步驟,對(duì)在語(yǔ)音識(shí)別步驟中獲得的候選模式設(shè)置權(quán)重,并且使給定目標(biāo)經(jīng)受模式識(shí)別,以獲得候選模式;以及選擇步驟,從在識(shí)別步驟中獲得的候選模式當(dāng)中選擇模式。
17.一種記錄介質(zhì),用于存儲(chǔ)使計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求12至16任一所述的信息處理方法的控制程序。
全文摘要
在根據(jù)本發(fā)明的用于通過(guò)組合使用語(yǔ)音輸入來(lái)識(shí)別手寫圖形或文字的信息處理方法中,為了提高識(shí)別率,使給定目標(biāo)經(jīng)受圖形識(shí)別,并且獲得第一候選圖形列表。在語(yǔ)音上識(shí)別輸入語(yǔ)音信息,并且獲得第二候選圖形列表?;谕ㄟ^(guò)圖形識(shí)別獲得的候選圖形以及通過(guò)語(yǔ)音識(shí)別獲得的候選圖形,選擇最可能的圖形。
文檔編號(hào)G06F3/01GK1912803SQ200610110949
公開日2007年2月14日 申請(qǐng)日期2006年8月11日 優(yōu)先權(quán)日2005年8月12日
發(fā)明者廣田誠(chéng), 深田俊明, 小森康弘 申請(qǐng)人:佳能株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
河南省| 汉寿县| 库尔勒市| 宣威市| 红原县| 南岸区| 大足县| 襄汾县| 云阳县| 扎兰屯市| 南皮县| 乌兰察布市| 丹棱县| 开远市| 永吉县| 高淳县| 鄂尔多斯市| 辉县市| 汝城县| 寿光市| 沁水县| 威信县| 长葛市| 溆浦县| 广河县| 达尔| 庆安县| 辽宁省| 茂名市| 龙南县| 台南市| 当雄县| 合肥市| 东源县| 紫金县| 贞丰县| 成安县| 青浦区| 东海县| 肥东县| 礼泉县|