两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

字符處理裝置、方法、程序以及存儲(chǔ)介質(zhì)的制作方法

文檔序號(hào):6618689閱讀:188來源:國知局
專利名稱:字符處理裝置、方法、程序以及存儲(chǔ)介質(zhì)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及使用詞網(wǎng)格將對于輸入的多個(gè)單詞的讀法(例如平假名和羅馬 字母)的字符串轉(zhuǎn)換為與讀法對應(yīng)的寫法(漢字、混合了假名的漢字、英語字 母等)的字符處理裝置、方法、程序以及存儲(chǔ)介質(zhì)。
背景技術(shù)
以往已知有一種使用詞網(wǎng)格進(jìn)行假名漢字轉(zhuǎn)換的方法。詞網(wǎng)格就如非專利 文獻(xiàn)1中記載的那樣,是一個(gè)將輸入的多個(gè)讀法或者與這些輸入的讀法對應(yīng)的 多個(gè)寫法按照其連接順序進(jìn)行排列的網(wǎng)絡(luò)。構(gòu)成該網(wǎng)絡(luò)的各個(gè)寫法的每一個(gè)寫 法被稱為節(jié)點(diǎn)。按照連接順序排列的全部多個(gè)節(jié)點(diǎn)被稱為路徑。成為該節(jié)點(diǎn)的 寫法是參考單詞辭典而獲得的。單詞辭典是由不同的多個(gè)記錄構(gòu)成的讀法一寫 法轉(zhuǎn)換辭典, 一個(gè)記錄中含有一個(gè)讀法和與該讀法對應(yīng)的一個(gè)寫法(也被稱為
詞條)。
例如,給出"t , S =t 6 J:》"這樣一個(gè)讀法的話,就會(huì)通過CPU在假名
漢字轉(zhuǎn)換裝置的存儲(chǔ)器上生成具有
路徑1 " t , g J:"(注發(fā)音為Tokkyo的平假名字符串)一"町"(注
發(fā)音為Ch0U的漢字,意思是城鎮(zhèn));
路徑2 " i 。 Sf J "—"庁"(注發(fā)音為Ch0U的漢字,意思是辦公室); 路徑3 "特許"(注發(fā)音為Tokkyo的漢字字符串,意思是專利)一"庁";
等多個(gè)路徑的詞網(wǎng)格。
CPU參考語言辭典來取得各個(gè)路徑上的連續(xù)的規(guī)定個(gè)數(shù)(通常,經(jīng)常使用 的個(gè)數(shù)是l-3個(gè))的節(jié)點(diǎn)的出現(xiàn)概率,然后通過將一條路徑上的所有節(jié)點(diǎn)的出
現(xiàn)概率相乘來計(jì)算一條路徑中的節(jié)點(diǎn)的出現(xiàn)概率。順便介紹一下,語言辭典是 由多個(gè)記錄構(gòu)成的辭典, 一個(gè)記錄中含有規(guī)定個(gè)數(shù)的寫法的字符串與該字符串 的出現(xiàn)概率。
用上述例子來說明的話,"i,^J:"、"町"、"A1"(出現(xiàn)概率的值) 就成為了語言辭典的一個(gè)記錄。
CPU反復(fù)進(jìn)行上述處理過程,從而計(jì)算出詞網(wǎng)格上所有路徑的出現(xiàn)概率。 CPU從計(jì)算出的多個(gè)出現(xiàn)概率中檢測出最高的路徑的概率。將具有最高出現(xiàn)概
率的路徑所表示的節(jié)點(diǎn)的連接(系列)決定為與給出的讀法的字符串對應(yīng)的最 權(quán)威的假名漢字轉(zhuǎn)換結(jié)果(非專利文獻(xiàn)l)。
將被決定的最權(quán)威的假名漢字轉(zhuǎn)換結(jié)果顯示在顯示器的顯示畫面上,在用 戶進(jìn)行確定操作之后,將確定的假名漢字轉(zhuǎn)換結(jié)果提交給文件處理裝置(用于 文字處理機(jī)的程序)。同時(shí)也將用戶頻繁使用的寫法的字符串的使用頻率反映 到語言辭典的出現(xiàn)概率上。
在這種字符處理方法中,雖然把輸入的讀法的字符串轉(zhuǎn)換為出現(xiàn)頻率最高 的寫法,但有時(shí)也會(huì)有問題。例如,地名、公司名、諺語等表述、多個(gè)單詞構(gòu) 成的短語等的寫法都是預(yù)先規(guī)定的??墒?,在統(tǒng)計(jì)式語言模型的開發(fā)中, 一般 是根據(jù)被稱為語料庫的統(tǒng)計(jì)資料的出現(xiàn)概率來計(jì)算某單詞路徑的出現(xiàn)概率的。 但是,地名等專有名詞和諺語等在語料庫中出現(xiàn)的概率通常并不高,要把它們 設(shè)定為可信概率是很困難的。因此,雖然有專有名詞這類規(guī)定的寫法,但用統(tǒng) 計(jì)式計(jì)算的話,無法保證得到那樣的轉(zhuǎn)換結(jié)果。
在輸入上述那樣的短語的讀法的情況下,由于用上述字符處理方法生成多 條路徑,并計(jì)算路徑的出現(xiàn)概率,因此有時(shí)在初始的使用狀態(tài)下,形成為與常 用表述不同的假名漢字轉(zhuǎn)換結(jié)果。
非專利文獻(xiàn)l: http:〃雨..jaist. ac. .jp/ kshirai/lec/i223/07. pdf 非專利文獻(xiàn)2:《一種強(qiáng)調(diào)N元的子集的固定短語的語言模型自適應(yīng)方法》 (電子信息通信學(xué)會(huì)論文集Vol. J86-D — II No12, 2003年12月)
為此,本發(fā)明的目的在于提供一種字符處理裝置、方法、程序以及存儲(chǔ)介
質(zhì),是使用詞網(wǎng)格能夠很好地兼顧到進(jìn)行對常用短語的轉(zhuǎn)換和對具有相同讀法
的短語以外的寫法的轉(zhuǎn)換。
另外,還有如下所述的這些以往技術(shù)。
1. 將該專有名詞等以長單位登錄到辭典。這樣一來,由于用一個(gè)詞限制長 范圍,因此長的登錄單詞容易成為第l候補(bǔ)。
2. 在對辭典/語法進(jìn)行編譯乃至執(zhí)行假名漢字轉(zhuǎn)換時(shí),對辭典/語法給出的 概率進(jìn)行加權(quán)調(diào)整,就容易成為第l候補(bǔ)。(非專利文獻(xiàn)2)
在第1種方法中,雖然容易出現(xiàn)第1候補(bǔ),但是只在以該長范圍打字時(shí)有 效,因此存在不得不在該長范圍生成候補(bǔ)一覽表的問題。
在第2種方法中,必須進(jìn)行復(fù)雜的計(jì)算,不存在實(shí)用性的方法。

發(fā)明內(nèi)容
本發(fā)明沒有采用這些以往的方法,而是像第1種方法那樣具有仿佛長單詞 串仍然持有著由內(nèi)部多個(gè)單詞構(gòu)成的信息且就是1個(gè)單詞那樣的推測辭典。然 后以長單位進(jìn)行匹配來計(jì)算路徑的出現(xiàn)概率,在將轉(zhuǎn)換結(jié)果的第1候補(bǔ)決定為 想要的字符串之后,分割結(jié)構(gòu)單詞串,進(jìn)行生成候補(bǔ)等后續(xù)處理。
詳細(xì)來說,本發(fā)明的第l實(shí)施形態(tài),是一種使用詞網(wǎng)格將多個(gè)單詞的讀法
的字符串轉(zhuǎn)換為對應(yīng)的多個(gè)寫法的字符串的字符處理裝置,其特征在于,具有
存儲(chǔ)將多個(gè)短語的讀法的字符串和對應(yīng)的寫法的字符串構(gòu)成一個(gè)記錄、并具有
不同的多個(gè)記錄的短語辭典的第1存儲(chǔ)單元;以作為轉(zhuǎn)換對象的多個(gè)單詞的讀 法的字符串來檢索所述短語辭典、并取得短語辭典中與該多個(gè)單詞的讀法的字
符串有相同讀法的字符串所對應(yīng)的多個(gè)單詞的寫法的字符串的檢索單元;將通
過該檢索單元的檢索得到的多個(gè)短語的寫法的字符串作為多個(gè)節(jié)點(diǎn)添加到所
述詞網(wǎng)格的第1信息處理單元;將多個(gè)單詞的寫法形成為一組、并存儲(chǔ)多個(gè)組 的出現(xiàn)概率的第2存儲(chǔ)單元;存儲(chǔ)所述多個(gè)短語的寫法的出現(xiàn)概率的第3存儲(chǔ) 單元;以及根據(jù)所述第2存儲(chǔ)單元和第3存儲(chǔ)單元中存儲(chǔ)的出現(xiàn)概率、取得作 為節(jié)點(diǎn)添加了所述短語的寫法的字符串的詞網(wǎng)格上出現(xiàn)概率最高的路徑上的 寫法的字符串作為轉(zhuǎn)換候補(bǔ)的第2信息處理單元。
本發(fā)明的第2實(shí)施形態(tài)的特征在于,將所述第1存儲(chǔ)單元作為第3存儲(chǔ)單 元來使用,在所述記錄中包含了出現(xiàn)概率。
本發(fā)明的第3實(shí)施形態(tài),是一種使用詞網(wǎng)格將多個(gè)單詞的讀法的字符串轉(zhuǎn) 換為對應(yīng)的多個(gè)寫法的字符串的字符處理裝置的字符處理方法,其特征在于,
所述字符處理裝置具有存儲(chǔ)將多個(gè)短語的讀法的字符串和對應(yīng)的寫法的字符 串構(gòu)成一個(gè)記錄、并具有不同的多個(gè)記錄的短語辭典的第l存儲(chǔ)單元;將多個(gè) 單詞的寫法形成為一組、并存儲(chǔ)多個(gè)組的出現(xiàn)概率的第2存儲(chǔ)單元;存儲(chǔ)所述 多個(gè)短語的寫法的出現(xiàn)概率的第3存儲(chǔ)單元檢索單元;以及第1信息處理單元 和第2信息處理單元,所述字符處理方法通過所述檢索單元以作為轉(zhuǎn)換對象的 多個(gè)單詞的讀法的字符串來檢索所述短語辭典,取得短語辭典中與該多個(gè)單詞 的讀法的字符串有相同讀法的字符串所對應(yīng)的多個(gè)單詞的寫法的字符串,還通 過所述第1信息處理單元將通過所述檢索單元的檢索得到的多個(gè)單詞的寫法的 字符串作為多個(gè)節(jié)點(diǎn)添加到所述詞網(wǎng)格,還通過所述第2信息處理單元,根據(jù) 所述第2存儲(chǔ)單元和第3存儲(chǔ)單元中存儲(chǔ)的出現(xiàn)概率,取得作為節(jié)點(diǎn)添加了所 述短語的寫法的字符串的詞網(wǎng)格上出現(xiàn)概率最高的路徑上的寫法的字符串,作 為轉(zhuǎn)換候補(bǔ)。
本發(fā)明的第4實(shí)施形態(tài)是如權(quán)利要求3所述的字符處理方法,其特征在于, 將所述第1存儲(chǔ)單元作為第3存儲(chǔ)單元來使用,在所述記錄中包含了出現(xiàn)概率。
本發(fā)明的第5實(shí)施形態(tài),是一種使用詞網(wǎng)格將多個(gè)單詞的讀法的字符串轉(zhuǎn) 換為對應(yīng)的多個(gè)寫法的字符串的字符處理裝置用的字符處理程序,其特征在 于,所述字符處理裝置具有存儲(chǔ)將多個(gè)短語的讀法的字符串和對應(yīng)的寫法的 字符串構(gòu)成一個(gè)記錄、并具有不同的多個(gè)記錄的短語辭典的第l存儲(chǔ)單元;將 多個(gè)單詞的寫法形成為一組、并存儲(chǔ)多個(gè)組的出現(xiàn)概率的第2存儲(chǔ)單元;存儲(chǔ) 所述多個(gè)短語的寫法的出現(xiàn)概率的第3存儲(chǔ)單元;檢索單元;以及第l信息處 理單元和第2信息處理單元,所述字符處理程序具有通過所述檢索單元以作 為轉(zhuǎn)換對象的多個(gè)單詞的讀法的字符串來檢索所述短語辭典、并取得短語辭典 中與該多個(gè)單詞的讀法的字符串有相同讀法的字符串所對應(yīng)的多個(gè)單詞的寫 法的字符串的步驟;通過所述第1信息處理單元將通過所述檢索單元的檢索得 到的多個(gè)單詞的寫法的字符串作為多個(gè)節(jié)點(diǎn)添加到所述詞網(wǎng)格的步驟;以及通
過所述第2信息處理單元并根據(jù)所述第2存儲(chǔ)單元和第3存儲(chǔ)單元中存儲(chǔ)的出
現(xiàn)概率、取得作為節(jié)點(diǎn)添加了所述短語的寫法的字符串的詞網(wǎng)格上出現(xiàn)概率最 高的路徑上的寫法的字符串作為轉(zhuǎn)換候補(bǔ)的步驟。
本發(fā)明的第6實(shí)施形態(tài)的特征在于,將所述第1存儲(chǔ)單元作為第3存儲(chǔ)單 元來使用,在所述記錄中包含了出現(xiàn)概率。
本發(fā)明的第7實(shí)施形態(tài)的特征在于,存儲(chǔ)了第5或第6實(shí)施形態(tài)中的程序。


圖1是表示本發(fā)明的實(shí)施形態(tài)的硬件結(jié)構(gòu)的框圖。
圖2是表示本發(fā)明的實(shí)施形態(tài)的軟件結(jié)構(gòu)的框圖。
圖3是表示本發(fā)明的實(shí)施形態(tài)的字符處理過程的流程圖。
圖4是表示詞網(wǎng)格的一個(gè)例子的說明圖。
圖5是表示添加了節(jié)點(diǎn)的詞網(wǎng)格的說明圖。
具體實(shí)施例方式
以下參照附圖對本發(fā)明的實(shí)施形態(tài)進(jìn)行詳細(xì)說明。 實(shí)施形態(tài)1
圖1是表示實(shí)施形態(tài)1的字符處理裝置的系統(tǒng)結(jié)構(gòu)的一個(gè)例子。作為字符 處理裝置,可以使用通用的個(gè)人電腦、手機(jī)等具有信息處理功能的各種信息處 理裝置。
圖1中,IO是CPU,使用后述的字符處理程序來執(zhí)行與本發(fā)明相關(guān)的字符 處理。CPU10的功能是作為本發(fā)明的檢索單元、第1和第2信息處理單元。
20是具有ROM和RAM的系統(tǒng)存儲(chǔ)器,對CPU10的輸入輸出數(shù)據(jù)臨時(shí)進(jìn)行 存儲(chǔ)。
30是輸入裝置,可以使用例如鍵盤等輸入讀法的字符串的裝置。除了鍵 盤以外,也可以使用例如從存儲(chǔ)了讀法的字符串的存儲(chǔ)介質(zhì)中讀取讀法的字符 串的數(shù)據(jù)讀取裝置、和通過通信從外部機(jī)器輸入讀法的字符串的通信裝置來作 為輸入裝置30。
40是硬盤(HD),存儲(chǔ)了字符處理程序以及字符處理中使用的后述的辭
典。硬盤40的功能是作為本發(fā)明的第1到第3存儲(chǔ)單元。
50是顯示器,顯示通過字符處理程序所決定的編間候補(bǔ)。 圖2是表示安裝在圖1的硬盤40上的軟件的結(jié)構(gòu)。
100是使用詞網(wǎng)格將多個(gè)單詞的讀法的字符串轉(zhuǎn)換為對應(yīng)的多個(gè)寫法的 字符串的字符處理程序。IIO是單詞辭典,跟以往一樣,記載了多個(gè)不同的記 錄, 一個(gè)記錄中含有一個(gè)單詞的讀法的字符串和對應(yīng)的寫法的字符串。
120是語言辭典,記載了多個(gè)單詞的寫法和對應(yīng)的出現(xiàn)概率。實(shí)施形態(tài)1 中的語言辭典120可以是和以往相同的語言辭典。
130是本發(fā)明相關(guān)的短語辭典,對于常用的多個(gè)短語(例如地名、公司名 等專有表述、諺語等),短語辭典130記載了不同的多個(gè)記錄, 一個(gè)記錄中含 有讀法的字符串、寫法的字符串和各短語的出現(xiàn)概率。
另外,在單詞數(shù)量很少的情況下,將與短語辭典130所記載的短語的字符 串相同的寫法的字符串也記載到語言辭典120中。在這種情況下,希望注意預(yù) 先將短語辭典130的出現(xiàn)概率設(shè)定為高于語言辭典120的出現(xiàn)概率。
實(shí)施形態(tài)1中存儲(chǔ)了單詞辭典110的硬盤40的作用是作為本發(fā)明的第2 存儲(chǔ)單元,存儲(chǔ)了短語辭典130的硬盤40的作用是作為本發(fā)明的第1和第3 存儲(chǔ)單元。
圖3是表示字符處理程序100中的本發(fā)明相關(guān)的程序部分的處理過程。圖 4和圖5是為了便于理解而用網(wǎng)絡(luò)的形態(tài)表示構(gòu)造在系統(tǒng)存儲(chǔ)器20上的詞網(wǎng) 格。
一面參照圖3到圖5, 一面對字符處理裝置的動(dòng)作進(jìn)行說明。 對從輸入裝置30輸入作為讀法的字符串的"t , S J: 6 J: 5 "、直到 得到作為轉(zhuǎn)換候補(bǔ)的"特許庁"為止的CPU10的處理內(nèi)容進(jìn)行說明。
在圖3的步驟S10中,CPU10使用與以往相同的方法在系統(tǒng)存儲(chǔ)器20上 構(gòu)造如圖4所示的詞網(wǎng)格。簡單來說,CPU10用讀法的字符串"t , S J:"檢 索單詞辭典110,取得作為可能轉(zhuǎn)換的寫法的字符串的"i , § J:"、"卜'7 * 3 "和"特許"。將取得的3個(gè)字符串分別存儲(chǔ)到系統(tǒng)存儲(chǔ)器20。然后,CPU10 通過檢索從單詞辭典110取得與剩下的讀法的字符串"6 i》"對應(yīng)的可能轉(zhuǎn)
換的寫法的字符串"6丄5 "、 "f"3々"(發(fā)音為Chou的片假名字符串)、 "田]""......","。
將取得的讀法的字符串和之前剛剛?cè)〉玫膯卧~的寫法的字符串相關(guān)聯(lián) 后存儲(chǔ)到系統(tǒng)存儲(chǔ)器20。作為相關(guān)聯(lián)的方法,由于廣為人知的有把存儲(chǔ)了剛 取得的寫法的存儲(chǔ)地址作為屬性信息賦予取得的寫法的方法、和以表的形態(tài)進(jìn) 行存儲(chǔ)等方法,因此業(yè)內(nèi)人員只要使用合適的方法就可以了 。
這個(gè)例子是對2個(gè)單詞輸入讀法的字符串的例子,但如果是輸入3個(gè) 以上的單詞的情況下,以下,CPU10以單詞為單位取得與讀法的字符串對應(yīng) 的寫法的字符串來構(gòu)造詞網(wǎng)格。
然后,CPU10進(jìn)入圖3中的步驟S20。此時(shí),CPU10作為本發(fā)明的檢索單 元,用輸入的讀法的字符串,此時(shí)是"i , § A 6 A》",對短語辭典130進(jìn) 行檢索。通過該檢索從短語辭典130得到短語的寫法"特許庁"和它的出現(xiàn)概 率Al。
過程進(jìn)入步驟S30, CPU10將取得的短語的寫法"特許"和"庁"作為節(jié)點(diǎn) 如圖5所示添加到系統(tǒng)存儲(chǔ)器20上的詞網(wǎng)格(參見圖4)中??梢园讶〉玫亩?語中的各個(gè)單詞作為節(jié)點(diǎn),也可以把整體作為節(jié)點(diǎn)。圖5中的例子是把單詞作 為節(jié)點(diǎn)。另外,將由添加的節(jié)點(diǎn)構(gòu)成的路徑在本實(shí)施形態(tài)中稱為旁路(標(biāo)號(hào) 1010)。為了區(qū)別于以往的路徑,給予旁路1010顯示其為旁路的屬性信息。
過程進(jìn)入S40,CPU10計(jì)算圖5的詞網(wǎng)格上的各路徑的出現(xiàn)概率。在圖5 的例子中,由于第1路徑是"t o巻i " — " f 3々",所以用"i o S J:" + "f 3々"來檢索語言辭典120,通過CPU10取得對應(yīng)的出現(xiàn)概率B1。
這樣一來,從語言辭典120取得關(guān)于通過單詞辭典110取得節(jié)點(diǎn)的路徑(圖 4)的出現(xiàn)概率。
由于在步驟S20從短語辭典130得到旁路1010上的節(jié)點(diǎn)"特許"和"庁" 的出現(xiàn)概率Al,因此CPU10對各路徑進(jìn)行互相比較,比如使用稱為排序的信息 處理方法,檢測出具有最高出現(xiàn)概率的路徑。通過CPUIO,將檢測出的路徑上 的節(jié)點(diǎn)進(jìn)行結(jié)合的寫法的字符串作為對讀法的字符串"i 。 S A 6 J 5"所對 應(yīng)的轉(zhuǎn)換候補(bǔ),通過顯示器50取得并顯示(步驟S40)。之后,用戶跟以往一
樣,使用輸入裝置30進(jìn)行確定,或者給予CPU10轉(zhuǎn)換的指示,取得用戶所要 的轉(zhuǎn)換結(jié)果。
在本例中,在字符處理裝置的初始使用狀態(tài)下,對于"i ,色i 6 A》", 用從短語辭典130取得的寫法所構(gòu)成的圖5中的旁路1010具有最高的出現(xiàn)概 率。因此,圖5中的旁路1010上的節(jié)點(diǎn)(特許庁)被決定作為轉(zhuǎn)換候補(bǔ)。
之后,如果用戶頻繁使用"特許庁"這個(gè)寫法,則跟以往一樣,更新語言 辭典120上的"特許庁"對應(yīng)的出現(xiàn)頻率,使其變高,圖5中的旁路1000上 的節(jié)點(diǎn)(特許庁)被決定作為轉(zhuǎn)換候補(bǔ)。
如果住在叫"特許町"的城鎮(zhèn)的人使用這個(gè)字符處理裝置來輸入住址的話, 則由于語言辭典120上記載的"特許町"的出現(xiàn)頻率會(huì)隨著用戶的使用而更新, 因此該用戶輸入"i ,會(huì)J: 6 J:》"到字符處理裝置的情況下會(huì)得到"特許町" 的轉(zhuǎn)換結(jié)果。
如上所述,通過將從短語辭典130取得的寫法作為節(jié)點(diǎn)添加到詞網(wǎng)格,可
以解決以往的在初始的使用狀態(tài)下常用表述不一定會(huì)成為轉(zhuǎn)換結(jié)果的問題。 實(shí)施形態(tài)2
雖然在實(shí)施形態(tài)1中把短語的出現(xiàn)概率與讀法的字符串和寫法的字符串 一起記載在短語辭典130中,但是也可以將出現(xiàn)概率記載在語言辭典120中, 另外也可以記載在其它的辭典或表中。
以上所述的實(shí)施形態(tài)是為了說明本發(fā)明的例子。本發(fā)明的技術(shù)思想如權(quán)利 要求的范圍所示,根據(jù)這個(gè)技術(shù)思想,業(yè)內(nèi)人員可以容易地理解存在著對上述 實(shí)施形態(tài)的各種改良形態(tài)。
工業(yè)上的實(shí)用性
本發(fā)明通過將從短語辭典取得的單詞的寫法作為節(jié)點(diǎn)添加到詞網(wǎng)格,可以 改進(jìn)以往在初始的使用狀態(tài)下常用寫法不會(huì)成為轉(zhuǎn)換結(jié)果的問題。另外,由于 根據(jù)使用頻率,具有與常用寫法相同的讀法的常用寫法以外的寫法成為轉(zhuǎn)換結(jié) 果,因此可以得到很好地兼顧不同情況的轉(zhuǎn)換結(jié)果。
權(quán)利要求
1.一種字符處理裝置,是使用詞網(wǎng)格將多個(gè)單詞的讀法的字符串轉(zhuǎn)換為對應(yīng)的多個(gè)寫法的字符串的字符處理裝置,其特征在于,具有將多個(gè)短語的讀法的字符串和對應(yīng)的寫法的字符串構(gòu)成一個(gè)記錄、并存儲(chǔ)具有不同的多個(gè)記錄的短語辭典的第1存儲(chǔ)單元;以多個(gè)單詞的讀法的字符串作為轉(zhuǎn)換對象來檢索所述短語辭典、并取得短語辭典中與該多個(gè)單詞的讀法的字符串有相同讀法的字符串所對應(yīng)的多個(gè)單詞的寫法的字符串的檢索單元;將通過該檢索單元的檢索得到的多個(gè)短語的寫法的字符串作為多個(gè)節(jié)點(diǎn)添加到所述詞網(wǎng)格的第1信息處理單元;將多個(gè)單詞的寫法形成為一組、并存儲(chǔ)多個(gè)組的出現(xiàn)概率的第2存儲(chǔ)單元;存儲(chǔ)所述多個(gè)短語的寫法的出現(xiàn)概率的第3存儲(chǔ)單元;以及根據(jù)所述第2存儲(chǔ)單元和第3存儲(chǔ)單元中存儲(chǔ)的出現(xiàn)概率、取得添加了作為節(jié)點(diǎn)的所述短語的寫法的字符串的詞網(wǎng)格上出現(xiàn)概率最高的路徑上的寫法的字符串作為轉(zhuǎn)換候補(bǔ)的第2信息處理單元。
2. 如權(quán)利要求1所述的字符處理裝置,其特征在于,將所述第1存儲(chǔ)單元作為第3存儲(chǔ)單元來使用,在所述記錄中包含了出現(xiàn) 概率。
3. —種字符處理裝置的字符處理方法,是使用詞網(wǎng)格將多個(gè)單詞的讀法的 字符串轉(zhuǎn)換為對應(yīng)的多個(gè)寫法的字符串的字符處理裝置的字符處理方法,其特 征在于,所述字符處理裝置具有將多個(gè)短語的讀法的字符串和對應(yīng)的寫法的字符串構(gòu)成一個(gè)記錄、并存儲(chǔ)具有不同的多個(gè)記錄的短語辭典的第1存儲(chǔ)單元;將多個(gè)單詞的寫法形成為一組、并存儲(chǔ)多個(gè)組的出現(xiàn)概率的第2存儲(chǔ)單元;存儲(chǔ)所述多個(gè)短語的寫法的出現(xiàn)概率的第3存儲(chǔ)單元;檢索單元;以及 第1信息處理單元和第2信息處理單元,所述字符處理方法通過所述檢索單元以多個(gè)單詞的讀法的字符串作為轉(zhuǎn) 換對象來檢索所述短語辭典,取得短語辭典中與該多個(gè)單詞的讀法的字符串有 相同讀法的字符串所對應(yīng)的多個(gè)單詞的寫法的字符串,通過所述第1信息處理單元將通過所述檢索單元的檢索得到的多個(gè)單詞 的寫法的字符串作為多個(gè)節(jié)點(diǎn)添加到所述詞網(wǎng)格,通過所述第2信息處理單元,根據(jù)所述第2存儲(chǔ)單元和第3存儲(chǔ)單元中存 儲(chǔ)的出現(xiàn)概率,取得添加了作為節(jié)點(diǎn)的所述短語的寫法的字符串的詞網(wǎng)格上出 現(xiàn)概率最高的路徑上的寫法的字符串,作為轉(zhuǎn)換候補(bǔ)。
4. 如權(quán)利要求3所述的字符處理裝置的字符處理方法,其特征在于, 將所述第1存儲(chǔ)單元作為第3存儲(chǔ)單元來使用,在所述記錄中包含了出現(xiàn)概率。
5. —種字符處理程序,是使用詞網(wǎng)格將多個(gè)單詞的讀法的字符串轉(zhuǎn)換為對 應(yīng)的多個(gè)寫法的字符串的字符處理裝置用的字符處理程序,其特征在于,所述字符處理裝置具有將多個(gè)短語的讀法的字符串和對應(yīng)的寫法的字符串構(gòu)成一個(gè)記錄、并存儲(chǔ) 具有不同的多個(gè)記錄的短語辭典的第1存儲(chǔ)單元;將多個(gè)單詞的寫法形成為一組、并存儲(chǔ)多個(gè)組的出現(xiàn)概率的第2存儲(chǔ)單元;存儲(chǔ)所述多個(gè)短語的寫法的出現(xiàn)概率的第3存儲(chǔ)單元; 檢索單元;以及第1信息處理單元和第2信息處理單元, 所述字符處理程序具有通過所述檢索單元以多個(gè)單詞的讀法的字符串作為轉(zhuǎn)換對象來檢索所述 短語辭典、并取得短語辭典中與該多個(gè)單詞的讀法的字符串有相同讀法的字符 串所對應(yīng)的多個(gè)單詞的寫法的字符串的步驟;通過所述第1信息處理單元將通過所述檢索單元的檢索得到的多個(gè)單詞 的寫法的字符串作為多個(gè)節(jié)點(diǎn)添加到所述詞網(wǎng)格的步驟;以及 通過所述第2信息處理單元并根據(jù)所述第2存儲(chǔ)單元和第3存儲(chǔ)單元中存 儲(chǔ)的出現(xiàn)概率、取得添加了作為節(jié)點(diǎn)的所述短語的寫法的字符串的詞網(wǎng)格上出 現(xiàn)概率最高的路徑上的寫法的字符串作為轉(zhuǎn)換候補(bǔ)的步驟。
6. 如權(quán)利要求5所述的字符處理程序,其特征在于,將所述第1存儲(chǔ)單元作為第3存儲(chǔ)單元來使用,在所述記錄中包含了出現(xiàn) 概率。
7. —種存儲(chǔ)介質(zhì),其特征在于, 存儲(chǔ)了權(quán)利要求5或權(quán)利要求6所述的程序。
全文摘要
本發(fā)明提供一種字符處理裝置。所述字符處理裝置具有短語辭典,當(dāng)給出與短語辭典中記載的讀法相同的讀法的情況下,除了從單詞辭典(110)取得的寫法的節(jié)點(diǎn),再加上將從短語辭典取得的寫法作為旁路添加到詞網(wǎng)格,使用詞網(wǎng)格將單詞讀法的字符串轉(zhuǎn)換為對應(yīng)的寫法的字符串。
文檔編號(hào)G06F17/22GK101371252SQ20078000287
公開日2009年2月18日 申請日期2007年1月31日 優(yōu)先權(quán)日2006年1月31日
發(fā)明者佐藤良治, 關(guān)美由紀(jì), 梅岡孝史, 石橋紀(jì)子, 鹿子木宏明 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
太仓市| 清水县| 利辛县| 新昌县| 阿荣旗| 双牌县| 安乡县| 钟祥市| 尤溪县| 汤原县| 大荔县| 黄山市| 台中市| 龙江县| 夏津县| 湘潭市| 香格里拉县| 晋宁县| 金华市| 高清| 吴旗县| 托克逊县| 平罗县| 涪陵区| 肇庆市| 桑植县| 勃利县| 西畴县| 洛扎县| 绍兴市| 大同县| 抚远县| 尚义县| 县级市| 会泽县| 天峻县| 蒲江县| 永平县| 拉孜县| 新巴尔虎左旗| 无极县|