两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種盲文輸入方法和系統(tǒng)的制作方法

文檔序號:2583243閱讀:318來源:國知局
專利名稱:一種盲文輸入方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別是涉及一種盲文輸入方法和系統(tǒng)。
背景技術(shù)
人機(jī)交互是盲人使用計(jì)算機(jī)的主要困難之一。人機(jī)交互包含輸入與輸出兩個方面。前者是指通過鍵盤、鼠標(biāo)等輸入設(shè)備將文字或指令輸入計(jì)算機(jī),后者則是指將文字或其它信息以視覺和語音方式輸出給用戶。由于語音合成技術(shù)日益成熟,將文字轉(zhuǎn)化為語音輸出已經(jīng)成為現(xiàn)實(shí),因此對盲人而言,文字輸入困難是制約其使用計(jì)算機(jī)的重要因素。盲人輸入文字困難一方面是由于視力障礙,另一方面是因?yàn)槊と耸褂玫臐h語盲文字與漢字不同。漢語盲文是基于布萊爾盲文體系,每個盲文字符均以兩列共6個點(diǎn)作為一個基本結(jié)構(gòu)(Ii ),這6個點(diǎn)有的凸起,有的不凸起,形成64種變化,即能表示64種不同的字符。在漢語盲文中,每種字符表示漢語拼音中的一個聲母、韻母或聲調(diào),不同的字符按照漢語拼音規(guī)則組成合法音節(jié)以表示漢字,也就是說漢語盲文是一種拼音性的文字。盲人日常書寫盲文是通過在紙上扎出不同的盲文字符,其書寫習(xí)慣與采用漢語拼音和標(biāo)準(zhǔn)鍵盤的普通拼音輸入法有很大差別。因此,盲人通過鍵盤使用現(xiàn)有的漢字輸入法輸入漢字是很困難的。為了解決盲人在計(jì)算機(jī)上輸入文字困難的問題,已經(jīng)出現(xiàn)一些幫助盲人實(shí)現(xiàn)漢字輸入的系統(tǒng),其實(shí)現(xiàn)方法主要有兩種一種是利用普通計(jì)算機(jī)的標(biāo)準(zhǔn)鍵盤和現(xiàn)有漢字輸入法并配合語音合成技術(shù)提示用戶,另一種是采用與盲文對應(yīng)的鍵盤設(shè)置和相應(yīng)的輸入法。 目前,多數(shù)盲人計(jì)算機(jī)系統(tǒng)支持上述第一種方法,但它存在兩個問題首先,標(biāo)準(zhǔn)鍵盤鍵數(shù)過多,不適合視力障礙者快速摸讀;其次,由于盲人對字形的觀念弱,而盲文使用的字音拼讀方法又與通過標(biāo)準(zhǔn)鍵盤輸入英文字符構(gòu)成的漢字拼音不同,導(dǎo)致盲人使用現(xiàn)有漢字輸入法很不方便。為解決這一問題,出現(xiàn)了上述第二種方法,即采用與盲文對應(yīng)的鍵盤設(shè)置和相應(yīng)輸入法,其主要思路是在標(biāo)準(zhǔn)鍵盤上定義6個,或是采用專用的6鍵鍵盤,使得6個鍵分別對應(yīng)盲文的6個凸點(diǎn),當(dāng)6個鍵中的某一個或幾個同時按下時,可對應(yīng)盲文中的一個盲符。這種方法與盲符相對應(yīng),相對來說更符合盲文的輸入習(xí)慣,但由于操作時候要同時按下多個鍵,不符合通常的按鍵習(xí)慣,因此往往需要一段時間的訓(xùn)練才能熟練使用。而且,采用這種方法的用戶輸入的是盲文,當(dāng)用戶需要與普通人交流時,還需要將其轉(zhuǎn)換為漢字。現(xiàn)有的漢語盲文到漢字的轉(zhuǎn)換通常是先將盲文轉(zhuǎn)換為拼音,再使用語言模型并結(jié)合規(guī)則將拼音轉(zhuǎn)換為漢字,但是這種方法在盲文到拼音和拼音到漢字兩次轉(zhuǎn)換中都有可能產(chǎn)生錯誤,而且忽視了漢語盲文自身的特點(diǎn),導(dǎo)致漢語盲文到漢字轉(zhuǎn)換正確率并不高。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種盲文輸入方法和系統(tǒng)。其能夠有效利用漢語盲文自身特征,提高盲文轉(zhuǎn)換為漢字的正確率。為實(shí)現(xiàn)本發(fā)明的目的而提供的一種盲文輸入方法,包括下列步驟
步驟100.根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則,構(gòu)造盲漢轉(zhuǎn)換模型;步驟200.根據(jù)輸入的盲文句子B,列出其對應(yīng)的所有候選漢語句子S;步驟300.利用所述盲漢轉(zhuǎn)換模型,求得輸入的盲文句子為B時對應(yīng)的所有候選漢語句子S的概率值P (S I B),取P (S I B)值最大的對應(yīng)的漢語詞串的序列3 = 4, ... 作為最終漢語句子輸出。所述步驟100,包括下列步驟步驟110.利用已有真實(shí)盲文語料的訓(xùn)練方法,獲取漢語詞串為S時對應(yīng)的盲文B 的分詞連寫概率P (B ι S)I S) = V{bxb2...bm I Sxs2...sm) = ΠΡ(辦,I 丨)其中,PO^i | Si)表示漢語詞串
/=1
Si在分詞連寫規(guī)則下對應(yīng)一個盲文詞bi的概率;步驟120.根據(jù)N-gram語言模型,獲取漢語詞概率P (S) P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-^1WiW . . Wi^1) · · · P (WT I WT_n+1WT_n+2
...W1^1) (i = 1···Τ),其中的 N-gram 概率 P(Wi |Wi_n+lWi_n+2. . . Wi^1)通過大量的文本訓(xùn)練得到;步驟130.根據(jù)所述分詞連寫概率P (B I S)和所述漢語詞概率P (S),利用貝葉斯公
式P口 I B) =,構(gòu)造盲漢轉(zhuǎn)換模型。所述P(bi|Si)值的估算采用如下三種方法a. 0-1 規(guī)則法假設(shè)共有K條規(guī)則r2,. . .,ι·κ,若漢語詞串Si滿足規(guī)則r」,記作R(s,r」)=True, 否則記作R(s,rj) = False ;采用0,1兩個值定義分詞連寫概率,即當(dāng)滿足任一條規(guī)則時, 定義其概率值為1,否則為0。b. α規(guī)則法
fa, ]r,,i (s,,r,) = 7>Me引入一個參數(shù)α,令P(Ak) = ^ J ’,采用α,1-α兩個值定義分
11 -a vr{, R(sl ’ r) = False
詞連寫概率;c.逐條規(guī)則統(tǒng)計(jì)法對不同的規(guī)則采用不同的α值,對于規(guī)則j = 1,2,..., K,分別估計(jì)α」;1 在訓(xùn)練集中,統(tǒng)計(jì)解碼時所有規(guī)則認(rèn)為可連寫的串,將串的個數(shù)記為;2:統(tǒng)計(jì)這C,個串中實(shí)際被連寫的串的個數(shù),記為(山_);3 計(jì)算 α j 的估計(jì)值式=c,U)/cr(j)。b中,所述參數(shù)α的值的選取有兩種方法方法一采用一個開發(fā)集調(diào)試,變換參數(shù)值,尋找使盲-漢轉(zhuǎn)換性能最好的參數(shù)值;方法二 采用一個訓(xùn)練集,在訓(xùn)練集上直接估計(jì)α的值,估計(jì)方法如下1 在訓(xùn)練集中,統(tǒng)計(jì)解碼時所有規(guī)則認(rèn)為可連寫的串,將串的個數(shù)記為q ;
1, BrjiR(S^rj) = True 0 VrjiR(S^rj) = Fahe
2 統(tǒng)計(jì)這q個串中實(shí)際被連寫的串的個數(shù),記為Ct ;3 計(jì)算 α 的估計(jì)值 =在步驟200中,利用盲文中的聲調(diào)信息,篩除聲調(diào)不相符的候選漢語句子。在步驟200中,采用基于盲文聲調(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果,當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時,先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同,若相同,則這個盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。所述步驟300之后,包括下列步驟步驟400.根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改,并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料,建立基于cache的自適應(yīng)模型,對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整,得到優(yōu)化的盲漢轉(zhuǎn)換模型。為實(shí)現(xiàn)本發(fā)明的目的還提供一種盲文輸入系統(tǒng),所述系統(tǒng),包括模型構(gòu)造模塊,用于根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則構(gòu)造盲漢轉(zhuǎn)換模型;候選搜索模塊,用于根據(jù)輸入的盲文句子B,列出其對應(yīng)的所有候選漢語句子S ;盲漢轉(zhuǎn)換模塊,用于利用所述盲漢轉(zhuǎn)換模型,求得輸入的盲文句子為B時對應(yīng)的所有候選漢語句子S的概率值P (S I B),取P (S I B)值最大的對應(yīng)的漢語詞串的序列S = S1,
作為最終漢語句子輸出。所述模型構(gòu)造模塊,包括分詞連寫概率獲取模塊,用于利用已有真實(shí)盲文語料的訓(xùn)練方法,獲取漢語詞串為S時對應(yīng)的盲文B的分詞連寫概率P (B I S)P(萬 I S) = P(ZJ1Z)2...^ 15,52-^) = 17^/1其中,P(bi|Si)表示漢語詞串
/=1
f
Si在分詞連寫規(guī)則下對應(yīng)一個盲文詞bi的概率;漢語詞概率獲取模塊,用于根據(jù)N-gram語言模型,獲取漢語詞概率P (S);P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-^1WiW . . Wi^1) · · · P (WT I WT_n+1WT_n+2 ...W1^1) (i = 1···Τ),其中的 N-gram 概率 P(Wi |Wi_n+lWi_n+2. . . Wi^1)通過大量的文本訓(xùn)練得到;模型計(jì)算模塊,用于根據(jù)所述分詞連寫概率P (B I S)和所述漢語詞概率P (S),利用
貝葉斯公式PC I B) = P(BlS(^(S),構(gòu)造盲漢轉(zhuǎn)換模型。所述P(biSi)值的估算采用如下三種方法a. 0-1 規(guī)則法假設(shè)共有K條規(guī)則r2,. . .,ι·κ,若漢語詞串Si滿足規(guī)則r」,記作R(s,r」)=True, 否則記作R(s,rj) = False ;采用0,1兩個值定義分詞連寫概率,即當(dāng)滿足任一條規(guī)則時, 定義其概率值為1,否則為0。
1, BrjiR(^rj) = True 0 VrjtRisl,^) = False b. α規(guī)則法 引入一個參數(shù)α,令Ρ( , μ,)
BrrRi^r) = True ^rj,R(S^rl)- False
,采用α,1-α兩個值定義分
7詞連寫概率; c.逐條規(guī)則統(tǒng)計(jì)法對不同的規(guī)則采用不同的α值,對于規(guī)則j = 1,2,..., K,分別估計(jì)α」;1 在訓(xùn)練集中,統(tǒng)計(jì)解碼時所有規(guī)則r」認(rèn)為可連寫的串,將串的個數(shù)記為Cr(j);2:統(tǒng)計(jì)這C,個串中實(shí)際被連寫的串的個數(shù),記為(3山_);3 計(jì)算 α j 的估計(jì)值式 7 =c,{j)lcr{j)。b中,所述參數(shù)α的值的選取有兩種方法方法一采用一個開發(fā)集調(diào)試,變換參數(shù)值,尋找使盲_漢轉(zhuǎn)換性能最好的參數(shù)值;方法二 采用一個訓(xùn)練集,在訓(xùn)練集上直接估計(jì)α的值,估計(jì)方法如下1 在訓(xùn)練集中,統(tǒng)計(jì)解碼時所有規(guī)則認(rèn)為可連寫的串,將串的個數(shù)記為Ct ;2 統(tǒng)計(jì)這q個串中實(shí)際被連寫的串的個數(shù),記為Ct ;3 計(jì)算α的估計(jì)值 .A = Wr。所述系統(tǒng),還包括聲調(diào)信息篩除模塊,用于利用盲文中的聲調(diào)信息,篩除聲調(diào)不相符的候選漢語句子?;诿の穆曊{(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果, 當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時,先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同,若相同,則這個盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。所述系統(tǒng),還包括語言模型自適應(yīng)模塊,用于根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改,并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料,建立基于cache的自適應(yīng)模型,對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整,得到優(yōu)化的盲漢轉(zhuǎn)換模型。本發(fā)明的有益效果是融合現(xiàn)行盲文的多種特點(diǎn),使用語言模型并結(jié)合各種規(guī)則,能夠以很高的轉(zhuǎn)換正確率將用戶輸入的整句整篇盲文直接轉(zhuǎn)換為漢字,并且在此基礎(chǔ)上,利用已有的轉(zhuǎn)換結(jié)果進(jìn)行語言模型自適應(yīng),當(dāng)再有同樣輸入時,產(chǎn)生語言模型自適應(yīng)調(diào)整后的結(jié)果,進(jìn)一步提高轉(zhuǎn)換的正確率。


圖1是本發(fā)明的盲文輸入方法的步驟流程圖;圖2是本發(fā)明中使用盲漢轉(zhuǎn)換模型得到最終轉(zhuǎn)換結(jié)果并輸出的步驟流程圖;圖3是本發(fā)明中構(gòu)造盲漢轉(zhuǎn)換模型的步驟流程圖;圖4是本發(fā)明的盲文輸入系統(tǒng)的工作方法的示意圖;圖5是本發(fā)明的盲文輸入系統(tǒng)的結(jié)構(gòu)圖;圖6是構(gòu)建詞網(wǎng)格的示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明的一種盲文輸入方法和系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明結(jié)合當(dāng)前最常用的現(xiàn)行盲文的特點(diǎn),提出了一種新的漢語盲文輸入方法。 在輸入的過程中,融合現(xiàn)行盲文的多種特點(diǎn),使用語言模型并結(jié)合各種規(guī)則,能夠以很高的轉(zhuǎn)換正確率將用戶輸入的整句整篇盲文直接轉(zhuǎn)換為漢字,并且在此基礎(chǔ)上,利用已有的轉(zhuǎn)換結(jié)果進(jìn)行語言模型自適應(yīng),當(dāng)再有同樣輸入時,產(chǎn)生語言模型自適應(yīng)調(diào)整后的結(jié)果,進(jìn)一步提高轉(zhuǎn)換的正確率,從根本上解決了盲人使用計(jì)算機(jī)時輸入文字困難的問題。本發(fā)明的一種盲文輸入方法和系統(tǒng),基于N-gram語言模型,根據(jù)當(dāng)前字或詞之前的N-I個字或詞估計(jì)當(dāng)前盲文對應(yīng)某個具體字或詞的概率的統(tǒng)計(jì)語言模型。在此基礎(chǔ)上, 本發(fā)明主要包括三個創(chuàng)新點(diǎn)融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型、基于盲文聲調(diào)信息的詞語選取方法、語言模型自適應(yīng)。下面結(jié)合上述目標(biāo)詳細(xì)介紹本發(fā)明的一種盲文輸入方法,圖1是本發(fā)明的盲文輸入方法的步驟流程圖,如圖1所示,所述方法,包括下列步驟步驟100.對輸入的盲文詞串,列出其對應(yīng)的所有候選漢語句子S,使用融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型,得到最終轉(zhuǎn)換結(jié)果并輸出;漢語盲文是一種表音性文字,與漢語拼音類似,每個盲文字符對應(yīng)多個漢字候選。 通常采用N-gram語言模型處理漢語拼音到漢字的轉(zhuǎn)換問題。但是如果簡單的像拼音到漢字轉(zhuǎn)換那樣使用N-gram語言模型處理漢語盲文到漢字的轉(zhuǎn)換問題,會丟掉漢語盲文自身的信息,即漢語盲文最大的特征——分詞連寫規(guī)則,因此本發(fā)明提出了一種融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型。分詞連寫,是漢語盲文獨(dú)有的重要規(guī)則。所謂分詞,即是把一個個詞分開來寫;所謂連寫,即是按照盲文的特殊性,避免音節(jié)結(jié)構(gòu)過于松散,便于盲人摸讀,將一些詞連起來寫。在盲文中使用分詞連寫規(guī)則是為了更準(zhǔn)確清晰的表達(dá)語意,例如,幾個多音節(jié)詞組成的固定詞組表示國名、社會單位等專名概念,按詞分寫,如中華I人民I共和國;動詞跟事態(tài)助詞“著”“了”“過”連寫,如看見了。由于漢語盲文其獨(dú)特的分詞連寫規(guī)則與漢語中詞語的概念不同,有的盲文詞不能在我們已有的普通漢語詞典中找到與之直接對應(yīng)的中文詞, 如“看見了”在盲文規(guī)則是一個詞,而根據(jù)漢語習(xí)慣不把“看見了”當(dāng)作一個詞,而是“看見” 這個詞和“了”合成的一個詞組。根據(jù)盲文分詞連寫規(guī)則,這樣的詞很多,不能一一列舉,因此在轉(zhuǎn)換時,對于每個這樣的盲文詞,將這個盲文詞中的字或者這個詞中包含的普通漢語詞拆開作為一個字或詞,如“看見了”可以拆為“看見”和“了”,“一小段”拆為“一”,“小”和 “段”。這樣,針對這個詞,對其拆分的單元使用融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型N-gram語言模型進(jìn)行轉(zhuǎn)換。而對于只表示一個字或者一個普通漢語詞的盲文字符,直接用N-gram語言模型進(jìn)行轉(zhuǎn)換即可。圖2是本發(fā)明中使用盲漢轉(zhuǎn)換模型得到最終轉(zhuǎn)換結(jié)果并輸出的步驟流程圖,如圖 2所示,所述步驟100,包括下列步驟步驟110.根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則,構(gòu)造盲漢轉(zhuǎn)換模型;融合漢語盲文分詞連寫規(guī)則和N-gram語言模型的盲漢轉(zhuǎn)換模型構(gòu)造如下假設(shè)輸入為一個盲文詞串B = bib2. . . bm,其中bji = 1,. . .,m)是盲文詞。也就是說,這個盲文句子由η個盲文詞組成。其中每一個盲文詞可對應(yīng)Hii (i = 1,…,η)個漢語詞。也就是說,盲文詞h對應(yīng)Hi1個漢語詞,盲文詞ID2對應(yīng)m2個漢語詞…盲文詞bn對應(yīng) mn個漢語詞,這樣,這個盲文句子就會對應(yīng)mi*m2*…*mn個漢語句子。然后通過計(jì)算,從這些漢語句子中選出一句作為最終轉(zhuǎn)換結(jié)果。其中X (j = 1,2, . . . m,)是一個長度為的漢語詞,即《,最終轉(zhuǎn)換結(jié)果為B對應(yīng)的漢語詞串S = S1S2-知。圖3是本發(fā)明中構(gòu)造盲漢轉(zhuǎn)換模型的步驟流程圖,如圖3所示,所述步驟110,包括下列步驟步驟111.利用已有真實(shí)盲文語料的訓(xùn)練方法,獲取漢語詞串為S時對應(yīng)的盲文B 的概率,稱為分詞連寫概率P (B ι S);在書寫盲文時,根據(jù)盲文分詞連寫規(guī)則,同一個詞(詞組),可能會因?yàn)樵诓煌渥又械某煞植煌?,?dǎo)致這個盲文詞(詞組)的寫法不同(即可能連寫,也可能分開寫)。下面舉一個例子,“種菜”這個詞,在句子“小王種菜”中,動詞“種”充當(dāng)謂語動詞,在這種情況下,根據(jù)盲文分詞連寫規(guī)則,動詞“種”和賓語“菜”應(yīng)當(dāng)分寫,故這句的盲文應(yīng)該書寫為 "xiaowang zhong cai";而在句子“小王是種菜能手”中,動詞“種”和賓語“菜”組成的動賓短語作定語,在這種情況下,根據(jù)盲文分詞連寫規(guī)則,動詞“種”和賓語“菜”不應(yīng)當(dāng)分寫, 故這句的盲文應(yīng)該書寫為“xiaowang shi zhongcai nengshou”。從上面的例子,可以看出,相同的一個詞(詞組)由于在不同句子中代表的句子成分不同,在盲文分詞連寫規(guī)則的規(guī)定下可能連寫也可能分寫。而現(xiàn)有的方法很難精準(zhǔn)的判斷出一句話(中文)中的每一個詞的詞性以及句子成分,也就是說,對于給定一個漢語句子S,利用現(xiàn)有方法不能確定其對應(yīng)的盲文句子B是否完全符合盲文分詞連寫規(guī)則,即P(B|Q是不確定的。為此,我們提出了一種利用我們已有的真實(shí)盲文語料的訓(xùn)練方法若語料中有詞組既有連寫又有分寫的情況,那么我們使用一種基于統(tǒng)計(jì)的方法,得到每一個這種詞組的P (B I S)。有了這些基于經(jīng)驗(yàn)的P(B|Q概率值,在盲文到漢語的轉(zhuǎn)換時,根據(jù)輸入的盲文B和轉(zhuǎn)換得到的結(jié)果S,利用事先訓(xùn)練得到的相應(yīng)P (B I S),進(jìn)行計(jì)算。由于各個盲文詞連寫與否是相互獨(dú)立的,因此P (B I S)可分解為
m?(B 丨幻=?(b、b2“.bm 丨 V2... )二 Πp^/ 丨
(=1其中,P(bi|Si)表示漢語詞串Si在分詞連寫規(guī)則下對應(yīng)一個盲文詞bi (即該詞串既不會被拆分為多個盲文詞,也不會作為一部分而包含于其它盲文詞,而恰好對應(yīng)獨(dú)立的盲文詞h)的概率。其中,P(bi I Si)值的估計(jì)可采用如下三種方法步驟Illa. 0-1規(guī)則法事實(shí)上,某一個漢語詞串是否應(yīng)連寫為一個盲文詞,是由中國盲文規(guī)范中的分詞連寫規(guī)則決定的。這些規(guī)則大約有幾百條,一般根據(jù)詞串中的詞的詞性、在句中的成分、詞串的長短等決定某一詞是否連寫。因此,可以根據(jù)這些規(guī)則決定分詞連寫的概率。假設(shè)共有K條規(guī)則r2, . . . rK, 若漢語詞串Si滿足規(guī)則r」,記作R(s,rj) = True,否則記作R(s,r」)=False.因此,基于這些規(guī)則,可采用0,1兩個值定義分詞連寫概率,即當(dāng)滿足任一條規(guī)則時,定義其概率值為1,否則為0。
10
權(quán)利要求
1.一種盲文輸入方法,其特征在于,所述方法,包括下列步驟步驟100.根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則,構(gòu)造盲漢轉(zhuǎn)換模型; 步驟200.根據(jù)輸入的盲文句子B,列出其對應(yīng)的所有候選漢語句子S ; 步驟300.利用所述盲漢轉(zhuǎn)換模型,求得輸入的盲文句子為B時對應(yīng)的所有候選漢語句子S的概率值P (S I B),取P (S I B)值最大的對應(yīng)的漢語詞串的序列S = S1S2. . . Sffl作為最終漢語句子輸出。
2.根據(jù)權(quán)利要求1所述的盲文輸入方法,其特征在于,所述步驟100,包括下列步驟 步驟110.利用已有真實(shí)盲文語料的訓(xùn)練方法,獲取漢語詞串為S時對應(yīng)的盲文B的分詞連寫概率P (B I S)
3.根據(jù)權(quán)利要求2所述的盲文輸入方法,其特征在于,所述P(bi I Si)值的估算采用如下三種方法
4.根據(jù)權(quán)利要求3所述的盲文輸入方法,其特征在于,b中,所述參數(shù)α的值的選取有兩種方法方法一采用一個開發(fā)集調(diào)試,變換參數(shù)值,尋找使盲-漢轉(zhuǎn)換性能最好的參數(shù)值;方法二 采用一個訓(xùn)練集,在訓(xùn)練集上直接估計(jì)α的值,估計(jì)方法如下1在訓(xùn)練集中,統(tǒng)計(jì)解碼時所有規(guī)則認(rèn)為可連寫的串,將串的個數(shù)記為q ;2統(tǒng)計(jì)這q個串中實(shí)際被連寫的串的個數(shù),記為Ct ; 3:計(jì)算α的估計(jì)值0一^,、。
5.根據(jù)權(quán)利要求1所述的盲文輸入方法,其特征在于,在步驟200中,利用盲文中的聲調(diào)信息,篩除聲調(diào)不相符的候選漢語句子。
6.根據(jù)權(quán)利要求1所述的盲文輸入方法,其特征在于,在步驟200中,采用基于盲文聲調(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果,當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時,先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同,若相同,則這個盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。
7.根據(jù)權(quán)利要求1所述的盲文輸入方法,其特征在于,所述步驟300之后,包括下列步驟步驟400.根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改,并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料,建立基于cache的自適應(yīng)模型,對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整,得到優(yōu)化的盲漢轉(zhuǎn)換模型。
8.一種盲文輸入系統(tǒng),其特征在于,所述系統(tǒng),包括模型構(gòu)造模塊,用于根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則構(gòu)造盲漢轉(zhuǎn)換模型;候選搜索模塊,用于根據(jù)輸入的盲文句子B,列出其對應(yīng)的所有候選漢語句子S ;盲漢轉(zhuǎn)換模塊,用于利用所述盲漢轉(zhuǎn)換模型,求得輸入的盲文句子為B時對應(yīng)的所有候選漢語句子S的概率值P (S I B),取P (S I B)值最大的對應(yīng)的漢語詞串的序列S = S1W2. . . Sffl作為最終漢語句子輸出。
9.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng),其特征在于,所述模型構(gòu)造模塊,包括 分詞連寫概率獲取模塊,用于利用已有真實(shí)盲文語料的訓(xùn)練方法,獲取漢語詞串為S時對應(yīng)的盲文B的分詞連寫概率P (B I S)mP(^I4S1) = P(V)2,.九 Iv2…=I )其中,P(bi|Si)表示漢語詞串&在‘=1 ,分詞連寫規(guī)則下對應(yīng)一個盲文詞bi的概率;漢語詞概率獲取模塊,用于根據(jù)N-gram語言模型,獲取漢語詞概率P (S);P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-JrtWiW · · WH) · · · P (WT I WT_n+1WT_n+2...W1^1) (i = 1···Τ),其中的N-gram概率P (Wi | Wi_n+lWi_n+2. . . Wi^1)通過大量的文本訓(xùn)練得到; 模型計(jì)算模塊,用于根據(jù)所述分詞連寫概率P (B I S)和所述漢語詞概率P (S),利用貝葉斯公式=,構(gòu)造盲漢轉(zhuǎn)換模型。
10.根據(jù)權(quán)利要求9所述的盲文輸入系統(tǒng),其特征在于,所述P(bi I Si)值的估算采用如下三種方法a. 0-1規(guī)則法假設(shè)共有K條規(guī)則巧,r2,. . .,rK,若漢語詞串Si滿足規(guī)則記作R(s,r」)=True,否則記作R(s,rj) = False ;采用0,1兩個值定義分詞連寫概率,即當(dāng)滿足任一條規(guī)則時,定義其概率值為1,否則為O。
11.根據(jù)權(quán)利要求10所述的盲文輸入系統(tǒng),其特征在于,b中,所述參數(shù)α的值的選取有兩種方法方法一采用一個開發(fā)集調(diào)試,變換參數(shù)值,尋找使盲-漢轉(zhuǎn)換性能最好的參數(shù)值; 方法二 采用一個訓(xùn)練集,在訓(xùn)練集上直接估計(jì)α的值,估計(jì)方法如下1在訓(xùn)練集中,統(tǒng)計(jì)解碼時所有規(guī)則認(rèn)為可連寫的串,將串的個數(shù)記為q ;2統(tǒng)計(jì)這q個串中實(shí)際被連寫的串的個數(shù),記為Ct ;3計(jì)算α的估計(jì)值0盧=^,乂。
12.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng),其特征在于,所述系統(tǒng),還包括聲調(diào)信息篩除模塊,用于利用盲文中的聲調(diào)信息,篩除聲調(diào)不相符的候選漢語句子。
13.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng),其特征在于,基于盲文聲調(diào)信息的詞語選取方法記錄文中所有已出現(xiàn)的標(biāo)調(diào)詞和其轉(zhuǎn)換結(jié)果,當(dāng)后文中有未標(biāo)調(diào)詞出現(xiàn)時,先和已經(jīng)記錄的標(biāo)調(diào)詞比較盲文字符是否相同,若相同,則這個盲文字符對應(yīng)的候選漢字即使已記錄的標(biāo)調(diào)詞的轉(zhuǎn)換結(jié)果。
14.根據(jù)權(quán)利要求8所述的盲文輸入系統(tǒng),其特征在于,所述系統(tǒng),還包括語言模型自適應(yīng)模塊,用于根據(jù)自然語言規(guī)則對所述最終漢字句子進(jìn)行修改,并將修改的結(jié)果存入緩沖區(qū)作為自適應(yīng)語料,建立基于cache的自適應(yīng)模型,對盲漢轉(zhuǎn)換模型進(jìn)行調(diào)整,得到優(yōu)化的盲漢轉(zhuǎn)換模型。
全文摘要
本發(fā)明公開了一種盲文輸入方法和系統(tǒng)。所述方法包括下列步驟步驟根據(jù)N-gram語言模型,結(jié)合漢語盲文分詞連寫規(guī)則,構(gòu)造盲漢轉(zhuǎn)換模型;根據(jù)輸入的盲文句子B,列出其對應(yīng)的所有候選漢語句子S;利用所述盲漢轉(zhuǎn)換模型,求得輸入的盲文句子為B時對應(yīng)的所有候選漢語句子S的概率值P(S|B),取P(S|B)值最大的對應(yīng)的漢語詞串的序列S=s1s2...sm作為最終漢語句子輸出。其能夠有效利用漢語盲文自身特征,提高盲文轉(zhuǎn)換為漢字的正確率。
文檔編號G09B21/02GK102156693SQ201110070320
公開日2011年8月17日 申請日期2011年3月23日 優(yōu)先權(quán)日2011年3月23日
發(fā)明者林守勛, 王向東, 王超, 錢躍良 申請人:中國科學(xué)院計(jì)算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
边坝县| 商河县| 平度市| 望城县| 准格尔旗| 临泽县| 泸州市| 桓仁| 东兴市| 常德市| 黑水县| 保靖县| 沂水县| 赤水市| 江西省| 安西县| 睢宁县| 沙田区| 余干县| 渑池县| 高邑县| 普格县| 武宣县| 明光市| 勐海县| 岚皋县| 韶关市| 灌云县| 迭部县| 桃园县| 湖州市| 卢氏县| 防城港市| 玉环县| 筠连县| 微博| 峨眉山市| 永平县| 广河县| 东兰县| 静海县|