两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種拼音自動識別方法及系統(tǒng)的制作方法

文檔序號:6430955閱讀:277來源:國知局
專利名稱:一種拼音自動識別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種拼音自動識別方法及系統(tǒng)。
背景技術(shù)
拼音輸入法是目前廣泛使用的一種輸入法,用戶在使用拼音輸入法進(jìn)行拼音的輸入時,由于各種原因使得用戶輸入錯誤的拼音,例如由于用戶對鍵盤的按鍵不熟悉或鍵盤本身按鍵設(shè)計太過于相近,使得用戶按錯按鍵,或者由于用戶漢字發(fā)音不正確,使得拼音輸入錯誤,例如,平舌音和翹舌音的錯誤等?,F(xiàn)有技術(shù)對用戶輸入的拼音的識別,主要通過預(yù) 先存儲錯誤拼音和正確拼音的對應(yīng)關(guān)系,輸出正確的拼音,從而完成拼音的識別。然而用戶輸入拼音的錯誤是不確定的,不可能預(yù)先存儲所有錯誤拼音,另外,不同上下文中拼音是否正確并不是確定的,例如,“fen’ shu’ xian”(分?jǐn)?shù)線)被寫成“fen’ su’ xian”,若單獨(dú)考慮,則拼音“su”并不是一個錯誤的拼音,然而考慮到其所在的上下文則“su”為一個錯誤的拼音。因此,現(xiàn)有技術(shù)無法提供一種有效的拼音識別方法從用戶輸入的字符中(正確的拼音或錯誤的拼音)準(zhǔn)確地識別出符合上下文要求的拼音,導(dǎo)致拼音輸入效率低,用戶體驗(yàn)差。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種拼音自動識別方法及系統(tǒng),旨在解決由于現(xiàn)有技術(shù)無法提供一種有效的拼音識別方法從用戶輸入的字符中識別出正確且符合上下文的拼音,導(dǎo)致拼音輸入效率低,用戶體驗(yàn)差的問題。本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種拼音自動識別方法,所述方法包括下述步驟對用戶輸入的拼音串進(jìn)行切分,獲得切分后的拼音串;獲取切分后的拼音串中拼音的映射關(guān)系的映射概率,所述映射關(guān)系包括一元映射關(guān)系和/或多兀映射關(guān)系;根據(jù)所述映射概率,識別出與用戶輸入的拼音串存在映射關(guān)系的拼音串。本發(fā)明實(shí)施例的另一目的在于提供一種拼音自動識別系統(tǒng),所述系統(tǒng)包括拼音串切分單元,用于對用戶輸入的拼音串進(jìn)行切分,獲得切分后的拼音串;映射概率獲取單元,用于獲取切分后的拼音串中拼音的映射關(guān)系的映射概率,所述映射關(guān)系包括一兀映射關(guān)系和/或多兀映射關(guān)系;以及拼音串識別單元,用于根據(jù)所述映射概率獲取單元獲取的映射概率,識別出與用戶輸入的拼音串存在映射關(guān)系的拼音串。本發(fā)明實(shí)施例通過對用戶輸入的拼音串進(jìn)行切分,獲取切分后的拼音串中拼音的映射關(guān)系的映射概率,該映射關(guān)系包括一元映射關(guān)系和/或多元映射關(guān)系,并根據(jù)獲取的映射概率,識別出與用戶輸入的拼音串存在映射關(guān)系的拼音串,本發(fā)明實(shí)施例采用映射關(guān)系的映射概率來表不兩個拼首串存在映射關(guān)系的可能性,而多兀映射關(guān)系的使用使得系統(tǒng)能夠從用戶輸入的字符中準(zhǔn)確地識別出符合上下文的拼音,及時地向用戶提供識別后的正確的拼首,從而提聞了用戶輸入的拼首的識別準(zhǔn)確度,有效地提聞了拼首的輸入效率。


圖I是本發(fā)明第一實(shí)施例提供的拼音自動識別方法的實(shí)現(xiàn)流程圖;圖2是本發(fā)明第二實(shí)施例提供的映射表的映射關(guān)系添加步驟的實(shí)現(xiàn)流程圖;圖3是本發(fā)明第三實(shí)施例提供的拼音自動識別方法的實(shí)現(xiàn)流程圖;圖4是本發(fā)明第四實(shí)施例提供的拼音自動識別系統(tǒng)的結(jié)構(gòu)圖;
圖5是本發(fā)明第五實(shí)施例提供的拼音自動識別系統(tǒng)的結(jié)構(gòu)圖;圖6是本發(fā)明第六實(shí)施例提供的拼音自動識別系統(tǒng)的結(jié)構(gòu)圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。在本發(fā)明實(shí)施例中,采用映射關(guān)系的映射概率來表示兩個拼音串存在映射關(guān)系的可能性(相似度),而多元映射關(guān)系的使用使得系統(tǒng)能夠從用戶輸入的字符中準(zhǔn)確地識別出符合上下文的拼音,及時地向用戶提供識別后的正確的拼音,從而提高了用戶輸入的拼音的識別準(zhǔn)確度,有效地提高了拼音的輸入效率。以下結(jié)合具體實(shí)施例對本發(fā)明的具體實(shí)現(xiàn)進(jìn)行詳細(xì)描述實(shí)施例一:圖I示出了本發(fā)明第一實(shí)施例提供的拼音自動識別方法的實(shí)現(xiàn)流程,詳述如下在步驟SlOl中,對用戶輸入的拼音串進(jìn)行切分,獲得切分后的拼音串。在本發(fā)明實(shí)施例中,當(dāng)用戶通過輸入設(shè)備輸入漢字拼音串時,根據(jù)漢字音節(jié)的字義和組成結(jié)構(gòu)對拼首串進(jìn)行切分,獲得切分后的拼首串,進(jìn)而獲取切分后的拼首串的每個切分位置的拼音的映射關(guān)系的映射概率,。具體地,可以利用相應(yīng)的拼音切分工具對輸入的拼音進(jìn)行切分,例如,當(dāng)用戶輸入拼音串為“ dahuashue i hu ”時,切分的結(jié)果為“’da’ hua’ shu’ ei’ hu’”,該切分結(jié)果包括六個切分位置,“da”之前的起始切分位置,“da”和“hua”之間的第一切分位置,“hua”和“shu”之間的第二切分位置,“hu”之后的最終切分位置等。在步驟S102中,獲取切分后的拼音串中拼音的映射關(guān)系的映射概率,該映射關(guān)系包括一兀映射關(guān)系和/或多兀映射關(guān)系。在本發(fā)明實(shí)施例中,預(yù)先建立一映射表,用于存儲拼音與拼音或多個拼音與多個拼音的映射關(guān)系,以及映射關(guān)系對應(yīng)的映射概率(存在映射關(guān)系的概率)。具體地,映射關(guān)系可以分為一元映射關(guān)系和多元映射關(guān)系,例如(“da”,“dai”)為一個“da”到“dai”的一元映射關(guān)系,(“shu,er’”,“Shui”)為“shu,er’”到“shui,”的二元映射。映射關(guān)系
Pia b) = count(a,b),
的映射概率為’么conunt(a q )其中p (a,b)表示a到b的映射關(guān)系,count (a, b)
i=\
表示獲取的映射關(guān)系a到b的數(shù)量,count (a, 為映射關(guān)系a到Qi的數(shù)量,η為映射a為原象的映射關(guān)系的總數(shù)。在步驟S103中,根據(jù)步驟S102中獲取的映射概率,識別出與用戶輸入的拼音串存在映射關(guān)系的拼首串。在本發(fā)明實(shí)施例中,在步驟S102中獲得了切分后的拼音串中拼音的映射關(guān)系的映射概率,即獲得了由用戶輸入的拼音串中的拼音構(gòu)成的一元映射或多元映射的概率,從而將與用戶輸入的拼音串存在映射關(guān)系的拼音串的識別轉(zhuǎn)換為最優(yōu)值求解過程,從而可以通過預(yù)設(shè)的最優(yōu)值求解算法確定與用戶輸入的拼音串存在映射關(guān)系的拼音串。具體地,可以采用遺傳算法、神經(jīng)網(wǎng)絡(luò)和動態(tài)規(guī)劃算法等實(shí)現(xiàn)與用戶輸入的拼音串存在映射關(guān)系的拼音串的識別,具體實(shí)施過程中在后續(xù)實(shí)施例中進(jìn)行描述。實(shí)施例二 :用戶輸入的拼音串以及點(diǎn)擊確定后輸入的漢字字符串或拼音串,構(gòu)成一個糾錯
對,例如,當(dāng)用戶在搜索引擎中輸入拼音串“shanguoyanyi”時,若搜索引擎提供“三國演義”,用戶點(diǎn)擊確定輸入“三國演義”,則(“shanguoyanyi”,“三國演義”)構(gòu)成一個糾錯對,糾錯對實(shí)質(zhì)上體現(xiàn)了一個映射關(guān)系。在本發(fā)明實(shí)施例中,預(yù)先由存儲的糾錯對獲取對應(yīng)的拼音串對,通過對拼音串對中的拼音進(jìn)行劃分和擴(kuò)展,采用預(yù)設(shè)映射概率求解公式計算出由拼音串中的拼音獲得的映射關(guān)系的映射概率。圖2示出了本發(fā)明第二實(shí)施例提供的映射表的映射關(guān)系添加步驟的實(shí)現(xiàn)流程,詳述如下在步驟S201中,獲取預(yù)先存儲的包括第一拼音串以及與第一拼音串對應(yīng)的中文字符串的糾錯對。在本發(fā)明實(shí)施例中,糾錯對可以從搜索引擎的搜索日志中獲得,也可以從其它具有存儲用戶輸入拼音和點(diǎn)擊選擇的中文字符串記錄的應(yīng)該系統(tǒng)中獲得,在此不用以限制本發(fā)明。較優(yōu)地,可以從搜索引擎的搜索日志中獲取。其中第一拼音串為用戶輸入的拼音串,中文字符串為用戶點(diǎn)擊選擇的中文字符串。在步驟S202中,對中文字符串進(jìn)行注音,將獲得的中文字符串的拼音串設(shè)置為第~■拼首串。在本發(fā)明實(shí)施例中,通過對糾錯串中中文字符串進(jìn)行注音,將獲得的中文字符串的拼音串設(shè)置為第二拼音串。例如糾錯串(“shanguoyanyi”,“三國演義”),其中“shanguoyanyi”為第一拼音串,“三國演義”為中文字符串,對該中文字符串進(jìn)行注音后,得到“sanguoyanyi”的第二拼音串。在步驟S203中,對第一拼音串和第二拼音串進(jìn)行切分,獲取切分后的第一拼音串中的拼音與切分后的第二拼音串中的拼音的映射關(guān)系。在本發(fā)明實(shí)施例中,對第一拼音串和第二拼音串進(jìn)行切分后,通過字符串編輯距離算法建立切分后的第一拼音串和第二拼音串中拼音的映射關(guān)系。例如,通過字符串編輯距離算法獲得糾錯串(“shanguoyanyi”,“三國演義”)中的一元映射關(guān)系(“shan”,“san”)、(“gU0”,“gU0”)和(“yan”,“yan”)等,通過對這些一元映射關(guān)系進(jìn)行擴(kuò)展可獲得二元映射關(guān)系,二兀映射關(guān)系等多兀映射關(guān)系。具體地,由上述一兀映射關(guān)系擴(kuò)展得到的_■兀關(guān)系有(“shan’ guo”, “san’ guo”)和(“guo’ yan’”, “guo’ yan”)等。在本發(fā)明實(shí)施例中可預(yù)設(shè)映射關(guān)系最多可擴(kuò)展的元數(shù),擴(kuò)展的元數(shù)表明了映射關(guān)系原象中包括的切分后的拼音數(shù)目,例如,可以限定只擴(kuò)展到三元映射關(guān)系,從而在降低計算量的情況下提高映射的準(zhǔn)確度,提高拼音在上下文中的識別準(zhǔn)確度。在步驟S204中,計算映射關(guān)系的映射概率,將映射關(guān)系和映射關(guān)系對應(yīng)的映射概率添加到映射表。在本發(fā)明實(shí)施例中,映射關(guān)系的映射概率為
權(quán)利要求
1.一種拼音自動識別方法,其特征在于,所述方法包括下述步驟 對用戶輸入的拼音串進(jìn)行切分,獲得切分后的拼音串; 獲取切分后的拼音串中拼音的映射關(guān)系的映射概率,所述映射關(guān)系包括一元映射關(guān)系和/或多兀映射關(guān)系; 根據(jù)所述映射概率,識別出與用戶輸入的拼音串存在映射關(guān)系的拼音串。
2.如權(quán)利要求I所述的方法,其特征在于,所述對用戶輸入的拼音串進(jìn)行切分,獲得切分后的拼音串的步驟之前,所述方法還包括步驟 獲取預(yù)先存儲的包括第一拼音串以及與所述第一拼音串對應(yīng)的中文字符串的糾錯對; 對所述中文字符串進(jìn)行注音,將獲得的所述中文字符串的拼音串設(shè)置為第二拼音串;對所述第一拼音串和所述第二拼音串進(jìn)行切分,獲取切分后的第一拼音串中的拼音與切分后的第二拼音串中的拼音的映射關(guān)系; 計算所述映射關(guān)系的映射概率,將所述映射關(guān)系和所述映射關(guān)系對應(yīng)的映射概率添加到映射表。
3.如權(quán)利要求2所述的方法,其特征在于,對所述第一拼音串和所述第二拼音串進(jìn)行切分,獲取切分后的第一拼音串中的拼音與切分后的第二拼音串中的拼音的映射關(guān)系的步驟包括下述步驟 對所述第一拼音串和所述第二拼音串進(jìn)行切分,獲取切分后的第一拼音串中的拼音與切分后的第二拼音串中的拼音的一元映射關(guān)系; 對所述一元映射關(guān)系進(jìn)行擴(kuò)展,獲取切分后的第一拼音串中的拼音與切分后的第二拼音串中的拼音的多元映射關(guān)系。
4.如權(quán)利要求I所述的方法,其特征在于,所述獲取切分后的拼音串中拼音的映射關(guān) 系的映射概率的步驟具體包括步驟 獲取切分后的拼音串的每個切分位置的拼音的映射關(guān)系的映射概率,所述映射關(guān)系包括一兀映射關(guān)系和/或多兀映射關(guān)系; 所述識別出與用戶輸入的拼音串存在映射關(guān)系的拼音串的步驟具體為 通過預(yù)設(shè)的最優(yōu)值求解算法確定與所述用戶輸入的拼音串存在映射關(guān)系的拼音串。
5.如權(quán)利要求4所述的方法,其特征在于,通過預(yù)設(shè)的最優(yōu)值求解算法確定與所述用戶輸入的拼音串存在映射關(guān)系的拼音串的步驟包括步驟 計算當(dāng)前切分位置(i_k)到切分位置i且輸入為第j個映射關(guān)系時的路徑值P^j =HiaxPiXPj,其中HiaxPi表示切分位置i到最終切分位置的最短路徑值,Pj表示獲取的第j個映射關(guān)系的映射概率,k表示切分位置i獲取HiaxPi時對應(yīng)的映射關(guān)系的元數(shù); 從所述最終切分位置進(jìn)行回溯,根據(jù)計算得到的路徑值Pi-M = HiaxPiXPp獲取最終切分位置到初始切分位置的最短路徑值; 將獲取所述最短路徑值時輸入的映射關(guān)系中被映射的拼音串設(shè)置為與用戶輸入的拼首串存在映射關(guān)系的拼首串。
6.—種拼首自動識別系統(tǒng),其特征在于,所述系統(tǒng)包括 拼音串切分單元,用于對用戶輸入的拼音串進(jìn)行切分,獲得切分后的拼音串; 映射概率獲取單元,用于獲取切分后的拼音串中拼音的映射關(guān)系的映射概率,所述映射關(guān)系包括一兀映射關(guān)系和/或多兀映射關(guān)系;以及 拼音串識別單元,用于根據(jù)所述映射概率獲取單元獲取的映射概率,識別出與用戶輸入的拼首串存在映射關(guān)系的拼首串。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 糾錯對獲取單元,用于獲取預(yù)先存儲的包括第一拼音串以及與所述第一拼音串對應(yīng)的中文字符串的糾錯對; 注音單元,用于對所述中文字符串進(jìn)行注音,將獲得的所述中文字符串的拼音串設(shè)置為第二拼音串; 映射關(guān)系獲取單元,用于對所述第一拼音串和所述第二拼音串進(jìn)行切分,獲取切分后的第一拼音串中的拼音與切分后的第二拼音串中的拼音的映射關(guān)系;以及 映射表添加單元,用于計算所述映射關(guān)系的映射概率,將所述映射關(guān)系和所述映射關(guān)系對應(yīng)的映射概率添加到映射表。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述映射關(guān)系獲取單元包括 一元映射關(guān)系獲取單元,用于對第一拼音串和第二拼音串進(jìn)行切分,獲取切分后的第一拼音串中的拼音與切分后的第二拼音串中的拼音的一元映射關(guān)系;以及 多元映射關(guān)系獲取單元,用于對一元映射關(guān)系獲取單元獲取的一元映射關(guān)系進(jìn)行擴(kuò)展,獲取切分后的第一拼音串中的拼音與切分后的第二拼音串中的拼音的多元映射關(guān)系。
9.如權(quán)利要求6所述的系統(tǒng),其特征在于, 所述映射概率獲取單元包括 映射概率獲取子單元,用于獲取切分后的拼音串的每個切分位置的拼音的映射關(guān)系的映射概率,所述映射關(guān)系包括一元映射關(guān)系和/或多元映射關(guān)系; 所述拼音串識別單元包括 映射關(guān)系確定子單元,用于通過預(yù)設(shè)的最優(yōu)值求解算法確定與所述用戶輸入的拼音串存在映射關(guān)系的拼首串。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述映射關(guān)系確定子單元包括 路徑值計算單元,用于計算當(dāng)前切分位置(i_k)到切分位置i且輸入為第j個映射關(guān)系時的路徑值Pi_k, j = HiaxPiXPj,其中HiaxPi表示切分位置i到最終切分位置的最短路徑值,Pj表示獲取的第j個映射關(guān)系的映射概率,k表示切分位置i獲取HiaxPi時對應(yīng)的映射關(guān)系的兀數(shù); 最短路徑獲取單元,用于從最終切分位置進(jìn)行回溯,根據(jù)所述路徑值計算單元計算得至IJ的路徑值Pi-M = HiaxPiXPj,獲取最終切分位置到初始切分位置的最短路徑值;以及拼音串設(shè)置單元,用于將獲取所述最短路徑獲取單元獲取最短路徑值時輸入的映射關(guān)系中被映射的拼音串設(shè)置為與用戶輸入的拼音串存在映射關(guān)系的拼音串。
全文摘要
本發(fā)明適用于計算機(jī)技術(shù)領(lǐng)域,提供了一種拼音自動識別方法及系統(tǒng),所述方法包括下述步驟對用戶輸入的拼音串進(jìn)行切分,獲得切分后的拼音串,獲取切分后的拼音串中拼音的映射關(guān)系的映射概率,根據(jù)所述映射概率,識別出與用戶輸入的拼音串存在映射關(guān)系的拼音串。本發(fā)明采用映射關(guān)系的映射概率來表示兩個拼音串存在映射關(guān)系的可能性,而多元映射關(guān)系的使用使得系統(tǒng)能夠從用戶輸入的字符中準(zhǔn)確地識別出符合上下文的拼音,及時地向用戶提供識別后的正確的拼音,從而提高了用戶輸入的拼音的識別準(zhǔn)確度,有效地提高了拼音的輸入效率。
文檔編號G06F17/27GK102955770SQ20111023592
公開日2013年3月6日 申請日期2011年8月17日 優(yōu)先權(quán)日2011年8月17日
發(fā)明者李超, 宋國龍, 賈自艷 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
邯郸县| 基隆市| 隆昌县| 鄂尔多斯市| 奎屯市| 资中县| 方城县| 绥中县| 西贡区| 延津县| 崇文区| 鲁山县| 合川市| 西吉县| 榆社县| 正定县| 永寿县| 白城市| 如皋市| 山东省| 南皮县| 孝感市| 额济纳旗| 柳林县| 威宁| 邢台县| 泗阳县| 西乌珠穆沁旗| 视频| 铜山县| 班戈县| 湖口县| 荥经县| 荆州市| 宁津县| 镇坪县| 公主岭市| 墨竹工卡县| 方城县| 北辰区| 西宁市|