两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于將簡體漢語句子轉(zhuǎn)換為繁體漢語句子的方法和設(shè)備的制作方法

文檔序號(hào):6492435閱讀:296來源:國知局
用于將簡體漢語句子轉(zhuǎn)換為繁體漢語句子的方法和設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種用于將簡體漢語句子轉(zhuǎn)換為繁體漢語句子的方法和設(shè)備。所述方法包括:由基于簡體-繁體字符一對(duì)多轉(zhuǎn)換表的序列標(biāo)注模型,對(duì)輸入的簡體漢語句子進(jìn)行序列標(biāo)注,以得到多組序列標(biāo)注結(jié)果及其組概率;對(duì)所述簡體漢語句子進(jìn)行分詞和詞性標(biāo)注;根據(jù)所述簡體漢語句子中的歧義字的詞性和歧義詞的轉(zhuǎn)換概率中的至少一個(gè)以及所述組概率,從所述多組序列標(biāo)注結(jié)果中選擇最佳標(biāo)注結(jié)果;以及按照所述最佳標(biāo)注結(jié)果,基于所述一對(duì)多轉(zhuǎn)換表,將所輸入的簡體漢語句子中的、所述一對(duì)多轉(zhuǎn)換表中出現(xiàn)的簡體字符轉(zhuǎn)換為繁體字符;其中在所述一對(duì)多轉(zhuǎn)換表中,每一個(gè)簡體字符對(duì)應(yīng)于按順序排列的多個(gè)候選繁體字符。
【專利說明】用于將簡體漢語句子轉(zhuǎn)換為繁體漢語句子的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般地涉及自然語言處理。具體而言,本發(fā)明涉及一種能夠?qū)⒑嗴w漢語句子轉(zhuǎn)換為繁體漢語句子的方法和設(shè)備。
【背景技術(shù)】
[0002]由于歷史和文化傳播等原因,漢語存在兩種書面形式。一種是中國大陸和新加坡使用的簡體漢字,另一種是臺(tái)灣、香港、澳門、大多數(shù)海外華人使用的繁體漢字。隨著各地區(qū)之間的文化交流、經(jīng)濟(jì)往來等日益增多,存在將簡體漢字和繁體漢字互相轉(zhuǎn)換的需要。
[0003]漢字簡繁轉(zhuǎn)換的主要問題在于,在漢字的簡化過程中將多個(gè)繁體漢字進(jìn)行了歸并,使得多個(gè)繁體漢字可能對(duì)應(yīng)于一個(gè)簡體漢字,因此,將簡體漢字轉(zhuǎn)換為繁體漢字時(shí),會(huì)存在一對(duì)多的歧義。例如,簡體漢字“發(fā)”對(duì)應(yīng)于繁體漢字“發(fā)”和“髪”。簡體詞“出發(fā)”應(yīng)轉(zhuǎn)換為繁體詞“出發(fā)”,簡體詞“頭發(fā)”應(yīng)轉(zhuǎn)換為繁體詞“頭髪”。
[0004]傳統(tǒng)的簡繁轉(zhuǎn)換方法依賴于人工構(gòu)造的各種映射表,根據(jù)映射表中簡繁漢字的對(duì)應(yīng)關(guān)系,進(jìn)行簡體漢字和繁體漢字之間的轉(zhuǎn)換。傳統(tǒng)的方法雖然實(shí)現(xiàn)簡單、轉(zhuǎn)換速度較快,但是無法解決簡體漢字與繁體漢字之間的一對(duì)多歧義問題,并且基于詞的映射表的轉(zhuǎn)換必然涉及到對(duì)輸入的簡體漢語句子進(jìn)行分詞,轉(zhuǎn)換結(jié)果受到分詞結(jié)果的較大影響。此外,傳統(tǒng)的方法需要高質(zhì)量的大規(guī)模知識(shí)庫,即需要大量的人力物力。并且,人工構(gòu)造的知識(shí)可能互相矛盾,從而影響系統(tǒng)的整體性能。因此,期望設(shè)計(jì)一種設(shè)備和方法,其能夠解決簡繁轉(zhuǎn)換的一對(duì)多歧義問題,較少受到分詞的影響,不依賴于高質(zhì)量的大規(guī)模知識(shí)庫,避免過多引入人工構(gòu)造的知識(shí)。

【發(fā)明內(nèi)容】

[0005]在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
[0006]本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的上述問題,提出一種能夠?qū)⒑嗴w漢語句子轉(zhuǎn)換為繁體漢語句子的方法和設(shè)備。該方案能夠克服簡繁轉(zhuǎn)換過程中的一對(duì)多歧義問題。
[0007]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種將簡體漢語句子轉(zhuǎn)換為繁體漢語句子的方法,其包括:由基于簡體-繁體字符一對(duì)多轉(zhuǎn)換表的序列標(biāo)注模型,對(duì)輸入的簡體漢語句子進(jìn)行序列標(biāo)注,以得到多組序列標(biāo)注結(jié)果及其組概率;對(duì)所述簡體漢語句子進(jìn)行分詞和詞性標(biāo)注;根據(jù)所述簡體漢語句子中的歧義字的詞性和歧義詞的轉(zhuǎn)換概率中的至少一個(gè)以及所述組概率,從所述多組序列標(biāo)注結(jié)果中選擇最佳標(biāo)注結(jié)果;以及按照所述最佳標(biāo)注結(jié)果,基于所述一對(duì)多轉(zhuǎn)換表,將所輸入的簡體漢語句子中的、所述一對(duì)多轉(zhuǎn)換表中出現(xiàn)的簡體字符轉(zhuǎn)換為繁體字符;其中在所述一對(duì)多轉(zhuǎn)換表中,每一個(gè)簡體字符對(duì)應(yīng)于按順序排列的多個(gè)候選繁體字符。[0008]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種將簡體漢語句子轉(zhuǎn)換為繁體漢語句子的轉(zhuǎn)換設(shè)備,其包括:基于簡體-繁體字符一對(duì)多轉(zhuǎn)換表的序列標(biāo)注模型,用于對(duì)輸入的簡體漢語句子進(jìn)行序列標(biāo)注,以得到多組序列標(biāo)注結(jié)果及其組概率;分詞和詞性標(biāo)注裝置,用于對(duì)所述簡體漢語句子進(jìn)行分詞和詞性標(biāo)注;選擇裝置,用于根據(jù)所述簡體漢語句子中的歧義字的詞性和歧義詞的轉(zhuǎn)換概率中的至少一個(gè)以及所述組概率,從所述多組序列標(biāo)注結(jié)果中選擇最佳標(biāo)注結(jié)果;以及轉(zhuǎn)換裝置,用于按照所述最佳標(biāo)注結(jié)果,基于所述一對(duì)多轉(zhuǎn)換表,將所輸入的簡體漢語句子中的、所述一對(duì)多轉(zhuǎn)換表中出現(xiàn)的簡體字符轉(zhuǎn)換為繁體字符;其中在所述一對(duì)多轉(zhuǎn)換表中,每一個(gè)簡體字符對(duì)應(yīng)于按順序排列的多個(gè)候選繁體字符。
[0009]另外,根據(jù)本發(fā)明的另一方面,還提供了 一種存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時(shí),所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
[0010]此外,根據(jù)本發(fā)明的再一方面,還提供了 一種程序產(chǎn)品。所述程序產(chǎn)品包括機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時(shí),所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
【專利附圖】

【附圖說明】
[0011]參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。附圖中:
[0012]圖1示出了訓(xùn)練語料的示例性獲取方法;
[0013]圖2示出了根據(jù)本發(fā)明實(shí)施例的簡繁漢語句子轉(zhuǎn)換方法的第一實(shí)施例的流程圖;
[0014]圖3示出了根據(jù)本發(fā)明實(shí)施例的簡繁漢語句子轉(zhuǎn)換方法的第二實(shí)施例的流程圖;
[0015]圖4示出了根據(jù)本發(fā)明實(shí)施例的簡繁漢語句子轉(zhuǎn)換設(shè)備的結(jié)構(gòu)方框圖;以及
[0016]圖5示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。
【具體實(shí)施方式】
[0017]在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行詳細(xì)描述。為了清楚和簡明起見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
[0018]在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。另外,還需要指出的是,在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。
[0019]本發(fā)明基于如下的思想:可以將簡繁漢語句子的轉(zhuǎn)換問題看作一個(gè)序列標(biāo)注問題。而且,對(duì)于序列標(biāo)注的結(jié)果,可以通過引入歧義字的詞性和歧義詞的轉(zhuǎn)換概率來進(jìn)行篩選。選出的最佳序列標(biāo)注結(jié)果對(duì)應(yīng)的繁體漢語句子可作為轉(zhuǎn)換的結(jié)果。[0020]應(yīng)注意,此處的術(shù)語“句子”相當(dāng)于字符串,可包括多個(gè)簡體字符或繁體字符,可以是完整的一句話,也可以是不完整的一句話、也可以是包括多句話的段落等。只要它是連續(xù)的同一種(簡體或繁體)漢字字符串即可。
[0021]首先,介紹簡體-繁體字符一對(duì)多轉(zhuǎn)換表、序列標(biāo)注模型的訓(xùn)練、訓(xùn)練語料的獲取方式、標(biāo)注規(guī)則。
[0022]如上所述,本發(fā)明所要解決的問題是克服在簡繁體轉(zhuǎn)換中一個(gè)簡體漢字可能對(duì)應(yīng)于多個(gè)繁體漢字的問題。通常,一個(gè)繁體漢字能夠找到其唯一對(duì)應(yīng)的一個(gè)簡體漢字。有些情況下,對(duì)應(yīng)的簡體漢字和繁體漢字是同一個(gè)字。因此,繁體漢字轉(zhuǎn)換為簡體漢字時(shí)通常不存在一對(duì)多轉(zhuǎn)換歧義問題。
[0023]本發(fā)明需要利用一個(gè)簡體-繁體字符一對(duì)多轉(zhuǎn)換表(以下簡稱為一對(duì)多轉(zhuǎn)換表)來記錄簡體字符與繁體字符的對(duì)應(yīng)關(guān)系、歧義字的詞性概率、歧義詞的轉(zhuǎn)換概率,并基于此進(jìn)行序列標(biāo)注模型的訓(xùn)練、標(biāo)注、標(biāo)注結(jié)果的篩選等。注意,歧義詞的轉(zhuǎn)換概率可以記載于單獨(dú)的歧義詞表中。
[0024]可以從維基百科獲得上述一對(duì)多轉(zhuǎn)換表,也可通過如下方式獲得上述一對(duì)多轉(zhuǎn)換表:從繁體-簡體字符轉(zhuǎn)換表中,抽取與多個(gè)繁體字符對(duì)應(yīng)的簡體字符;基于所抽取的簡體字符以及與其對(duì)應(yīng)的多個(gè)繁體字符,構(gòu)建上述一對(duì)多轉(zhuǎn)換表。繁體-簡體字符轉(zhuǎn)換表例如是1956年出版的國家標(biāo)準(zhǔn)-簡化字總表。
[0025]一對(duì)多轉(zhuǎn)換表的獲取方式并不受上述給出的示例的限制。不同方式獲得的一對(duì)多轉(zhuǎn)換表可進(jìn)行去重合并,以獲得擁有更多詞匯的轉(zhuǎn)換表。
[0026]將基于此一對(duì)多轉(zhuǎn)換表進(jìn)行下面將描述的序列標(biāo)注模型的訓(xùn)練過程,并根據(jù)訓(xùn)練語料獲得上述的歧義字的詞性概率和歧義詞的轉(zhuǎn)換概率。
[0027]在一對(duì)多轉(zhuǎn)換表中,每一個(gè)簡體字符對(duì)應(yīng)于按順序排列的多個(gè)候選繁體字符?;谏鲜鲆粚?duì)多轉(zhuǎn)換表的標(biāo)注規(guī)則是為一對(duì)多轉(zhuǎn)換表中出現(xiàn)的簡體字符標(biāo)注一對(duì)多轉(zhuǎn)換表中其對(duì)應(yīng)的候選繁體字符的序號(hào)。對(duì)于一對(duì)多轉(zhuǎn)換表中沒有出現(xiàn)的簡體字符、標(biāo)點(diǎn)符號(hào),將其標(biāo)注為與上述序號(hào)不同的同一公共標(biāo)簽。例如,一個(gè)簡體漢字可能對(duì)應(yīng)于五個(gè)繁體漢字,則在一對(duì)多轉(zhuǎn)換表中,五個(gè)繁體漢字分別對(duì)應(yīng)于序號(hào)1-5。如果一個(gè)簡體漢字不在一對(duì)多轉(zhuǎn)換表中,則將其標(biāo)注為O。也就是說,標(biāo)注結(jié)果表明被標(biāo)注的簡體字符所對(duì)應(yīng)的繁體字符在上述一對(duì)多轉(zhuǎn)換表中作為與該簡體字符對(duì)應(yīng)的候選繁體字符的序號(hào)。
[0028]訓(xùn)練序列標(biāo)注模型時(shí),對(duì)序列標(biāo)注模型的輸入包括簡體漢語句子中的所有字符的上下文相關(guān)的特征模板。序列標(biāo)注模型按照上下文相關(guān)的特征模板,自動(dòng)提取訓(xùn)練語料中每個(gè)字符的上下文相關(guān)特征。
[0029]例如,表1示出了上下文相關(guān)的特征模板的示例,其中,C表示簡體漢語句子中的字符,C0表示當(dāng)前字符,CL1表示當(dāng)前字符的前一字符,C1表示當(dāng)前字符的后一字符,以此類推。
[0030]表1特征模板
[0031]
【權(quán)利要求】
1.一種將簡體漢語句子轉(zhuǎn)換為繁體漢語句子的方法,包括: 由基于簡體-繁體字符一對(duì)多轉(zhuǎn)換表的序列標(biāo)注模型,對(duì)輸入的簡體漢語句子進(jìn)行序列標(biāo)注,以得到多組序列標(biāo)注結(jié)果及其組概率; 對(duì)所述簡體漢語句子進(jìn)行分詞和詞性標(biāo)注; 根據(jù)所述簡體漢語句子中的歧義字的詞性和歧義詞的轉(zhuǎn)換概率中的至少一個(gè)以及所述組概率,從所述多組序列標(biāo)注結(jié)果中選擇最佳標(biāo)注結(jié)果;以及 按照所述最佳標(biāo)注結(jié)果,基于所述一對(duì)多轉(zhuǎn)換表,將所輸入的簡體漢語句子中的、所述一對(duì)多轉(zhuǎn)換表中出現(xiàn)的簡體字符轉(zhuǎn)換為繁體字符; 其中在所述一對(duì)多轉(zhuǎn)換表中,每一個(gè)簡體字符對(duì)應(yīng)于按順序排列的多個(gè)候選繁體字符。
2.如權(quán)利要求1所述的方法,其中在所述序列標(biāo)注步驟之后還包括: 去除其中的標(biāo)注結(jié)果不符合基于所述一對(duì)多轉(zhuǎn)換表的標(biāo)注規(guī)則的一組或多組序列標(biāo)注結(jié)果。
3.如權(quán)利要求1所述的方法,其中所述序列標(biāo)注步驟包括: 由所述序列標(biāo)注模型以所述簡體漢語句子作為輸入,進(jìn)行序列標(biāo)注; 所述序列標(biāo)注結(jié)果表明被標(biāo)注的簡體字符所對(duì)應(yīng)的繁體字符在所述一對(duì)多轉(zhuǎn)換表中作為與該簡體字符對(duì)應(yīng)的候選繁體字符的序號(hào); 所述組概率表明所述序列·標(biāo)注模型給出的該組序列標(biāo)注結(jié)果的置信度。
4.如權(quán)利要求1所述的方法,其中所述選擇步驟包括: 計(jì)算所述序列標(biāo)注結(jié)果表明的與所述歧義字對(duì)應(yīng)的繁體字具有詞性標(biāo)注結(jié)果表明的詞性的詞性概率; 使用所述詞性概率和所述歧義詞的轉(zhuǎn)換概率中的至少一個(gè)以及所述組概率,從所述多組序列標(biāo)注結(jié)果中選擇所述最佳標(biāo)注結(jié)果。
5.如權(quán)利要求4所述的方法,其中計(jì)算通過將在語料庫中所述歧義字對(duì)應(yīng)的各個(gè)繁體字具有某一詞性的次數(shù)除以所述歧義字具有該詞性的次數(shù)而得到的商,作為所述歧義字對(duì)應(yīng)的所述各個(gè)繁體字具有該詞性的所述詞性概率。
6.如權(quán)利要求1所述的方法,其中所述歧義詞的轉(zhuǎn)換概率表明所述簡體漢語句子中出現(xiàn)的所述歧義詞被轉(zhuǎn)換為不同的繁體詞的相應(yīng)概率;計(jì)算通過將與所述歧義詞對(duì)應(yīng)的各個(gè)繁體詞在語料庫中與該歧義詞對(duì)應(yīng)的次數(shù)除以該歧義詞在語料庫中出現(xiàn)的次數(shù)而得到的商,作為所述歧義詞相對(duì)于所述各個(gè)繁體詞的轉(zhuǎn)換概率。
7.如權(quán)利要求1所述的方法,其中所述選擇步驟包括:根據(jù)所述簡體漢語句子中的所述歧義字的詞性和所述歧義詞的轉(zhuǎn)換概率中的至少一個(gè)調(diào)整所述組概率,從所述多組序列標(biāo)注結(jié)果中選擇調(diào)整后的組概率最大的一組序列標(biāo)注結(jié)果作為所述最佳標(biāo)注結(jié)果。
8.如權(quán)利要求1所述的方法,其中在所述轉(zhuǎn)換步驟之后還包括:基于其中的元素一一對(duì)應(yīng)的簡體-繁體字符一對(duì)一轉(zhuǎn)換表,將所輸入的簡體漢語句子中剩余的簡體字符轉(zhuǎn)換為繁體字符。
9.如權(quán)利要求1所述的方法,其中利用基于所述一對(duì)多轉(zhuǎn)換表標(biāo)注的訓(xùn)練語料,訓(xùn)練所述序列標(biāo)注模型; 其中所述訓(xùn)練語料通過如下步驟獲得:以所述一對(duì)多轉(zhuǎn)換表中的一個(gè)或多個(gè)繁體字符為搜索元素,利用搜索引擎,獲得包含所述一個(gè)或多個(gè)繁體字符的繁體漢語句子; 按照繁體-簡體字符轉(zhuǎn)換表,將所獲得的繁體漢語句子轉(zhuǎn)換為簡體漢語句子; 根據(jù)繁體漢語句子中的搜索元素,按照所述一對(duì)多轉(zhuǎn)換表,對(duì)轉(zhuǎn)換得到的簡體漢語句子中的簡體字符進(jìn)行序列標(biāo)注,以得到所述訓(xùn)練語料。
10.一種將簡體漢語句子轉(zhuǎn)換為繁體漢語句子的轉(zhuǎn)換設(shè)備,包括: 基于簡體-繁體字符一對(duì)多轉(zhuǎn)換表的序列標(biāo)注模型,用于對(duì)輸入的簡體漢語句子進(jìn)行序列標(biāo)注,以得到多組序列標(biāo)注結(jié)果及其組概率; 分詞和詞性標(biāo)注裝置,用于對(duì)所述簡體漢語句子進(jìn)行分詞和詞性標(biāo)注; 選擇裝置,用于根據(jù)所述簡體漢語句子中的歧義字的詞性和歧義詞的轉(zhuǎn)換概率中的至少一個(gè)以及所述組概率,從所述多組序列標(biāo)注結(jié)果中選擇最佳標(biāo)注結(jié)果;以及 轉(zhuǎn)換裝置,用于按照所述最佳標(biāo)注結(jié)果,基于所述一對(duì)多轉(zhuǎn)換表,將所輸入的簡體漢語句子中的、所述一對(duì)多轉(zhuǎn)換表中出現(xiàn)的簡體字符轉(zhuǎn)換為繁體字符; 其中在所述一對(duì)多轉(zhuǎn)換表中,每一個(gè)簡體字符對(duì)應(yīng)于按順序排列的多個(gè)候選繁體字符。
【文檔編號(hào)】G06F17/28GK103853706SQ201210519822
【公開日】2014年6月11日 申請(qǐng)日期:2012年12月6日 優(yōu)先權(quán)日:2012年12月6日
【發(fā)明者】房璐, 孟遙, 于浩 申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
新河县| 达孜县| 永年县| 翁牛特旗| 平陆县| 华池县| 夹江县| 南岸区| 泰和县| 杭锦旗| 白水县| 年辖:市辖区| 容城县| 松江区| 巴里| 田林县| 永川市| 都江堰市| 巴东县| 泰来县| 东海县| 木兰县| 唐山市| 福贡县| 临澧县| 福州市| 信丰县| 定襄县| 遂宁市| 丹江口市| 桃园市| 沅陵县| 乌兰浩特市| 天祝| 阿鲁科尔沁旗| 化隆| 长兴县| 宁陕县| 建瓯市| 门头沟区| 尉氏县|