两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種漢英反向音譯方法及裝置的制作方法

文檔序號:6464227閱讀:185來源:國知局

專利名稱::一種漢英反向音譯方法及裝置的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及自然語言處理
技術(shù)領(lǐng)域
,是一種借助網(wǎng)絡(luò)挖掘輔助漢英反向音譯的方法及裝置。
背景技術(shù)
:命名實(shí)體包括人名、地名、機(jī)構(gòu)名等七類。命名實(shí)體在人類語言中傳遞著重要信息,它的識別和翻譯是自然語言處理研究中的關(guān)鍵技術(shù)之一。在多語言處理中,命名實(shí)體的識別和翻譯結(jié)果直接影響到自然語言的理解。音譯是指在從源語言到目標(biāo)語言的翻譯過程中,保持了發(fā)音的近似性。絕大多數(shù)的人名翻譯采取音譯,音譯也是地名翻譯和機(jī)構(gòu)名翻譯的重要組成部分。因此,中文到英文的反向音譯研究具有重要的理論意義和實(shí)用價值。傳統(tǒng)的音譯一般采取統(tǒng)計的方法將作為訓(xùn)練語料的雙語音譯對按照一定的方式切分和預(yù)處理,然后進(jìn)行對齊,形成對齊概率。當(dāng)翻譯新的音譯名時,按照同樣的方式進(jìn)行切分和預(yù)處理,然后根據(jù)已得到的對齊概率,搜索出一個基于此概率的最優(yōu)翻譯結(jié)果。對于漢英反向音譯,主要面臨兩個困難,一是在將英語音譯成漢語的過程中,不發(fā)音音節(jié)被損失掉了,所以在恢復(fù)的過程中,要將不發(fā)音音節(jié)補(bǔ)充出來是有難度的。例如,在將英文人名"Campbd"翻譯為"坎貝爾"的過程中,沒有發(fā)音的音節(jié)"p"被省略了。二是在統(tǒng)計音譯模型中,音節(jié)的選擇根據(jù)發(fā)音來進(jìn)行,而音節(jié)之間的限制因素不明顯,從而容易出現(xiàn)選擇的偏置。例如,在英文中,音節(jié)"c"和音節(jié)"k"具有近似的發(fā)音規(guī)律,在反向音譯"克林頓/Clinton"時,容易出現(xiàn)音節(jié)選擇的錯誤。
發(fā)明內(nèi)容本發(fā)明的目的是針對漢英反向音譯存在的兩大難點(diǎn)問題,將網(wǎng)絡(luò)資源引入漢英反向音譯的過程中,實(shí)現(xiàn)從中文音譯名到對應(yīng)英文音譯名的翻譯,為此,提供一種借助網(wǎng)絡(luò)挖掘輔助的漢英反向音譯方法和裝置。為達(dá)成所述目的,本發(fā)明第一方面,是提供一種漢英反向音譯方法,步驟如下步驟l:將待翻譯的中文音譯名轉(zhuǎn)換成漢語拼音序列表示,借助統(tǒng)計音譯模塊來生成音譯候選;步驟2:通過修正模塊將音譯候選修正為真實(shí)的英文單詞,修正模塊將借助從大規(guī)模的網(wǎng)頁上搜集的真實(shí)英文單詞構(gòu)成的詞匯表;步驟3:使用修正過的真實(shí)的英文單詞作為查詢來驗(yàn)證翻譯結(jié)果,重排序模塊利用從搜索引擎得到的網(wǎng)頁資源對修正后的音譯候選進(jìn)行重排序,將網(wǎng)頁上以命名實(shí)體角色出現(xiàn)的詞給予更高的評分,從而濾掉普通的英文單詞。根據(jù)本發(fā)明的實(shí)施例,所述音譯候選,是使用訓(xùn)練好的統(tǒng)計音譯模塊將漢語拼音序列根據(jù)對齊概率進(jìn)行翻譯,得到英文字符序列,輸出N個最大概率的若干個英文字符序列作為音譯候選。根據(jù)本發(fā)明的實(shí)施例,所述修正過程是將統(tǒng)計音譯模塊產(chǎn)生的音譯候選映射為與之最接近的真實(shí)英文單詞。根據(jù)本發(fā)明的實(shí)施例,所述修正為與之最接近的真實(shí)英文單詞,是將N個英文音譯候選放入修正模塊,借助一個從網(wǎng)頁中收集的英文真實(shí)詞匯表,檢索與每個音譯候選最相似的K個真實(shí)英文單詞。根據(jù)本發(fā)明的實(shí)施例,所述真實(shí)英文單詞重排序,是將M個真實(shí)英文單詞送入重排序模塊,使用搜索引擎實(shí)時查詢每個真實(shí)英文單詞,得到搜索引擎返回的IO個網(wǎng)頁片段。根據(jù)本發(fā)明的實(shí)施例,所述驗(yàn)證翻譯結(jié)果,是利用網(wǎng)頁片段中的上下文驗(yàn)證該真實(shí)英文單詞是否是一個英文命名實(shí)體,從而對M個音譯候選進(jìn)行重排序,得分最高的真實(shí)英文單詞將作為原中文音譯名的英文翻譯結(jié)果。為達(dá)成所述目的,本發(fā)明第二方面提供一種漢英反向音譯裝置,解決技術(shù)問題的技術(shù)方案包括統(tǒng)計音譯模塊接收并訓(xùn)練漢語音譯名的拼音序列,使用經(jīng)訓(xùn)練得到的漢語拼音與英文音節(jié)的對齊概率進(jìn)行翻譯,并輸出概率最高的若干個英文字符序列作為音譯候選;修正模塊與統(tǒng)計音譯模塊連接,修正模塊接收音譯候選,將音譯候選在從大規(guī)模網(wǎng)頁中搜集的真實(shí)詞匯表中進(jìn)行映射修正,輸出與音譯候選最相近的若干真實(shí)單詞;重排序模塊與修正模塊連接,重排序模塊接收由音譯候選修正得到的真實(shí)單詞并輸入網(wǎng)頁搜索引擎,根據(jù)命名實(shí)體出現(xiàn)的次數(shù)對修正候選進(jìn)行重排序,輸出最優(yōu)結(jié)果。根據(jù)本發(fā)明的實(shí)施例,所述修正模塊還包括,用于將N個英文音譯候選借助從網(wǎng)頁中的英文真實(shí)詞匯表,檢索與每個音譯候選最相似的K個真實(shí)英文單詞。根據(jù)本發(fā)明的實(shí)施例,所述重排序模塊還包括,使用搜索引擎實(shí)時查詢每個真實(shí)英文單詞,用于得到搜索引擎返回的IO個網(wǎng)頁片段。本發(fā)明的有益效果漢英反向音譯是將某個已存在的英文音譯名的漢語表示還原為英語表示的過程。本發(fā)明不同于傳統(tǒng)的僅使用統(tǒng)計模型進(jìn)行漢英反向音譯的方法,本發(fā)明的系統(tǒng)將統(tǒng)計模型和網(wǎng)絡(luò)資源結(jié)合在一起,加入了借助網(wǎng)絡(luò)資源的修正模塊和重排序模塊,通過修正模塊,可以更好地解決統(tǒng)計音譯模型的兩個難點(diǎn),即不發(fā)音音節(jié)補(bǔ)充,以及具有相似發(fā)音特點(diǎn)的音節(jié)的選擇問題。通過重排序模塊,我們根據(jù)單詞在真實(shí)文本中以命名實(shí)體角色出現(xiàn)的頻度來重排序修正后的音譯候選,從而有效地提高系統(tǒng)的精確率。先使用基于音節(jié)的統(tǒng)計音譯模型生成若干音譯候選。對這些音譯候選,將借助一個在大規(guī)模網(wǎng)頁中搜集的真實(shí)詞匯表,使用信息檢索的若干方法對音譯候選進(jìn)行修正,將統(tǒng)計模塊產(chǎn)生的候選映射到與之最接近的真實(shí)單詞。最后,我們使用互聯(lián)網(wǎng)實(shí)時查詢這些修正后的單詞,通過返回的網(wǎng)頁片段(snippets)信息,驗(yàn)證單詞是否是命名實(shí)體,從而得到最后結(jié)果。本發(fā)明針對漢英反向音譯存在的兩大難點(diǎn)入手,將網(wǎng)絡(luò)資源引入漢英反向音譯的過程中,本發(fā)明的方法能夠克服統(tǒng)計模塊在音譯過程中丟失不發(fā)音音節(jié)和選擇錯誤的相同發(fā)音音節(jié)等問題,通過實(shí)驗(yàn)證明,有效地提高了音譯的精確率。經(jīng)過實(shí)驗(yàn)證明,在開放測試中,音譯的精確率提高了17.55%。圖1是本發(fā)明中借助網(wǎng)絡(luò)挖掘輔助的漢英反向音譯流程圖2是本發(fā)明中借助網(wǎng)絡(luò)挖掘輔助的漢英反向音譯裝置結(jié)構(gòu)圖3精確率隨音譯名音節(jié)長度的變化示意圖。具體實(shí)施例方式下面將結(jié)合和具體實(shí)施方式對本發(fā)明方法作進(jìn)一步詳細(xì)描述,應(yīng)指出的是,所描述的實(shí)施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。為了解決漢英反向音譯存在的兩大難點(diǎn)問題,本發(fā)明是借助網(wǎng)絡(luò)資源,來驗(yàn)證統(tǒng)計音譯模塊1的結(jié)果或者直接從網(wǎng)頁上抽取目標(biāo)翻譯。如圖1本發(fā)明借助網(wǎng)絡(luò)挖掘輔助的漢英反向音譯流程圖所示,本發(fā)明使用借助網(wǎng)絡(luò)挖掘的方法輔助漢英反向音譯的前提是首先要能構(gòu)造一個有效的查詢,其次是這個査詢能夠挖掘到漢英雙語網(wǎng)頁。而僅使用中文音譯名作為査詢內(nèi)容是無法達(dá)到這個效果的,因此我們需要借助統(tǒng)計音譯模塊1來生成一些音譯候選,使用這些候選作為線索輔助構(gòu)造查詢。同時考慮到統(tǒng)計音譯模塊1生成的詞不一定是一個真實(shí)的英文單詞,這也是無法構(gòu)成有效查詢的,因此我們需要先將統(tǒng)計音譯模塊1的結(jié)果修正為一個真實(shí)的英文單詞,然后才能進(jìn)行檢索。通過修正的過程,我們可以嘗試克服統(tǒng)計音譯模塊1存在的兩個困難。修正過程將統(tǒng)計音譯模塊1產(chǎn)生的結(jié)果映射為與之最接近的真實(shí)英文單詞,這些英文單詞將從大規(guī)模的網(wǎng)頁上搜集。然后我們就可以使用修正過的單詞作為査詢來驗(yàn)證翻譯結(jié)果,我們使用檢索到的網(wǎng)頁資源來對修正過的音譯候選進(jìn)行重排序,將網(wǎng)頁上以命名實(shí)體角色出現(xiàn)的詞給予更高的評分,從而濾掉普通的單詞。本發(fā)明要求開發(fā)和運(yùn)行的計算機(jī)具有Linux操作系統(tǒng)以及C十+和C語言開發(fā)編譯環(huán)境,具有正常的網(wǎng)絡(luò)連接條件,對硬件沒有特殊要求。如圖2借助網(wǎng)絡(luò)挖掘輔助的漢英反向音譯裝置的結(jié)構(gòu)圖所示,下面對照附圖2進(jìn)行說明,圖中由三部分構(gòu)成統(tǒng)計音譯模塊l、修正模塊2和重排序模塊3,統(tǒng)計音譯模塊1、修正模塊2和重排序模塊3依次順序連接,其中統(tǒng)計音譯模塊1接收并訓(xùn)練漢語音譯名的拼音序列,使用經(jīng)訓(xùn)練得到的漢語拼音與英文音節(jié)的對齊概率進(jìn)行翻譯,并輸出概率最高的若干個英文字符序列作為音譯候選;修正模塊2與統(tǒng)計音譯模塊1連接,修正模塊2接收音譯候選,將音譯候選在從大規(guī)模網(wǎng)頁中搜集的真實(shí)詞匯表中進(jìn)行映射修正,輸出與音譯候選最相近的若干真實(shí)單詞;重排序模塊3與修正模塊2連接,重排序模塊3接收由音譯候選修正得到的真實(shí)單詞并輸入網(wǎng)頁搜索引擎,統(tǒng)計命名實(shí)體出現(xiàn)的次數(shù)并對修正候選進(jìn)行重排序,輸出最優(yōu)結(jié)果。本發(fā)明首先構(gòu)建了一個基于音節(jié)統(tǒng)計的漢英反向統(tǒng)計音譯模塊1,本發(fā)明的基本思想是通過挖掘網(wǎng)絡(luò)豐富的語料資源,對統(tǒng)計音譯模塊1生成的音譯候選進(jìn)行篩選和重排序,從而提高漢英反向音譯任務(wù)的精確率。該統(tǒng)計音譯模塊1的輸入是中文音譯名的拼音序列,每個中文漢字的拼音表示組成一個單元。在統(tǒng)計音譯模塊中,采用漢語拼音與英文音節(jié)相對應(yīng)的對齊方式。在訓(xùn)練過程中,英文單詞將按照若干規(guī)則切分為音節(jié)序列。統(tǒng)計音譯模塊1根據(jù)事先通過訓(xùn)練得到的漢語拼音到英文音節(jié)的對齊概率進(jìn)行翻譯,最后輸出概率最高的若干個英文字符序列作為音譯候選。這些音譯候選將進(jìn)入修正模塊2進(jìn)行修正。修正模塊2使用信息檢索的方法,將音譯候選作為査詢內(nèi)容,使用大規(guī)模網(wǎng)頁中搜集的真實(shí)詞匯作為文本庫,對音譯候選進(jìn)行檢索。即將統(tǒng)計音譯模塊1產(chǎn)生的音譯候選映射為與它最相近的若干真實(shí)英文單詞。真實(shí)英文單詞即指在網(wǎng)頁中存在的,為人們所公認(rèn)有意義的英文字符序列。最后進(jìn)入重排序模塊3,在該重排序模塊3中,修正過的候選被輸入搜索引擎,在英語網(wǎng)頁上進(jìn)行檢索,我們得到搜索引擎返回的網(wǎng)頁片段(snippets),并統(tǒng)計其中該候選作為命名實(shí)體出現(xiàn)的次數(shù),以此為依據(jù)對候選進(jìn)行重排序,最優(yōu)結(jié)果將作為音譯結(jié)果返回。下面是一個具體的翻譯實(shí)例,如表l所示8<table>tableseeoriginaldocumentpage9</column></row><table>表1中,第一列是待翻譯的中文音譯名、它的拼音表示和正確的音譯結(jié)果。第二列是統(tǒng)計音譯模塊1生成的若干個候選,我們可以看到,這些候選都存在誤差,且多數(shù)候選不是一個真實(shí)單詞。第三列是統(tǒng)計模的音譯候選經(jīng)過修正模塊2后的結(jié)果,可以看到,這些結(jié)果現(xiàn)在都是真實(shí)的英文單詞,但是正確結(jié)果不一定排在最前面。第四列是經(jīng)過重排序模塊3后的結(jié)果,可以看到,正確結(jié)果現(xiàn)在被排在了第一位。通過這個示例,我們可以直觀得看到整個過程的具體情況。本發(fā)明采用挖掘網(wǎng)絡(luò)資源的思想來提升漢英反向音譯的效果,與簡單的基于統(tǒng)計模型的音譯不同。統(tǒng)計音譯模的結(jié)果將作為"線索"去檢索網(wǎng)絡(luò)資源,使用檢索到的網(wǎng)絡(luò)資源對結(jié)果進(jìn)行驗(yàn)證。經(jīng)過修正模塊,統(tǒng)計模的結(jié)果中的拼寫錯誤被修正,從而得到一個與之最接近的正確英文單詞。經(jīng)過重排序模塊,候選被重排序,不是命名實(shí)體的單詞被剔除,從而提高了結(jié)果的精確率。經(jīng)過上述兩個步驟,系統(tǒng)性能得到了顯著的提升。借助網(wǎng)絡(luò)挖掘輔助的漢英反向音譯方法和裝置可以分為訓(xùn)練過程和翻譯過程兩部分。訓(xùn)練過程即從訓(xùn)練語料中產(chǎn)生一個基于英文音節(jié)和漢語拼音對應(yīng)的統(tǒng)計音譯模塊l。翻譯過程則分三個模塊進(jìn)行,即統(tǒng)計音譯模塊l、修正模塊2和重排序模塊3。具體過程如下訓(xùn)練過程包括(1)、將訓(xùn)練語料(人名中英對照翻譯對)中的中文人名轉(zhuǎn)化為漢語拼音表示方式,將英文人名按規(guī)則切分為英文音節(jié)表示方式。(2)、利用GIZA十+工具,從中文到英文和英文到中文兩個方向,對訓(xùn)練語料進(jìn)行對位,由對位結(jié)果可以得到漢語拼音與英文音節(jié)的翻譯概率;(e,lo,)和p(o,|e,.)。(3)、從漢語拼音與英文音節(jié)對齊后的結(jié)果中抽取短語,并得到短語的概率。翻譯過程步驟包括步驟(1)、將待翻譯的中文音譯名轉(zhuǎn)換成漢語拼音表示;步驟(2)、使用訓(xùn)練好的統(tǒng)計音譯模塊1進(jìn)行翻譯,得到最好的N個音譯候選(N-best);步驟(3)、將N個音譯候選放入修正模塊2,在一個從網(wǎng)頁中收集的英文真實(shí)詞匯表,并結(jié)合査詢擴(kuò)展的方法,檢索與每個音譯候選最相似的K個真實(shí)英文單詞。步驟(4)、總共M個真實(shí)英文單詞被送入重排序模塊3,每個真實(shí)英文單詞使用搜索引擎得到IO個返回的網(wǎng)頁片段(snippets)。根據(jù)網(wǎng)頁片段中的上下文驗(yàn)證該真實(shí)英文單詞是否是一個命名實(shí)體,從而對M個音譯候選進(jìn)行重排序。得分最高的真實(shí)英文單詞將作為原中文音譯名的英文翻譯結(jié)果。在翻譯過程步驟(4),即對修正后的候選重排序的步驟中進(jìn)行英文命名實(shí)體識別采用的工具是//g/^e。下面詳細(xì)說明本發(fā)明技術(shù)方案中所涉及的各個細(xì)節(jié)問題。如圖3精確率隨音譯名音節(jié)長度的變化示意圖所示1英文音節(jié)切分規(guī)則在訓(xùn)練過程中,首先需要將英文單詞切分為音節(jié)序列,我們采用規(guī)則的方法進(jìn)行切分,詳細(xì)切分規(guī)則如下所示1)定義a,e,i,o,u為"元音"。當(dāng)y緊跟一個"輔音"出現(xiàn)的時候,它被定義為"元音",其他時候被定義為"輔音"。其他字母被定義為"輔音2)當(dāng)"鼻音"m和n被元音包圍的時候,雙寫該"鼻音"。當(dāng)"鼻音"緊跟一個元音出現(xiàn)時,該"鼻音"和"元音"組合成一個新的"元音"代替原來的兩個音;3)將連續(xù)的"輔音"切分開;4)將連續(xù)的"元音"合并成一個單一的"元音";5)—個"輔音"和一個緊跟的"元音"形成一個"音節(jié)";6)剩下的每一個孤立的"元音"或者"輔音"被當(dāng)作一個獨(dú)立的"音節(jié)"。例如"Clinton"將被切分為"C/lin/ton"。2音譯名對位和統(tǒng)計音譯模塊l已有中英對照的音譯名翻譯對,采用012八++對位工具,可以得到一系列生成文件,我們只利用其中的漢語拼音與英文音節(jié)的對齊概率文件。我們利用GIZA十+工具,從兩個方向(中文到英文和英文到中文)實(shí)現(xiàn)漢語拼音到英語音節(jié)的對齊,可以得到兩個對齊概率文件。這兩個對齊概率文件將用于統(tǒng)計音譯模塊1的解碼過程中。在統(tǒng)計音譯模塊l中,目標(biāo)語言的句子f:f,f2…fn將被看成是一個噪聲信道的輸出,信道的輸入則是源語言的句子6=6162...^。我們使用后驗(yàn)概率最大化的方式來找到輸入的源語言句子。公式如下e'=argmax尸(e|/)=argmax尸(/1應(yīng)用于2本發(fā)明的系統(tǒng)^,則f代表漢語拼音序列,e代表英文音節(jié)序列。目標(biāo)就是在給定漢語拼音序列的基礎(chǔ)上,搜索使后驗(yàn)概率最大化的英文音節(jié)序列。其中尸(e)代表了描述英文音節(jié)相互同現(xiàn)關(guān)系的語言模型,因?yàn)橛⑽囊艄?jié)不同于英文單詞,不代表實(shí)際的意義,因此這個語言模型的描述能力是很弱的。3修正模塊2統(tǒng)計音譯模塊1產(chǎn)生了音譯候選后,我們需要對產(chǎn)生的候選進(jìn)行修正。統(tǒng)計音譯模塊l用于漢英反向音譯存在兩個主要困難1)在反向音譯過程中,英文中不發(fā)音的音節(jié)難以恢復(fù)出來;2)在統(tǒng)計音譯模塊1中,具有相同發(fā)音的音節(jié)的選擇完全取決于概率因素,因此難免造成錯誤。由于存在的這兩個問題,統(tǒng)計音譯模塊1翻譯出來的結(jié)果有可能是錯誤的,或者根本就不是真實(shí)的英文單詞。在修正模塊2中,我們需要將這些候選映射為真實(shí)的英文單詞,從而在重排序模塊3可以作為查詢項(xiàng)輸入搜索引擎。修正的主要思想是將統(tǒng)計音譯模塊1生成的音譯候選SCi映射到與它最相近的若干個真實(shí)英文單詞上,得到新的候選集合RC^Rd,RC2,…RCJ。映射過程采用信息檢索的方法,即將音譯候選SCi視為由若干個英文音節(jié)組成的查詢,每個英文音節(jié)即為一個term(項(xiàng)),表示為音節(jié)序列的形式,即音譯候選SCHES,,ES2,…ES^。每個真實(shí)英文單詞則視為被檢索的文檔,同樣用英文音節(jié)為term(項(xiàng))表示,即真實(shí)英文單詞WHES,,ES2,…ESp)。檢索的過程即為比較相似性的過程。為了克服統(tǒng)計音譯模塊1丟失不發(fā)音英文音節(jié)的缺陷,可以對不發(fā)音英文音節(jié)設(shè)置較低的權(quán)值。同樣,為了修復(fù)統(tǒng)計音譯模塊1在英文音節(jié)選擇上的錯誤,我們使用查詢擴(kuò)展的方法,將每個term(項(xiàng))擴(kuò)展到和它有較高相似性的若干其他term(項(xiàng))上,從而能夠擴(kuò)大搜索的空間。具體的操作如下所述1)搜集英語詞匯表我們需要事先搜集一個足夠大的英語真實(shí)詞匯表,當(dāng)進(jìn)行檢索操作時,統(tǒng)計音譯模塊l的結(jié)果將被映射為表中與之最接近的真實(shí)英文單詞。如果英文真實(shí)詞匯表足夠大,則需要翻譯的音譯名都包含在表中,從而可以對統(tǒng)計音譯模塊1的結(jié)果進(jìn)行有效的修正。我們搜集了2GB的網(wǎng)頁,從這些網(wǎng)頁中搜集到了一個約含67萬真實(shí)英文單詞的詞匯表。2)查詢擴(kuò)展列表的準(zhǔn)備為了能夠在檢索中進(jìn)行査詢擴(kuò)展,我們需要從訓(xùn)練語料中統(tǒng)計得到一個查詢擴(kuò)展列表。査詢擴(kuò)展的主要目的是要將統(tǒng)計音譯模塊1在選擇音節(jié)的過程中丟失的音節(jié)候選都補(bǔ)充出來。因此我們定義了兩種擴(kuò)展方式,一種是根據(jù)相似發(fā)音的查詢擴(kuò)展,一種是根據(jù)編輯距離的查詢擴(kuò)展。根據(jù)相似發(fā)音的查詢擴(kuò)展用于解決統(tǒng)計音譯模塊1選擇音節(jié)時的偏置,我們對每一種漢語拼音音節(jié),選擇20個與之對齊概率最高的英文音節(jié)組成一個擴(kuò)展集合。根據(jù)編輯距離的擴(kuò)展則用于處理在訓(xùn)練語料中沒有出現(xiàn)過的音節(jié),可以提高翻譯系統(tǒng)的適應(yīng)能力。我們對每一種英文音節(jié),選擇IO個與之編輯距離最小的英文音節(jié)組成一個擴(kuò)展集合,選擇的范圍是從網(wǎng)頁上搜集的英文真實(shí)詞表中。3)檢索算法12我們使用檢索算法將統(tǒng)計音譯模塊1產(chǎn)生的候選SCi在真實(shí)詞匯表W上檢索出與之最相近的真實(shí)英文單詞,以此作為對SCi的修正。檢索的具體步驟如下.-A.將SCi按切分規(guī)則切分為英文音節(jié)序列(ES,,ES2,…ES!j;B.初始化詞表W,將W中的每一個真實(shí)英文單詞Wk按規(guī)則切分為英文音節(jié)序列(WSn,WSi2,…WSuJ,并建立倒排結(jié)構(gòu)。每個英文音節(jié)按照其是否具有發(fā)音的概率得到一個權(quán)值swi,其中0<SWi<=l;C.將(EShES2,.,.ESkH故為查詢在W中進(jìn)行査找,每個拼音根據(jù)查詢擴(kuò)展為一個近似發(fā)音集合(SSn,SSi2,...SSik);D.相似度最高的N個真實(shí)英文單詞(Wi,,Wie,...W"被返回,作為對SCi的修正結(jié)果。4重排序模塊3經(jīng)過修正模塊2后,每個統(tǒng)計音譯模塊1生成的音譯候選都被映射為與之最接近的真實(shí)英文單詞。接下來的任務(wù)是借助網(wǎng)絡(luò)資源,進(jìn)行重排序,將正確的結(jié)果盡可能排在前面。因?yàn)槲覀冞M(jìn)行翻譯的是命名實(shí)體,所以我們希望能夠在返回的網(wǎng)頁片段(snippets)中識別出目標(biāo)詞是否是命名實(shí)體,以此來排除噪聲。重排序的具體過程如下1)將修正過的候選RCi輸入搜索引擎,檢索英文單語網(wǎng)頁;2)得到前n個網(wǎng)頁片段(snippets)集合(SN!,SN2,…SNJ;3)對每個SNi進(jìn)行英文的命名實(shí)體識別;4)統(tǒng)計每個RCi作為命名實(shí)體出現(xiàn)的個數(shù)以及hit數(shù);5)根據(jù)4)中得到的數(shù)值重排序所有RCi。其中,重排序模塊運(yùn)行步驟3)中的識別工作我們將使用英文命名實(shí)體識別軟件lingpipe來完成。5實(shí)驗(yàn)結(jié)果為了說明系統(tǒng)的性能,我們做了多個實(shí)驗(yàn)來驗(yàn)證各個模塊的性能。我們的實(shí)驗(yàn)主要分為兩個部分,分別驗(yàn)證了修正模塊2對系統(tǒng)召回率的提高和重排序模塊3對系統(tǒng)精確率的提高。1)訓(xùn)練和測試語料訓(xùn)練語料主要用于訓(xùn)練統(tǒng)計音譯模塊1和統(tǒng)計査詢擴(kuò)展列表。我們使用的語料是Chinese<->EnglishNameEntityListsvl.0(LDC2005T34)。我們從中選擇了14,443個中英文音譯對進(jìn)行訓(xùn)練。其中1,344個音譯對被作為是封閉測試的語料。另外我們選取1,294個音譯對作為開放測試的語料。另外我們搜集了2GB的英文網(wǎng)頁,從中提取了一個含672,533個單詞的詞表。2)修正模塊2對召回率的提高我們通過對比統(tǒng)計音譯模塊1的結(jié)果與修正模塊2的結(jié)果來說明修正模塊對召回率的提高。如表2統(tǒng)計音譯模塊1結(jié)果與修正結(jié)果對比<table>tableseeoriginaldocumentpage14</column></row><table>從上表可以看到,相對于統(tǒng)計音譯模塊1的結(jié)果,修正后前100個返回項(xiàng)中包含正確答案的比率提高到17.55%。因此可以說明,修正模塊2能夠有效地糾正統(tǒng)計音譯模塊1丟失不發(fā)音音節(jié)以及音節(jié)選擇偏置的問題。更進(jìn)一步的,在附圖3中,我們統(tǒng)計了召回率隨音節(jié)個數(shù)的提高狀況,可以看出,在比較短的音譯名上,統(tǒng)計音譯模塊1表現(xiàn)得不錯,在長的音譯名上錯誤率較高,修正模塊2對結(jié)果精確率的提高也是很顯著。3)重排序模塊3對精確率的提高重排序模塊3可以提高結(jié)果的精確率,我們對比了統(tǒng)計音譯模塊1、修正模塊2和重排序模塊3的結(jié)果,如下表3修正結(jié)果與重排序結(jié)果的對比所示<table>tableseeoriginaldocumentpage14</column></row><table>Topi27.1511.0458.0838.63Top542.8319.6976.3552.19Top1056.9826.5283.9254.33Top2071.0537.8183.9257.61Top5082.1646.2283.9257.61Top10085.7859.2885.7859.28從上表可以看出,經(jīng)過重排序模塊3后,正確結(jié)果將集中在前5個返回的結(jié)果中,從而大大提高了系統(tǒng)的精確率。從上述實(shí)驗(yàn)結(jié)果可以看到,使用網(wǎng)絡(luò)挖掘的方法輔助漢英反向音譯取得了不錯的效果。這個方法被證明是有效的。借助網(wǎng)絡(luò)挖掘輔助的漢英反向音譯的具體步驟入下步驟1:將漢語音譯名轉(zhuǎn)化為拼音序列,使用統(tǒng)計音譯模塊進(jìn)行音譯,生成若干音譯候選;步驟2:在一個大規(guī)模詞表上對音譯候選進(jìn)行修正操作;步驟3:使用修正后的結(jié)果進(jìn)行查詢,在返回的snippets中判斷該詞是否命名實(shí)體,從而過濾掉噪聲詞,提升系統(tǒng)的精確率。以上所述,僅為本發(fā)明中的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。1權(quán)利要求1、一種漢英反向音譯方法,其特征在于,包括步驟如下步驟1將待翻譯的中文音譯名轉(zhuǎn)換成漢語拼音序列表示,借助統(tǒng)計音譯模塊來生成音譯候選;步驟2通過修正模塊將音譯候選修正為真實(shí)的英文單詞,修正模塊將利用從大規(guī)模網(wǎng)頁上搜集的真實(shí)英文單詞構(gòu)成的詞匯表;步驟3使用修正過的真實(shí)英文單詞作為查詢來驗(yàn)證翻譯結(jié)果,重排序模塊利用從搜索引擎得到的網(wǎng)頁資源對修正后的音譯候選進(jìn)行重排序,將網(wǎng)頁上以命名實(shí)體角色出現(xiàn)的詞給予更高的評分,從而濾掉普通的英文單詞。2、根據(jù)權(quán)利要求l所述的漢英反向音譯方法,其特征在于所述音譯候選,是使用訓(xùn)練好的統(tǒng)計音譯模塊將漢語拼音序列根據(jù)對齊概率進(jìn)行翻譯,得到英文字符序列,輸出N個最大概率的若干個英文字符序列作為音譯候選。3、根據(jù)權(quán)利要求l所述的漢英反向音譯方法,其特征在于所述修正過程是將統(tǒng)計音譯模塊產(chǎn)生的音譯候選映射為與之最接近的真實(shí)英文單詞。4、根據(jù)權(quán)利要求l所述的漢英反向音譯方法,其特征在于所述修正為與之最接近的真實(shí)英文單詞,是將N個英文音譯候選放入修正模塊,借助一個從網(wǎng)頁中收集的英文真實(shí)詞匯表,檢索與每個音譯候選最相似的K個真實(shí)英文單詞。5、根據(jù)權(quán)利要求l所述的漢英反向音譯方法,其特征在于所述真實(shí)英文單詞重排序,是將M個真實(shí)英文單詞送入重排序模塊,使用搜索引擎實(shí)時査詢每個真實(shí)英文單詞,得到搜索引擎返回的IO個網(wǎng)頁片段。6、根據(jù)權(quán)利要求l所述的漢英反向音譯方法,其特征在于所述驗(yàn)證翻譯結(jié)果,是利用網(wǎng)頁片段中的上下文驗(yàn)證該真實(shí)英文單詞是否是一個英文命名實(shí)體,從而對M個音譯候選進(jìn)行重排序,得分最高的真實(shí)英文單詞將作為原中文音譯名的英文翻譯結(jié)果。7、一種漢英反向音譯裝置,其特征在于,包括統(tǒng)計音譯模塊接收漢語音譯名的拼音序列,使用經(jīng)訓(xùn)練得到的漢語拼音與英文音節(jié)的對齊概率進(jìn)行翻譯,并輸出概率最高的若干個英文字符序列作為音譯候選;修正模塊與統(tǒng)計音譯模塊連接,修正模塊接收音譯候選,將音譯候選在從大規(guī)模網(wǎng)頁中搜集的真實(shí)詞匯表中進(jìn)行映射修正,輸出與音譯候選最相近的若干真實(shí)單詞;重排序模塊與修正模塊連接,重排序模塊接收由音譯候選修正得到的真實(shí)單詞并輸入網(wǎng)頁搜索引擎,根據(jù)命名實(shí)體出現(xiàn)的次數(shù)對修正候選進(jìn)行重排序,輸出最優(yōu)結(jié)果。8、根據(jù)權(quán)利要求7所述的漢英反向音譯裝置,其特征在于所述修正模塊還包括,用于將N個英文音譯候選借助從網(wǎng)頁中獲取的英文真實(shí)詞匯表,檢索與每個音譯候選最相似的K個真實(shí)英文單詞。9、根據(jù)權(quán)利要求7所述的漢英反向音譯裝置,其特征在于所述重排序模塊還包括,使用搜索引擎實(shí)時查詢每個真實(shí)英文單詞,用于得到搜索引擎返回的io個網(wǎng)頁片段。全文摘要本發(fā)明涉及一種漢英反向音譯的方法和裝置,將待翻譯的中文音譯名轉(zhuǎn)換成漢語拼音序列表示,借助統(tǒng)計音譯模塊來生成音譯候選;通過修正模塊將音譯候選修正為真實(shí)的英文單詞,修正模塊借助從大規(guī)模的網(wǎng)頁上搜集的真實(shí)英文單詞構(gòu)成的詞匯表;使用修正過的真實(shí)英文單詞作為查詢來驗(yàn)證翻譯結(jié)果,利用搜索引擎得到的網(wǎng)頁資源對修正后的音譯候選進(jìn)行重排序,對網(wǎng)頁上以命名實(shí)體角色出現(xiàn)的詞給予更高的評分,從而濾掉普通的英文單詞。該方法能夠克服統(tǒng)計模型在音譯過程中丟失不發(fā)音音節(jié)和選擇錯誤的相同發(fā)音音節(jié)等問題,有效地提高了音譯的精確率。經(jīng)過實(shí)驗(yàn)證明,在開放測試中,音譯的精確率提高了17.55%。文檔編號G06F17/28GK101593173SQ20081011329公開日2009年12月2日申請日期2008年5月28日優(yōu)先權(quán)日2008年5月28日發(fā)明者帆楊,軍趙,波鄒申請人:中國科學(xué)院自動化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
漾濞| 禄劝| 梓潼县| 清远市| 通州区| 武夷山市| 郴州市| 汝阳县| 定西市| 江津市| 博罗县| 禄劝| 卓尼县| 平邑县| 石首市| 红原县| 溧水县| 三原县| 保康县| 年辖:市辖区| 新源县| 桂林市| 务川| 柘城县| 普洱| 东平县| 沅陵县| 朝阳市| 集贤县| 睢宁县| 华容县| 电白县| 越西县| 客服| 积石山| 土默特右旗| 通海县| 博湖县| 齐河县| 南京市| 肇州县|