两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

獲得語(yǔ)言模型概率及構(gòu)建語(yǔ)言模型的方法和裝置的制作方法

文檔序號(hào):6580749閱讀:243來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):獲得語(yǔ)言模型概率及構(gòu)建語(yǔ)言模型的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù),具體地,涉及為句子獲得語(yǔ)言模型概率的方法和裝 置、構(gòu)建語(yǔ)言模型的方法和裝置以及應(yīng)用了這些方法和裝置的基于語(yǔ)料庫(kù)的機(jī)器翻譯方 法和系統(tǒng)。
背景技術(shù)
統(tǒng)計(jì)機(jī)器翻譯是主要的基于語(yǔ)料庫(kù)的機(jī)器自動(dòng)翻譯技術(shù)之一。在該技術(shù)中,通 常會(huì)用到多種概率模型。語(yǔ)言模型是統(tǒng)計(jì)機(jī)器翻譯技術(shù)中最主要的概率模型之一。所謂 語(yǔ)言模型,是用于為一個(gè)句子(或詞序列)計(jì)算出一個(gè)概率值,以表明該句子(或詞序 列)的流利度的模型。也就是說(shuō),語(yǔ)言模型用于為一個(gè)句子(或詞序列)計(jì)算出能夠表 示該句子(或詞序列)在所屬語(yǔ)言中的出現(xiàn)概率、即是否常用的概率值。在統(tǒng)計(jì)機(jī)器翻譯技術(shù)中,通過(guò)利用語(yǔ)言模型來(lái)計(jì)算候選譯文的出現(xiàn)概率(以下 稱(chēng)為“語(yǔ)言模型概率”),可以幫助譯文選擇。因?yàn)檎Z(yǔ)言模型概率越高,表明該譯文越 常用,越符合所屬語(yǔ)言的習(xí)慣,這樣,通過(guò)使用語(yǔ)言模型概率評(píng)價(jià)候選譯文的流利度, 能夠確保譯文生成質(zhì)量。在現(xiàn)有的統(tǒng)計(jì)機(jī)器翻譯技術(shù)中,語(yǔ)言模型通常利用馬爾科夫模型從單語(yǔ)文本語(yǔ) 料中訓(xùn)練得到。根據(jù)馬爾可夫模型,對(duì)于一個(gè)包含N個(gè)詞的句子E=丨e2,…,eN}, 按照下式(1)來(lái)獲得其語(yǔ)言模型概率ρ (E)
NP(E) = Piei ,e2,…’ ,e,^ ) (1)
(=1其中,p(ei|ei,e2,…,ei_2,ei_i)是單詞ei的概率,該概率表示單詞4出現(xiàn)在前 面的i-Ι個(gè)單詞e1; e2,…,e,_2,之后的概率。但是,由于在根據(jù)上式(1)計(jì)算句子的語(yǔ)言模型概率時(shí)的訓(xùn)練數(shù)據(jù)稀疏的原 因,在實(shí)際的計(jì)算過(guò)程中,通常以馬爾科夫模型為理論基礎(chǔ),使用平滑的ngram模型來(lái) 近似地得到語(yǔ)言模型概率。根據(jù)平滑的ngram模型,對(duì)于上述包含N個(gè)詞的句子E = {e1 e2,…,eN},按照下式(2)來(lái)近似地獲得其語(yǔ)言模型概率ρ (E):
Np(E) Y[ p{et , ’…’ ,^1) (2)
/=1其中,每個(gè)單詞&的概率p(ei|ei_n+1,ei_n+2,…,ei_2,不再依賴于出現(xiàn)在ei 前面的所有i-1個(gè)單詞,而僅是依賴于出現(xiàn)在其前面的n-1個(gè)單詞。一般地,η取2 5。通常,單詞組“ei_n+1,ei_n+2,…,,eM, e,”稱(chēng)為一個(gè)ngram。在此情況下,概 率 Pte1Ie1 -n+1, ei-n+2 ‘ ···' ei-2' )也稱(chēng)為是 ngram n+1,n+2,...,q{-2,C^1,Qi 白勺 概率。下面以具體例子來(lái)詳細(xì)描述根據(jù)平滑的ngram模型計(jì)算語(yǔ)言模型概率的過(guò)程。例如,假定待計(jì)算的句子是"this is your seat.",并且設(shè)定η = 3,則根據(jù)上 式(2),該句子的語(yǔ)言模型概率由組成該句子的5個(gè)單詞“this”、“is”、"your"、“seat” 禾口 “.” 的各自的概率 ρ (this)、p(is|this)、ρ (your|this, is)、p(seat|is, your)和 p(.|your, seat)的乘積得到,即ρ (this is your seat.) = ρ (this) Xp(is|this) Xρ (your|this, is) Xp (seat|is, your) Xp (.Iyour, seat)其中,概率p(is|this)表示“is”出現(xiàn)在“this”之后的概率 ,該概率可以預(yù)先 通過(guò)從單語(yǔ)文本語(yǔ)料中統(tǒng)計(jì)“is”和“this is”的出現(xiàn)頻率而計(jì)算得到。在此,單詞組
"this, is” 稱(chēng)為一個(gè) 2-gram(或 bigram)。此外,概率 ρ (your|this,is)表示 “your” 出 現(xiàn)在“this is”之后的概率,同樣,該概率也可以預(yù)先通過(guò)從單語(yǔ)文本語(yǔ)料中統(tǒng)計(jì)“this is your”和“this is”的出現(xiàn)頻率而計(jì)算得到。在此,單詞組"this, is, your”稱(chēng)為一 個(gè) 3-gram (或 trigram)。對(duì)于才既率 ρ (this)、p(seat|is, your)禾口 ρ (.|your, seat)而言,也 是同樣的。從以上可以看出,在基于平滑的ngnim模型構(gòu)建用于為句子獲得語(yǔ)言模型概率 的語(yǔ)言模型(后面稱(chēng)為“標(biāo)準(zhǔn)語(yǔ)言模型”)時(shí),由于訓(xùn)練語(yǔ)料中的詞匯已經(jīng)是確定的了, 所以,語(yǔ)言模型中所訓(xùn)練出的ngram的詞匯也是確定的。從而在利用所構(gòu)建的語(yǔ)言模型 為句子獲得語(yǔ)言模型概率時(shí),只能從語(yǔ)言模型中確定的ngram中查找相應(yīng)的ngram及其概 率,來(lái)直接用于計(jì)算。這樣,就會(huì)存在句子中的詞序列有可能與語(yǔ)言模型中使用的詞匯表不一致的問(wèn) 題。例如,復(fù)合詞通常被看作一個(gè)詞,但是統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)在根據(jù)翻譯模型為句子生 成候選譯文時(shí),有可能會(huì)將一個(gè)復(fù)合詞分離地翻譯為幾個(gè)單獨(dú)的詞。另一方面,由于語(yǔ) 言模型的詞匯表并不會(huì)將一個(gè)復(fù)合詞看作是由幾個(gè)單獨(dú)的詞組成的,所以語(yǔ)言模型中并 不會(huì)包含這幾個(gè)單獨(dú)的詞的ngram的概率。這樣,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)可能會(huì)轉(zhuǎn)而為該復(fù) 合詞生成一個(gè)不準(zhǔn)確、但出現(xiàn)概率較高的對(duì)應(yīng)譯文。從而,導(dǎo)致所生成的譯文的流利度 和忠實(shí)度下降。這種復(fù)合詞不一致的問(wèn)題,對(duì)于漢語(yǔ)、日語(yǔ)等需要?jiǎng)澐謫卧~的語(yǔ)言來(lái)說(shuō),是一 種常見(jiàn)的問(wèn)題。這種問(wèn)題,主要是因?yàn)闄C(jī)器翻譯系統(tǒng)在翻譯過(guò)程中的分詞結(jié)果的不一致 而造成的。下面用具體的例子來(lái)進(jìn)行說(shuō)明。假設(shè)待翻譯的句子是“This is my airplane ticket.”。采用基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻
譯系統(tǒng)。假設(shè)在該統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的雙語(yǔ)短語(yǔ)表中,與上面的待翻譯句子匹配的雙語(yǔ) 短語(yǔ)如表1所示。表 1
This is my airplane ticket .這是我的 飛機(jī)
___ 的票也就是說(shuō),對(duì)于上面的待翻譯句子“This is my airplane ticket.”,統(tǒng)計(jì)機(jī)器翻譯 系統(tǒng)只能夠從表1所列出的短語(yǔ)中組合得到其譯文。但是,由于在上述雙語(yǔ)短語(yǔ)表中, 對(duì)于復(fù)合詞“飛機(jī)票”,不包含雙語(yǔ)短語(yǔ)“airplane ticket|飛機(jī)票”,而僅包含“airplanej 飛機(jī)”和“ticket|票,的票”,因此,基于該短語(yǔ)表,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)只能夠?qū)?br> “airplane ticket”拆開(kāi),通過(guò)合并兩個(gè)短語(yǔ)“airplane|飛機(jī)”和“ticket|票,的票”來(lái)得至Ij “airplane ticket” 的對(duì)應(yīng)譯文。這樣,根 據(jù)表1,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)可能得到的譯文包括Tl 這是我的飛機(jī)票。T2 這是我的飛機(jī)的票?;谏鲜舰疲g文Tl的語(yǔ)言模型概率的計(jì)算可以表示為ρ (這是我的飛機(jī)票。)=ρ(這)Xp(是I這)Xp(我I這,是)Xp(的I是,我)Xp(飛機(jī)I我,的)Xp(票 I的,飛機(jī))Xp(。I飛機(jī),票)譯文T2的語(yǔ)言模型概率的計(jì)算可以表示為ρ (這是我的飛機(jī)的票。)=ρ(這)Xp(是I這)Xp(我I這,是)Xp(的I是,我)Xp(飛機(jī)I我,的)Xp(的 I的,飛機(jī))Xp(票ι飛機(jī),的)Χρ(。ι的,票)雖然譯文Tl的質(zhì)量?jī)?yōu)于T2,但是對(duì)于譯文Tl而言,復(fù)合詞“飛機(jī)票”是由 “飛機(jī)”和“票”組合而成的詞序列(表示為“(飛機(jī))(票)”),而“飛機(jī)票”在標(biāo)
準(zhǔn)語(yǔ)言模型的詞匯表中是一個(gè)詞,而并不會(huì)看作是由“飛機(jī)”和“票”組合而成的詞序 列,所以在標(biāo)準(zhǔn)語(yǔ)言模型的詞匯表中,并不會(huì)統(tǒng)計(jì)出包含了該詞序列“(飛機(jī))(票)”的 ngnim的出現(xiàn)概率。從而,在計(jì)算譯文Tl的語(yǔ)言模型概率時(shí),包含了詞序列“(飛機(jī)) (票)”的ngnim的概率(例如ρ (票|的,飛機(jī)))將是一個(gè)非常低的值。相對(duì)于此,對(duì)于譯文Τ2而言,由于“飛機(jī)的票”本身就不是一個(gè)詞,而可以看 作是由“飛機(jī)”、“的”和“票”組合而成的詞序列“(飛機(jī))(的)(票)”,所以語(yǔ) 言模型的詞匯表中包含該詞序列的ngram的概率不會(huì)很低,而高于譯文Tl中“(飛機(jī)) (票)”的情況。這樣,所計(jì)算出的譯文T2的語(yǔ)言模型概率將高于譯文Tl。從而,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)最終將選擇譯文T2作為上述待翻譯句子的最終譯文??梢钥闯觯诂F(xiàn)有的標(biāo)準(zhǔn)語(yǔ)言模型中,由于并不考慮候選譯文中的復(fù)合詞與語(yǔ) 言模型的詞匯表不一致的情況,所以存在著由于候選譯文中的復(fù)合詞被拆分而導(dǎo)致語(yǔ)言 模型概率的計(jì)算不準(zhǔn)確的問(wèn)題,進(jìn)而存在著使統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)也不能夠有效地根據(jù)語(yǔ) 言模型概率生成高質(zhì)量的譯文的問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明正是鑒于上述現(xiàn)有技術(shù)中的問(wèn)題而提出的,其目的在于提供一種為句子 獲得語(yǔ)言模型概率的方法和裝置、構(gòu)建語(yǔ)言模型的方法和裝置以及應(yīng)用了這些方法和裝 置的基于語(yǔ)料庫(kù)的機(jī)器翻譯方法和系統(tǒng),以便通過(guò)改變標(biāo)準(zhǔn)語(yǔ)言模型中對(duì)句子中與語(yǔ)言 模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率的確定方式,來(lái)確保在語(yǔ)言模型概率的計(jì)算中復(fù) 合詞不被拆分,從而準(zhǔn)確地體現(xiàn)句子的流利度。根據(jù)本發(fā)明的一個(gè)方面,提供一種為句子獲得語(yǔ)言模型概率的方法,包括通 過(guò)對(duì)于句子中的各個(gè)單詞,嘗試將其與后面的單詞組成通常被作為一個(gè)詞使用的組合 詞,而確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率;以及基于所確定的 與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率,獲得該句子的語(yǔ)言模型概率。根據(jù)本發(fā)明的另一個(gè)方面,提供一種構(gòu)建語(yǔ)言模型的方法,包括構(gòu)建語(yǔ)言模型,該語(yǔ)言模型通過(guò)對(duì)于句子中的各個(gè)單詞,嘗試將其與后面的單詞組成通常被作為 一個(gè)詞使用的組合詞,而確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率, 進(jìn)而基于所確定的與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率,獲得該句子 的語(yǔ)言模型概率。優(yōu)選地,上述句子的語(yǔ)言模型概率通過(guò)求取所確定的與該句子的語(yǔ)言模型概率 的計(jì)算有關(guān)的各個(gè)詞的概率的乘積而獲得。

優(yōu)選地,確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率的步驟根 據(jù)下式實(shí)現(xiàn)ps (e' ,Ie1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1,
ei-n+2 ‘ ..., ei-2, ei-l)‘…,P (ei+...+ei+j|ei-n+1, Qi-n+2 ‘…,‘ ei-l)其中,e',是針對(duì)單詞^確定的、與句子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞, ps(e' ,Ie1, e2,…,是該詞 e'工的概率,Pfe1Ie1-^1, e^,…,e^, 是單詞 e,的 概率,p(ei+e1+1|ei_n+1,ei_n+2,…,ei_2,ed是單詞&與其后面的單詞e1+1所組成的組合詞 ei+e1+1的概率,p(ei+...+e1+」ei_n,ei_n+1,…,ei_2,是單詞e,與其后面的j個(gè)單詞所組成 的組合詞e,+...+ 的概率。優(yōu)選地,基于所確定的與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概 率,獲得該句子的語(yǔ)言模型概率根據(jù)下式實(shí)現(xiàn)Ps^) = JlPAeiKe2,...^)
/=/'+J其中,ps(E)表示包含N個(gè)詞{e1; e2,…,eN}的句子E的語(yǔ)言模型概率。根據(jù)本發(fā)明的又一個(gè)方面,提供一種基于語(yǔ)料庫(kù)的機(jī)器翻譯方法,包括利用 上述的為句子獲得語(yǔ)言模型概率的方法,為針對(duì)待翻譯的句子生成的多個(gè)候選譯文,分 別獲得語(yǔ)言模型概率;以及參考上述多個(gè)候選譯文的語(yǔ)言模型概率,從該多個(gè)候選譯文 中選擇出上述待翻譯的句子的最終譯文。根據(jù)本發(fā)明的再一個(gè)方面,提供一種為句子獲得語(yǔ)言模型概率的裝置,包括 詞及其概率確定單元,其通過(guò)對(duì)于句子中的各個(gè)單詞,嘗試將其與后面的單詞組成通常 被作為一個(gè)詞使用的組合詞,而確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其 概率;以及語(yǔ)言模型概率計(jì)算單元,其基于所確定的與該句子的語(yǔ)言模型概率的計(jì)算有 關(guān)的各個(gè)詞及其概率,獲得該句子的語(yǔ)言模型概率。優(yōu)選地,上述詞及其概率確定單元基于預(yù)先從單語(yǔ)文本語(yǔ)料中統(tǒng)計(jì)出的多個(gè)單 詞組及其概率,對(duì)于上述句子中的各個(gè)單詞,確定該單詞以及該單詞與其后面的單詞所 組成的所有可能的組合詞中概率最高的那一個(gè)詞,以將該詞及其概率作為與該句子的語(yǔ) 言模型概率的計(jì)算有關(guān)的詞及其概率,并且將該所確定的詞后面的單詞作為下一個(gè)要進(jìn) 行與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞及其概率的確定的當(dāng)前單詞。優(yōu)選地,上述詞及其概率確定單元對(duì)于上述句子中的各個(gè)單詞,通過(guò)在該單詞 的基礎(chǔ)上逐個(gè)單詞地向后擴(kuò)充來(lái)嘗試將該單詞與后面的單詞構(gòu)成組合詞,并且在確定這 樣構(gòu)成的組合詞的概率不再增高時(shí)停止,來(lái)確定該單詞及其所有可能的組合詞中概率最 高的那一個(gè)詞。優(yōu)選地,上述詞及其概率確定單元根據(jù)下式,確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率 ps (e' , Ie1, e2, e^) = Max(p(e1|e1_n+1, e^, e^, eM), ρ (ε,+e^Ie1-^1,
ei-n+2 ‘…,ei-2, ei-l)‘…,P (ei+...+ei+j|ei-n+1, Qi-n+2 ‘…,‘ ei-l)其中,e',是針對(duì)單詞^確定的、與句子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞, ps(e' ,Ie1, e2,…,是該詞 e'工的概率,Pfe1Ie1-^1, e^,…,e^, 是單詞 e,的 概率,p(ei+e1+1|ei_n+1,ei_n+2,…,ei_2,ed是單詞&與其后面的單詞e1+1所組成的組合詞 ei+e1+1的概率,p(ei+...+e1+」ei_n,ei_n+1,…,ei_2,是單詞e,與其后面的j個(gè)單詞所組成 的組合詞e,+...+ 的概率;并且上述語(yǔ)言模型概率計(jì)算單元根據(jù)下式,獲得句子的語(yǔ)言模型概率Ps(E) = JjMeiKe2,...^)
i=i+j其中,ps(E)表示包含N個(gè)詞{e1; e2,…,eN}的句子的語(yǔ)言模型概率。根據(jù)本發(fā)明的再一個(gè)方面,提供一種構(gòu)建語(yǔ)言模型的裝置,包括模型構(gòu)建單 元,其構(gòu)建語(yǔ)言模型,該語(yǔ)言模型通過(guò)對(duì)于句子中的各個(gè)單詞,嘗試將其與后面的單 詞組成通常被作為一個(gè)詞使用的組合詞,而確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的 各個(gè)詞及其概率,進(jìn)而基于所確定的與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其 概率,獲得該句子的語(yǔ)言模型概率。優(yōu)選地,上述模型構(gòu)建單元所構(gòu)建的語(yǔ)言模型基于預(yù)先從單語(yǔ)文本語(yǔ)料中統(tǒng)計(jì) 出的多個(gè)單詞組及其概率,對(duì)于上述句子中的各個(gè)單詞,確定在該單詞以及該單詞與其 后面的單詞所組成的所有可能的組合詞中概率最高的那一個(gè)詞,以將該詞及其概率作為 與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞及其概率,并且將該所確定的詞后面的單詞作 為下一個(gè)要進(jìn)行與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞及其概率的確定的當(dāng)前單詞。優(yōu)選地,上述模型構(gòu)建單元所構(gòu)建的語(yǔ)言模型對(duì)于上述句子中的各個(gè)單詞,通 過(guò)在該單詞的基礎(chǔ)上逐個(gè)單詞地向后擴(kuò)充來(lái)嘗試將該單詞與后面的單詞構(gòu)成組合詞,并 且在確定這樣構(gòu)成的組合詞的概率不再增高時(shí)停止,來(lái)確定該單詞及其所有可能的組合 詞中概率最高的那一個(gè)詞。優(yōu)選地,上述模型構(gòu)建單元所構(gòu)建的語(yǔ)言模型根據(jù)下式,確定與該句子的語(yǔ)言 模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率ps (e' Je1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1,
ei-n+2 ‘ ..., ei-2, ei-l)‘…,P (ei+...+ei+j|ei-n+1, ei-n+2, ..., ei-2, ei-l)其中,e',是針對(duì)單詞^確定的、與句子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞, ps(e' ,Ie1, e2,…,是該詞 e'工的概率,Pfe1Ie1-^1, e^,…,e^, 是單詞 e,的 概率,p(ei+e1+1|ei_n+1,ei_n+2,…,ei_2,ed是單詞&與其后面的單詞e1+1所組成的組合詞 ei+e1+1的概率,p(ei+...+e1+」ei_n,ei_n+1,...ei_2,是單詞e,與其后面的j個(gè)單詞所組成的 組合詞e,+...+ 的概率,并且根據(jù)下式,獲得該句子的語(yǔ)言模型概率P.XE)=
i=i+J其中,ps(E)表示包含N個(gè)詞{e1; e2,…,eN}的句子的語(yǔ)言模型概率。
優(yōu)選地,單詞的概率是該單詞與句子中該單詞前面的單詞所組成的單詞組的概 率,組合詞的概率是該組合詞與句子中該組合詞前面的單詞所組成的單詞組的概率。根據(jù)本發(fā)明的再一個(gè)方面,提供一種基于語(yǔ)料庫(kù)的機(jī)器翻譯系統(tǒng),包括上述 的為句子獲得語(yǔ)言模型概率的裝置或利用上述的構(gòu)建語(yǔ)言模型的裝置構(gòu)建的語(yǔ)言模型; 以及譯文生成單元,其為待翻譯的句子生成多個(gè)候選譯文,并且利用上述為句子獲得語(yǔ) 言模型概率的裝置或語(yǔ)言模型,分別為該多個(gè)候選譯文獲得語(yǔ)言模型概率,并且參考該 多個(gè)候選譯文的語(yǔ)言模型概率,從該多個(gè)候選譯文中選擇出上述待翻 譯的句子的最終譯 文。


相信通過(guò)以下結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式
的說(shuō)明,能夠使人們更好地了解 本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。圖1是根據(jù)本發(fā)明實(shí)施例的為句子獲得語(yǔ)言模型概率的方法的流程圖;圖2是圖1的步驟105中確定與句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概 率的過(guò)程的流程圖;圖3是根據(jù)本發(fā)明實(shí)施例的構(gòu)建語(yǔ)言模型的方法的流程圖;圖4是根據(jù)本發(fā)明實(shí)施例的基于語(yǔ)料庫(kù)的機(jī)器翻譯方法的流程圖;圖5是根據(jù)本發(fā)明實(shí)施例的為句子獲得語(yǔ)言模型概率的裝置的方框圖;圖6是根據(jù)本發(fā)明實(shí)施例的構(gòu)建語(yǔ)言模型的裝置的方框圖;以及圖7是根據(jù)本發(fā)明實(shí)施例的基于語(yǔ)料庫(kù)的機(jī)器翻譯系統(tǒng)的方框圖。
具體實(shí)施例方式本發(fā)明提出一種新的語(yǔ)言模型的概念,該語(yǔ)言模型在現(xiàn)有的標(biāo)準(zhǔn)語(yǔ)言模型的基 礎(chǔ)上,考慮了通常被作為一個(gè)詞來(lái)使用的復(fù)合詞在候選譯文與語(yǔ)言模型中不一致的問(wèn) 題,改變了句子中與語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率的確定方式。具體地, 該語(yǔ)言模型,對(duì)于句子中的各個(gè)單詞,嘗試是否能夠?qū)⑵渑c后面的單詞組成通常被作為 一個(gè)詞使用的組合詞,并且在能夠組合的情況下基于這樣的組合詞的概率、而不是上述 單詞的概率來(lái)計(jì)算句子的語(yǔ)言模型概率,以便確保在語(yǔ)言模型概率的計(jì)算中復(fù)合詞不被 拆分。在此,所謂復(fù)合詞,是一個(gè)寬泛的概念,指所有由多個(gè)詞組合而成、在所屬語(yǔ) 言中通常被作為一個(gè)詞來(lái)使用的詞。在本發(fā)明所提出的該新的語(yǔ)言模型的概念的基礎(chǔ)上,下面結(jié)合附圖對(duì)本發(fā)明的 各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)說(shuō)明。圖1是根據(jù)本發(fā)明實(shí)施例的為句子獲得語(yǔ)言模型概率的方法的流程圖。如圖1所示,該方法首先在步驟105,為要進(jìn)行語(yǔ)言模型概率的計(jì)算的句子,對(duì) 于其中的各個(gè)單詞,嘗試將其與后面的單詞組成通常被作為一個(gè)詞使用的組合詞,而確 定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率。該步驟基于預(yù)先從單語(yǔ)文本語(yǔ)料中統(tǒng)計(jì)出的多個(gè)單詞組及其概率來(lái)實(shí)現(xiàn)。在 此,所謂單詞組,是由多個(gè)單詞組成、代表該多個(gè)單詞有可能在句子中按順序出現(xiàn)的組。在一個(gè)實(shí)施例中,與平滑的ngram模型對(duì)應(yīng)地,這里所述的單詞組指ngram。此外,單詞組的概率表示該單詞組中的最后一個(gè)單詞出現(xiàn)在該單詞組中其前面 的所有單詞之后的概率。單詞組的概率也可以稱(chēng)為是該單詞組中的最后一個(gè)單詞的、與 該單詞組中其前面的單詞有關(guān)的概率。也就是說(shuō),在本步驟中,對(duì)于句子中的各個(gè)單詞,不僅要像標(biāo)準(zhǔn)語(yǔ)言模型那樣 考慮該單詞與其前面的單詞的組合,而且還要考慮其與后面的單詞的組合。具體地,在本步驟中,對(duì)于句子中的各個(gè)單詞,根據(jù)預(yù)先從單語(yǔ)文本語(yǔ)料中統(tǒng) 計(jì)出的多個(gè)單詞組及其概率,確定該單詞和該單詞與其后面的單詞所組成的所有可能的 組合詞中概率最高的那 一個(gè)詞,作為與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞,使其概 率用于該句子的語(yǔ)言模型概率的計(jì)算。在一個(gè)實(shí)施例中,在本步驟中,在平滑的ngram模型的基礎(chǔ)上,對(duì)于包含N個(gè) 詞丨ei,e2,…,eN}的句子E,針對(duì)其中的各個(gè)當(dāng)前單詞基于下式(3)嘗試將其與后 面的單詞組成組合詞,來(lái)確定與該當(dāng)前單詞e,有關(guān)、進(jìn)而與該句子的語(yǔ)言模型概率的計(jì) 算有關(guān)的詞e',及其概率仇…'Je1, e2,…,eM)ps (e' ,Ie1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1, 6i-n+2' ..., ^i-l)‘…,P +ei+jl^-n+i, Ci-^2, ..., Qh2, Chi) (3)其中,p(ei|ei_n+1,ei_n+2,...,ei_2,h)是當(dāng)前單詞ei的概率,也即該單詞&與 其前面的n-1個(gè)單詞所組成的單詞組(ei_n+1,ei_n+2,…,ei_2,eM, e)(后面稱(chēng)為原始單 詞組,相當(dāng)于平滑的ngram模型中的ngram)的概率,類(lèi)似地,ρ(ei+e1+1|ei_n+1,e^,…, ei_2,eM)是當(dāng)前單詞ei與其后面的單詞e1+1所組成的組合詞ei+e1+1的概率,也即該組合詞 與其前面的n-1個(gè)單詞所組成的單詞組(ei_n,ei_n+1,…,ei_2,eM, ei; e1+1)(后面稱(chēng)為組 合單詞組)的概率,p(ei+...+e1+」ei_n,ei_n+1,…,ei_2,是當(dāng)前單詞e,與其后面的j個(gè)單 詞所組成的組合詞e,+...+ 的概率,也即該組合詞與其前面的n-1個(gè)單詞所組成的組合單 詞組(‘, ei-n+l ‘…,ei-2,ei-1,ei,…,ei+j/ 的概率。可以看出,與當(dāng)前單詞ei有關(guān)、進(jìn)而與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞 e',是當(dāng)前單詞ei及其所有可能的組合詞壚…+ 中概率最高的那一個(gè)詞。也就是說(shuō),在本實(shí)施例中,在確定與句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞 及其概率時(shí),對(duì)于句子中的各個(gè)單詞,除了要考慮在標(biāo)準(zhǔn)語(yǔ)言模型中直接應(yīng)用的該單詞 的概率之外,還嘗試在該當(dāng)前單詞的基礎(chǔ)上組合其后面的單詞,即構(gòu)成組合詞,并且確 定該當(dāng)前單詞和所有可能的組合詞中概率最高的那一個(gè)詞,使該詞及其概率作為與該句 子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞及其概率。并且,可以理解,在針對(duì)當(dāng)前單詞確定了該單詞和其所有可能的組合詞中概率 最高的那一個(gè)詞之后,該所確定的詞后面的單詞將成為下一個(gè)要進(jìn)行與該句子的語(yǔ)言模 型概率的計(jì)算有關(guān)的詞的確定的當(dāng)前單詞。關(guān)于該步驟,將在后面結(jié)合圖2進(jìn)行詳細(xì)描述。在步驟110,對(duì)于上述句子,基于所確定的與該句子的語(yǔ)言模型概率的計(jì)算有關(guān) 的各個(gè)詞及其概率,獲得該句子的語(yǔ)言模型概率。在一個(gè)實(shí)施例中,在本步驟中,求取所確定的與該句子的語(yǔ)言模型概率的計(jì)算 有關(guān)的各個(gè)詞的概率的乘積,來(lái)獲得該句子的語(yǔ)言模型概率。
具體地,在上述平滑的ngram模型的情況下,在上式(3)的基礎(chǔ)上,按照下式 (4)來(lái)求取所確定的與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞的概率的乘積,來(lái)獲得 該句子的語(yǔ)言模型概率。
權(quán)利要求
1.一種為句子獲得語(yǔ)言模型概率的方法,包括通過(guò)對(duì)于句子中的各個(gè)單詞,嘗試將其與后面的單詞組成通常被作為一個(gè)詞使用的 組合詞,而確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率;以及基于所確定的與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率,獲得該句子 的語(yǔ)言模型概率。
2.—種構(gòu)建語(yǔ)言模型的方法,包括構(gòu)建語(yǔ)言模型,該語(yǔ)言模型通過(guò)對(duì)于句子中的各個(gè)單詞,嘗試將其與后面的單詞組成通常被作為一個(gè)詞使用的 組合詞,而確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率,進(jìn)而基于所確定的與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率,獲得該句子 的語(yǔ)言模型概率。
3.根據(jù)權(quán)利要求1或2所述的方法,其中上述確定與該句子的語(yǔ)言模型概率的計(jì)算有 關(guān)的各個(gè)詞及其概率的步驟進(jìn)一步包括基于預(yù)先從單語(yǔ)文本語(yǔ)料中統(tǒng)計(jì)出的多個(gè)單詞組及其概率,對(duì)于上述句子中的各個(gè) 單詞,確定該單詞以及該單詞與其后面的單詞所組成的所有可能的組合詞中概率最高的 那一個(gè)詞,以將該詞及其概率作為與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞及其概率。
4.根據(jù)權(quán)利要求3所述的方法,其中在對(duì)于上述句子中的各個(gè)單詞確定了該單詞及其 所有可能的組合詞中概率最高的那一個(gè)詞之后,該所確定的詞后面的單詞將成為下一個(gè) 要進(jìn)行與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的詞及其概率的確定的當(dāng)前單詞。
5.根據(jù)權(quán)利要求3所述的方法,其中單詞的概率是該單詞與句子中該單詞前面的單詞 所組成的單詞組的概率,組合詞的概率是該組合詞與句子中該組合詞前面的單詞所組成 的單詞組的概率。
6.根據(jù)權(quán)利要求3所述的方法,其中對(duì)于上述句子中的各個(gè)單詞,確定該單詞以及該 單詞與其后面的單詞所組成的所有可能的組合詞中概率最高的那一個(gè)詞進(jìn)一步包括通過(guò)在該單詞的基礎(chǔ)上逐個(gè)單詞地向后擴(kuò)充來(lái)嘗試將該單詞與其后面的單詞構(gòu)成組 合詞,并且在確定這樣構(gòu)成的組合詞的概率不再增高時(shí)停止,來(lái)確定該單詞及其所有可 能的組合詞中概率最高的那一個(gè)詞。
7.一種基于語(yǔ)料庫(kù)的機(jī)器翻譯方法,包括利用權(quán)利要求1所述的為句子獲得語(yǔ)言模型概率的方法,為針對(duì)待翻譯的句子生成 的多個(gè)候選譯文,分別獲得語(yǔ)言模型概率;以及參考上述多個(gè)候選譯文的語(yǔ)言模型概率,從該多個(gè)候選譯文中選擇出上述待翻譯的 句子的最終譯文。
8.—種為句子獲得語(yǔ)言模型概率的裝置,包括詞及其概率確定單元,其通過(guò)對(duì)于句子中的各個(gè)單詞,嘗試將其與后面的單詞組成 通常被作為一個(gè)詞使用的組合詞,而確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞 及其概率;以及語(yǔ)言模型概率計(jì)算單元,其基于所確定的與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各 個(gè)詞及其概率,獲得該句子的語(yǔ)言模型概率。
9.一種構(gòu)建語(yǔ)言模型的裝置,包括模型構(gòu)建單元,其構(gòu)建語(yǔ)言模型,該語(yǔ)言模型通過(guò)對(duì)于句子中的各個(gè)單詞,嘗試將其與后面的單詞組成通常被作為一個(gè)詞使用的 組合詞,而確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率,進(jìn)而基于所確定的與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率,獲得該句子 的語(yǔ)言模型概率。
10. 一種基于語(yǔ)料庫(kù)的機(jī)器翻譯系統(tǒng),包括權(quán)利要求8所述的為句子獲得語(yǔ)言模型概率的裝置或利用權(quán)利要求9所述的構(gòu)建語(yǔ)言 模型的裝置構(gòu)建的語(yǔ)言模型;以及譯文生成單元,其為待翻譯的句子生成多個(gè)候選譯文,并且利用上述為句子獲得語(yǔ) 言模型概率的裝置或語(yǔ)言模型,分別為該多個(gè)候選譯文獲得語(yǔ)言模型概率,并且參考該 多個(gè)候選譯文的語(yǔ)言模型概率,從該多個(gè)候選譯文中選擇出上述待翻譯的句子的最終譯 文。
全文摘要
本發(fā)明提供一種為句子獲得語(yǔ)言模型概率的方法和裝置、構(gòu)建語(yǔ)言模型的方法和裝置以及基于語(yǔ)料庫(kù)的機(jī)器翻譯方法和系統(tǒng)。該為句子獲得語(yǔ)言模型概率的方法,包括通過(guò)對(duì)于句子中的各個(gè)單詞,嘗試將其與后面的單詞組成通常被作為一個(gè)詞使用的組合詞,而確定與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率;以及基于所確定的與該句子的語(yǔ)言模型概率的計(jì)算有關(guān)的各個(gè)詞及其概率,獲得該句子的語(yǔ)言模型概率。在本發(fā)明中,通過(guò)嘗試將句子中的各個(gè)單詞與其后面的單詞組合,能夠確保在語(yǔ)言模型概率的計(jì)算中復(fù)合詞不被拆分,從而為句子獲得準(zhǔn)確的語(yǔ)言模型概率,準(zhǔn)確地體現(xiàn)句子的質(zhì)量。
文檔編號(hào)G06F17/28GK102023970SQ20091017751
公開(kāi)日2011年4月20日 申請(qǐng)日期2009年9月14日 優(yōu)先權(quán)日2009年9月14日
發(fā)明者劉占一, 王海峰 申請(qǐng)人:株式會(huì)社東芝
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
班戈县| 阆中市| 贵阳市| 茌平县| 通化市| 曲靖市| 屯留县| 通山县| 福清市| 玛多县| 连城县| 冷水江市| 雷山县| 长白| 井陉县| 望奎县| 清流县| 广宁县| 泽普县| 家居| 桓仁| 安远县| 嘉禾县| 合江县| 昭觉县| 墨竹工卡县| 锡林郭勒盟| 四子王旗| 石柱| 姚安县| 新闻| 昌黎县| 当雄县| 万州区| 株洲县| 界首市| 襄汾县| 延安市| 大冶市| 卓资县| 平利县|