两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

建立分詞模型的方法及裝置與流程

文檔序號(hào):11133916閱讀:433來(lái)源:國(guó)知局
建立分詞模型的方法及裝置與制造工藝

本發(fā)明實(shí)施例涉及機(jī)器翻譯技術(shù)領(lǐng)域,尤其涉及一種建立分詞模型的方法及裝置。



背景技術(shù):

當(dāng)今自然語(yǔ)言處理界普遍認(rèn)為,由于中文的詞與詞之間沒(méi)有空格區(qū)分邊界,一個(gè)更高質(zhì)量的分詞是中文語(yǔ)言處理中的關(guān)鍵所在。多項(xiàng)實(shí)驗(yàn)證明,中文分詞的精準(zhǔn)性將直接影響統(tǒng)計(jì)機(jī)器翻譯的效果。而主流的統(tǒng)計(jì)機(jī)器模型也基于分詞后的平行語(yǔ)料,這表明,任何訓(xùn)練語(yǔ)句都將會(huì)被分詞。對(duì)于中文,最大的障礙在于,使用的訓(xùn)練語(yǔ)料都來(lái)自被標(biāo)記好的語(yǔ)法樹(shù)。而顯然,這些分詞標(biāo)準(zhǔn)僅僅考慮到了單語(yǔ)種的特征,并不符合統(tǒng)計(jì)機(jī)器學(xué)習(xí)基于平行雙語(yǔ)語(yǔ)料的特點(diǎn)。

近年來(lái),很多研究人員意識(shí)到了這個(gè)問(wèn)題,大量的分詞工作將重心轉(zhuǎn)到了研究一個(gè)適用于統(tǒng)計(jì)機(jī)器翻譯的分詞系統(tǒng),而非只針對(duì)單一的語(yǔ)種。不同于傳統(tǒng)的分詞方法,如:最大匹配法或是監(jiān)督機(jī)器學(xué)習(xí)分類(lèi)方法,基于統(tǒng)計(jì)機(jī)器翻譯的分詞都依賴(lài)于對(duì)齊方法,一個(gè)英文單詞對(duì)齊一個(gè)或多個(gè)中文單詞,將英文的詞邊界直接映射到中文端。然而這些方法通常都忽略了中文分詞本身的準(zhǔn)確性,并且還要承受錯(cuò)誤的對(duì)齊給分詞帶來(lái)的負(fù)面效果。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供一種建立分詞模型的方法及裝置,用以建立一種分詞準(zhǔn)確性較高的分詞模型。

本發(fā)明實(shí)施例第一方面提供一種建立分詞模型的方法,該方法包括:

將第一語(yǔ)料中的每個(gè)字符與第二語(yǔ)料中的單詞進(jìn)行對(duì)齊,獲得第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,其中所述第一語(yǔ)料為詞與詞之間沒(méi)有空格劃分邊界的語(yǔ)料;

根據(jù)所述第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,確定所述第一語(yǔ)料中詞的邊界信息;

根據(jù)所述第一語(yǔ)料中詞的邊界信息,訓(xùn)練生成分詞模型。

本發(fā)明實(shí)施例第二方面提供一種建立分詞模型的裝置,該裝置包括:

對(duì)齊模塊,用于將第一語(yǔ)料中的每個(gè)字符與第二語(yǔ)料中的單詞進(jìn)行對(duì)齊,獲得第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,其中所述第一語(yǔ)料為詞與詞之間沒(méi)有空格劃分邊界的語(yǔ)料;

確定模塊,用于根據(jù)所述第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,確定所述第一語(yǔ)料中詞的邊界信息;

訓(xùn)練模塊,用于根據(jù)所述第一語(yǔ)料中詞的邊界信息,訓(xùn)練生成分詞模型。

本發(fā)明實(shí)施例,通過(guò)將無(wú)空格劃分詞邊界的第一語(yǔ)料中的每個(gè)字符與有空格劃分詞邊界的第二語(yǔ)料中的每個(gè)單詞進(jìn)行對(duì)齊,獲得單詞與字符之間的對(duì)齊關(guān)系,并根據(jù)第一語(yǔ)料和第二語(yǔ)料之間,單詞與字符的對(duì)齊關(guān)系,確定第一語(yǔ)料中詞的邊界信息,從而根據(jù)該邊界信息訓(xùn)練生成分詞模型。本發(fā)明實(shí)施例區(qū)別于現(xiàn)有技術(shù)的是,該分詞模型在分詞處理過(guò)程中,綜合了對(duì)齊語(yǔ)料對(duì)分詞的影響,因此,能夠達(dá)到提高分詞準(zhǔn)確率的效果。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例一提供的建立分詞模型的方法的流程示意圖;

圖2為本發(fā)明實(shí)施例二提供的建立分詞模型的方法的流程示意圖;

圖3本發(fā)明實(shí)施例三提供的建立分詞模型的裝置的結(jié)構(gòu)示意圖;

圖4本發(fā)明實(shí)施例四提供的建立分詞模型的裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)的術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟的過(guò)程或結(jié)構(gòu)的裝置不必限于清楚地列出的那些結(jié)構(gòu)或步驟而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程或裝置固有的其它步驟或結(jié)構(gòu)。

圖1為本發(fā)明實(shí)施例一提供的建立分詞模型的方法的流程示意圖,該方法可以由一分詞模型的建立裝置(以下簡(jiǎn)稱(chēng)建立裝置)來(lái)執(zhí)行。如圖1所示,該方法包括如下步驟:

步驟S101、將第一語(yǔ)料中的每個(gè)字符與第二語(yǔ)料中的單詞進(jìn)行對(duì)齊,獲得第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,其中所述第一語(yǔ)料為詞與詞之間沒(méi)有空格劃分邊界的語(yǔ)料。

本實(shí)施例中,第一語(yǔ)料可以被具體為語(yǔ)法樹(shù)資源匱乏的語(yǔ)言的語(yǔ)料,例如,中文語(yǔ)料、韓文語(yǔ)料、日文語(yǔ)料等。第二語(yǔ)料可以被具體為語(yǔ)法樹(shù)資源豐富的語(yǔ)言的語(yǔ)料。例如英文語(yǔ)料,德文語(yǔ)料等。

以第一語(yǔ)料為中文語(yǔ)料,第二語(yǔ)料為英文語(yǔ)料為例。實(shí)際應(yīng)用中,首先將中文語(yǔ)料中的每個(gè)中文字符用空格符或其他符號(hào)進(jìn)行分詞,并將分詞后的每個(gè)中文字符作為一個(gè)詞語(yǔ)單位。在此之后,采用諸如GIZA++等詞語(yǔ)對(duì)齊方法,將中文語(yǔ)料中的每個(gè)中文字符與英文語(yǔ)料中的單詞進(jìn)行對(duì)齊,確定中文語(yǔ)料與英文語(yǔ)料之間的對(duì)齊關(guān)系。

這里需要說(shuō)明的是,本實(shí)施例中,中文語(yǔ)料與英文語(yǔ)料之間是按照N到1的原則進(jìn)行對(duì)齊的,即一個(gè)英文單詞對(duì)齊一個(gè)或多個(gè)中文字符,例如英文單詞“Olympus”可以分別對(duì)應(yīng)中文字符“奧”、“運(yùn)”、“會(huì)”。

步驟S102、根據(jù)所述第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,確定所述第一語(yǔ)料中詞的邊界信息。

具體的,本實(shí)施例中基于字符的三元詞組(即通過(guò)三種標(biāo)識(shí)標(biāo)記字符在詞組中位置,例如用B標(biāo)記詞組起始字符,用E標(biāo)記詞組最后一個(gè)字符,用M標(biāo)記詞組中間位置的字符,當(dāng)然此處僅為示例說(shuō)明,并不是對(duì)其的唯一限定。),確定第一語(yǔ)料庫(kù)中詞的邊界信息,其中,上述詞的邊界信息包括詞中各字符的邊界位置以及詞的邊界概率。其中,基于字符的三元詞組確定第一語(yǔ)料庫(kù)中詞的邊界信息的方法,與現(xiàn)有技術(shù)類(lèi)似在這里不再贅述。

步驟S103、根據(jù)所述第一語(yǔ)料中詞的邊界信息,訓(xùn)練生成分詞模型。

實(shí)際應(yīng)用中,在確定的第一語(yǔ)料中詞的邊界信息后,優(yōu)選的,本實(shí)施例采用圖傳導(dǎo)的方法將該邊界信息在第一語(yǔ)料和第二語(yǔ)料之間進(jìn)行傳遞。并根據(jù)圖傳播的限制條件,訓(xùn)練形成分詞模型,優(yōu)選的,本實(shí)施例中訓(xùn)練形成的分詞模型為隨機(jī)條件場(chǎng)模型。具體的,本實(shí)施例中采用的圖傳導(dǎo)的方法和隨機(jī)條件場(chǎng)訓(xùn)練方法,分別與現(xiàn)有技術(shù)中的圖傳導(dǎo)的方法和隨機(jī)條件場(chǎng)的訓(xùn)練方法類(lèi)似,在這里不再贅述。

本實(shí)施例,通過(guò)將無(wú)空格劃分邊界的第一語(yǔ)料中的每個(gè)字符與有空格劃分邊界的第二語(yǔ)料中的每個(gè)單詞進(jìn)行對(duì)齊,獲得第一語(yǔ)料和第二語(yǔ)料間單詞與字符之間的對(duì)齊關(guān)系,并根據(jù)第一語(yǔ)料和第二語(yǔ)料之間的對(duì)齊關(guān)系,確定第一語(yǔ)料中詞的邊界信息,從而根據(jù)該邊界信息訓(xùn)練生成分詞模型。區(qū)別于現(xiàn)有技術(shù)的是,該分詞模型在分詞處理過(guò)程中,綜合了對(duì)齊語(yǔ)料對(duì)分詞的影響,因此,能夠達(dá)到提高分詞準(zhǔn)確率的效果。

圖2為本發(fā)明實(shí)施例二提供的建立分詞模型的方法的流程示意圖,如圖2所示,在圖1所示實(shí)施例的基礎(chǔ)上,本實(shí)施例提供的方法包括:

步驟S201、將第一語(yǔ)料中的每個(gè)字符與第二語(yǔ)料中的單詞進(jìn)行對(duì)齊,獲得第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,其中所述第一語(yǔ)料為詞與詞之間沒(méi)有空格劃分邊界的語(yǔ)料。

步驟S202、根據(jù)所述第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,確定所述第一語(yǔ)料中詞的邊界信息。

本實(shí)例中,步驟S201-步驟S202的執(zhí)行方式和有益效果分別與圖1實(shí)施例中的步驟S101和步驟S102類(lèi)似,在這里不再贅述。

步驟S203、通過(guò)相似圖的傳導(dǎo)方法,將所述第一語(yǔ)料中詞的邊界信息在所述第一語(yǔ)料和第二語(yǔ)料之間進(jìn)行傳導(dǎo),并訓(xùn)練生成分詞模型。

與直接將邊界信息作為分詞邊界的傳統(tǒng)做法相比不同的是,本實(shí)施例在獲得第一語(yǔ)料中詞的邊界信息后,通過(guò)圖傳導(dǎo)的方法來(lái)傳遞邊界信息,并根據(jù)圖傳導(dǎo)的約束條件來(lái)訓(xùn)練形成分詞模型。

實(shí)際應(yīng)用中,首先根據(jù)包括語(yǔ)法樹(shù),以及第一語(yǔ)料和第二語(yǔ)料在內(nèi)的資源,構(gòu)建一個(gè)相似圖G=(V,E)。相似圖中的每一個(gè)頂點(diǎn)V都具有一個(gè)|T|維度的估量v來(lái)代表第一語(yǔ)料中每個(gè)詞的邊界概率。而經(jīng)過(guò)推導(dǎo)的詞的概率r,則是相應(yīng)M圖頂點(diǎn)的經(jīng)驗(yàn)值,其中,|T|為正整數(shù)。相似圖中的邊的集合E∈Vi*Vj連接了圖中的所有頂點(diǎn),其中Vi和Vj表示相似圖中互相連接的兩個(gè)頂點(diǎn)對(duì)。圖中頂點(diǎn)對(duì)之間的權(quán)重wij指兩個(gè)頂點(diǎn)之間的語(yǔ)法相似程度。具體來(lái)說(shuō),就是將每個(gè)頂點(diǎn)具化為一個(gè)稀疏向量,并通過(guò)余弦函數(shù)計(jì)算兩個(gè)向量之間的相似程度來(lái)獲得兩個(gè)頂點(diǎn)之間的語(yǔ)法相似程度??偟膩?lái)說(shuō),相似圖的目的在于使得在不同文本中抽取出的頂點(diǎn)根據(jù)其邊權(quán)重wij的高低進(jìn)行連接。算法中,高權(quán)重的頂點(diǎn)之間才能互聯(lián),導(dǎo)致圖中相鄰的頂點(diǎn)都具有相似的詞邊界概率。

相似圖的質(zhì)量(平滑程度)可被用一個(gè)標(biāo)準(zhǔn)的傳播算法估算出來(lái),公式如下所示。

在公式等號(hào)的右邊中,左起第一個(gè)“+”前邊的部分主要用于計(jì)算預(yù)測(cè)量vi和實(shí)證概率ri之間的距離。左起第一個(gè)“+”和左起第二個(gè)“+”之間的部分表示的是相似圖中邊的平滑算法,用來(lái)衡量頂點(diǎn)Vi相對(duì)于圖的平滑程度。而兩個(gè)頂點(diǎn)之間通過(guò)高權(quán)重的邊進(jìn)行連接,并且頂點(diǎn)之間被賦予相似的詞邊界概率。左起第二個(gè)“+”之后的部分是一個(gè)范式,用來(lái)估算每個(gè)頂點(diǎn)的概率分布稀疏度。通常情況下,圖傳導(dǎo)過(guò)程相當(dāng)于一個(gè)優(yōu)化過(guò)程,在此過(guò)程中,上述公式中的參數(shù)vi被最小化。這個(gè)傳播函數(shù)被用來(lái)反映圖平滑,獲得的p(v)值越高,則平滑度越低。

本實(shí)施例中,相似圖的構(gòu)建方法與現(xiàn)有技術(shù)類(lèi)似,在這里不再詳述。

進(jìn)一步的,在建立相似圖之后,根據(jù)相似圖的傳播限制條件進(jìn)行模型訓(xùn)練,生成分詞模型,其中,本實(shí)施例中,優(yōu)選訓(xùn)練生成隨機(jī)條件場(chǎng)模型。隨機(jī)條件場(chǎng)模型的訓(xùn)練生成方法與現(xiàn)有技術(shù)類(lèi)似,在這里不再贅述。

本實(shí)施例,通過(guò)將無(wú)空格劃分邊界的第一語(yǔ)料中的每個(gè)字符與有空格劃分邊界的第二語(yǔ)料中的每個(gè)單詞進(jìn)行對(duì)齊,獲得第一語(yǔ)料和第二語(yǔ)料間單詞與字符之間的對(duì)齊關(guān)系,并根據(jù)第一語(yǔ)料和第二語(yǔ)料之間的對(duì)齊關(guān)系,確定第一語(yǔ)料中詞的邊界信息,從而根據(jù)該邊界信息訓(xùn)練生成分詞模型。區(qū)別于現(xiàn)有技術(shù)的是,該分詞模型在分詞處理過(guò)程中,綜合了對(duì)齊語(yǔ)料對(duì)分詞的影響,因此,能夠達(dá)到提高分詞準(zhǔn)確率的效果。

圖3本發(fā)明實(shí)施例三提供的建立分詞模型的裝置的結(jié)構(gòu)示意圖。如圖3所示,本實(shí)施例提供的裝置包括:

對(duì)齊模塊11,用于將第一語(yǔ)料中的每個(gè)字符與第二語(yǔ)料中的單詞進(jìn)行對(duì)齊,獲得第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,其中所述第一語(yǔ)料為詞與詞之間沒(méi)有空格劃分邊界的語(yǔ)料;

確定模塊12,用于根據(jù)所述第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,確定所述第一語(yǔ)料中詞的邊界信息;

訓(xùn)練模塊13,用于根據(jù)所述第一語(yǔ)料中詞的邊界信息,訓(xùn)練生成分詞模型。

其中,所述第一語(yǔ)料包括如下語(yǔ)料中的任意一種:

中文語(yǔ)料,韓文語(yǔ)料,日文語(yǔ)料;

所述第二語(yǔ)料包括如下語(yǔ)料中的任意一種:

英文語(yǔ)料,德文語(yǔ)料。

所述確定模塊12,具體用于:

根據(jù)所述第一語(yǔ)料和所述第二語(yǔ)料之間的對(duì)齊關(guān)系,確定所述第一語(yǔ)料中每個(gè)三元詞組的邊界位置和邊界概率。

本實(shí)施例提供的裝置能夠用于執(zhí)行圖1所示實(shí)施例的方法,其執(zhí)行方式和有益效果類(lèi)似,在這里不再贅述。

圖4本發(fā)明實(shí)施例四提供的建立分詞模型的裝置的結(jié)構(gòu)示意圖。如圖4所示,本實(shí)施例提供的裝置在圖3所示結(jié)構(gòu)的基礎(chǔ)上,所述訓(xùn)練模塊13,包括:

第一訓(xùn)練子模塊131,用于通過(guò)相似圖的傳導(dǎo)方法,將所述第一語(yǔ)料中詞的邊界信息在所述第一語(yǔ)料和第二語(yǔ)料之間進(jìn)行傳導(dǎo),并訓(xùn)練生成分詞模型。

本實(shí)施例提供的裝置能夠用于執(zhí)行圖2所示實(shí)施例的方法,其執(zhí)行方式和有益效果類(lèi)似,在這里不再贅述。

最后應(yīng)說(shuō)明的是:以上各實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
龙井市| 株洲市| 莱州市| 夏河县| 四平市| 永修县| 庐江县| 太康县| 朔州市| 宜州市| 奉新县| 八宿县| 雅安市| 黎川县| 托克逊县| 隆安县| 普陀区| 革吉县| 吴川市| 松潘县| 娱乐| 西平县| 桃江县| 林口县| 建平县| 福州市| 射阳县| 会昌县| 阳原县| 巴马| 汾西县| 郎溪县| 卫辉市| 清涧县| 黄冈市| 安新县| 疏勒县| 万源市| 四子王旗| 金溪县| 城固县|