两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法

文檔序號:6472077閱讀:143來源:國知局
專利名稱:基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種針對漢語文本的共指消解方法,尤其涉及一種基于領(lǐng)域本體(Domain Ontology)、并結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,屬于自然語言處理技術(shù)領(lǐng)域。
背景技術(shù)
眾所周知,人們?yōu)榱吮苊庵貜?fù),習(xí)慣用代詞、稱謂和縮略語來指代前面提到的實(shí)體全稱。例如,在文章開始處會寫"華建機(jī)器翻譯公司"(即一般意義上的組織機(jī)構(gòu)名實(shí)體),后面可能會說"華建機(jī)譯"、"華建"等稱謂(即組織機(jī)構(gòu)名實(shí)體的等價表示)。這種指代現(xiàn)象被稱為共指現(xiàn)象。共指現(xiàn)象在自然語言中起到了超鏈接的作用,使篇章主題更加突出,表述更加連貫與簡潔;但它也在自然語言理解機(jī)制中增加了一種新的模糊成分,給自然語言處理帶來了不確定性。雖然人們可以毫無困難地區(qū)分文章中實(shí)體的不同稱謂,但是對于計(jì)算機(jī)來說,處理共指現(xiàn)象仍舊是一項(xiàng)非常困難的問題。 所謂共指消解是將現(xiàn)實(shí)世界中同一實(shí)體的不同描述合并到一起的過程。所涉及到的實(shí)體包括多種類型,可以是人名、地名、組織機(jī)構(gòu)名等常規(guī)命名實(shí)體,例如"張三"、"北京海淀區(qū)"、"華建機(jī)器翻譯公司",也可以是特定領(lǐng)域的領(lǐng)域?qū)嶓w,例如"諾基亞6300",表示電子產(chǎn)品領(lǐng)域中的一款手機(jī)(型號)。共指消解可以消除各同類實(shí)體間指代形式帶來的不確定性,為計(jì)算機(jī)處理提供完整和正確的,特別是可讀可操作的信息,避免上下文理解和關(guān)系關(guān)聯(lián)錯誤,是自然語言處理、機(jī)器翻譯、信息抽取、信息檢索等領(lǐng)域的關(guān)鍵技術(shù)之一。隨著大量涌現(xiàn)的基于篇章和真實(shí)文本處理的需求,共指消解在機(jī)器翻譯、信息抽取等語言工程應(yīng)用系統(tǒng)中作為關(guān)鍵的基礎(chǔ)環(huán)節(jié),發(fā)揮著非常重要的作用。 針對漢語文本的共指消解研究開始較晚。 一般認(rèn)為,漢語文本共指消解研究開始于二十世紀(jì)末,最早針對漢語文本的共指消解評測開始于2003年10月的ACE Phase3。目前,漢語文本共指消解技術(shù)仍然很不成熟,亟需進(jìn)一步改進(jìn)和提高。 另一方面,領(lǐng)域本體(Domain Ontology)是用于描述指定領(lǐng)域知識的一種專門本體。它給出了領(lǐng)域?qū)嶓w概念及相互關(guān)系、領(lǐng)域活動以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述。簡單地說,領(lǐng)域本體是一個由"本質(zhì)知識"構(gòu)成的知識庫。領(lǐng)域本體在一個特定的領(lǐng)域中可以重用。 本體已經(jīng)成為知識工程、人工智能以及信息系統(tǒng)等領(lǐng)域中一種重要的工具和方法論體系。它在知識的獲取、表示、共享和應(yīng)用等各個環(huán)節(jié)都具有重要的意義。本體是概念的形式化表達(dá),因此共指關(guān)系的識別是與本體有著"天然"聯(lián)系的任務(wù),它潛在地能夠?yàn)楣仓赶馓峁└拍畋举|(zhì)層面的支持。 但就申請人所知,目前尚沒有基于領(lǐng)域本體再結(jié)合機(jī)器學(xué)習(xí)模型用于共指消解處理的成熟技術(shù)方案。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢
語文本共指消解方法。該方法利用了領(lǐng)域本體的特征以及對采用的機(jī)器學(xué)習(xí)模型沒有特殊
限定的特點(diǎn),具有很好的可擴(kuò)展性和可移植能力。 為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案 —種基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,其特征在于
(1)構(gòu)建完成領(lǐng)域本體;
(2)輸入待處理的漢語文本; (3)對步驟(2)中的漢語文本進(jìn)行分詞與詞性標(biāo)注處理; (4)將漢語文本中的命名實(shí)體分為常規(guī)命名實(shí)體和領(lǐng)域命名實(shí)體兩類,利用步驟 (1)中構(gòu)建的領(lǐng)域本體通過形式化實(shí)例獲取詞性規(guī)則模板,結(jié)合CRF模型,針對領(lǐng)域命名實(shí) 體進(jìn)行識別處理; (5)針對領(lǐng)域命名實(shí)體之外的普通名詞短語進(jìn)行歸并處理; (6)利用步驟(1)中構(gòu)建的領(lǐng)域本體,獲取語義類特征,結(jié)合機(jī)器學(xué)習(xí)模型,針對 領(lǐng)域命名實(shí)體及普通名詞短語進(jìn)行共指消解處理。 其中,在所述步驟(1)中,所述領(lǐng)域本體通過階段性層進(jìn)法構(gòu)建,所述階段性層進(jìn) 法分為原型期階段和進(jìn)化期階段。 所述原型期階段分為四個步驟,依次完成領(lǐng)域本體構(gòu)建工具選擇及復(fù)用性分析,
領(lǐng)域本體知識源選擇及確定,領(lǐng)域本體知識分析,領(lǐng)域本體生成及表示工作。 所述進(jìn)化期階段分為兩個步驟,分別完成領(lǐng)域本體的評價,領(lǐng)域本體的修正與完
善工作。 所述步驟(4)中,所述詞性規(guī)則模板通過領(lǐng)域本體的有限實(shí)例的形式化,再對形 式化后的實(shí)例進(jìn)行詞性標(biāo)注得到的,其中有限的實(shí)例作為領(lǐng)域本體種子,用來產(chǎn)生具有共 性的詞性組合規(guī)則。 所述步驟(4)中,CRF模型通過如下的步驟獲得首先在標(biāo)注語料的基礎(chǔ)上,采用 L-BFGS算法進(jìn)行模型的訓(xùn)練,獲得CRF模型的參數(shù);在訓(xùn)練獲得的CRF模型的參數(shù)基礎(chǔ)上, 使用Viterbi動態(tài)規(guī)劃算法進(jìn)行解碼。 所述步驟(6)中,所述語義類特征是指通過對領(lǐng)域本體實(shí)例進(jìn)行特定標(biāo)記標(biāo)注獲 得的特征。 所述步驟(6)中,將所述語義類特征作為指代語和先行語的特征屬性,生成特征 向量,結(jié)合決策樹模型,識別領(lǐng)域命名實(shí)體的共指關(guān)系。 更具體地,將指代語之前三個自然句內(nèi)出現(xiàn)的名詞短語作為先行語的候選集,根據(jù)先 行語的候選集中候選項(xiàng)與指代語的特征屬性構(gòu)成的特征向量,判斷兩者是否存在共指關(guān)系。
本發(fā)明所提供的漢語文本共指消解方法在目前有效用于漢語共指消解處理標(biāo)注
語料嚴(yán)重匱乏的情況下,只需要較低的人工成本,通過利用極為有限的領(lǐng)域本體種子,經(jīng)過 簡單的本體實(shí)例統(tǒng)計(jì)就可以獲取詞性規(guī)則模板與領(lǐng)域語義類特征;采用通用的機(jī)器學(xué)習(xí)模
型,能夠在短時間內(nèi)獲取高準(zhǔn)確率的共指消解處理結(jié)果。同時,生成的領(lǐng)域本體能夠?yàn)樾畔?抽取語言工程應(yīng)用提供抽取模式。


下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步的說明。 圖1是一個領(lǐng)域本體構(gòu)建層次結(jié)構(gòu)方框圖,用來表示本發(fā)明所述方法中生成領(lǐng)域 本體的不同階段。 圖2是一個流程示意圖,用來表示本發(fā)明所述方法中實(shí)現(xiàn)領(lǐng)域命名實(shí)體識別處理 的整個線性流程。 圖3是一個流程示意圖,用來表示本發(fā)明所述方法實(shí)現(xiàn)共指消解處理的整個線性 流程。 其中,圖1中, la說明領(lǐng)域本體生成原型期階段中的前期準(zhǔn)備步驟; lb說明領(lǐng)域本體生成原型期階段中的領(lǐng)域知識源的選擇與確定步驟; lc說明領(lǐng)域本體生成原型期階段中的領(lǐng)域知識分析步驟; Id說明領(lǐng)域本體生成原型期階段中的本體構(gòu)建與表示步驟; le說明領(lǐng)域本體生成進(jìn)化期階段中的本體評價步驟; If說明領(lǐng)域本體生成進(jìn)化期階段中的本體修正與改進(jìn)步驟。 圖2中, 2a表示真實(shí)源文本的輸入處理; 2b表示針對全部文本的分詞和詞性標(biāo)注處理; 2c表示主要針對分詞和詞性標(biāo)注不一致性問題進(jìn)行的校正處理; 2d表示結(jié)合機(jī)器學(xué)習(xí)模型的命名實(shí)體識別處理; 2e表示領(lǐng)域本體引入處理; 2f表示基于領(lǐng)域本體實(shí)例獲取詞性規(guī)則模板集處理; 2g表示結(jié)合獲取的詞性規(guī)則模板,針對領(lǐng)域命名實(shí)體,進(jìn)行修正2d步驟識別結(jié)果 的處理; 2h表示完成全部實(shí)體最終識別結(jié)果處理。 圖3中, 3a表示真實(shí)源文本的輸入處理; 3b表示針對真實(shí)文本的分詞與詞性標(biāo)注處理; 3c表示針對領(lǐng)域命名實(shí)體進(jìn)行的識別處理; 3d表示針對領(lǐng)域命名實(shí)體之外的其他名詞短語進(jìn)行的后處理; 3e表示面向領(lǐng)域命名實(shí)體及普通名詞短語的共指消解處理。
具體實(shí)施例方式
本發(fā)明的基本思路在于把語言學(xué)標(biāo)注問題看作是關(guān)于本體的語義標(biāo)注問題的特 殊情況來看待。在共指消解中,將共指關(guān)系的標(biāo)注形式轉(zhuǎn)化為一項(xiàng)確定兩個用特定本體概 念表示的語言表達(dá)之間的語義關(guān)系的任務(wù)。通過建立領(lǐng)域本體,統(tǒng)計(jì)實(shí)例獲取領(lǐng)域?qū)嶓w語 義類特征,進(jìn)而建立一種等價關(guān)聯(lián),實(shí)現(xiàn)實(shí)體間的共指消解處理。在進(jìn)行共指消解處理前 期,直接利用有限的領(lǐng)域本體種子獲取詞性規(guī)則模板完成領(lǐng)域命名實(shí)體的識別,為共指消 解處理提供高性能的候選實(shí)體短語。
在本發(fā)明中,將命名實(shí)體分為常規(guī)命名實(shí)體和領(lǐng)域命名實(shí)體兩類。其中常規(guī)命名 實(shí)體是指包括人名、地名、組織機(jī)構(gòu)名、時間、日期、數(shù)字等在內(nèi)的命名實(shí)體,領(lǐng)域命名實(shí)體 在一般的共指消解處理中被作為普通名詞短語來對待,但在本發(fā)明中,領(lǐng)域命名實(shí)體直接 作為候選名詞短語,不再執(zhí)行類似常規(guī)命名實(shí)體的名詞短語識別步驟。根據(jù)應(yīng)用領(lǐng)域要求, 建立領(lǐng)域本體,通過對有限的領(lǐng)域本體實(shí)例(在本發(fā)明中稱作"領(lǐng)域本體種子")進(jìn)行直接 的詞性規(guī)律統(tǒng)計(jì),抽取詞性規(guī)則模板,并標(biāo)注領(lǐng)域?qū)嶓w語義類特征標(biāo)記DNE。結(jié)合機(jī)器學(xué)習(xí) 模型,完成融合詞性規(guī)則模板的命名實(shí)體識別。利用已經(jīng)標(biāo)注了領(lǐng)域語義類特征的領(lǐng)域本 體種子,動態(tài)完成真實(shí)文本中的全部領(lǐng)域命名實(shí)體的語義類特征標(biāo)注。結(jié)合統(tǒng)計(jì)機(jī)器學(xué)習(xí)
模型引入領(lǐng)域語義類特征,完成領(lǐng)域命名實(shí)體的共指消解訓(xùn)練,結(jié)合決策樹模型生成一顆 分類能力強(qiáng)的決策樹,最終完成面向領(lǐng)域的真實(shí)文本的共指消解處理。此處的領(lǐng)域語義類 特征是指通過對領(lǐng)域本體種子,進(jìn)行特定標(biāo)記標(biāo)注獲得的特征。 具體而言,本發(fā)明首先通過一種稱為領(lǐng)域本體階段性層進(jìn)法(Two-Phase and St印-Up,簡稱為TPSU)的方法,借助本體構(gòu)建工具構(gòu)建完成一個面向特定應(yīng)用領(lǐng)域的領(lǐng)域 本體。下面詳細(xì)說明TPSU法的具體實(shí)現(xiàn)步驟。 如圖1所示,TPSU方法總體上分為兩個階段和六個步驟,其中兩個階段分別是原 型期階段與進(jìn)化期階段。六個步驟分別如下 la步驟用以進(jìn)行前期準(zhǔn)備,主要完成當(dāng)前本體開發(fā)工具與環(huán)境、本體生成方法以 及本體復(fù)用性考察的工作。 lb步驟用以確定知識來源。本發(fā)明主要依據(jù)數(shù)字化資源,因此這一步驟的工作,通 過常規(guī)的詞典、圖書資源也能夠有效獲取。 lc步驟用于進(jìn)行領(lǐng)域知識分析,完成實(shí)質(zhì)上的領(lǐng)域概念化工作,主要包含對領(lǐng)域
內(nèi)類、屬性的識別,同時包括領(lǐng)域內(nèi)一般關(guān)系與特殊關(guān)系等明確化的工作內(nèi)容。 ld用以在lc所確立的領(lǐng)域內(nèi)類、屬性以及對應(yīng)實(shí)例上,進(jìn)行本體生成和表示,主
要通過本體開發(fā)工具逐一的完成本體所需各個成分要素的創(chuàng)建任務(wù)。 le步驟完成生成領(lǐng)域本體評價,在本體構(gòu)建達(dá)到一定規(guī)模之后,特別是進(jìn)行了生 成本體的應(yīng)用之后,根據(jù)使用情況對本體進(jìn)行評價。評價主要集中在本體實(shí)例的整體一致 性、正確性、類屬性冗余性上。 lf步驟完成本體修正與改進(jìn),根據(jù)le步驟之評價結(jié)論,重復(fù)lc ld的步驟,完成 領(lǐng)域本體的更新與調(diào)整。主要集中在類層次屬性的層級調(diào)整與類實(shí)例的歸屬調(diào)整上。
上述的la lf步驟中,la ld步驟屬于原型期階段,le lf步驟屬于進(jìn)化期 階段。 在領(lǐng)域本體的具體利用上,要通過形式化實(shí)例獲取詞性規(guī)則模板和語義類特征。 具體而言,包括兩個方面第一個方面是將生成領(lǐng)域本體中有限的本體實(shí)例,直接形式化成 為XML風(fēng)格的獨(dú)立文檔,通過簡單詞頻統(tǒng)計(jì)歸類,獲得不同本體核心概念類的實(shí)例集,然后 用詞性標(biāo)注工具直接進(jìn)行實(shí)例集中有限實(shí)例的詞性,進(jìn)而產(chǎn)生一個詞性規(guī)則模板集。因?yàn)?領(lǐng)域本體是領(lǐng)域知識的高度抽象,因此通過領(lǐng)域本體實(shí)例直接獲取的詞性規(guī)則模板集中的 各個模板,具有全部領(lǐng)域命名實(shí)體的詞性構(gòu)成共性特征,再結(jié)合CRF模型,進(jìn)行識別處理。 第二個方面是先通過對有限的領(lǐng)域本體種子進(jìn)行語義類特征的DNE特征標(biāo)注,之后動態(tài)完 成真實(shí)文本中的全部領(lǐng)域?qū)嶓w的語義類特征標(biāo)注,結(jié)合決策樹模型,引入該領(lǐng)域的語義類
7特征作為指代語和先行語的特征屬性,生成特征向量,最終完成面向領(lǐng)域的真實(shí)文本的共 指消解處理。 本發(fā)明描述的方法是將詞性特征作為外部特征引入的,而通過領(lǐng)域本體獲取外部 特征的計(jì)算要遠(yuǎn)比人名、地名識別時定義外部詞典容易得多,因?yàn)楸景l(fā)明在圖1所示的階 段,生成的領(lǐng)域本體實(shí)例可以直接以各種形式從領(lǐng)域本體中導(dǎo)出,并根據(jù)限制條件任意組合。 圖2顯示了實(shí)現(xiàn)領(lǐng)域命名實(shí)體識別處理的整個線性流程。該過程的核心是引入詞 性規(guī)則模板,結(jié)合CRF模型,識別領(lǐng)域命名實(shí)體。其中圖2中2a、2b和2c所示的步驟基本 上是本領(lǐng)域的常規(guī)技術(shù)手段,在此就不詳細(xì)贅述了 。 在圖2中2d所示的步驟中,針對除人名、地名、組織機(jī)構(gòu)名外的領(lǐng)域命名實(shí)體,如 電子類產(chǎn)品實(shí)體"Nokia6300",本發(fā)明是基于改進(jìn)的CRF (Conditional Random Fields,條 件隨機(jī)場)模型完成的。 傳統(tǒng)的CRF模型是一種無向圖模型,對于指定的節(jié)點(diǎn)輸入值,它能夠計(jì)算指定的 節(jié)點(diǎn)輸出值上的條件概率,其訓(xùn)練目標(biāo)是使得條件概率最大化。線性鏈?zhǔn)荂RF模型中常見 的特定圖結(jié)構(gòu)之一,它由指定的輸出節(jié)點(diǎn)順序鏈接而成。 一個線性鏈與一個有限狀態(tài)機(jī)相 對應(yīng),可用于解決序列數(shù)據(jù)的標(biāo)注問題。 本發(fā)明在具體改進(jìn)CRF模型的過程中,沒有采取一般的一次性標(biāo)注策略,而是通 過引入三個粗分類標(biāo)注符B、 I、 O,先將領(lǐng)域?qū)嶓w的識別工作轉(zhuǎn)變?yōu)橐粋€分類問題,其中各 個標(biāo)注符的含義為,B :可能的領(lǐng)域?qū)嶓w開始;1 :可能的領(lǐng)域?qū)嶓w內(nèi)部;0非領(lǐng)域?qū)嶓w成分。 作為一個示例,一個典型的標(biāo)注結(jié)果是索愛/nz/MPB K810/nx/MPI,其中MPB表示本發(fā)明 涉及的手機(jī)類電子產(chǎn)品的領(lǐng)域?qū)嶓w開始;MPI表示本發(fā)明涉及的手機(jī)類電子產(chǎn)品的領(lǐng)域?qū)?體內(nèi)部。類似的標(biāo)注,還有例如DCB、DCI等表示數(shù)碼相機(jī)類電子產(chǎn)品領(lǐng)域?qū)嶓w開始及內(nèi)部。
在2d步驟中,本發(fā)明將CRF模型作為領(lǐng)域命名實(shí)體識別的機(jī)器學(xué)習(xí)模型。這是因 為最大熵Markov模型和CRF模型能夠綜合利用字、詞、詞性等多層次的資源。同時,對于長 程關(guān)聯(lián)有很好的描述能力。這些特點(diǎn)對于像側(cè)重較長范圍內(nèi)處理的領(lǐng)域?qū)嶓w的識別任務(wù)相 當(dāng)重要,同時也是隱馬爾可夫等生成模型所不具備的。本發(fā)明考慮到最大熵Markov模型中 尚存在著標(biāo)注偏置問題,所以選擇了能避免該問題的CRF模型。 在模型訓(xùn)練中,首先在標(biāo)注語料的基礎(chǔ)上,采用L-BFGS算法進(jìn)行模型的訓(xùn)練,獲 得了 CRF模型的參數(shù);在訓(xùn)練獲得的CRF模型的參數(shù)基礎(chǔ)上,使用Viterbi動態(tài)規(guī)劃算法進(jìn) 行解碼。 另一方面,如圖2所示,引入領(lǐng)域本體進(jìn)行處理,基于領(lǐng)域本體實(shí)例獲取詞性規(guī)則
模板集,結(jié)合獲取的詞性規(guī)則模板,針對領(lǐng)域命名實(shí)體,進(jìn)行修正2d步驟識別結(jié)果的處理,
然后完成全部領(lǐng)域命名實(shí)體最終識別結(jié)果的處理。此處的詞性規(guī)則模板的獲取是通過領(lǐng)域
本體的有限實(shí)例的形式化,再對形式化后的實(shí)例進(jìn)行詞性標(biāo)注得到的,其中有限的實(shí)例作 為領(lǐng)域本體種子,以便用來產(chǎn)生具有共性的詞性組合規(guī)則。 圖3顯示了針對領(lǐng)域?qū)嶓w進(jìn)行共指消解識別處理的具體步驟。其中,3a和3b都是 常規(guī)的步驟,在此就不詳細(xì)說明了 。 本發(fā)明在命名實(shí)體步驟生成的兩類實(shí)體一常規(guī)命名實(shí)體和領(lǐng)域命名實(shí)體的標(biāo)記 形式上是各自獨(dú)立的。也就是說,圖3描述3c步驟是處理傳統(tǒng)意義上的名詞短語識別工
8作,與一般共指消解名詞短語生成方法的區(qū)別在于,這一識別是建立在命名實(shí)體識別基礎(chǔ) 之上,起點(diǎn)更高。領(lǐng)域命名實(shí)體直接作為候選名詞短語,不再執(zhí)行類似常規(guī)命名實(shí)體的名詞 短語識別步驟。 因此,本發(fā)明處理的名詞短語主要有以下三種表現(xiàn)形式一種是形式完整的領(lǐng)域 實(shí)體(作為示例,如手機(jī)類電子產(chǎn)品"多普達(dá)P860");—種是形式不完整的領(lǐng)域?qū)嶓w(作 為示例,如手機(jī)類電子產(chǎn)品"P860");—種是普通名詞(短語)及其并列形式。
根據(jù)存在共指關(guān)系的實(shí)體情況,本發(fā)明定義了八種名詞短語的語義類別分別為 DNE、 PER、 LOC、 ORG、 TM、 PRO、 GEN、 OTH,含義依次是領(lǐng)域?qū)嶓w類、人名實(shí)體類、地名實(shí)體類、 組織機(jī)構(gòu)名實(shí)體類、時間日期實(shí)體類、代詞形式實(shí)體類、普通名詞類、其他非上述實(shí)體類。其 中,DNE語義類的獲取是通過對領(lǐng)域本體種子的先行標(biāo)注,后再利用詞頻及詞性規(guī)則模板組 合規(guī)律,動態(tài)標(biāo)注生成的。作為一個示例,一個典型的語義類標(biāo)注文本為"{索尼/nz/MPB 愛立信/nz/MPI K810/nx/MPI}DNE{延續(xù)/v/0}0TH{ 了 /u/0} OTH{索尼/nz/MPB愛立信/ nz/MPI K800/nx/MPI} DNE {的/u/0} OTH {經(jīng)典/n/0} GEN {直/a/0} /OTH {板/ng/0} OTH {造 型/n /o}/GEN"。 3d步驟用于完成圖2所示的命名實(shí)體中,其他類型名詞短語的歸并處理,將包括 人名、地名、組織機(jī)構(gòu)名、領(lǐng)域?qū)嶓w名完成不同語義類標(biāo)注,并根據(jù)設(shè)定的規(guī)則進(jìn)行同語義 類實(shí)體或者符合規(guī)則標(biāo)記的名詞(短語)的歸并。 在圖3中,3e步驟采用決策樹模型進(jìn)行針對領(lǐng)域命名實(shí)體的共指消解。決策樹 (Decision Tree)模型是督導(dǎo)機(jī)器學(xué)習(xí)模型中常用的一種,對噪聲數(shù)據(jù)有很好的健壯性且 能夠?qū)W習(xí)析取表達(dá)式。用決策樹表達(dá)知識,具有描述簡單、分類速度快的特點(diǎn),很擅長處理 非數(shù)值型數(shù)據(jù),不需要假設(shè)先驗(yàn)概率分布。決策樹是一個類似于流程圖的樹狀結(jié)構(gòu)。樹的 最頂層的節(jié)點(diǎn)稱為根節(jié)點(diǎn)。每個內(nèi)部節(jié)點(diǎn)都包含一個父節(jié)點(diǎn),一個或者幾個子節(jié)點(diǎn)。若節(jié) 點(diǎn)沒有子節(jié)點(diǎn),則稱其為葉子節(jié)點(diǎn)。每個節(jié)點(diǎn)對應(yīng)一個類別標(biāo)識,每個內(nèi)部節(jié)點(diǎn)都對應(yīng)一個 用于劃分?jǐn)?shù)據(jù)集的屬性&稱為判定屬性或者劃分屬性。每個內(nèi)部節(jié)點(diǎn)都有一個劃分的判 斷規(guī)則qj,如果&是連續(xù)屬性,則qj的形式為& < &,其中Xi G Xi, Xi就是節(jié)點(diǎn)n的劃分 點(diǎn);如果&是離散屬性,則qj的形式為Xi G Yi,其中YiCXi, ^成為節(jié)點(diǎn)的n的劃分子集, 節(jié)點(diǎn)n的判定屬性和判定規(guī)則構(gòu)成了節(jié)點(diǎn)n的劃分標(biāo)準(zhǔn)。
在本發(fā)明中,采用決策樹模型進(jìn)行共指消解,具體流程是 把指代語之前一定范圍內(nèi)(本發(fā)明限定在三個自然句內(nèi))出現(xiàn)的名詞短語作為先 行語的候選集,根據(jù)先行語候選集中候選項(xiàng)A與指代語B的特征屬性構(gòu)成的特征向量,判斷 兩者是否存在共指關(guān)系。A和B的特征向量x G X構(gòu)成一個實(shí)例,其中X為所有向量構(gòu)成 的集合空間;設(shè)y G Y = {+, _}為實(shí)例的類別,其中"+ "表示正例,S卩A和B存在共指關(guān) 系;"-"表示反例,即A和B不存在共指關(guān)系。(x,y)表示所有標(biāo)注結(jié)果的實(shí)例,N二 {(Xl, y》,…,(xn, yn)}表示所有訓(xùn)練實(shí)例,決策樹模型根據(jù)訓(xùn)練集S產(chǎn)生分類器c :X — Y,實(shí)現(xiàn) 共指關(guān)系判斷。 采用決策樹模型進(jìn)行共指消解處理,構(gòu)建性能良好的分類器是關(guān)鍵,而這其中選 擇合理的特征屬性構(gòu)成特征向量是一個首要問題。本發(fā)明針對三個自然句范圍內(nèi)的先行語
及候選語,分別選取了包括語義類、短語信息、人稱、性、數(shù)特征等在內(nèi)的15個特征屬性,用 于生成特征向量。
需要說明的是,上述的機(jī)器學(xué)習(xí)模型僅僅作為一個示例。在不脫離本發(fā)明的范圍 和精神的條件下可以根據(jù)實(shí)際需要使用其他機(jī)器學(xué)習(xí)模型。
權(quán)利要求
一種基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,其特征在于(1)構(gòu)建完成領(lǐng)域本體;(2)輸入待處理的漢語文本;(3)對步驟(2)中的漢語文本進(jìn)行分詞與詞性標(biāo)注處理;(4)將漢語文本中的命名實(shí)體分為常規(guī)命名實(shí)體和領(lǐng)域命名實(shí)體兩類,利用步驟(1)中構(gòu)建的領(lǐng)域本體通過形式化實(shí)例獲取詞性規(guī)則模板,結(jié)合條件隨機(jī)場模型,針對領(lǐng)域命名實(shí)體進(jìn)行識別處理;(5)針對領(lǐng)域命名實(shí)體之外的普通名詞短語進(jìn)行歸并處理;(6)利用步驟(1)中構(gòu)建的領(lǐng)域本體,獲取語義類特征,結(jié)合機(jī)器學(xué)習(xí)模型,針對領(lǐng)域命名實(shí)體及普通名詞短語進(jìn)行共指消解處理。
2. 如權(quán)利要求1所述的基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,其特征在于所述步驟(1)中,所述領(lǐng)域本體通過階段性層進(jìn)法構(gòu)建,所述階段性層進(jìn)法分為原型期階段和進(jìn)化期階段。
3. 如權(quán)利要求2所述的基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,其特征在于所述原型期階段分為四個步驟,依次完成領(lǐng)域本體構(gòu)建工具選擇及復(fù)用性分析,領(lǐng)域本體知識源選擇及確定,領(lǐng)域本體知識分析,領(lǐng)域本體生成及表示工作。
4. 如權(quán)利要求2所述的基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,其特征在于所述進(jìn)化期階段分為兩個步驟,分別完成領(lǐng)域本體的評價,領(lǐng)域本體的修正與完善工作。
5. 如權(quán)利要求1所述的基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,其特征在于所述步驟(4)中,所述詞性規(guī)則模板通過領(lǐng)域本體的有限實(shí)例的形式化,再對形式化后的實(shí)例進(jìn)行詞性標(biāo)注得到的,其中有限的實(shí)例作為領(lǐng)域本體種子,用來產(chǎn)生具有共性的詞性組合規(guī)則。
6. 如權(quán)利要求1所述的基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,其特征在于所述步驟(4)中,所述條件隨機(jī)場模型通過如下的步驟獲得首先在標(biāo)注語料的基礎(chǔ)上,采用L-BFGS算法進(jìn)行模型的訓(xùn)練,獲得條件隨機(jī)場模型的參數(shù);在訓(xùn)練獲得的條件隨機(jī)場模型的參數(shù)基礎(chǔ)上,使用Vit erb i動態(tài)規(guī)劃算法進(jìn)行解碼。
7. 如權(quán)利要求1所述的基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,其特征在于所述步驟(6)中,所述語義類特征是指通過對領(lǐng)域本體實(shí)例進(jìn)行特定標(biāo)記標(biāo)注獲得的特征。
8. 如權(quán)利要求1所述的基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,其特征在于所述步驟(6)中,將所述語義類特征作為指代語和先行語的特征屬性,生成特征向量,結(jié)合決策樹模型,識別領(lǐng)域命名實(shí)體的共指關(guān)系。
9.如權(quán)利要求8所述的基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,其特征在于將指代語之前三個自然句內(nèi)出現(xiàn)的名詞短語作為先行語的候選集,根據(jù)先行語的候選集中候選項(xiàng)與指代語的特征屬性構(gòu)成的特征向量,判斷兩者是否存在共指關(guān)系。
全文摘要
本發(fā)明公開了一種基于領(lǐng)域本體結(jié)合機(jī)器學(xué)習(xí)模型的漢語文本共指消解方法,包括如下步驟(1)構(gòu)建完成領(lǐng)域本體;(2)輸入待處理的漢語文本;(3)對步驟(2)中的漢語文本進(jìn)行分詞與詞性標(biāo)注處理;(4)將漢語文本中的命名實(shí)體分為常規(guī)命名實(shí)體和領(lǐng)域命名實(shí)體兩類,利用步驟(1)中構(gòu)建的領(lǐng)域本體通過形式化實(shí)例獲取詞性規(guī)則模板,結(jié)合CRF模型,針對領(lǐng)域命名實(shí)體進(jìn)行識別處理;(5)針對領(lǐng)域命名實(shí)體之外的普通名詞短語進(jìn)行歸并處理;(6)利用步驟(1)中構(gòu)建的領(lǐng)域本體,獲取語義類特征,結(jié)合機(jī)器學(xué)習(xí)模型,針對領(lǐng)域命名實(shí)體及普通名詞短語進(jìn)行共指消解處理。本漢語文本共指消解方法對人工成本要求較低,能夠在短時間內(nèi)獲取高準(zhǔn)確率的共指消解處理結(jié)果。
文檔編號G06F17/27GK101770453SQ200810246639
公開日2010年7月7日 申請日期2008年12月31日 優(yōu)先權(quán)日2008年12月31日
發(fā)明者黃河燕 申請人:華建機(jī)器翻譯有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
获嘉县| 沧州市| 长沙市| 同江市| 铁岭市| 永清县| 菏泽市| 沙雅县| 普洱| 永寿县| 新乡市| 西乌珠穆沁旗| 河东区| 微山县| 八宿县| 化隆| 阿拉善左旗| 芜湖市| 汝州市| 金坛市| 景德镇市| 大丰市| 灵台县| 石阡县| 丹阳市| 嵊州市| 陵水| 连江县| 禄劝| 溧水县| 清远市| 鄂托克旗| 都兰县| 潞城市| 略阳县| 收藏| 泽州县| 新闻| 延庆县| 岳池县| 南华县|