專利名稱::一種融入語義信息的中文句法分析方法
技術領域:
:本發(fā)明屬于自然語言處理
技術領域:
,具體涉及一種融入語義信息的中文句法分析方法,在句法分析中引入語義知識來幫助提高句法分析的性能。
背景技術:
:句法分析是自然語言處理當中非常重要的一項技術,它所分析的是詞與詞之間如何組合形成有意義的短語、句子,來揭示深層的語言規(guī)律。句法分析的結果將直接影響到對自然語言的理解。在實際的自然語言處理應用當中,一個高性能的句法分析器有利于提升信息抽取、信息檢索、機器翻譯、自動問答等高層應用系統(tǒng)的性能。句法分析過程就是在給定一套文法模型的情況下,根據(jù)一定的算法推導出句子的語法結構,通常用一種樹狀結構來表示。例如對一句話,"大連外貿(mào)出口額一半以上來自'三資'企業(yè)。",進行句法分析的結果可由附圖l(a)中的結構樹來表示。在這個樹結構當中,最底層的葉子結點是詞,稱作終結符;上層的非葉子結點均稱為非終結符,而非葉子結點的最底層代表詞性,稱作預終結符。由于自然語言普遍存在著歧義性,對于同一句話可能分析出多個不同的語法結構,因此就需要利用有效的信息和算法來消解存在的歧義,找出最合理的句法結構,這也是當前各種句法分析方法所要解決的問題。利用統(tǒng)計學寫的方法可以從訓練語料中學習詞匯和結構的偏向性信息,從而在一定程度上處理句法結構的歧義問題。一些人工標注的語法結構樹庫資源(如美國賓夕法尼亞大學構建的賓大樹庫)的出現(xiàn),為提出基于統(tǒng)計的句法分析方法創(chuàng)造了條件,極大的推動了這類技術的發(fā)展。在統(tǒng)計句法分析方法中研究的最多的是概率上下文無關文法(PCFG:ProbabilisticContext-FreeGrammar),它通過一系列的上下文無關的文法規(guī)則來描述句子結構,并且賦予每條規(guī)則一定的概率。這種方法的優(yōu)點是形式簡單,可在多項式時間內(nèi)處理。PCFG模型的一個問題來自于條件獨立性假設,在這個假設條件下,認為任何一個非終結符(即在句法樹中詞結點以上的各個結點)的展開與其他非終結符的展開是相互獨立的。但通過對樹庫中各個位置非終結符的統(tǒng)計分布研究發(fā)現(xiàn),有時一個結點的展開是與其所在樹中的位置相關的,而在簡單PCFG建模時這一點是被忽略的。為了解決這一問題,就需要對基本PCFG模型進行改進,通常有兩種途徑引入詞匯化信息和擴展非終結符標記,后者常常又被稱作非詞匯化方法。引入詞匯化信息方面最具代表性的工作是中心詞驅(qū)動的句法分析方法,代表工作如MichaelCollins在他的博士論文當中為語法規(guī)則中的每一個非終結符引入詞匯、距離等信息,提高文法的區(qū)分性,非詞匯化句法分析的方法主要有通過人工的方式對部分非終結符進行細化,以及通過無監(jiān)督學習的方法自動細化標記從而能夠覆蓋更多的語言現(xiàn)象,代表工作為UCBerkeley的DanKlein等人的工作。然而這兩種方法也存在著各自的缺陷詞匯化方法中詞匯信息的引入帶來了一定的數(shù)據(jù)稀疏問題,非詞匯化方法中自動細化標記存在著對語言現(xiàn)象的刻畫是否準確等問題。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種融入語義信息的中文句法分析方法,利用語義信息來幫助提高句法分析的性能,同時還可以從句法分析結果當中獲得帶有句法約束的語義信息。已經(jīng)有理論研究表明語義信息可以幫助句法消歧。語義概念所涉及的是詞語的含義、結構和說話方式等,相關研究可以分為兩個部分研究單個詞的語義(詞義)以及單個詞的含義是怎樣聯(lián)合起來組成句子的含義。語義分析的主要任務是產(chǎn)生語言文本的詞匯語義單元表示和它們之間的依賴關系。句法分析和語義分析雖然是語言分析的兩個不同層面,但兩者存在著相互制約的關系。漢語的語序?qū)φZ義的制約性很強,句法成分之間存在著較復雜的語義關系。在許多情況下,僅對語法形式進行句法結構分析是解釋不了句子的內(nèi)部規(guī)律的。因此,在中文句法分析中引入語義會有利于結構歧義的消解。使用語義信息的前提是存在一套預先定義的語義規(guī)范,最直接的辦法是使用現(xiàn)有的語義資源。在我們的方法中所使用的語義資源是知網(wǎng)(HowNet)。知網(wǎng)是一個以英漢雙語所代表的概念以及概念的特征為基礎的,以揭示概念與概念之間以及概念所具有的特性之間的關系為基本內(nèi)容的常識知識庫。從中我們可以得到某個詞的不同層次的概念或者概念屬性作為我們的語義類,比如我們可以從中得到"汽車"的語義類"entityl實體-〉thingl萬物=>physical|物質(zhì)=>inanimate|無生物=>artifact|人工物=>implement|器具=>vehicle|交通工具今LandVehicle陣",這其中從左到右表示的是"汽車"在HowNet中的由粗到細的不同層次的語義類。比如,"entityl實體"是最粗一層的語義類,他包含的范圍最廣;而"LandVehiclel車"是最細一層的語義類,它表達的意思最細,最接近"汽車"。本發(fā)明通過考察句法分析和語義分析的關系,將語義信息融入到非詞匯化句法分析過程中,來解決PCFG模型缺少語義信息的問題,以及通過語義標記對詞性層進行進一步的細化。通過引入語義信息,幫助句法分析進行歧義消解,從而使句法分析的性能有一定程度的提高。因此,本發(fā)明的基本思想是認為句法和語義是語言分析的兩個不同層面,它們在語言分析的過程當中共同發(fā)揮作用,并相互影響,語義信息非常有助于結構歧義的消解。通過在非詞匯化句法分析方法中融入語義信息,使句法分析器的性能得到明顯提升,并且所得到的分析結果當中既包含句法的修飾關系,也包含了每個詞的語義類別。本發(fā)明的出發(fā)點是得到高性能的句法分析器,并以語義分析為輔助手段來提高句法分析性能。句法分析的基本模型采用的是非詞匯化的PCFG模型,該模型是通過無監(jiān)督學習的方法自動細化標記,提高文法的描述能力,其性能已經(jīng)超過了詞匯化句法分析器。本方法在此基礎之上以HowNet作為語義詞典,為句法樹庫當中的部分詞提供某一層次的語義類別,并將語義類附著在句法樹的預終結符(即詞匯層的上一層)層次,并以標記后的樹庫進行訓練得到包含語義信息的文法模型。在解碼部分不需要進行任何特殊處理即可得到帶有語義標記的句法分析結果。通過實驗發(fā)現(xiàn)該方法有效的提高了句法分析的性能。下面分三個部分詳細介紹本發(fā)明的技術方案。1.語義信息融入句法分析的方式以HowNet作為語義詞典,以其中定義的義原(定義為意義的最小單位)作為語義類別。義原在HowNet中存在著一定的上下位關系,如附圖2所示,按照這種上下位關系抽取出不同層次的語義類別,以句法樹中的詞作為鍵值進行查詢得到其語義類,并將語義類附著在預終結符上。為了保證語義體系的一致性以及減輕數(shù)據(jù)稀疏問題,在這里需要保證的一點是所有詞査詢得到的語義類在HowNet中處于同一層。對于存在多個語義類別的詞就存在詞義消歧的問題,我們這里的策略是取第一個語義類別;另一方面我們設計了一個多義詞的意義類別標注系統(tǒng),采用人工標注的方式對多義詞的語義類進行標注。對于HowNet中不存在的詞,則不添加語義信息。附圖1顯示的是一個標注語義的例子。附圖l(a)是標注前的樹庫中的句子;附圖l(b)是經(jīng)過語義標注后的句子,可以看到引入語義的策略就是將某個詞的語義類別附著到它所對應的預終結符上。對于詞性層以上的非終結符,不能從HowNet中直接得到,最簡單的添加方式可以采用類似于提取中心詞的方法,將預終結符的語義信息當成中心詞,提取到上層結點上。但是考慮到,詞的語義類別比較多,附加到上層結點可能會產(chǎn)生更多的非終結符,對于數(shù)據(jù)量不充足的情況會產(chǎn)生非常嚴重數(shù)據(jù)稀疏問題。因此,對于上層非終結符仍然采用無監(jiān)督5自動分裂合并的方式進行自動細分,而不引入語義。經(jīng)過這樣的處理后,樹庫中的大多數(shù)詞所對應的上層預終結符就標記上了HowNet中的某一層語義類,采用該樹庫進行句法分析模型訓練,就可以獲得融入語義信息的文法模型。利用該文法進行解碼,可以得到帶有語義標記的句法分析結果,同時句法分析結果也更加準確。2.句法分析模型訓練本發(fā)明所采用的基本句法分析模型為非詞匯化句法分析模型,即采用無監(jiān)督的方式對非終結符結點標記進行細化,來提高文法的描述能力。下面簡要介紹該模型。近年來,非詞匯化PCFG句法分析方法取得了較大的進展,最好的模型的性能已經(jīng)達到了當前句法分析的最高水平。該模型是在基本的PCFG框架下通過無監(jiān)督學習的方式自動細化非終結符標記,增強文法的描述能力。該模型的訓練部分主要包含分裂、融合兩個過程。分裂過程是將每一個非終結符分裂為兩個,對標記進行細化,從而擴大了文法復雜性,擴大了對樹庫中出現(xiàn)的語言現(xiàn)象的覆蓋范圍;融合過程是為了保證分裂步驟中標記的分裂哪些是必要的,這一點是通過考察某一標記分裂與否對于整個樹庫似然度的影響來衡量的,即如果將兩個分裂出的子標記合并后整個樹庫似然度下降不明顯,則這一標記的分裂是不必要的,從而將子標記合并。采用這種基于自動分裂的非詞匯化句法分析方法,首先能夠保證較高性能的基線系統(tǒng),同時這種模型便于融入語義信息。此外,通過外部語義詞典添加語義信息,有利于約束句法標記的自動分裂;而另一方面,后續(xù)的自動分裂又能保證添加的語義類不至于影響句法功能的劃分。3.句法分析解碼過程對于一個新的待分析句,根據(jù)訓練過程中得到的文法模型就可以分析出它的句法結構。基本的方法是采用文法模型中的文法規(guī)則按照線圖分析的方式自底向上推導出一個最可能的句法樹,但是這種最簡單的分析方式其搜索空間是非常巨大的。為了提高效率,就采用一種由粗到細的分析策略,即首先采用簡單的文法模型解碼得到一系列候選結果,然后再采用更精細的文法模型在這些候選結果中再進行解碼,這樣就可以在后面的精細解碼前裁掉許多不可能結果,從而減小了搜索空間,提高了效率。本發(fā)明的積極效果與現(xiàn)有技術相比,本發(fā)明采用語義信息幫助句法分析消歧,有效提高了句法分析的性能,使句法分析的效率和準確性得到顯著提升;并且能夠通過這種融合語義信息的句法分析器獲得部分詞的語義信息。圖1句法樹及添加語義信息后的句法樹;(a)是標注前的樹庫中的句子;(b)是經(jīng)過語義標注后的句子;圖2語義資源HowNet中義原樹片段示例;圖3本發(fā)明的方法流程圖。具體實施例方式下面結合附圖詳細描述本發(fā)明的具體實施方式,本發(fā)明的方法流程圖如圖3所示。1.構建詞-語義類索引根據(jù)HowNet中定義的義原之間的上下位關系抽取出由粗到細的不同層的語義類,并與每一個詞相對應,從而構建出由詞到語義類的索引。這里的詞是附帶著詞性信息的。2.對原始樹庫添加語義類信息對原始樹庫,以詞和詞性作為鍵值來得到語義類的信息,然后將語義類的信息附著到詞性(預終結符)層次上,實現(xiàn)對詞性層標記的細化。這樣部分詞性就包含了語義信息。某些詞語可能存在多個不同的語義類,針對這種情況采用了兩種策略選取多個語義中的第一個,或者采用人工標注的方式根據(jù)上下文選擇。3.訓練文法模型以添加了語義類信息的樹庫作為訓練數(shù)據(jù)。采用前面介紹的非詞匯化句法分析模型進行文法訓練,訓練過程中對于非終結符采用自動分裂、合并的方式進行細化。另一方面,為了考察是否需要對添加了語義信息的預終結符也進行這一細化過程,我們進行了實驗驗證,結果發(fā)現(xiàn)在添加粗粒度語義的同時仍然進行自動細分其效果要好于不進行細分,而這一做法的效果也要好于直接添加區(qū)分性更強的細粒度語義而不進行自動細化,下面的效果分析部分還會詳細的介紹。4.對待分析語句進行句法分析有了上面訓練出的文法模型,對于一個待分析的句子(巳經(jīng)過分詞處理)就可以采用前面介紹的非詞匯化句法分析器根據(jù)文法模型進行解碼,得到句法分析結果,同時還帶有該語句的語義標注結果。7效果分析-為了驗證本發(fā)明的有效性,我們設計了一系列的實驗,下面介紹部分實驗。實驗語料訓練和測試語料采用賓大中文樹庫UPennChineseTreeBank2.0,其中共325篇新聞類語料,采用標準方式進行劃分使用l-25篇作為開發(fā)集,共350句話;26-270篇作為訓練集,共3172句話;271-300篇作為測試集,共348句話。語義詞典采用HowNet?;€系統(tǒng)基線系統(tǒng)采用前面介紹的非詞匯化句法分析模型,采用無監(jiān)督的方法對非終結符標記自動分裂細化,每次迭代將原始標記分裂為2個,通過EM算法確定新標記對應的參數(shù),接著根據(jù)似然度貢獻對分裂的標記進行合并。評測程序評測程序采用當前使用較為廣泛的句法分析評測工具EVALB。該工具是以括號標記匹配為評價標準,關注準確率、召回率和F值。實驗結果及分析基線系統(tǒng)在CTB標準數(shù)據(jù)集上進行測試的結果見表1:表l:基線系統(tǒng)性能<table>tableseeoriginaldocumentpage8</column></row><table>其中S&M表示分裂-合并過程循環(huán)的次數(shù),比如S&M-1表示進行一次分裂-迭代;S&M-2表示進行兩次分裂-迭代,即在一次分裂-迭代得到的文法基礎上再進行一次分裂-迭代。Len表示句子的長度,即句子中包含的詞數(shù),Len<=40表示只在長度小于40的句子上進行測試;All表示在所有句子上進行測試。LR表示召回率,LP表示準確率,F(xiàn)l表示F值。為了在一定程度上減弱數(shù)據(jù)稀疏問題,我們選取HowNet中最頂層的語義類,并且對所有標記進行自動細化,采用相同數(shù)據(jù)集的實驗結果如表2。表2添加粗粒度語義類標記分析性能<table>tableseeoriginaldocumentpage9</column></row><table>從上表中可以發(fā)現(xiàn)從第四次迭代分裂合并開始,通過添加語義信息類的句法分析性能超過了基線系統(tǒng)。在第六次迭代的時候,分裂過細出現(xiàn)了過訓練,F(xiàn)值有一定的下降,在基線系統(tǒng)和改進系統(tǒng)上呈現(xiàn)的趨勢一致。但添加語義類的結果仍然優(yōu)于基線系統(tǒng)。以第五輪迭代的結果進行比較,F(xiàn)值由80.26%提高到了81.63%,絕對提高1.37個點,這在句法分析的研究中提高相當顯著。此外,采用最新發(fā)布的5.0版本的賓大中文樹庫(共包含18782個句子)進行訓練,本發(fā)明的句法分析性能最高可達到F值86.39%。添加語義信息前后的對比趨勢與上面列出的賓大中文樹庫2.0上得出的結果相似,這里就不再贅述。本發(fā)明以非詞匯化句法分析器為基礎,將語義信息融入其中,利用語義信息幫助句法分析進行消歧,使句法分析器性能得到明顯提升,并且能夠通過這種融合語義信息的句法分析器獲得部分詞的語義信息。權利要求1.一種結合語義信息的中文句法分析方法,其步驟為1)按照知網(wǎng)的上下位關系抽取出詞的不同層次的語義類別,得到由詞到語義類的索引;2)以句法樹中的詞作為鍵值對知網(wǎng)進行查詢得到該詞的語義類,并將語義類添加到句法樹的某一層上;3)將步驟2)處理后的句法樹作為訓練數(shù)據(jù),進行文法訓練,得到文法模型;4)利用步驟3)訓練后的文法模型對待分析的句子進行解碼。2.如權利要求l所述的方法,其特征在于所述某一層為預終結符層。3.如權利要求2所述的方法,其特征在于所述詞中包含詞性信息。4.如權利要求3所述的方法,其特征在于以詞和詞性為鍵值對知網(wǎng)進行查詢得到該詞的語義類。5.如權利要求1或4所述的方法,其特征在于對知網(wǎng)的同一層語義類進行査詢,使所有詞查詢得到的語義類在知網(wǎng)中處于同一層。6.如權利要求1所述的方法,其特征在于采用非詞匯化句法分析模型進行所述文法訓練。7.如權利要求6所述的方法,其特征在于所述文法訓練方法為對于預終結符采用自動分裂、合并的方式進行細化。8.如權利要求1所述的方法,其特征在于如果詞語存在多個不同的語義類,則選取多個語義中的第一個語義類作為該詞的語義類,或采用人工標注的方式根據(jù)上下文選擇。全文摘要本發(fā)明公開了一種結合語義信息的中文句法分析方法,屬于自然語言處理
技術領域:
。本發(fā)明的方法為1)按照知網(wǎng)的上下位關系抽取出詞的不同層次的語義類別,得到由詞到語義類的索引;2)以句法樹中的詞作為鍵值對知網(wǎng)進行查詢得到該詞的語義類,并將語義類添加到句法樹的某一層上;3)將步驟2)處理后的句法樹作為訓練數(shù)據(jù),進行文法訓練,得到文法模型;4)利用步驟3)訓練后的文法模型對待分析的句子進行解碼。與現(xiàn)有技術相比,本發(fā)明采用語義信息幫助句法分析消歧,使句法分析效果有顯著提升。文檔編號G06F17/27GK101520775SQ20091013182公開日2009年9月2日申請日期2009年4月8日優(yōu)先權日2009年2月17日發(fā)明者吳璽宏,林小俊,楊樊,羅定生,遲惠生申請人:北京大學