两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于新型神經(jīng)網(wǎng)絡(luò)的自然語言并列結(jié)構(gòu)的自動識別方法

文檔序號:10512165閱讀:468來源:國知局
基于新型神經(jīng)網(wǎng)絡(luò)的自然語言并列結(jié)構(gòu)的自動識別方法
【專利摘要】本發(fā)明提出了基于新型神經(jīng)網(wǎng)絡(luò)的自然語言并列結(jié)構(gòu)的自動識別方法,包括:先對待分析的句子進行句法分析處理,得到一個并列結(jié)構(gòu)的候選集合,然后利用新型的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器對候選集合中的并列結(jié)構(gòu)進行打分,從而選出最佳的并列結(jié)構(gòu)作為系統(tǒng)的最終輸出。本方法綜合考慮了并列結(jié)構(gòu)的短語獨立性和短語之間的相似性,提高了并列結(jié)構(gòu)識別精度。對比現(xiàn)有的其他技術(shù),本方法突出在能夠自動識別出任意的并列結(jié)構(gòu),而其他技術(shù)只能識別出特定類型的并列結(jié)構(gòu),如只有名詞組成的并列結(jié)構(gòu)。本方法提出了一種更有效的并列結(jié)構(gòu)識別方法,在實際應(yīng)用中提高了識別質(zhì)量。
【專利說明】
基于新型神經(jīng)網(wǎng)絡(luò)的自然語言并列結(jié)構(gòu)的自動識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種利用計算機自動識別并列結(jié)構(gòu)的方法,特別是基于新型神經(jīng)網(wǎng)絡(luò) 的自然語言并列結(jié)構(gòu)的自動識別方法。
【背景技術(shù)】
[0002] 句法分析技術(shù),自上世紀(jì)90年代以來發(fā)展十分迅速,取得了很大的進步,已經(jīng)成為 自然語言處理領(lǐng)域中的研究熱點。
[0003] 雖然句法分析處理技術(shù)已經(jīng)有了長足的進步,但目前的句法分析技術(shù)的實用性和 可用性并不非常高,對復(fù)雜句子的處理結(jié)果還不理想,尤其是對包含復(fù)雜結(jié)構(gòu)的句子,如并 列結(jié)構(gòu),句法分析的質(zhì)量還有提高。據(jù)統(tǒng)計,在句法分析中約有10%的錯誤是來自于并列結(jié) 構(gòu)。因此,在提升句法分析能力的難度越來越大的情況下,如何通過聚焦處理特殊結(jié)構(gòu),比 如并列結(jié)構(gòu),來提升句法分析的質(zhì)量成為了一個重要問題。
[0004]在句法分析技術(shù)中,一種非常高效的方式是基于狀態(tài)轉(zhuǎn)移方法的句法分析技術(shù), 其工作過程如下:輸入待分析的句子,系統(tǒng)按照詞為單位,從左至右一個接一個順序讀入詞 語,每讀入一個詞語,就可能對已讀入的詞語序列進行規(guī)約操作,而何時進行規(guī)約和進行何 種規(guī)約操作將由已經(jīng)訓(xùn)練完畢的打分模型決定。隨著句子中的詞語一個接一個地讀入,樹 結(jié)構(gòu)將會越長越大,當(dāng)把整個句子都讀入時,句法樹也就分析完成了。由上可知,何時進行 規(guī)約操作、進行何種規(guī)約操作都是影響句法分析能力的重要因素。提前自動識別出并列結(jié) 構(gòu)并將這部分信息輸入到句法分析系統(tǒng)中,將會幫助系統(tǒng)對上述兩個因素進行正確的判 斷,對于整個句子的句法分析能力有很大的提升作用,本發(fā)明著重于并列結(jié)構(gòu)的自動識別 研究,在實際使用中將會提高句法分析的質(zhì)量。
[0005] 在現(xiàn)有的發(fā)明技術(shù)中,均是針對一些特殊的并列結(jié)構(gòu)進行自動識別,比如只由逗 號分隔的并列結(jié)構(gòu)、只由名詞組成的并列結(jié)構(gòu)等,這些方法和技術(shù)都無法做到自動識別出 任意一種自然語言中可能出現(xiàn)的并列結(jié)構(gòu)。因此,為了繼續(xù)提高句法分析的能力,需要尋求 能夠識別任意并列結(jié)構(gòu)的新方法。

【發(fā)明內(nèi)容】

[0006] 發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對目前并列結(jié)構(gòu)的識別只集中于識別 特殊的并列結(jié)構(gòu),并沒有足夠的泛化能力,對句法分析處理沒有起到提高作用的弱點,提出 一種利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器自動識別自然語言中任意并列結(jié)構(gòu)的方法。
[0007] 為了解決上述技術(shù)問題,本發(fā)明公開了基于新型神經(jīng)網(wǎng)絡(luò)的自然語言并列結(jié)構(gòu)的 自動識別方法。
[0008] 本發(fā)明所述利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動識別自然語言句子中并列結(jié)構(gòu)的方法包括以 下步驟:
[0009] 步驟1,計算機讀取一個包含待分析的自然語言句子文本文件,對讀取的句子進行 針對并列結(jié)構(gòu)的句法分析,得到并列結(jié)構(gòu)句法樹候選集合并輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器中;
[0010] 步驟2,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器對并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)進行打分, 從中選出最佳的并列結(jié)構(gòu)。
[0011] 步驟1包括如下步驟:
[0012] 步驟1-1,按照從左到右的順序依次讀取自然語言句子中的每個詞,利用基于狀態(tài) 轉(zhuǎn)移技術(shù)的句法分析技術(shù)對輸入的句子進行只針對并列結(jié)構(gòu)的句法分析,分析后得到并列 結(jié)構(gòu)句法樹候選集合。
[0013 ]步驟1 -2,抽取并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)的左成分短語和右成 分短語并進行初步打分,將所有并列結(jié)構(gòu)的左成分短語和右成分短語輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí) 器中。
[0014] 所述神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器由兩個循環(huán)神經(jīng)網(wǎng)絡(luò)和一個單隱層神經(jīng)網(wǎng)絡(luò)組成,兩個循環(huán) 神經(jīng)網(wǎng)絡(luò)共享相同的參數(shù)設(shè)置,并且其隱層直接連接到單隱層神經(jīng)網(wǎng)絡(luò)的輸入層,兩個循 環(huán)神經(jīng)網(wǎng)絡(luò)和單隱層神經(jīng)網(wǎng)絡(luò)具有單獨的輸出層,相互獨立,互不影響。
[0015] 步驟1-2包括如下步驟:
[0016] 步驟1 -2-1,對并列結(jié)構(gòu)句法樹候選集合中的每一個并列結(jié)構(gòu)抽取出并列結(jié)構(gòu)的 左成分短語Slef t和右成分短語Sright,Sleft - WQWl· · ·Wnl,Sright - W 0W 1'''W ml,其中,Wnl表/J、/£ 成分短語中的第m個詞語,w' ^表示右成分短語中的第m個詞語;
[0017] 步驟1-2-2,利用如下公式將左成分短語Sleft和右成分短語Sright輸入到具有相同 參數(shù)設(shè)置的兩個循環(huán)神經(jīng)網(wǎng)絡(luò)中:
[0018] y(t)=g(Vs(t)),
[0019] s(t) =f (Uow(t)+Uio(t)+Ps(t-1)),
[0020] 其中,y(t)是循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出,w表示句子中的詞語,o表示相應(yīng)詞語的詞 性標(biāo)記,t表示當(dāng)前處理到第t個詞語;w(t)表示第t個詞,o(t)表示第t個詞的詞性標(biāo)記;s (七)、8(卜1)分別表示第七個詞的向量表示和第卜1個詞的向量表示;1]〇、1]1、¥和?是已經(jīng)訓(xùn)練 好的模型參數(shù),通常是矩陣的形式,矩陣中的每一個元素可以任意的實數(shù)值,具體數(shù)值由系 統(tǒng)自動學(xué)習(xí)得出;f()和g()分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和歸一化函數(shù),Vs(t),U 0W (t),Uie(t),Ps(t_l)均是矩陣相乘操作。
[0021] 利用循環(huán)神經(jīng)網(wǎng)絡(luò)分別對Sleft和Sright進行打分,將循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出作為 左、右短語的得分,分別記作Scor eief t和Scoreright。
[0022] 步驟2包括如下步驟:
[0023]步驟2-1,將左成分短語Sleft、右成分短語Sright及它們共同的上下文信息c同時輸 入到單隱層的神經(jīng)網(wǎng)絡(luò)中,根據(jù)如下公式對并列結(jié)構(gòu)整體進行打分:
[0024] h = f(Rc),
[0025] y = g(Q〇so(n2)+Qisi(m2)+Th),
[0026] 其中,h是上下文信息的向量表示,y表示單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出,其中R、 Qo、QdPT是已經(jīng)訓(xùn)練好的模型參數(shù),通常是矩陣的形式,矩陣中的每一個元素可以任意的實 數(shù)值,具體數(shù)值由系統(tǒng)自動學(xué)習(xí)得出。m、m 2分別表示左成分短語的長度和右成分短語的長 度,SQ(n2WP S1(m2)分別表示左成分短語Sleft經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示和右成 分短語S right經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示;該單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出就作 為當(dāng)前并列結(jié)構(gòu)的得分,記作Score; Rc,Qqsq (Π2),Qisi (m2),Th均是矩陣相乘操作;
[0027] 步驟2-2,綜合考慮步驟1-2-2和步驟2-1中的打分,對Scoreieft,Scoreright,Score 計算平均值,選出平均分最高的并列結(jié)構(gòu)作為最佳的并列結(jié)構(gòu)。
[0028] 其中,f(z)和g(z)分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)和歸一化函數(shù),具體形 式為:
[0031 ]其中,z是激活函數(shù)和歸一化函數(shù)的輸入?yún)?shù),e表示自然對數(shù),X表示向量的維度, k是對向量元素的一個計數(shù)。
[0032] 有益效果:本發(fā)明同時綜合考慮了短語的局部信息和全局信息,以此作為基礎(chǔ)選 擇最佳的并列結(jié)構(gòu),提高了并列結(jié)構(gòu)的識別能力。
【附圖說明】
[0033] 下面結(jié)合附圖和【具體實施方式】對本發(fā)明做更進一步的具體說明,本發(fā)明的上述 和/或其他方面的優(yōu)點將會變得更加清楚。
[0034] 圖1和圖2表示實施例1中句法樹分析過程中可能出現(xiàn)的兩個不同的句法樹。
[0035]圖3是本發(fā)明的流程圖。
[0036] 圖4和圖5表示實施例2中句法樹分析過程中可能出現(xiàn)的兩個不同的句法樹。
【具體實施方式】
[0037] 本發(fā)明提出了基于新型神經(jīng)網(wǎng)絡(luò)的自然語言并列結(jié)構(gòu)的自動識別方法。首先利用 句法分析技術(shù)找出可能的候選集合,然后使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器從候選集合中找出最佳的并 列結(jié)構(gòu)?,F(xiàn)有系統(tǒng)中只能識別部分的并列結(jié)構(gòu),比如只由逗號分隔的并列結(jié)構(gòu)、只由名詞組 成的并列結(jié)構(gòu)等,這些方法和技術(shù)都無法做到自動識別出任意一種自然語言中可能出現(xiàn)的 并列結(jié)構(gòu)。
[0038] 如圖3所示,本發(fā)明公開了一種基于新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動識別自然語言中并列 結(jié)構(gòu)的方法,基于本發(fā)明的系統(tǒng)統(tǒng)籌考慮了并列結(jié)構(gòu)的局部信息和整體信息,識別出最佳 的并列結(jié)構(gòu)。圖3描述了本發(fā)明中提出的新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
[0039] 本發(fā)明所述的識別自然語言中并列結(jié)構(gòu)的過程包括如下步驟:
[0040] 步驟11,計算機讀取一個包含待分析的自然語言句子文本文件,利用基于狀態(tài)轉(zhuǎn) 移方法的句法分析技術(shù)對輸入的句子進行句法分析,此處的句法分析受到相應(yīng)的文法約 束,只能對并列結(jié)構(gòu)進行句法分析,分析得到一個并列結(jié)構(gòu)句法樹的候選集合。
[0041 ]步驟12,在并列結(jié)構(gòu)句法樹的候選集合中,抽取出所有可能的并列結(jié)構(gòu)候選,將這 些候選的并列結(jié)構(gòu)輸入到本發(fā)明提出的新型神經(jīng)網(wǎng)絡(luò)中。
[0042]本發(fā)明所述的新型神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器進行識別過程如下:
[0043] 步驟21,系統(tǒng)接收候選并列結(jié)構(gòu)集合,從中抽取出并列結(jié)構(gòu)的左成分短語Sieft: W0Wl."Wn 和右成分短語 SrightlW'm/ 1 …W'mo
[0044] 步驟22,將并列結(jié)構(gòu)的左右成分短語同時輸入到兩個具有相同參數(shù)的循環(huán)神經(jīng)網(wǎng) 絡(luò)結(jié)構(gòu)中,如圖2中方框內(nèi)結(jié)構(gòu)所示。通過兩個共享參數(shù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),系統(tǒng)根據(jù)如下公 式對Sleft和Sright打分:
[0045] y(t)=g(Vs(t))
[0046] s(t) =f (Uow(t)+Uio(t)+Ps(t-1))
[0047] 其中,y(t)是神經(jīng)網(wǎng)絡(luò)最終的輸出得分,w表示句子中的詞語,o表示相應(yīng)詞語的詞 性標(biāo)記,t表示當(dāng)前處理到第t個詞語;w(t),o(t)分別表示第t個詞和它的詞性標(biāo)記;s(t),s (t-1)分別表示第t個詞和第t-1個詞的向量表示,;U^UhV和P是已經(jīng)訓(xùn)練好的模型參數(shù),通 常是矩陣的形式,矩陣中的每一個元素可以任意的實數(shù)值,具體數(shù)值由系統(tǒng)自動學(xué)習(xí)得出; f和g分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和歸一化函數(shù)。利用該網(wǎng)絡(luò)分別對Slrft和Sright進行 打分,將網(wǎng)絡(luò)最終的輸出作為左右短語的得分,分別記作:Scoreirft和Scorerightc^VsU),Uow (t),Uie(t),Ps(t_l)均是矩陣相乘操作。
[0048] 步驟23,將左成分短語Sleft、右成分短語Sright及其共同的上下文信息c同時輸入到 一個單隱層的神經(jīng)網(wǎng)絡(luò)中,利用如下公式:
[0049] h = f(Rc)
[0050] y = g(Qos〇(n)+Qisi(m)+Th)
[00511對并列結(jié)構(gòu)整體打分。
[0052]其中,h是上下文信息的向量表示,y表示模型的最終輸出,其中R、Qo、Q^I^Bg 訓(xùn)練好的模型參數(shù),通常是矩陣的形式,矩陣中的每一個元素可以任意的實數(shù)值,具體數(shù)值 由系統(tǒng)自動學(xué)習(xí)得出。n、m分別表不左成分短語的長度和右成分短語的長度,而S〇(n)和Si (m)分別表示左成分短語Sleft經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示和右成分短語Sright經(jīng) 過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示;該網(wǎng)絡(luò)的輸出就作為當(dāng)前并列結(jié)構(gòu)的得分,記作 ScoreaRc^QQStKn),Qisi(m),Th均是矩陣相乘操作。
[0053] 步驟24,分別對左右短語和整體結(jié)構(gòu)打分之后,對這三者(Scoreief t,Scoreright, Score)的得分計算平均分,作為當(dāng)前并列結(jié)構(gòu)的最終得分。
[0054]步驟25,對所有候選的并列結(jié)構(gòu)執(zhí)行步驟21到步驟24的操作,從中選出得分最高 的并列結(jié)構(gòu),作為最佳并列結(jié)構(gòu)。
[0055] 實施例1
[0056] 本實施例利用新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)識別自然語言中并列結(jié)構(gòu)運行過程如下所示:
[0057] 1.輸入待分析的自然語言句子:"上海浦東開發(fā)與法制建設(shè)同步",其中真正的并 列結(jié)構(gòu)是"開發(fā)與法制建設(shè)"。
[0058] 2.系統(tǒng)開始對輸入的自然語言句子進行只針對并列結(jié)構(gòu)的句法分析,得到可能的 句法分析樹,如圖1和圖2所示:
[0059 ] 3.對可能出現(xiàn)的并列結(jié)構(gòu)句法樹,系統(tǒng)抽取其并列結(jié)構(gòu),對于圖1來說,抽取的并 列結(jié)構(gòu)是"開發(fā)與法制";對于圖2來說,抽取的并列結(jié)構(gòu)是"開發(fā)與法制建設(shè)"。
[0060] 4.將抽取出來的并列結(jié)構(gòu)Si= "開發(fā)與法制"和S2= "開發(fā)與法制建設(shè)"輸入到本發(fā) 明中的新型神經(jīng)網(wǎng)絡(luò)中。
[0061] 5.神經(jīng)網(wǎng)絡(luò)接收到輸入的并列結(jié)構(gòu)集合之后,對每一個并列結(jié)構(gòu)抽取出其左右短 語,對于S 1來說,它的左短語="開發(fā)〃,右短語是法制w;而對于S2來說,它的左 短語開發(fā)",右短語是法制建設(shè)'
[0062] 6.將同時輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對其進行打分, 得分分別為Score^ = 0.9和Score^_ = 0匕將5^和4_同時輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中, 利用循環(huán)神經(jīng)網(wǎng)絡(luò)對其進行打分,得分分別為= 0.9和Score^^ = 0.9「
[0063] 7.將S1和S2輸入到單隱層神經(jīng)網(wǎng)絡(luò)中,利用單隱層神經(jīng)網(wǎng)絡(luò)對并列結(jié)構(gòu)進行打分, S1 的得分為 Score1 = 0 · 7,S2 的得分為 Score2 = 0 · 9〇
[0064] 8 .對Score^t、和Sc0r e1計算平均值化階1 = 0.733 :對Score^、 S:core^^PScore2計算平均彳|'丨.= pi由此判斷,S2的得分最高,因此"開發(fā)與法制建 設(shè)"將會作為系統(tǒng)的最終輸出。
[0065] 實施例2
[0066] 本實施例利用新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)識別自然語言中并列結(jié)構(gòu)運行過程如下所示:
[0067] 1.輸入待分析的自然語言句子:"遇到過的新情況、新問題",其中真正的并列結(jié)構(gòu) 是"新情況、新問題"。
[0068] 2.系統(tǒng)開始對輸入的自然語言句子進行只針對并列結(jié)構(gòu)的句法分析,得到可能的 句法分析樹,如圖4和圖5所示:
[0069 ] 3.對可能出現(xiàn)的并列結(jié)構(gòu)句法樹,系統(tǒng)抽取其并列結(jié)構(gòu),對于圖4來說,抽取的并 列結(jié)構(gòu)是"新情況、新問題";對于圖2來說,抽取的并列結(jié)構(gòu)是"情況、新問題"。
[0070] 4.將抽取出來的并列結(jié)構(gòu)Si= "新情況、新問題"和S2= "情況、新問題"輸入到本發(fā) 明中的新型神經(jīng)網(wǎng)絡(luò)中。
[0071] 5.神經(jīng)網(wǎng)絡(luò)接收到輸入的并列結(jié)構(gòu)集合之后,對每一個并列結(jié)構(gòu)抽取出其左右短 語,對于S 1來說,它的左短語_4# 新情況'右短語是="新問題";而對于S2來說,它 的左短語="情況",右短語是="新問題〃。
[0072] 6.將5^和<_同時輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對其進行打分, 得分分別為Score^ = 0,85和Score^hf = 0決將5^和<_同時輸入到循環(huán)神經(jīng)網(wǎng)絡(luò) 中,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對其進行打分,得分分別為= 0.6和Score^^t 0:.9:6
[0073] 7.將S1和S2輸入到單隱層神經(jīng)網(wǎng)絡(luò)中,利用單隱層神經(jīng)網(wǎng)絡(luò)對并列結(jié)構(gòu)進行打分, S1 的得分為 Score1 = 0 · 95,S2 的得分為 Score2 = 0 · 6〇
[0074] 8 ·對 5core^/t、5'core^t 和 s c。r e 1 計算平均值細(xì)fe1 = 0,9;對 S_e0re^ft.、Seore二ft)^PIScore2計算平均值由此判斷, Sl的得分最高,因此"新 情況和新問題"將會作為系統(tǒng)的最終輸出。
[0075]本發(fā)明提供了基于新型神經(jīng)網(wǎng)絡(luò)的自然語言并列結(jié)構(gòu)的自動識別方法,具體實現(xiàn) 該技術(shù)方案的方法和途徑有很多,以上所述是本發(fā)明的優(yōu)選實施方式。本發(fā)明基于一種新 型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用神經(jīng)網(wǎng)絡(luò)分別對并列結(jié)構(gòu)的各成分之間及整體進行打分,使得系 統(tǒng)能夠自動識別出任意類型的并列結(jié)構(gòu)。在具體實踐中,本發(fā)明提出的方法與其它方式相 比,不局限于特殊并列結(jié)構(gòu),比如由逗號分隔的并列結(jié)構(gòu)、只有名詞組成的并列結(jié)構(gòu)等,能 夠自動識別出任意結(jié)構(gòu)的并列結(jié)構(gòu)。應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不 脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明 的保護范圍。本發(fā)明中未明確的各組成部分均可用現(xiàn)有技術(shù)加以實現(xiàn)。
【主權(quán)項】
1. 基于新型神經(jīng)網(wǎng)絡(luò)的自然語言并列結(jié)構(gòu)的自動識別方法,其特征在于,包括如下步 驟: 步驟1,計算機讀取一個包含待分析的自然語言句子文本文件,對讀取的句子進行針對 并列結(jié)構(gòu)的句法分析,得到并列結(jié)構(gòu)句法樹候選集合并輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器中; 步驟2,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器對并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)進行打分,從中 選出最佳的并列結(jié)構(gòu)。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟1包括如下步驟: 步驟1-1,按照從左到右的順序依次讀取自然語言句子中的每個詞,利用基于狀態(tài)轉(zhuǎn)移 技術(shù)的句法分析技術(shù)對輸入的句子進行只針對并列結(jié)構(gòu)的句法分析,分析后得到并列結(jié)構(gòu) 句法樹候選集合; 步驟1-2,抽取并列結(jié)構(gòu)句法樹候選集合中所有的并列結(jié)構(gòu)的左成分短語和右成分短 語并進行初步打分,將所有并列結(jié)構(gòu)的左成分短語和右成分短語輸入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器 中。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器由兩個循環(huán)神經(jīng)網(wǎng)絡(luò) 和一個單隱層神經(jīng)網(wǎng)絡(luò)組成,兩個循環(huán)神經(jīng)網(wǎng)絡(luò)共享相同的參數(shù)設(shè)置,并且其隱層直接連 接到單隱層神經(jīng)網(wǎng)絡(luò)的輸入層,兩個循環(huán)神經(jīng)網(wǎng)絡(luò)和單隱層神經(jīng)網(wǎng)絡(luò)具有單獨的輸出層, 相互獨立,互不影響。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,步驟1-2包括如下步驟: 步驟1 -2-1,對并列結(jié)構(gòu)句法樹候選集合中的每一個并列結(jié)構(gòu)抽取出并列結(jié)構(gòu)的左成 分短語Sleft和右成分短語Sright,Slef t - W0W1'' "Wnl j Sright - W OW 1'''W ml,其中,Wnl表小左成分" 短語中的第m個詞語,w' ^表示右成分短語中的第m個詞語; 步驟1-2-2,利用如下公式將左成分短語Slrft和右成分短語Sright輸入到具有相同參數(shù) 設(shè)置的兩個循環(huán)神經(jīng)網(wǎng)絡(luò)中: y(t) = g(Vs(t)), s(t) = f (Uow(t)+Uio(t)+Ps(t-1)), 其中,y(t)是循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出,w表示句子中的詞語,〇表示相應(yīng)詞語的詞性標(biāo) 記,t表示當(dāng)前處理到第t個詞語;w(t)表示第t個詞,o(t)表示第t個詞的詞性標(biāo)記;s(t)、s (t-ι)分別表示第t個詞的向量表示和第t-ι個詞的向量表示;UoU和P是已經(jīng)訓(xùn)練好的模 型參數(shù);f()和g()分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和歸一化函數(shù),Vs(t),U〇 W(t),Uie (t),Ps(t-1)均是矩陣相乘操作; 利用循環(huán)神經(jīng)網(wǎng)絡(luò)分別對Sleft和Sright進行打分,將循環(huán)神經(jīng)網(wǎng)絡(luò)最終的輸出作為左、 右短語的得分,分別記作Scor eief t和Scoreright 〇5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,步驟2包括如下步驟: 步驟2-1,將左成分短語Sleft、右成分短語Sright及它們共同的上下文信息c同時輸入到 單隱層的神經(jīng)網(wǎng)絡(luò)中,根據(jù)如下公式對并列結(jié)構(gòu)整體進行打分: h = f(Rc), y = g(Q〇s〇(n2)+Qisi(m2)+Th), 其中,h是上下文信息的向量表示,y表示單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出,其中R、Qo、QdP T是已經(jīng)訓(xùn)練好的模型參數(shù);n2、m2*別表示左成分短語的長度和右成分短語的長度,s〇(n 2) 和81(!112)分別表示左成分短語Sleft經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示和右成分短語 Sright經(jīng)過神經(jīng)循環(huán)網(wǎng)絡(luò)之后得到的向量表示;該單隱層的神經(jīng)網(wǎng)絡(luò)的最終輸出就作為當(dāng)前 并列結(jié)構(gòu)的得分,記作3〇0代;1^,( >)()8()(112),〇181(1112),1'11均是矩陣相乘操作; 步驟2-2,綜合考慮步驟1-2-2和步驟2-1中的打分,計算平均值,選出平均分最高的并 列結(jié)構(gòu)作為最佳的并列結(jié)構(gòu)。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,f(z)和g(z)分別是循環(huán)神經(jīng)網(wǎng)絡(luò)中的激活 函數(shù)和歸一化函數(shù),具體形式為:其中,Z是激活函數(shù)和歸一化函數(shù)的輸入?yún)?shù),e表示自然對數(shù),X表示向量的維度,k是 對向量元素的一個計數(shù)。
【文檔編號】G06N3/08GK105868181SQ201610250258
【公開日】2016年8月17日
【申請日】2016年4月21日
【發(fā)明人】黃書劍, 周逸初, 戴新宇, 陳家駿, 張建兵
【申請人】南京大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
滦南县| 广元市| 台东县| 凤凰县| 昆山市| 达州市| 樟树市| 沽源县| 泸溪县| 波密县| 从江县| 卢湾区| 彩票| 汉川市| 芷江| 垣曲县| 吉安市| 民县| 茶陵县| 南川市| 南投市| 吉林省| 红桥区| 吉木乃县| 肃宁县| 高邑县| 博野县| 井冈山市| 绥棱县| 定安县| 清远市| 大名县| 汉寿县| 肇源县| 安新县| 乡宁县| 青阳县| 甘洛县| 东宁县| 班戈县| 靖江市|