两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于神經(jīng)網(wǎng)絡(luò)的新聞事件抽取的方法及系統(tǒng)與流程

文檔序號:11216270閱讀:2576來源:國知局
一種基于神經(jīng)網(wǎng)絡(luò)的新聞事件抽取的方法及系統(tǒng)與流程

本發(fā)明涉及自然語言處理,尤其涉及一種基于雙向長短時記憶網(wǎng)絡(luò)(bilstm)與卷積神經(jīng)網(wǎng)絡(luò)(cnn)結(jié)合的新聞事件抽取方法及系統(tǒng)。



背景技術(shù):

隨著計算機(jī)的發(fā)展和互聯(lián)網(wǎng)的日益普及,大量信息以電子文本的形式出現(xiàn)在人們面前。在大量的網(wǎng)絡(luò)文本中,如何發(fā)掘有價值的新聞事件已經(jīng)成為迫切需要解決的問題,事件抽取正是在這種背景下產(chǎn)生的。作為信息抽取的一個子任務(wù),事件抽取是信息抽取的研究熱點(diǎn),它的研究內(nèi)容是自動的從自然文本中發(fā)現(xiàn)特定類型的事件及其事件元素。

從文本中抽取相應(yīng)的事件通常是通過識別事件的觸發(fā)詞來實(shí)現(xiàn)的,所以觸發(fā)詞是識別事件實(shí)例的關(guān)鍵。

專利號為cn201210321193.1的專利文獻(xiàn)公開了一種事件抽取方法,利用觸發(fā)詞形態(tài)結(jié)構(gòu),結(jié)合義原相似度來擴(kuò)展觸發(fā)詞,這樣在抽取事件實(shí)例時,不僅可以抽取已知觸發(fā)詞對應(yīng)的事件實(shí)例,還可以抽取擴(kuò)展的未知觸發(fā)詞對應(yīng)的事件實(shí)例,提高了事件抽取的召回率。專利號為cn201410108447.0的專利文獻(xiàn)公開了一種新聞原子事件抽取方法,首先利用初步融合規(guī)則庫和信息單元融合規(guī)則庫對詞性和命名體識別結(jié)果進(jìn)行融合,然后利用核心詞表和事件抽取規(guī)則庫對新聞?wù)牡男畔卧诤辖Y(jié)果進(jìn)行事件抽取。

基于上述研究現(xiàn)狀,針對新聞事件抽取主要存在以下問題:第一、對新聞事件的判別主要依賴于觸發(fā)詞本身,忽視了上下文關(guān)系,在遇到具有歧義的候選觸發(fā)詞時,容易造成事件類別的判斷錯誤。第二,網(wǎng)絡(luò)文本尤其是微博文本多為不規(guī)范語句,當(dāng)前的事件抽取方法缺乏從不規(guī)范語句中提取事件的研究。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是克服已有技術(shù)中的不足之處,提供一種基于神經(jīng)網(wǎng)絡(luò)的新聞事件抽取的方法及系統(tǒng),以消除候選觸發(fā)詞歧義并且能夠處理不規(guī)范語句的新聞事件。

為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:

一種基于神經(jīng)網(wǎng)絡(luò)的新聞事件抽取的方法,包括以下步驟:

步驟s1,對訓(xùn)練語料原始文本進(jìn)行數(shù)據(jù)預(yù)處理:對訓(xùn)練語料原始文本進(jìn)行分句,得到事件句,然后對事件句進(jìn)行分詞、命名體識別;根據(jù)人工標(biāo)注的新聞事件信息,將事件句進(jìn)行序列標(biāo)注,觸發(fā)詞根據(jù)其類型進(jìn)行標(biāo)注,非觸發(fā)詞標(biāo)注為無類別,得到事件句序列;并將事件句序列以詞向量的形式進(jìn)行表述;

步驟s2,將以詞向量表示的事件句序列傳入到雙向長短時記憶網(wǎng)絡(luò),利用雙向長短時記憶網(wǎng)絡(luò)來訓(xùn)練得到每個候選觸發(fā)詞的語義特征;

步驟s3,將以詞向量表示的事件句序列傳入到卷積神經(jīng)網(wǎng)絡(luò)中,利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到候選觸發(fā)詞所在事件句的全局特征;

步驟s4,根據(jù)步驟s2中得到的候選觸發(fā)詞的語義特征與步驟s3中獲得的候選觸發(fā)詞所在句子的全局特征,利用softmax作為分類器來對每個候選觸發(fā)詞進(jìn)行分類,從而找出新聞事件的觸發(fā)詞,并根據(jù)觸發(fā)詞類型,判斷該事件所屬類型。

步驟s1具體為:

步驟s11,采用自然語言處理工具對訓(xùn)練語料原始文本進(jìn)行分句,分詞和命名體識別,使訓(xùn)練語料原始文本以事件句和每句包含若干個詞匯呈現(xiàn),則事件句表達(dá)為l={w1,w2,…,wi,…,wn},其中wi為句子中第i個詞,n表示事件句長度;

步驟s12,根據(jù)分詞和命名體識別結(jié)果,對事件句進(jìn)行人工標(biāo)注,在標(biāo)注過程中,將非觸發(fā)詞標(biāo)記為無類型,觸發(fā)詞根據(jù)所屬新聞事件類別進(jìn)行標(biāo)注,得到事件句序列;

步驟s13,通過開源工具包word2vec訓(xùn)練得到詞向量,采用skip-gram模型,根據(jù)訓(xùn)練得到的詞向量,將事件句序列中每個詞表述為一個300長度的向量;

步驟s14,將每個事件句處理成詞向量表述的序列形式,即每個候選觸發(fā)詞wi以一個300長度的詞向量xi來表示,事件句表述為l={x1,x2,…,xi,…,xn}。

步驟s2具體為:

步驟s21,假設(shè)事件句表述為l={x1,x2,…,xi,…,xn},其中xi為第i個候選觸發(fā)詞的詞向量,n表示句子長度;

步驟s22,將l作為一個序列傳入長短時記憶網(wǎng)絡(luò),得到序列的輸出結(jié)果fw={fw1,fw2,…,fwi,…,fwn},其中,fwi表示第i個候選觸發(fā)詞經(jīng)過長短時記憶網(wǎng)絡(luò)提取出來的語義特征;

步驟s23,將l進(jìn)行反轉(zhuǎn)即l′={xn,xn-1,…,xi,…,x1},將反向序列l(wèi)′傳入長短時記憶網(wǎng)絡(luò),得到反向序列的輸出結(jié)果bw={bw1,bw2,…,bwi,…,bwn},其中,bwi個候選觸發(fā)詞經(jīng)過反向長短時記憶網(wǎng)絡(luò)提取出來的語義特征;

步驟s24,將雙向長短時記憶網(wǎng)絡(luò)獲得輸出結(jié)果的fw與bw進(jìn)行拼接,得到句子l經(jīng)過雙向長短時記憶網(wǎng)絡(luò)的輸出結(jié)果,即o={r1,r2,…,ri,…,rn},其中ri=[fwi:bwi]。

步驟s3具體為:

步驟s31,假設(shè)事件句表述為l={x1,x2,…,xi,…,xn},其中xi為第i個單詞的詞向量,n表示句子長度;

步驟s32,對事件句采取卷積操作,計算公式為:

ci=f(wtxi:i-h+1+b)

其中,f是激活函數(shù),ci表示卷積得到的特征,w表示權(quán)重矩陣,h表示卷積核大小,i:i-h+1表示第i個詞到第i-h+1個詞,b表示偏置;

通過滑動窗口,對所有詞進(jìn)行卷積得到特征圖;

步驟s33,使用最大池化,對特征圖進(jìn)行池化,得到事件句的全局特征co。

步驟s4具體為:

步驟s31,將雙向長短時記憶網(wǎng)絡(luò)獲得的候選觸發(fā)詞語義特征o={r1,r2,…,ri,…,rn}與卷積神經(jīng)網(wǎng)絡(luò)提取出的句子全局特征co進(jìn)行級聯(lián),得到輸出向量ot=[o:co];

步驟s32,使用softmax對輸出向量ot進(jìn)行分類,獲得新聞事件預(yù)測的類型。

一種基于神經(jīng)網(wǎng)絡(luò)的新聞事件抽取的系統(tǒng),包括文本與處理模塊、神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊、新聞事件預(yù)測模塊,其中:

所述文本與處理模塊用于對訓(xùn)練語料原始文本進(jìn)行數(shù)據(jù)預(yù)處理,包括:對訓(xùn)練語料原始文本進(jìn)行分句,得到事件句,然后對事件句進(jìn)行分詞、命名體識別;根據(jù)人工標(biāo)注的新聞事件信息,將事件句進(jìn)行序列標(biāo)注,觸發(fā)詞根據(jù)其類型進(jìn)行標(biāo)注,非觸發(fā)詞標(biāo)注為無類別,得到事件句序列;并將事件句序列以詞向量的形式進(jìn)行表述;

所述神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊包括雙向長短時記憶網(wǎng)絡(luò)訓(xùn)練模塊和卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊,雙向長短時記憶網(wǎng)絡(luò)訓(xùn)練模塊用于將以詞向量表示的事件句序列訓(xùn)練,得到每個候選觸發(fā)詞的語義特征;卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊用于將以詞向量表示的事件句序列訓(xùn)練,得到候選觸發(fā)詞所在事件句的全局特征;

所述新聞事件預(yù)測模塊用于根據(jù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊得到的候選觸發(fā)詞的語義特征與候選觸發(fā)詞所在句子的全局特征,利用softmax作為分類器來對每個候選觸發(fā)詞進(jìn)行分類,從而找出新聞事件的觸發(fā)詞,并根據(jù)觸發(fā)詞類型,判斷該事件所屬類型。

有益效果:由于采用了上述技術(shù)方案,本發(fā)明與現(xiàn)有技術(shù)相比具有如下有益效果:

1、本發(fā)明采用了雙向長短時記憶網(wǎng)絡(luò)(bilstm),能夠根據(jù)候選觸發(fā)詞的上下文信息消除候選觸發(fā)詞的歧義。比如“一輛車撞上了高速公路的護(hù)欄?!焙汀敖裉煳胰コ燥埖臅r候正好撞上了好久不見的同學(xué)?!?,以上兩個句子中觸發(fā)詞都為“撞上”,前者屬于交通事故類事件,后者屬于遇見類事件。采用bilstm提取候選觸發(fā)詞語義信息時,能夠根據(jù)句子的上下文信息判斷出候選觸發(fā)詞的實(shí)際意思,可有效避免詞匯的歧義現(xiàn)象,從而提高新聞事件分類的準(zhǔn)確率。

2、本發(fā)明采用卷積神經(jīng)網(wǎng)絡(luò)(cnn)抽取出的句子全局特征,當(dāng)句子是不規(guī)范語句時,根據(jù)句子的全局特征與候選觸發(fā)詞的語義特征共同判斷,可以準(zhǔn)確的判斷出事件類別。因此,本發(fā)明可以解決不規(guī)范語句的新聞事件識別問題。

附圖說明

圖1是本發(fā)明提供的基于神經(jīng)網(wǎng)絡(luò)的新聞事件抽取方法及系統(tǒng)的流程圖;

圖2是基于雙向長短時記憶網(wǎng)絡(luò)(bilstm)和卷積神經(jīng)網(wǎng)絡(luò)(cnn)的新聞事件抽取的關(guān)鍵步驟工作流程;

圖3是卷積神經(jīng)網(wǎng)絡(luò)(cnn)結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面通過具體實(shí)施方式對本發(fā)明做進(jìn)一步的描述。

如圖1所示為一種基于神經(jīng)網(wǎng)絡(luò)的新聞事件抽取的系統(tǒng),包括文本與處理模塊、神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊、新聞事件預(yù)測模塊,其中:

文本與處理模塊用于對訓(xùn)練語料原始文本進(jìn)行數(shù)據(jù)預(yù)處理,包括:對訓(xùn)練語料原始文本進(jìn)行分句,得到事件句,然后對事件句進(jìn)行分詞、命名體識別;根據(jù)人工標(biāo)注的新聞事件信息,將事件句進(jìn)行序列標(biāo)注,觸發(fā)詞根據(jù)其類型進(jìn)行標(biāo)注,非觸發(fā)詞標(biāo)注為無類別,得到事件句序列;并將事件句序列以詞向量的形式進(jìn)行表述;

神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊包括雙向長短時記憶網(wǎng)絡(luò)訓(xùn)練模塊和卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊,雙向長短時記憶網(wǎng)絡(luò)訓(xùn)練模塊用于將以詞向量表示的事件句序列訓(xùn)練,得到每個候選觸發(fā)詞的語義特征;卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊用于將以詞向量表示的事件句序列訓(xùn)練,得到候選觸發(fā)詞所在事件句的全局特征;

新聞事件預(yù)測模塊用于根據(jù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊得到的候選觸發(fā)詞的語義特征與候選觸發(fā)詞所在句子的全局特征,利用softmax作為分類器來對每個候選觸發(fā)詞進(jìn)行分類,從而找出新聞事件的觸發(fā)詞,并根據(jù)觸發(fā)詞類型,判斷該事件所屬類型。

下面結(jié)合具體實(shí)例對本發(fā)明做進(jìn)一步說明。

一種基于神經(jīng)網(wǎng)絡(luò)的新聞事件抽取的方法,本示例語句為:“11時25分,s20外圈滬渝立交發(fā)生一起3車追尾事故?!币阎谠摼渥又惺录|發(fā)詞為“追尾”,所屬的新聞事件類別為交通事故。

步驟一、對該事件句進(jìn)行分詞,命名體識別。可得:

11時25分\os20外圈\o滬渝立交\o發(fā)生\o一起\o3車\o追尾\y事故\o

事件觸發(fā)詞“追尾”被標(biāo)記為屬于交通事故,其余候選觸發(fā)詞標(biāo)記為無類別,獲得該事件句的序列標(biāo)注l={w1,w2,…,wi,…,wn},其中,wi為事件句中第i個詞,n表示事件句長度。

選取足夠大的語料,使用開源工具包word2vec進(jìn)行詞向量的訓(xùn)練,選取skip-gram模型,每個詞表述為一個300長度的向量。

則最終該事件句可表述為:l={x1,x2,…,xi,…,xn},其中xi為事件句中第i個詞的300維的向量,n表示事件句長度。

步驟二、將待訓(xùn)練的事件句l={x1,x2,…,xi,…,xn}傳入到雙向長短時記憶網(wǎng)絡(luò)(bilstm),利用bilstm來訓(xùn)練得到的每個候選觸發(fā)詞的語義特征,如圖2。

將句子l作為一個序列傳入長短時記憶網(wǎng)絡(luò)(lstm),得到序列的輸出結(jié)果fw={fw1,fw2,…,fwi,…,fwn}。fwi表示第i個候選觸發(fā)詞經(jīng)過lstm提取出來的語義特征,n表示事件句長度。其中對于fwi的計算過程如下:

定義xt為t時刻的輸入詞向量,ht為在t時刻存儲所有有用信息的隱藏層狀態(tài)向量,σ為sigmoid回歸層,ui,uf,uc,uo為不同狀態(tài)下針對輸入xt的權(quán)重矩陣,wi,wf,wc,wo為隱藏層狀態(tài)ht的權(quán)重矩陣,bi,bf,bc,bo為偏置向量;

(1)在t時刻遺忘門的計算如(1)式所示:

ft=σ(wf·[ht-1,xt]+bf)(1)

(2)在t時刻更新ht-1中存儲的所有信息,計算公式如(2)、(3)式所示:

it=σ(wi·[ht-1,xt]+bi)(2)

上式中,it表示t時刻決定需要更新的值、表示確定更新的信息。

(3)在t時刻將t-1時刻存儲的信息更新為t時刻的存儲信息,計算公式為式(4):

(4)在t時刻的輸出如式(5)所示,并更新ht,計算公式如式(6):

ot=σ(wo·[ht-1,xt]+bo)(5)

ht=ot*tanh(ct)(6)

其中ot為t時刻的輸出;ht為t時刻隱藏層的向量。最終,fwt=ot,即句子中第t個詞的輸出為fwt。

同理得出bw={bw1,bw2,…,bwi,…,bwn},將雙向lstm獲得輸出結(jié)果的fw與bw進(jìn)行拼接,得到句子l經(jīng)過雙向長短時記憶網(wǎng)絡(luò)(bilstm)的輸出結(jié)果,即o={r1,r2,…,ri,…,rn},其中ri=[fwi:bwi]。

步驟三、將待訓(xùn)練的事件句l={x1,x2,…,xi,…,xn}傳入到卷積神經(jīng)網(wǎng)絡(luò)(cnn)中,利用cnn獲取候選觸發(fā)詞所在句子的全局特征,如圖3。

(1)對句子采取卷積操作,計算公式為(7):

ci=f(wtxi:i-h+1+b)(7)

其中,f是激活函數(shù),ci表示卷積得到的特征,w表示權(quán)重矩陣,h表示卷積核大小,i:i-h+1表示第i個詞到第i-h+1個詞,b表示偏置;

通過滑動窗口,對所有詞進(jìn)行卷積得到特征圖。

(2)使用最大池化,對特征圖進(jìn)行池化,得到句子特征co。

步驟四、根據(jù)步驟二所得事件句l={x1,x2,…,xi,…,xn}的語義特征o={r1,r2,…,ri,…,rn}(其中候選觸發(fā)詞xi對應(yīng)語義特征為ri),和步驟三所得事件句l的全局特征co,進(jìn)行分類,從而所屬的新聞事件類別。

將步驟二所得事件句l={x1,x2,…,xi,…,xn}的語義特征o={r1,r2,…,ri,…,rn}(其中候選觸發(fā)詞xi對應(yīng)語義特征為ri),和步驟三所得事件句l的全局特征co進(jìn)行級聯(lián),得到輸出向量ot=[o:co];使用softmax對輸出向量ot進(jìn)行分類,獲得新聞事件預(yù)測的類型。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
东乡族自治县| 浦城县| 孝感市| 琼中| 开封市| 六枝特区| 曲靖市| 滨州市| 行唐县| 昌江| 四会市| 神农架林区| 兰州市| 苗栗县| 巴林右旗| 尚志市| 获嘉县| 屏东市| 义马市| 富裕县| 弥渡县| 镇江市| 南江县| 施秉县| 博罗县| 分宜县| 时尚| 石林| 碌曲县| 井陉县| 团风县| 句容市| 台南市| 黔江区| 靖西县| 乌拉特后旗| 志丹县| 商洛市| 永吉县| 铜梁县| 枣庄市|