本發(fā)明涉及自然語(yǔ)言處理,特別是涉及一種基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法。
背景技術(shù):
1、在文檔級(jí)關(guān)系抽取領(lǐng)域,現(xiàn)有技術(shù)主要集中在句子級(jí)關(guān)系抽取,但在實(shí)際應(yīng)用中,實(shí)體及其關(guān)系通常出現(xiàn)在較長(zhǎng)的文檔中。這些文檔中的實(shí)體分布廣泛,關(guān)系獲取需要復(fù)雜的多跳推理。現(xiàn)有的文檔級(jí)關(guān)系抽取方法主要分為三類:基于文檔圖的方法、基于預(yù)訓(xùn)練語(yǔ)言模型的方法和基于噪聲處理的方法。
2、基于文檔圖的方法主要通過構(gòu)建文檔圖來建模文檔內(nèi)的語(yǔ)義信息,并通過圖傳播方式學(xué)習(xí)實(shí)體與實(shí)體之間的關(guān)聯(lián)。這些方法在處理多跳推理時(shí),往往只使用一元信息(即實(shí)體特征),導(dǎo)致在多跳推理過程中缺乏其他實(shí)體的信息?;陬A(yù)訓(xùn)練語(yǔ)言模型的方法主要采用bert或其變體來對(duì)文檔級(jí)關(guān)系抽取中的信息進(jìn)行建模。這些方法在處理多跳推理時(shí),通常僅獨(dú)立地使用實(shí)體對(duì),未考慮三元組之間的全局信息?;谠肼曁幚淼姆椒▌t主要針對(duì)數(shù)據(jù)集中的噪聲問題進(jìn)行處理,以提升模型在處理噪聲數(shù)據(jù)時(shí)的性能。
3、然而,這些現(xiàn)有技術(shù)在處理文檔級(jí)關(guān)系抽取時(shí),普遍存在未能有效利用實(shí)體對(duì)與上下文信息之間的潛在關(guān)聯(lián)特征,導(dǎo)致實(shí)體對(duì)表示未能充分利用上下文信息和多跳推理信息。因此,設(shè)計(jì)一種基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法是十分有必要的。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,以通過實(shí)體對(duì)和上下文信息的潛在關(guān)系保證抽取結(jié)果的完整性,并提高模型的性能。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
3、一種基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,包括如下步驟:
4、通過窗口滑動(dòng)的方式將文檔劃分為多個(gè)片段,并通過訓(xùn)練好的bert模型得到片段中的實(shí)體表達(dá)和實(shí)體表達(dá)的表達(dá)向量;
5、將表達(dá)向量進(jìn)行分類組合,得到不同的實(shí)體向量;實(shí)體向量包括:頭實(shí)體向量和尾實(shí)體向量;
6、將頭實(shí)體向量和尾實(shí)體向量進(jìn)行拼接操作,得到實(shí)體對(duì);
7、計(jì)算實(shí)體對(duì)與實(shí)體對(duì)的關(guān)聯(lián)性,得到第一特征;
8、通過訓(xùn)練好的bert模型得到實(shí)體對(duì)的上下文嵌入;
9、計(jì)算實(shí)體對(duì)和上下文嵌入的關(guān)聯(lián)性,得到第二特征;
10、將第一特征和第二特征進(jìn)行特征融合,得到抽取結(jié)果。
11、可選地,將表達(dá)向量進(jìn)行分類組合,得到不同的實(shí)體向量,具體步驟為:將同一實(shí)體的不同實(shí)體表達(dá)通過聚類集合的方式進(jìn)行分類,并將不同實(shí)體表達(dá)的表達(dá)向量進(jìn)行組合,得到不同的實(shí)體向量;實(shí)體向量的表達(dá)式為:am=[am1,am2,am3,...,amn];其中,am為第m個(gè)實(shí)體向量,amn為第m個(gè)實(shí)體向量的第n個(gè)表達(dá)向量。
12、可選地,將頭實(shí)體向量和尾實(shí)體向量進(jìn)行拼接操作,得到實(shí)體對(duì),具體步驟包括:
13、選取全部實(shí)體向量中的任意兩個(gè)不同實(shí)體向量分別作為頭實(shí)體向量和尾實(shí)體向量;
14、計(jì)算頭實(shí)體向量和尾實(shí)體向量的向量距離;向量距離的計(jì)算公式為:其中,d為向量距離,axi為頭實(shí)體向量的第i個(gè)元素,ayi為尾實(shí)體向量的第i個(gè)元素,n為實(shí)體向量的維度數(shù)。
15、將頭實(shí)體向量、向量距離和尾實(shí)體向量進(jìn)行組合,得到實(shí)體對(duì);實(shí)體對(duì)的表達(dá)式為:f=w1[ax,ay,d];其中,w1為可學(xué)習(xí)參數(shù),ax為頭實(shí)體向量,ay為尾實(shí)體向量。
16、可選地,計(jì)算實(shí)體對(duì)與實(shí)體對(duì)的關(guān)聯(lián)性,得到第一特征,具體步驟包括:
17、分別計(jì)算兩個(gè)實(shí)體對(duì)的查詢、鍵和值;
18、分別對(duì)兩個(gè)實(shí)體對(duì)的查詢、鍵和值進(jìn)行歸一化處理,得到兩個(gè)實(shí)體對(duì)注意力;
19、將兩個(gè)實(shí)體對(duì)注意力進(jìn)行權(quán)重分配和組合,得到第一特征。
20、可選地,第一特征的計(jì)算公式為:t=μr1+(1-μ)r2;其中,r1和r2分別為兩個(gè)實(shí)體對(duì)注意力,t為第一特征,μ為實(shí)體對(duì)權(quán)重系數(shù);
21、實(shí)體對(duì)注意力的計(jì)算公式為:j=1或2;其中,bi為實(shí)體對(duì)第i個(gè)元素的歸一化系數(shù),為實(shí)體對(duì)第i個(gè)元素的值;
22、實(shí)體對(duì)權(quán)重系數(shù)的計(jì)算公式為:
23、歸一化系數(shù)為:qf=wq*f;kf=wk*f;vf=wv*f;其中,qf為實(shí)體對(duì)的查詢,kf為實(shí)體對(duì)的鍵,vf為實(shí)體對(duì)的值,wq、wk和wv分別為查詢、鍵和值的學(xué)習(xí)系數(shù),為實(shí)體對(duì)第i個(gè)元素的鍵。
24、可選地,通過訓(xùn)練好的bert模型得到實(shí)體對(duì)的上下文嵌入,具體步驟包括:
25、根據(jù)訓(xùn)練好的bert模型對(duì)片段的上下文語(yǔ)義進(jìn)行分析,并根據(jù)分析結(jié)果為每個(gè)表達(dá)向量增加一個(gè)語(yǔ)義向量;
26、根據(jù)表達(dá)向量的分類組合將語(yǔ)義向量進(jìn)行拼接,得到實(shí)體向量對(duì)應(yīng)的上下文嵌入。
27、可選地,計(jì)算實(shí)體對(duì)和上下文嵌入的關(guān)聯(lián)性,得到第二特征,具體步驟包括:
28、計(jì)算上下文嵌入的鍵和值;
29、對(duì)實(shí)體對(duì)的查詢、上下文嵌入的鍵和上下文嵌入的值進(jìn)行歸一化處理,得到上下文注意力;
30、將實(shí)體對(duì)注意力和上下文注意力進(jìn)行拼接降維操作,得到第二特征。
31、可選地,第二特征的計(jì)算公式為:h={u,r}*{wq,wk,wv};其中,u為上下文注意力,{}為拼接操作,h為第二特征,r為實(shí)體對(duì)注意力;
32、上下文注意力的計(jì)算公式為:qf=wq*f;kz=wk*z;vz=wv*z;其中,ci為上下文嵌入第i個(gè)元素的歸一化系數(shù),為上下文嵌入第i個(gè)元素的值,kz為上下文嵌入的鍵,vz為上下文嵌入的值,為上下文嵌入第i個(gè)元素的鍵,z為上下文嵌入。
33、可選地,將第一特征和第二特征進(jìn)行特征融合,得到抽取結(jié)果,具體步驟包括:
34、分別計(jì)算第一特征和第二特征的協(xié)方差矩陣,得到第一協(xié)方差矩陣和第二協(xié)方差矩陣;
35、分別將第一協(xié)方差矩陣和第二協(xié)方差矩陣的特征向量進(jìn)行拼接,得到第一降維特征和第二降維特征;
36、將第一特征與第二降維特征進(jìn)行逐位相乘,得到第一關(guān)系;
37、將第二特征與第一降維特征進(jìn)行逐位相乘,得到第二關(guān)系;
38、將第一關(guān)系和第二關(guān)系進(jìn)行分權(quán)相加,得到抽取結(jié)果。
39、根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)效果:本發(fā)明提供的基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,該方法包括:通過窗口滑動(dòng)的方式將文檔劃分為多個(gè)片段,并通過訓(xùn)練好的bert模型得到片段中的實(shí)體表達(dá)和實(shí)體表達(dá)的表達(dá)向量;將表達(dá)向量進(jìn)行分類組合,得到不同的實(shí)體向量;實(shí)體向量包括:頭實(shí)體向量和尾實(shí)體向量;將頭實(shí)體向量和尾實(shí)體向量進(jìn)行拼接操作,得到實(shí)體對(duì);計(jì)算實(shí)體對(duì)與實(shí)體對(duì)的關(guān)聯(lián)性,得到第一特征;通過訓(xùn)練好的bert模型得到實(shí)體對(duì)的上下文嵌入;計(jì)算實(shí)體對(duì)和上下文嵌入的關(guān)聯(lián)性,得到第二特征;將第一特征和第二特征進(jìn)行特征融合,得到抽取結(jié)果。該方法通過實(shí)體對(duì)和上下文信息的潛在關(guān)系保證了抽取結(jié)果的完整性,并提高了模型的性能。
1.一種基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,其特征在于,將所述表達(dá)向量進(jìn)行分類組合,得到不同的實(shí)體向量,具體步驟為:將同一實(shí)體的不同實(shí)體表達(dá)通過聚類集合的方式進(jìn)行分類,并將所述不同實(shí)體表達(dá)的表達(dá)向量進(jìn)行組合,得到所述不同的實(shí)體向量;所述實(shí)體向量的表達(dá)式為:am=[am1,am2,am3,...,amn];其中,am為第m個(gè)實(shí)體向量,amn為第m個(gè)實(shí)體向量的第n個(gè)表達(dá)向量。
3.根據(jù)權(quán)利要求2所述的基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,其特征在于,將所述頭實(shí)體向量和所述尾實(shí)體向量進(jìn)行拼接操作,得到實(shí)體對(duì),具體步驟包括:
4.根據(jù)權(quán)利要求3所述的基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,其特征在于,計(jì)算實(shí)體對(duì)與實(shí)體對(duì)的關(guān)聯(lián)性,得到第一特征,具體步驟包括:
5.根據(jù)權(quán)利要求4所述的基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,其特征在于,所述第一特征的計(jì)算公式為:t=μr1+(1-μ)r2;其中,r1和r2分別為兩個(gè)實(shí)體對(duì)注意力,t為第一特征,μ為實(shí)體對(duì)權(quán)重系數(shù);
6.根據(jù)權(quán)利要求1所述的基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,其特征在于,通過所述訓(xùn)練好的bert模型得到所述實(shí)體對(duì)的上下文嵌入,具體步驟包括:
7.根據(jù)權(quán)利要求4所述的基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,其特征在于,計(jì)算所述實(shí)體對(duì)和所述上下文嵌入的關(guān)聯(lián)性,得到第二特征,具體步驟包括:
8.根據(jù)權(quán)利要求7所述的基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,其特征在于,所述第二特征的計(jì)算公式為:h={u,r}*{wq,wk,wv};其中,u為上下文注意力,{}為拼接操作,h為第二特征,r為實(shí)體對(duì)注意力;
9.根據(jù)權(quán)利要求1所述的基于雙角度注意力融合的文檔級(jí)關(guān)系抽取方法,其特征在于,將所述第一特征和所述第二特征進(jìn)行特征融合,得到抽取結(jié)果,具體步驟包括: