本技術(shù)涉及金融科技和人工智能,尤其涉及一種實(shí)體關(guān)系抽取方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、目前,通常通過使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法(如支持向量機(jī)svm、隨機(jī)森林等)進(jìn)行實(shí)體關(guān)系抽取。例如,在金融領(lǐng)域中,實(shí)體關(guān)系抽取是為了識(shí)別出“投保人”、“保險(xiǎn)公司”及“受益人”等實(shí)體,以及識(shí)別出“投保人向保險(xiǎn)公司支付保費(fèi)”及“受益人在特定條件下獲得賠償”的實(shí)體之間的關(guān)系,并通過svm對(duì)實(shí)體對(duì)之間的關(guān)系進(jìn)行抽取,從而抽取出“投保人-支付-保費(fèi)”及“受益人-獲得-賠償”的具體關(guān)系。但是,這種方法還難以捕捉文本數(shù)據(jù)中的深層語義關(guān)系,導(dǎo)致實(shí)體關(guān)系抽取的準(zhǔn)確率較低,因此,如何提高實(shí)體關(guān)系抽取的準(zhǔn)確率成為了亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的主要目的在于提出一種實(shí)體關(guān)系抽取方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),旨在提高實(shí)體關(guān)系抽取的準(zhǔn)確率。
2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第一方面提出了一種實(shí)體關(guān)系抽取方法,所述方法包括:
3、獲取目標(biāo)文本;
4、根據(jù)所述目標(biāo)文本構(gòu)建文本語義依存矩陣;
5、獲取預(yù)訓(xùn)練的實(shí)體關(guān)系抽取模型;其中所述實(shí)體關(guān)系抽取模型包括自注意力網(wǎng)絡(luò)、語義融合網(wǎng)絡(luò)及實(shí)體關(guān)系抽取網(wǎng)絡(luò);
6、利用所述自注意力網(wǎng)絡(luò)對(duì)所述目標(biāo)文本進(jìn)行編碼,得到目標(biāo)文本特征;
7、利用所述語義融合網(wǎng)絡(luò)將所述目標(biāo)文本特征與所述文本語義依存矩陣進(jìn)行融合,得到融合語義特征;
8、利用所述實(shí)體關(guān)系抽取網(wǎng)絡(luò)對(duì)所述融合語義特征進(jìn)行實(shí)體關(guān)系抽取,得到目標(biāo)實(shí)體關(guān)系。
9、在一些實(shí)施例,所述利用所述語義融合網(wǎng)絡(luò)將所述目標(biāo)文本特征與所述文本語義依存矩陣進(jìn)行融合,得到融合語義特征,包括:
10、對(duì)所述目標(biāo)文本特征進(jìn)行注意力權(quán)重分配,得到注意力分?jǐn)?shù)矩陣;
11、利用所述語義融合網(wǎng)絡(luò)將所述注意力分?jǐn)?shù)矩陣及所述文本語義依存矩陣進(jìn)行融合,得到語義注意力分?jǐn)?shù)矩陣;
12、對(duì)所述語義注意力分?jǐn)?shù)矩陣進(jìn)行激活處理,得到所述融合語義特征。
13、在一些實(shí)施例,所述實(shí)體關(guān)系抽取網(wǎng)絡(luò)包括多頭圖注意力網(wǎng)絡(luò)層、實(shí)體主客體關(guān)系網(wǎng)絡(luò)層、實(shí)體頭部關(guān)系網(wǎng)絡(luò)層、實(shí)體尾部關(guān)系網(wǎng)絡(luò)層及關(guān)系融合網(wǎng)絡(luò)層;
14、所述利用所述實(shí)體關(guān)系抽取網(wǎng)絡(luò)對(duì)所述融合語義特征進(jìn)行實(shí)體關(guān)系抽取,得到目標(biāo)實(shí)體關(guān)系,包括:
15、獲取所述融合語義特征的融合語義節(jié)點(diǎn);
16、利用所述多頭圖注意力網(wǎng)絡(luò)層對(duì)所述融合語義節(jié)點(diǎn)進(jìn)行多頭編碼,得到融合節(jié)點(diǎn)特征;
17、利用所述實(shí)體主客體關(guān)系網(wǎng)絡(luò)層對(duì)所述融合節(jié)點(diǎn)特征進(jìn)行實(shí)體主客體關(guān)系識(shí)別,得到實(shí)體主客體關(guān)系矩陣;
18、利用所述實(shí)體頭部關(guān)系網(wǎng)絡(luò)層對(duì)所述融合節(jié)點(diǎn)特征進(jìn)行實(shí)體頭部關(guān)系識(shí)別,得到實(shí)體頭部關(guān)系矩陣;
19、利用所述實(shí)體尾部關(guān)系網(wǎng)絡(luò)層對(duì)所述融合節(jié)點(diǎn)特征進(jìn)行實(shí)體尾部關(guān)系識(shí)別,得到實(shí)體尾部關(guān)系矩陣;
20、根據(jù)關(guān)系融合網(wǎng)絡(luò)層對(duì)所述實(shí)體主客體關(guān)系矩陣、所述實(shí)體頭部關(guān)系矩陣及所述實(shí)體尾部關(guān)系矩陣進(jìn)行融合,得到所述目標(biāo)實(shí)體關(guān)系。
21、在一些實(shí)施例,所述利用所述多頭圖注意力網(wǎng)絡(luò)層對(duì)所述融合語義節(jié)點(diǎn)進(jìn)行多頭編碼,得到融合節(jié)點(diǎn)特征,包括:
22、從所述融合語義節(jié)點(diǎn)中選取任一節(jié)點(diǎn)作為目標(biāo)語義節(jié)點(diǎn),并獲取所述目標(biāo)語義節(jié)點(diǎn)的相鄰語義節(jié)點(diǎn);
23、利用所述多頭圖注意力網(wǎng)絡(luò)層對(duì)所述目標(biāo)語義節(jié)點(diǎn)及所述相鄰語義節(jié)點(diǎn)進(jìn)行注意力計(jì)算,得到節(jié)點(diǎn)注意力系數(shù);
24、對(duì)所述節(jié)點(diǎn)注意力系數(shù)進(jìn)行多頭注意力平均處理及激活處理,得到目標(biāo)節(jié)點(diǎn)特征;
25、根據(jù)所有所述目標(biāo)節(jié)點(diǎn)特征確定所述融合節(jié)點(diǎn)特征。
26、在一些實(shí)施例,所述利用所述實(shí)體關(guān)系抽取網(wǎng)絡(luò)對(duì)所述融合語義特征進(jìn)行實(shí)體關(guān)系抽取,得到目標(biāo)實(shí)體關(guān)系之前,所述方法還包括:
27、對(duì)所述文本語義依存矩陣進(jìn)行編碼,得到語義依存嵌入矩陣;
28、將所述語義依存嵌入矩陣與所述融合語義特征進(jìn)行語義聚合,得到聚合語義特征,并將所述聚合語義特征作為所述融合語義特征。
29、在一些實(shí)施例,所述根據(jù)所述目標(biāo)文本構(gòu)建文本語義依存矩陣,包括:
30、根據(jù)所述目標(biāo)文本構(gòu)建文本語義依存樹;
31、獲取所述文本語義依存樹的樹節(jié)點(diǎn),并獲取所述樹節(jié)點(diǎn)之間的節(jié)點(diǎn)依存關(guān)系;
32、根據(jù)所述樹節(jié)點(diǎn)及所述節(jié)點(diǎn)依存關(guān)系對(duì)預(yù)先構(gòu)建的初始矩陣進(jìn)行填充,得到所述文本語義依存矩陣。
33、在一些實(shí)施例,所述根據(jù)所述目標(biāo)文本構(gòu)建文本語義依存樹,包括:
34、對(duì)所述目標(biāo)文本進(jìn)行句法依存分析,得到文本句法依存樹;
35、對(duì)所述文本句法依存樹進(jìn)行非主干元素的剪枝,得到剪枝句法依存樹;
36、對(duì)所述剪枝句法依存樹進(jìn)行語義依存分析,得到關(guān)聯(lián)詞語語義;
37、根據(jù)所述關(guān)聯(lián)詞語語義對(duì)所述剪枝句法依存樹進(jìn)行重構(gòu),得到所述文本語義依存樹。
38、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第二方面提出了一種實(shí)體關(guān)系抽取裝置,所述裝置包括:
39、文本獲取模塊,用于獲取目標(biāo)文本;
40、語義依存矩陣構(gòu)建模塊,用于根據(jù)所述目標(biāo)文本構(gòu)建文本語義依存矩陣;
41、關(guān)系模型獲取模塊,用于獲取預(yù)訓(xùn)練的實(shí)體關(guān)系抽取模型;其中所述實(shí)體關(guān)系抽取模型包括自注意力網(wǎng)絡(luò)、語義融合網(wǎng)絡(luò)及實(shí)體關(guān)系抽取網(wǎng)絡(luò);
42、文本編碼模塊,用于利用所述自注意力網(wǎng)絡(luò)對(duì)所述目標(biāo)文本進(jìn)行編碼,得到目標(biāo)文本特征;
43、語義融合模塊,用于利用所述語義融合網(wǎng)絡(luò)將所述目標(biāo)文本特征與所述文本語義依存矩陣進(jìn)行融合,得到融合語義特征;
44、實(shí)體關(guān)系抽取模塊,用于利用所述實(shí)體關(guān)系抽取網(wǎng)絡(luò)對(duì)所述融合語義特征進(jìn)行實(shí)體關(guān)系抽取,得到目標(biāo)實(shí)體關(guān)系。
45、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
46、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
47、本技術(shù)提出的實(shí)體關(guān)系抽取方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其通過獲取目標(biāo)文本;根據(jù)目標(biāo)文本構(gòu)建文本語義依存矩陣;獲取預(yù)訓(xùn)練的實(shí)體關(guān)系抽取模型;其中實(shí)體關(guān)系抽取模型包括自注意力網(wǎng)絡(luò)、語義融合網(wǎng)絡(luò)及實(shí)體關(guān)系抽取網(wǎng)絡(luò);利用自注意力網(wǎng)絡(luò)對(duì)目標(biāo)文本進(jìn)行編碼,得到目標(biāo)文本特征;利用語義融合網(wǎng)絡(luò)將目標(biāo)文本特征與文本語義依存矩陣進(jìn)行融合,得到融合語義特征;利用實(shí)體關(guān)系抽取網(wǎng)絡(luò)對(duì)融合語義特征進(jìn)行實(shí)體關(guān)系抽取,得到目標(biāo)實(shí)體關(guān)系。本技術(shù)首先對(duì)目標(biāo)文本進(jìn)行編碼,能夠捕捉文本中的關(guān)鍵信息;其次,將目標(biāo)文本特征與文本語義依存矩陣進(jìn)行融合,能夠通過模型實(shí)現(xiàn)語義與文本特征的深度融合,增強(qiáng)模型捕捉文本數(shù)據(jù)的深層語義關(guān)系的能力,從而提高了模型對(duì)實(shí)體間復(fù)雜關(guān)系的識(shí)別能力,便于后續(xù)提高實(shí)體關(guān)系抽取的準(zhǔn)確率;最后,利用實(shí)體關(guān)系抽取網(wǎng)絡(luò)對(duì)融合語義特征進(jìn)行實(shí)體關(guān)系抽取,能夠準(zhǔn)確地定位文本中的實(shí)體邊界,還能夠?qū)崿F(xiàn)同時(shí)抽取實(shí)體之間的關(guān)系,提高了實(shí)體關(guān)系抽取的準(zhǔn)確率。