两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于信息多步融合和邊界對齊的古漢語實體關系抽取方法

文檔序號:40256995發(fā)布日期:2024-12-11 12:48閱讀:13來源:國知局
基于信息多步融合和邊界對齊的古漢語實體關系抽取方法

本發(fā)明涉及古漢語實體關系抽取,具體為基于信息多步融合和邊界對齊的古漢語實體關系抽取方法。


背景技術:

1、實體關系抽取是自然語言處理知識圖譜構建的一項重要任務,旨在識別出非結構化文本中存在的實體及實體間的關系,通常以實體關系三元組的形式進行表示:<主實體,關系,客實體>。隨著深度學習的快速發(fā)展和信息抽取相關研究的興起,研究者們對實體關系抽取及相關問題的研究不斷深入,取得了很多不錯的研究成果。目前實體關系抽取工作主要聚焦于英文和現(xiàn)代漢語領域,在古漢語領域的研究較少,一個重要原因在于當前古漢語實體關系抽取任務數(shù)據(jù)集較少。近年來,文化產(chǎn)業(yè)的興起,研究者們把更多目光放在古代知識圖譜構建任務的研究上。古漢語中存在的實體及實體間的關系作為古漢語文化知識表示的核心,抽取實體關系的準確度對古漢語文化相關的知識圖譜構建起著重要的作用;能夠直接影響知識圖譜的質(zhì)量。

2、古漢語有著多以單字表意且存在大量省略的特殊語言性,且不同時期的古漢語文本行文特點通常不一致。與現(xiàn)代漢語相比,其在語言結構、詞匯等方面有著較大的區(qū)別。相同字符數(shù)的古漢語比現(xiàn)代漢語蘊含更多的語義信息,且存在的實體個數(shù)、關系數(shù)量通常是現(xiàn)代漢語的幾倍,其中實體關系信息常蘊含于單個關系觸發(fā)詞中。例如,“龐同善、高侃尚在新城,泉男建遣兵襲其營,左武衛(wèi)將軍薛仁貴擊破之?!?,該句子中含有6個實體、三類實體關系,多達6個實體關系三元組,其中利于模型識別所屬關系類型的語義信息蘊含于“在”、“襲”等關系觸發(fā)詞中,且存在較多嵌套實體的情況。因此,如何從古漢語文本中自動地、準確地、聯(lián)合抽取實體及其關系是一個難題。

3、現(xiàn)有傳統(tǒng)的實體關系抽取方法,如pipline(管道式)抽取方法通常將實體關系三元組抽取分為實體抽取、關系識別兩個步驟,存在誤差傳播問題;即當實體識別錯誤時,實體間存在的關系也將抽取錯誤或認為不存在,最終導致實體關系三元組抽取錯誤或缺失。近些年的實體關系抽取方法大多采用聯(lián)合式抽取,即統(tǒng)一建模實體識別和關系抽取子任務,有效解決了誤差傳播問題。而相較于現(xiàn)代漢語,古漢語文本中蘊含的語義信息和結構信息更少,且存在大量長跨度實體,這給古漢語實體關系抽取帶來實體邊界難識別、關系抽取困難以及實體對和關系難匹配問題。

4、針對古漢語領域,現(xiàn)有的一些實體關系抽取方法對古漢語知識語義理解有限,導致句子中的潛在關系難以抽取,且通過引入外部知識來挖掘句子深層實體關系信息的工作較少,采用交叉式融合關系語義信息來緩解實體關系抽取準確率低問題的工作更是幾乎沒有。現(xiàn)有一些命名實體工作雖然考慮將通過大語言模型翻譯得到的現(xiàn)代英文,來作為外部知識引入專有模型,并且一定程度上能幫助性能的提升,但目前大模型對古漢語的翻譯效果并不能完全達到人工的程度,仍舊不能更好解決古漢語實體關系抽取中存在關系語義信息匱乏的問題。


技術實現(xiàn)思路

1、針對現(xiàn)有技術的不足,本發(fā)明提供了基于信息多步融合和邊界對齊的古漢語實體關系抽取方法,其目的在于從一個全新的視角將古漢語實體識別和關系抽取統(tǒng)一為實體關系聯(lián)合抽取任務,避免使用流水式方法帶來誤差傳播問題,實現(xiàn)了命名實體識別及實體對間關系抽取的一次完成,同時緩解了古漢語關系語義信息不足和實體及關系匹配較難的問題。

2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:基于信息多步融合和邊界對齊的古漢語實體關系抽取方法,包括如下步驟:

3、步驟s1:構建古漢語實體關系數(shù)據(jù)集,古漢語實體關系數(shù)據(jù)集包括若干條古漢語文本;

4、步驟s2:對古漢語實體關系數(shù)據(jù)集進行定義,設定包含條古漢語文本的古漢語實體關系數(shù)據(jù)集為,為中第條古漢語文本;古漢語文本為,為中的第個字;預定義的關系集合為,包含個關系類別,為中第類關系;從古漢語文本中抽取實體和關系并通過三元組的格式輸出,實體包括主實體和客實體,三元組表示為,表示中主實體的跨度,表示y中客實體的跨度,表示中主實體和客實體之間的關系;

5、步驟s3:構建古漢語實體關系抽取模型,所述古漢語實體關系抽取模型由特征編碼器、融合器、實體抽取器、實體關系三元組抽取器、實體邊界對齊模塊組成;特征編碼器包括文本特征編碼器和關系特征編碼器;融合器由相互交互的文本關系信息融合器和關系文本信息融合器組成,文本關系信息融合器和關系文本信息融合器均由信息交互模塊、殘差模塊、信息拼接模塊組成;實體抽取器包括實體邊界鏈接標簽預測模塊、標簽解碼模塊;實體關系三元組抽取器包括實體關系鏈接標簽預測模塊、標簽解碼模塊;

6、步驟s4:將古漢語文本和由關系進行拼接構成的關系句子分別作為文本特征編碼器和關系特征編碼器的輸入,得到古漢語文本的字嵌入特征向量和關系句子的字嵌入特征向量;文本特征編碼器和關系特征編碼器均由預訓練好的bert模型構成;

7、步驟s5:將古漢語文本的字嵌入特征向量作為主體信息,關系句子的字嵌入特征向量作為輔助信息輸入文本關系信息融合器中,得到文本特征表示;將關系句子的字嵌入特征向量作為主體信息,古漢語文本的字嵌入特征向量作為輔助信息輸入關系文本信息融合器中,得到關系特征表示;

8、步驟s6:將文本特征表示中的不同字嵌入特征向量進行拼接,得到文本特征拼接表示,將文本特征表示和關系特征表示進行拼接,得到關系特征拼接表示;

9、步驟s7:將文本特征拼接表示輸入實體抽取器中,得到預測實體邊界鏈接標簽,并基于預測實體邊界鏈接標簽對文本特征拼接表示進行解碼得到實體頭詞和尾詞的位置,對實體頭詞和尾詞進行拼接,構成古漢語實體集合,再通過交叉熵損失函數(shù)計算實體邊界損失,優(yōu)化更新特征編碼器和實體抽取器的模型參數(shù);

10、步驟s8:將關系特征拼接表示輸入實體關系三元組抽取器,得到初始三元組,再通過交叉熵損失函數(shù)計算初始三元組損失,優(yōu)化更新特征編碼器和實體關系三元組抽取器的模型參數(shù);

11、步驟s9:將預測實體邊界鏈接標簽和初始三元組輸入實體邊界對齊模塊中,基于古漢語實體集合對預測實體邊界鏈接標簽和初始三元組進行對齊,選出最終實體關系三元組。

12、進一步的,步驟s5的具體過程為:

13、步驟s5.1:將古漢語文本中第個字的字嵌入特征向量和關系句子中第類關系的字嵌入特征向量輸入至信息交互模塊中,,,利用多頭注意力對古漢語文本的字嵌入特征向量和關系句子的字嵌入特征向量進行交互融合;具體的:

14、將作為注意力機制中的查詢向量,將作為注意力機制中的鍵向量和值向量,來進行交叉注意力計算;將作為注意力機制中的查詢向量,將作為注意力機制中的鍵向量和值向量進行交叉注意力計算;交叉注意力計算過程表示為:

15、;

16、;

17、;

18、;

19、式中,、、分別表示交叉注意力計算時,查詢向量、鍵向量和值向量的投影參數(shù)矩陣;、、分別表示交叉注意力計算時,查詢向量、鍵向量和值向量的投影參數(shù)矩陣;為的第二維度大?。粸榈牡诙S度大?。粸榈霓D置;為的轉置;表示函數(shù);表示注意力機制;

20、步驟s5.2:將交叉注意力計算后的輸出作為殘差模塊的輸入,經(jīng)過殘差計算,得到文本特征表示和關系特征表示,表示為:

21、;

22、;

23、式中,表示歸一化操作。

24、進一步的,步驟s7的具體過程為:

25、步驟s7.1:將文本特征拼接表示輸入實體邊界鏈接標簽預測模塊,通過設置一個實體邊界鏈接矩陣來記錄古漢語文本中實體的頭詞和尾詞間的鏈接信息,即預測實體邊界鏈接標簽;

26、步驟s7.2:將預測實體邊界鏈接標簽輸入標簽解碼模塊,在標簽解碼模塊中按照第一預設規(guī)則進行解碼得到實體的頭詞和尾詞二元組;將實體的頭詞和尾詞二元組均與古漢語文本進行匹配,根據(jù)匹配結果將實體的頭詞和尾詞對應跨度的所有詞進行拼接,得到完整實體,將所有完整實體構成古漢語實體集合。

27、進一步的,步驟s7.1中,通過設置一個實體邊界鏈接矩陣來記錄古漢語文本中實體的頭詞和尾詞間的鏈接信息,即預測實體邊界鏈接標簽的具體過程為:

28、將實體邊界鏈接矩陣大小統(tǒng)一為,為古漢語文本的字數(shù),通過實體邊界鏈接評分函數(shù)的得分對實體邊界鏈接矩陣進行填充第一預測標簽,填充的第一預測標簽用于表示對應的詞是否為實體的頭詞或尾詞;當?shù)谝活A測標簽為“1”時,表示對應的詞是實體的頭詞或尾詞,當?shù)谝活A測標簽為“0”時,表示對應的詞不是實體的頭詞或尾詞;其中,實體邊界鏈接矩陣的行元素為實體的頭詞,實體邊界鏈接矩陣的列元素為實體的尾詞;

29、其中,實體邊界鏈接評分函數(shù)表示為:

30、;

31、式中,、、、為可訓練參數(shù)矩陣;為激活函數(shù);表示古漢語文本中可能成為某類實體的頭詞和尾詞的概率;表示古漢語文本中的第個字;表示古漢語文本中的第個字;表示實體類型集合中實體類型的序號;

32、通過參數(shù)矩陣,,為嵌入維度,表示實數(shù)域,自適應學習,最后通過激活函數(shù)計算第一預測標簽的分類情況:

33、;

34、式中,為激活函數(shù),為實體邊界鏈接矩陣中每個填充位置的第一預測標簽;當大于設定閾值時,則認為第i個詞是實體頭詞,第j個詞是實體尾詞。

35、進一步的,步驟s8的具體過程為:

36、步驟s8.1:將關系特征拼接表示輸入實體關系三元組抽取器中的實體關系鏈接標簽預測模塊,通過設置一個實體關系鏈接矩陣來記錄古漢語文本中實體和關系的鏈接信息,即預測實體關系鏈接標簽;

37、步驟s8.2:將預測實體關系鏈接標簽輸入標簽解碼模塊,在標簽解碼模塊中按照第二預設規(guī)則進行解碼,分別得到主實體頭詞和關系二元組、客實體頭詞和關系二元組、主實體頭詞和客實體頭詞二元組;

38、步驟s8.3:基于主實體頭詞和關系二元組、客實體頭詞和關系二元組、主實體頭詞和客實體頭詞二元組得到初始三元組。

39、進一步的,步驟s8.1中,通過設置一個實體關系鏈接矩陣來記錄古漢語文本中實體和關系的鏈接信息,即預測實體關系鏈接標簽的具體過程為:

40、設實體關系鏈接矩陣的維度大小為;實體關系鏈接矩陣包括主實體與客實體鏈接、主實體與關系鏈接以及客實體與關系鏈接三部分;通過實體關系鏈接評分函數(shù)的得分對實體關系鏈接矩陣進行填充第二預測標簽,第二預測標簽包括“1”和“0”兩種;

41、在主實體與客實體鏈接部分,第二預測標簽為“1”時,表示實體關系鏈接矩陣中填充位置對應的行元素和列元素是主實體頭詞和客實體頭詞二元組,第二預測標簽為“0”時,表示對應的行元素和列元素不是主實體頭詞和客實體頭詞二元組,其中,行元素和列元素均為古漢語文本;

42、在主實體與關系鏈接部分,第二預測標簽為“1”時,表示實體關系鏈接矩陣中填充位置對應的行元素和列元素是主實體頭詞和關系二元組,第二預測標簽為“0”時,表示對應的行元素和列元素不是主實體頭詞和關系二元組,其中,行元素為古漢語文本,列元素為預定義的關系;

43、在客實體與關系鏈接部分,第二預測標簽為“1”時,表示實體關系鏈接矩陣中填充位置對應的行元素和列元素是客實體頭詞和關系二元組,第二預測標簽為“0”時,表示對應的行元素和列元素不是客實體頭詞和關系二元組,其中,行元素為預定義的關系,列元素為古漢語文本;

44、其中,所述實體關系鏈接評分函數(shù),表示為:

45、;

46、式中,、、、為可訓練參數(shù);為激活函數(shù);表示實體關系鏈接矩陣中行的第個元素,表示實體關系鏈接矩陣中列的第個元素;

47、通過參數(shù)矩陣自適應學習;最后,通過激活函數(shù)計算對第二預測標簽的分類情況:

48、;

49、式中,為實體關系鏈接矩陣中填充的第二預測標簽;

50、當大于設定閾值時,對應的第二預測標簽為“1”,否則為“0”。

51、進一步的,基于主實體頭詞和關系二元組、客實體頭詞和關系二元組、主實體頭詞和客實體頭詞二元組得到初始三元組的具體過程為:基于分類結果,將主實體頭詞和關系二元組以及客實體頭詞和關系二元組中關系相同的組合合并為三元組即主實體頭詞,關系,客實體頭詞,并排除合并得到的全部三元組中不在主實體頭詞和客實體頭詞二元組中的三元組,得到初始三元組;

52、排除合并得到的全部三元組中不在主實體頭詞和客實體頭詞二元組中的三元組是指采用主實體頭詞和客實體頭詞二元組對三元組進行驗證,對比三元組中的主實體頭詞和客實體頭詞與主實體頭詞和客實體頭詞二元組中的主實體頭詞和客實體頭詞是否一致,不一致則將對應的三元組排除。

53、進一步的,第一預設規(guī)則為:獲取實體邊界鏈接矩陣中所有為“1”的第一預測標簽對應的行元素和列元素,形成實體的頭詞和尾詞二元組;

54、第二預設規(guī)則為:

55、獲取實體關系鏈接矩陣中所有為“1”的第二預測標簽對應的行元素和列元素組合,然后統(tǒng)計行元素和列元素組合在實體關系鏈接矩陣中所處位置的下標,并按照設定標準對獲取的行元素和列元素組合進行分類;

56、設定標準為:

57、當實體關系鏈接矩陣的行元素下標和列元素下標均小于或等于z,歸為主實體頭詞和客實體頭詞二元組;

58、當實體關系鏈接矩陣的行元素下標小于或等于z,列元素下標大于z時,歸為主實體頭詞和關系二元組;

59、當實體關系鏈接矩陣的行元素下標大于z,列元素下標小于或等于z時,歸為客實體頭詞和關系二元組。

60、進一步的,根據(jù)第一預測標簽的分類情況,將預測實體邊界鏈接標簽和真實實體邊界鏈接標簽輸入到交叉熵損失函數(shù),利用交叉熵損失函數(shù)對實體抽取器進行參數(shù)優(yōu)化更新,表示為:

61、;

62、式中,表示實體邊界損失;表示和相等的概率;

63、根據(jù)第二預測標簽分類概率,將預測實體關系鏈接標簽和真實實體關系鏈接標簽輸入到交叉熵損失函數(shù),利用交叉熵損失函數(shù)對實體關系三元組抽取器進行參數(shù)更新和優(yōu)化,表示為:

64、;

65、式中,表示初始三元組損失;表示和相等的概率;

66、其中,真實實體邊界鏈接標簽和真實實體關系鏈接標簽均從古漢語實體關系數(shù)據(jù)集中得到。

67、進一步的,步驟s9的具體過程為:利用預測實體邊界鏈接標簽中實體的頭詞與初始三元組中實體的頭詞進行匹配,當預測實體邊界鏈接標簽中實體的頭詞和初始三元組中實體的頭詞相同時,篩選出存在相同實體的頭詞的初始三元組,并將步驟s7.2中古漢語實體集合內(nèi)和預測實體邊界鏈接標簽中相對應的完整實體填充到篩選出來的初始三元組中的對應位置,得到最終實體關系三元組;

68、當預測實體邊界鏈接標簽中實體的頭詞和初始三元組中實體的頭詞不相同時,去除對應的初始三元組。

69、與現(xiàn)有的技術相比,本發(fā)明具備以下有益效果:

70、(1)本發(fā)明針對古漢語文本內(nèi)容普遍存在的省略書寫且單字表意的特點,設計實體抽取器,與實體關系三元組抽取任務進行聯(lián)合訓練,為文本嵌入特征融入關系語義信息的同時緩解了關系信息本身帶來的一些不利影響,提高了三元組抽取的準確性并保證實體跨度邊界識別精度有一定的提升。

71、(2)本發(fā)明是采用先將候選關系與古漢語文本進行拼接,形成新的文本,再通過編碼器提取文本的語義信息的“拼接關系和古漢語文本”方式,相較于現(xiàn)有技術將關系視為類別,僅通過分類器獲取關系的方式而言,本發(fā)明所采用的“拼接關系和古漢語文本”的方式是將古漢語文本和關系一起加入模型中進行訓練,使得模型更能從語義層面理解關系的語義,從而能增強了模型對關系的預測能力。

72、(3)本發(fā)明通過采用多頭交叉注意力的方式引入關系語義信息,使得模型在訓練時強化了輸入文本信息與關系語義信息的交互。同時,設計了基于矩陣的實體抽取器,通過實體邊界匹配驗證,加強了模型對長跨度實體的抽取能力。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
高安市| 新源县| 蚌埠市| 洪湖市| 福贡县| 莱芜市| 日照市| 定襄县| 汤阴县| 东至县| 南宫市| 田林县| 霍州市| 万年县| 洛南县| 韶山市| 三明市| 黔西县| 武宁县| 元朗区| 曲阳县| 儋州市| 新乐市| 桂林市| 格尔木市| 遂川县| 新营市| 铜鼓县| 松原市| 天门市| 阿拉善盟| 连江县| 宁波市| 新兴县| 凯里市| 彰化市| 青川县| 天柱县| 庐江县| 陇西县| 宁武县|