本發(fā)明涉及大語言模型領域,特別是涉及一種適用于電力領域的復合實體關系抽取方法。
背景技術:
1、在人工智能和自然語言處理領域,大語言模型已經(jīng)成為一種革命性的技術,它們通過學習海量文本數(shù)據(jù),能夠理解和生成人類語言,為各種應用提供支持。同時,大語言模型也已經(jīng)在語言理解、文本生成、信息抽取等多個任務上展現(xiàn)出了卓越的性能。wan等人提出的gpt-re方法通過上下文學習的方式有效提升了通用領域關系三元組抽取,wang等人開發(fā)的基于指令微調(diào)的全面信息抽取框架instructuie也開創(chuàng)了大語言模型通用信息抽取的先河。
2、例如中國專利文獻中,公開號為cn118093820a,公開日為2024年5月28日,名稱為一種基于場景感知的大模型少樣本上下文學習驅動的知識查詢語句智能生成方法和系統(tǒng),通過利用大型語言模型的上下文學習能力,實現(xiàn)在少量示例的基礎上進行高效的知識查詢語句生成。
3、盡管上述現(xiàn)有技術具有廣泛的知識基礎和強大的學習能力,它們在電力領域這樣的高專業(yè)性技術領域內(nèi),仍面臨著理解深度和精確度不足的挑戰(zhàn)。電力領域涉及復雜的技術術語、專業(yè)知識和嚴格的操作流程,通用模型難以準確把握這些專業(yè)內(nèi)容,也難以在電力三元組抽取上展現(xiàn)良好的效果。
技術實現(xiàn)思路
1、為解決上述現(xiàn)有技術的不足,本發(fā)明提供了一種適用于電力領域的復合實體關系抽取方法,提升電力領域大語言模型的三元組抽取效果,本發(fā)明在電力領域三元組抽取任務中,抽取實體與關系準確率與效率平均提升了約56%,最高從10.57%提升到了70.95%。
2、本發(fā)明通過如下技術方案實現(xiàn):
3、一種適用于電力領域的復合實體關系抽取方法,其特征在于:包括如下步驟:
4、s1.將來源于電力行業(yè)內(nèi)部實體關系標注數(shù)據(jù)集npickg中的數(shù)據(jù)進行清洗和轉化,得到適用于大語言模型微調(diào)的npickg指令數(shù)據(jù)集;
5、s2.基于s1步驟中的npickg指令數(shù)據(jù)集,通過低秩適應的peft方法對大語言模型進行微調(diào),以增強大語言模型在電力領域的信息抽取和自然語言理解能力;
6、s3.微調(diào)后的大語言模型采用基于上下文學習的實體與關系抽取增強方法,通過增強序列標注式命名實體識別模塊,將用戶的問題作為輸入文本,執(zhí)行序列標注形式的命名實體識別任務,隨后利用序列標注形式的命名實體,通過適應性關系映射模塊執(zhí)行選擇題形式的關系三元組抽取任務,得到由實體、實體類型、關系組成的候選三元組集合。
7、進一步的,所述s1步驟的具體步驟為,針對npickg數(shù)據(jù)集每一條數(shù)據(jù),通過代碼轉換并構建了一系列指令數(shù)據(jù),該系列指令數(shù)據(jù)中每條指令數(shù)據(jù)均分為指令部分和輸出部分,其中指令部分包括任務描述、模式和輸入三個字段。
8、進一步的,指令部分中的模式字段詳細規(guī)定了需要抽取的spo三元組的類型,每個spo三元組由頭實體類型、關系以及尾實體類型三部分構成;
9、指令部分中的任務描述字段提供了具體的指令,明確指導大語言模型需要完成的任務,即指示大語言模型從給定的輸入文本中提取出與預定義的模式相匹配的spo三元組;對于未在模式中定義的類型,大語言模型應當返回一個空列表,并確保其回答符合json字符串的格式要求;
10、指令部分中的輸入字段是大語言模型接收到的輸入文本,大語言模型需要根據(jù)上述的任務描述和模式對輸入文本進行分析和處理;
11、所述輸出部分是大語言模型在處理完給定的輸入文本后生成的輸出,包含了從輸入字段給出的文本中抽取出的具體spo三元組信息。
12、進一步的,所述模式中每個json字符串中最多包含5種類型的spo三元組。
13、進一步的,所述s2步驟中微調(diào)的具體步驟為,
14、s2.1、將大語言模型的原始權重矩陣w分解為兩個低秩矩陣a和b,即w=ab,其中低秩矩陣a和低秩矩陣b的秩遠小于原始權重矩陣w的秩;
15、s2.2、在微調(diào)過程中僅訓練低秩矩陣a和低秩矩陣b的參數(shù),通過ab的乘積替代原始權重矩陣w,保持原始權重矩陣不變,實現(xiàn)對大語言模型的微調(diào)。
16、進一步的,所述s3步驟中,增強序列標注式實體識別模塊執(zhí)行序列標注形式的命名實體識別任務具體步驟為,首先構造提示prompt(*),面對任意指定的輸入文本i,形成一個專門針對i設計的提示指令,標記為prompt(i);接著,將這個提示指令作為輸入提交給大語言模型,以產(chǎn)生一連串的文字序列v={v1,…,vn};最后,將這個文字序列v映射成一系列的實體識別標簽,得到最終輸出o。
17、進一步的,所述prompt(i)的設計可進一步分解為三個組成部分:
18、任務,任務的第一部分是一個固定不變的句子,對大語言模型設定角色并表明任務;任務的第二部分是一個可變句子,任務是在輸入文本i中標記實體類型為[實體類型]的所有實體,以指示大語言模型要提取的實體類型,[實體類型]是一個可變的參數(shù),代表了任務要提取的具體實體類型;任務的第三部分是一個固定不變的句子,即請使用雙括號在輸入文本i上標記出識別到的實體,如未識別到則輸出原輸入文本i;
19、示例,示例是一個可變的段落,由一個正例文本對和反例文本對組成,通過加入少量示例以進行大語言模型的上下文學習有效指導大語言模型預期的輸出格式;
20、輸入,輸入是一個可變段落,表示需要進行命名實體識別的文本,即輸入文本i。
21、進一步的,對于每種實體類型,從npickg數(shù)據(jù)集中篩選出一條含有該實體類型的文本條目作為輸入,并按照雙括號標注實體的格式調(diào)整其輸出,這樣的輸入與輸出對作為正例文本對;對于每一種實體類型,從npickg數(shù)據(jù)集中選取不含有該實體類型的文本作為輸入,并將相同的文本復制作為輸出,這樣的輸入與輸出對形成反例文本對。
22、進一步的,所述s3步驟中,適應性關系映射模塊通過設計關系映射模版將關系轉變?yōu)檫壿嬃鲿车淖匀徽Z言表示,將經(jīng)過關系映射模版轉換后的關系與最終輸出o結合構建一套多項選擇題,將生成的多選選擇題交由大語言模型進行處理,將大語言模型選擇的正確選項映射回具體的三元組,得到實體、實體類型、關系組成的候選三元組集合,完成三元組抽選任務。
23、本發(fā)明的有益效果如下:
24、通過構建電力領域三元組抽取指令數(shù)據(jù)集,lora微調(diào)基座大語言模型并提升其電力領域的三元組抽取能力,并在此基礎上加入基于上下文學習的實體與關系抽取增強方法,再次提升電力領域大語言模型的三元組抽取效果。結果表明,實用本發(fā)明增強后的大語言模型在電力領域三元組抽取任務中,抽取實體與關系準確率以及效率平均提升了約56%,最高從10.57%提升到了70.95%。
1.一種適用于電力領域的復合實體關系抽取方法,其特征在于:包括如下步驟:
2.如權利要求1所述的一種適用于電力領域的復合實體關系抽取方法,其特征在于:所述s1步驟的具體步驟為,針對npickg數(shù)據(jù)集每一條數(shù)據(jù),通過代碼轉換并構建了一系列指令數(shù)據(jù),該系列指令數(shù)據(jù)中每條指令數(shù)據(jù)均分為指令部分和輸出部分,其中指令部分包括任務描述、模式和輸入三個字段。
3.如權利要求2所述的一種適用于電力領域的復合實體關系抽取方法,其特征在于:
4.如權利要求3所述的一種適用于電力領域的復合實體關系抽取方法,其特征在于:所述模式中每個json字符串中最多包含5種類型的spo三元組。
5.如權利要求1所述的一種適用于電力領域的復合實體關系抽取方法,其特征在于:所述s2步驟中微調(diào)的具體步驟為,
6.如權利要求1所述的一種適用于電力領域的復合實體關系抽取方法,其特征在于:所述s3步驟中,增強序列標注式實體識別模塊執(zhí)行序列標注形式的命名實體識別任務具體步驟為,首先構造提示prompt(*),面對任意指定的輸入文本i,形成一個專門針對i設計的提示指令,標記為prompt(i);接著,將這個提示指令作為輸入提交給大語言模型,以產(chǎn)生一連串的文字序列v={v1,…,vn};最后,將這個文字序列v映射成一系列的實體識別標簽,得到最終輸出o。
7.如權利要求6所述的一種適用于電力領域的復合實體關系抽取方法,其特征在于:所述prompt(i)的設計可進一步分解為三個組成部分:
8.如權利要求7所述的一種適用于電力領域的復合實體關系抽取方法,其特征在于:對于每種實體類型,從npickg數(shù)據(jù)集中篩選出一條含有該實體類型的文本條目作為輸入,并按照雙括號標注實體的格式調(diào)整其輸出,這樣的輸入與輸出對作為正例文本對;對于每一種實體類型,從npickg數(shù)據(jù)集中選取不含有該實體類型的文本作為輸入,并將相同的文本復制作為輸出,這樣的輸入與輸出對形成反例文本對。
9.如權利要求6所述的一種適用于電力領域的復合實體關系抽取方法,其特征在于:所述s3步驟中,適應性關系映射模塊通過設計關系映射模版將關系轉變?yōu)檫壿嬃鲿车淖匀徽Z言表示,將經(jīng)過關系映射模版轉換后的關系與最終輸出o結合構建一套多項選擇題,將生成的多選選擇題交由大語言模型進行處理,將大語言模型選擇的正確選項映射回具體的三元組,得到實體、實體類型、關系組成的候選三元組集合,完成三元組抽選任務。