本技術(shù)涉及計(jì)算機(jī),尤其涉及一種文本標(biāo)注方法、裝置及存儲介質(zhì)。
背景技術(shù):
1、在對文本數(shù)據(jù)處理時(shí),需要將半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),其中對文本數(shù)據(jù)的標(biāo)注是結(jié)構(gòu)化處理的基礎(chǔ)。
2、目前,現(xiàn)有對文本數(shù)據(jù)的標(biāo)注方案,通常是采用深度學(xué)習(xí)方式,即采用單一的語言模型進(jìn)行自動(dòng)標(biāo)注。
3、然而,僅采用單一的語言模型進(jìn)行標(biāo)注,會導(dǎo)致標(biāo)注結(jié)果的可靠性較低。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供文本標(biāo)注方法、裝置及存儲介質(zhì),用以解決現(xiàn)有方案在對文本數(shù)據(jù)的標(biāo)注時(shí),僅采用單一的語言模型進(jìn)行自動(dòng)標(biāo)注,使得標(biāo)注結(jié)果的可靠性較低的缺陷。
2、第一方面,本技術(shù)實(shí)施例提供一種文本標(biāo)注方法,包括:
3、獲取目標(biāo)數(shù)據(jù)集;
4、通過聚類算法對所述目標(biāo)數(shù)據(jù)集中各條文本數(shù)據(jù)進(jìn)行分類,以得到精標(biāo)數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集;
5、根據(jù)所述精標(biāo)數(shù)據(jù)集獲取專家知識集和對比數(shù)據(jù)集,其中所述專家知識集為隨機(jī)獲取的標(biāo)注數(shù)據(jù)組,所述對比數(shù)據(jù)集為刪除標(biāo)注的數(shù)據(jù)組;
6、創(chuàng)建初始提示模板,將所述對比數(shù)據(jù)集按照所述初始提示模板指引的數(shù)據(jù)格式輸入至大型語言模型,以輸出粗標(biāo)注數(shù)據(jù)組;
7、根據(jù)所述粗標(biāo)注數(shù)據(jù)組和所述專家知識集獲取對齊程度值,并基于所述對齊程度值,迭代更新所述初始提示模板,以獲取目標(biāo)提示模板;
8、將所述未標(biāo)注數(shù)據(jù)集分別輸入至小型語言模型,以及按照所述目標(biāo)提示模板輸入至大型語言模型,以獲取所述小型語言模型輸出的第一標(biāo)注結(jié)果和所述大型語言模型輸出的第二標(biāo)注結(jié)果;
9、根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失,若所述蒸餾損失小于損失閾值時(shí),將所述第一標(biāo)注結(jié)果確定為文本標(biāo)注結(jié)果。
10、在一種可能的實(shí)施方式中,所述初始提示模板指引的數(shù)據(jù)格式包括評價(jià)對象和情感極性;
11、所述評價(jià)對象為文本數(shù)據(jù)中的識別目標(biāo),所述情感極性為文本數(shù)據(jù)中提取的所述識別目標(biāo)的正向評價(jià)或者負(fù)向評價(jià)。
12、在一種可能的實(shí)施方式中,所述根據(jù)所述粗標(biāo)注數(shù)據(jù)組和所述專家知識集獲取對齊程度值,包括:
13、基于所述專家知識集,在所述粗標(biāo)注數(shù)據(jù)組中獲取真正例數(shù)量、假正例數(shù)量和假負(fù)例數(shù)量;其中所述真正例數(shù)量為大型語言模型輸出為正向評價(jià),并且所述專家知識集中對應(yīng)文本標(biāo)注也為正向評價(jià)的文本數(shù)據(jù)數(shù)量;所述假正例數(shù)量為大型語言模型輸出為正向評價(jià),而所述專家知識集中對應(yīng)文本標(biāo)注為負(fù)向評價(jià)的文本數(shù)據(jù)數(shù)量;所述假負(fù)例數(shù)量為大型語言模型輸出為負(fù)向評價(jià),而所述專家知識集中對應(yīng)文本標(biāo)注為正向評價(jià)的文本數(shù)據(jù)數(shù)量;
14、根據(jù)所述真正例數(shù)量和假正例數(shù)量獲取精確率,根據(jù)所述真正例數(shù)量和假負(fù)例數(shù)量獲取召回率;
15、根據(jù)所述精確率和所述召回率獲取所述對齊程度值。
16、在一種可能的實(shí)施方式中,所述根據(jù)所述精確率和所述召回率獲取所述對齊程度值,包括:
17、確定所述精確率、所述召回率和預(yù)設(shè)值的乘積;
18、確定所述精確率與所述召回率的和值;
19、將所述乘積與所述和值的商值,確定為所述對齊程度值。
20、在一種可能的實(shí)施方式中,所述基于所述對齊程度值,迭代更新所述初始提示模板,以獲取目標(biāo)提示模板,包括:
21、檢測所述對齊程度值是否小于所述對齊閾值;
22、若是,將所述初始提示模板作為所述目標(biāo)提示模板;
23、若否,增加所述初始提示模板中的評價(jià)對象的數(shù)量,以及情感極性的數(shù)量,以更新所述初始提示模板;
24、基于更新后的所述初始提示模板獲取新的對齊程度值,直至所述新的對齊程度值小于所述對齊閾值時(shí),將更新后的提示模板作為所述目標(biāo)提示模板。
25、在一種可能的實(shí)施方式中,所述根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失,包括:
26、獲取初始溫度縮放常數(shù),基于所述初始溫度縮放常數(shù),對所述第二標(biāo)注結(jié)果進(jìn)行溫度縮放,以獲取軟標(biāo)注結(jié)果;
27、獲取所述軟標(biāo)注結(jié)果與所述第一標(biāo)注結(jié)果的信息散度,確定為粗標(biāo)注損失;
28、獲取所述第一標(biāo)注結(jié)果與所述精標(biāo)數(shù)據(jù)集中專家標(biāo)注結(jié)果的交叉熵?fù)p失,確定為專家標(biāo)注結(jié)果損失;
29、根據(jù)所述粗標(biāo)注損失和所述專家標(biāo)注結(jié)果損失獲取所述蒸餾損失。
30、在一種可能的實(shí)施方式中,所述根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失后,還包括:
31、若所述蒸餾損失大于或者等于所述損失閾值時(shí),獲取新的溫度縮放常數(shù),所述新的溫度縮放常數(shù)大于初始溫度縮放常數(shù);
32、將所述第一標(biāo)注結(jié)果作為新的精標(biāo)數(shù)據(jù)集,基于所述新的精標(biāo)數(shù)據(jù)集獲取新的第二標(biāo)注結(jié)果;
33、將所述新的第二標(biāo)注結(jié)果輸入至小型語言模型,以獲取新的第一標(biāo)注結(jié)果;
34、基于所述新的溫度縮放常數(shù),根據(jù)所述新的第一標(biāo)注結(jié)果和新的第二標(biāo)注結(jié)果獲取新的蒸餾損失,如此循環(huán),直至所述新的蒸餾損失小于損失閾值時(shí),將新的第一標(biāo)注結(jié)果確定為所述文本標(biāo)注結(jié)果。
35、第二方面,本技術(shù)實(shí)施例提供一種文本標(biāo)注裝置,包括:
36、獲取模塊,用于獲取目標(biāo)數(shù)據(jù)集,通過聚類算法對所述目標(biāo)數(shù)據(jù)集中各條文本數(shù)據(jù)進(jìn)行分類,以得到精標(biāo)數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,根據(jù)所述精標(biāo)數(shù)據(jù)集獲取專家知識集和對比數(shù)據(jù)集,其中所述專家知識集為隨機(jī)獲取的標(biāo)注數(shù)據(jù)組,所述對比數(shù)據(jù)集為刪除標(biāo)注的數(shù)據(jù)組;
37、處理模塊,用于創(chuàng)建初始提示模板,將所述對比數(shù)據(jù)集按照所述初始提示模板指引的數(shù)據(jù)格式輸入至大型語言模型,以輸出粗標(biāo)注數(shù)據(jù)組,根據(jù)所述粗標(biāo)注數(shù)據(jù)組和所述專家知識集獲取對齊程度值,并基于所述對齊程度值,迭代更新所述初始提示模板,以獲取目標(biāo)提示模板;
38、控制模塊,用于將所述未標(biāo)注數(shù)據(jù)集分別輸入至小型語言模型,以及按照所述目標(biāo)提示模板輸入至大型語言模型,以獲取所述小型語言模型輸出的第一標(biāo)注結(jié)果和所述大型語言模型輸出的第二標(biāo)注結(jié)果,根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失,若所述蒸餾損失小于損失閾值時(shí),將所述第一標(biāo)注結(jié)果確定為文本標(biāo)注結(jié)果。
39、第三方面,本技術(shù)實(shí)施例提供一種電子設(shè)備,包括:存儲器,處理器;
40、所述存儲器存儲計(jì)算機(jī)執(zhí)行指令;
41、所述處理器執(zhí)行所述存儲器存儲的計(jì)算機(jī)執(zhí)行指令,使得所述處理器執(zhí)行如上第一方面和/或第一方面各種可能的實(shí)施方式。
42、第四方面,本技術(shù)實(shí)施例提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)中存儲有計(jì)算機(jī)執(zhí)行指令,所述計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時(shí)用于實(shí)現(xiàn)如上第一方面和/或第一方面各種可能的實(shí)施方式。
43、本技術(shù)提供的文本標(biāo)注方法、裝置及存儲介質(zhì),通過創(chuàng)建的提示模板引導(dǎo)大型語言模型輸出,并基于提示模板,將大型語言模型輸出的粗標(biāo)注結(jié)果和小型語言模型的標(biāo)注結(jié)果進(jìn)行知識蒸餾,獲取對應(yīng)的蒸餾損失,并根據(jù)蒸餾損失對提示模板和小型語言模型進(jìn)行迭代更新,使得更新后小型語言模型輸出的標(biāo)注結(jié)果更加準(zhǔn)確可靠,并且減少了標(biāo)注過程中人力成本的同時(shí)提高了標(biāo)注效率。