两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文本標(biāo)注方法、裝置及存儲介質(zhì)與流程

文檔序號:40634770發(fā)布日期:2025-01-10 18:40閱讀:5來源:國知局
文本標(biāo)注方法、裝置及存儲介質(zhì)與流程

本技術(shù)涉及計(jì)算機(jī),尤其涉及一種文本標(biāo)注方法、裝置及存儲介質(zhì)。


背景技術(shù):

1、在對文本數(shù)據(jù)處理時(shí),需要將半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),其中對文本數(shù)據(jù)的標(biāo)注是結(jié)構(gòu)化處理的基礎(chǔ)。

2、目前,現(xiàn)有對文本數(shù)據(jù)的標(biāo)注方案,通常是采用深度學(xué)習(xí)方式,即采用單一的語言模型進(jìn)行自動(dòng)標(biāo)注。

3、然而,僅采用單一的語言模型進(jìn)行標(biāo)注,會導(dǎo)致標(biāo)注結(jié)果的可靠性較低。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供文本標(biāo)注方法、裝置及存儲介質(zhì),用以解決現(xiàn)有方案在對文本數(shù)據(jù)的標(biāo)注時(shí),僅采用單一的語言模型進(jìn)行自動(dòng)標(biāo)注,使得標(biāo)注結(jié)果的可靠性較低的缺陷。

2、第一方面,本技術(shù)實(shí)施例提供一種文本標(biāo)注方法,包括:

3、獲取目標(biāo)數(shù)據(jù)集;

4、通過聚類算法對所述目標(biāo)數(shù)據(jù)集中各條文本數(shù)據(jù)進(jìn)行分類,以得到精標(biāo)數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集;

5、根據(jù)所述精標(biāo)數(shù)據(jù)集獲取專家知識集和對比數(shù)據(jù)集,其中所述專家知識集為隨機(jī)獲取的標(biāo)注數(shù)據(jù)組,所述對比數(shù)據(jù)集為刪除標(biāo)注的數(shù)據(jù)組;

6、創(chuàng)建初始提示模板,將所述對比數(shù)據(jù)集按照所述初始提示模板指引的數(shù)據(jù)格式輸入至大型語言模型,以輸出粗標(biāo)注數(shù)據(jù)組;

7、根據(jù)所述粗標(biāo)注數(shù)據(jù)組和所述專家知識集獲取對齊程度值,并基于所述對齊程度值,迭代更新所述初始提示模板,以獲取目標(biāo)提示模板;

8、將所述未標(biāo)注數(shù)據(jù)集分別輸入至小型語言模型,以及按照所述目標(biāo)提示模板輸入至大型語言模型,以獲取所述小型語言模型輸出的第一標(biāo)注結(jié)果和所述大型語言模型輸出的第二標(biāo)注結(jié)果;

9、根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失,若所述蒸餾損失小于損失閾值時(shí),將所述第一標(biāo)注結(jié)果確定為文本標(biāo)注結(jié)果。

10、在一種可能的實(shí)施方式中,所述初始提示模板指引的數(shù)據(jù)格式包括評價(jià)對象和情感極性;

11、所述評價(jià)對象為文本數(shù)據(jù)中的識別目標(biāo),所述情感極性為文本數(shù)據(jù)中提取的所述識別目標(biāo)的正向評價(jià)或者負(fù)向評價(jià)。

12、在一種可能的實(shí)施方式中,所述根據(jù)所述粗標(biāo)注數(shù)據(jù)組和所述專家知識集獲取對齊程度值,包括:

13、基于所述專家知識集,在所述粗標(biāo)注數(shù)據(jù)組中獲取真正例數(shù)量、假正例數(shù)量和假負(fù)例數(shù)量;其中所述真正例數(shù)量為大型語言模型輸出為正向評價(jià),并且所述專家知識集中對應(yīng)文本標(biāo)注也為正向評價(jià)的文本數(shù)據(jù)數(shù)量;所述假正例數(shù)量為大型語言模型輸出為正向評價(jià),而所述專家知識集中對應(yīng)文本標(biāo)注為負(fù)向評價(jià)的文本數(shù)據(jù)數(shù)量;所述假負(fù)例數(shù)量為大型語言模型輸出為負(fù)向評價(jià),而所述專家知識集中對應(yīng)文本標(biāo)注為正向評價(jià)的文本數(shù)據(jù)數(shù)量;

14、根據(jù)所述真正例數(shù)量和假正例數(shù)量獲取精確率,根據(jù)所述真正例數(shù)量和假負(fù)例數(shù)量獲取召回率;

15、根據(jù)所述精確率和所述召回率獲取所述對齊程度值。

16、在一種可能的實(shí)施方式中,所述根據(jù)所述精確率和所述召回率獲取所述對齊程度值,包括:

17、確定所述精確率、所述召回率和預(yù)設(shè)值的乘積;

18、確定所述精確率與所述召回率的和值;

19、將所述乘積與所述和值的商值,確定為所述對齊程度值。

20、在一種可能的實(shí)施方式中,所述基于所述對齊程度值,迭代更新所述初始提示模板,以獲取目標(biāo)提示模板,包括:

21、檢測所述對齊程度值是否小于所述對齊閾值;

22、若是,將所述初始提示模板作為所述目標(biāo)提示模板;

23、若否,增加所述初始提示模板中的評價(jià)對象的數(shù)量,以及情感極性的數(shù)量,以更新所述初始提示模板;

24、基于更新后的所述初始提示模板獲取新的對齊程度值,直至所述新的對齊程度值小于所述對齊閾值時(shí),將更新后的提示模板作為所述目標(biāo)提示模板。

25、在一種可能的實(shí)施方式中,所述根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失,包括:

26、獲取初始溫度縮放常數(shù),基于所述初始溫度縮放常數(shù),對所述第二標(biāo)注結(jié)果進(jìn)行溫度縮放,以獲取軟標(biāo)注結(jié)果;

27、獲取所述軟標(biāo)注結(jié)果與所述第一標(biāo)注結(jié)果的信息散度,確定為粗標(biāo)注損失;

28、獲取所述第一標(biāo)注結(jié)果與所述精標(biāo)數(shù)據(jù)集中專家標(biāo)注結(jié)果的交叉熵?fù)p失,確定為專家標(biāo)注結(jié)果損失;

29、根據(jù)所述粗標(biāo)注損失和所述專家標(biāo)注結(jié)果損失獲取所述蒸餾損失。

30、在一種可能的實(shí)施方式中,所述根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失后,還包括:

31、若所述蒸餾損失大于或者等于所述損失閾值時(shí),獲取新的溫度縮放常數(shù),所述新的溫度縮放常數(shù)大于初始溫度縮放常數(shù);

32、將所述第一標(biāo)注結(jié)果作為新的精標(biāo)數(shù)據(jù)集,基于所述新的精標(biāo)數(shù)據(jù)集獲取新的第二標(biāo)注結(jié)果;

33、將所述新的第二標(biāo)注結(jié)果輸入至小型語言模型,以獲取新的第一標(biāo)注結(jié)果;

34、基于所述新的溫度縮放常數(shù),根據(jù)所述新的第一標(biāo)注結(jié)果和新的第二標(biāo)注結(jié)果獲取新的蒸餾損失,如此循環(huán),直至所述新的蒸餾損失小于損失閾值時(shí),將新的第一標(biāo)注結(jié)果確定為所述文本標(biāo)注結(jié)果。

35、第二方面,本技術(shù)實(shí)施例提供一種文本標(biāo)注裝置,包括:

36、獲取模塊,用于獲取目標(biāo)數(shù)據(jù)集,通過聚類算法對所述目標(biāo)數(shù)據(jù)集中各條文本數(shù)據(jù)進(jìn)行分類,以得到精標(biāo)數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,根據(jù)所述精標(biāo)數(shù)據(jù)集獲取專家知識集和對比數(shù)據(jù)集,其中所述專家知識集為隨機(jī)獲取的標(biāo)注數(shù)據(jù)組,所述對比數(shù)據(jù)集為刪除標(biāo)注的數(shù)據(jù)組;

37、處理模塊,用于創(chuàng)建初始提示模板,將所述對比數(shù)據(jù)集按照所述初始提示模板指引的數(shù)據(jù)格式輸入至大型語言模型,以輸出粗標(biāo)注數(shù)據(jù)組,根據(jù)所述粗標(biāo)注數(shù)據(jù)組和所述專家知識集獲取對齊程度值,并基于所述對齊程度值,迭代更新所述初始提示模板,以獲取目標(biāo)提示模板;

38、控制模塊,用于將所述未標(biāo)注數(shù)據(jù)集分別輸入至小型語言模型,以及按照所述目標(biāo)提示模板輸入至大型語言模型,以獲取所述小型語言模型輸出的第一標(biāo)注結(jié)果和所述大型語言模型輸出的第二標(biāo)注結(jié)果,根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失,若所述蒸餾損失小于損失閾值時(shí),將所述第一標(biāo)注結(jié)果確定為文本標(biāo)注結(jié)果。

39、第三方面,本技術(shù)實(shí)施例提供一種電子設(shè)備,包括:存儲器,處理器;

40、所述存儲器存儲計(jì)算機(jī)執(zhí)行指令;

41、所述處理器執(zhí)行所述存儲器存儲的計(jì)算機(jī)執(zhí)行指令,使得所述處理器執(zhí)行如上第一方面和/或第一方面各種可能的實(shí)施方式。

42、第四方面,本技術(shù)實(shí)施例提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)中存儲有計(jì)算機(jī)執(zhí)行指令,所述計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時(shí)用于實(shí)現(xiàn)如上第一方面和/或第一方面各種可能的實(shí)施方式。

43、本技術(shù)提供的文本標(biāo)注方法、裝置及存儲介質(zhì),通過創(chuàng)建的提示模板引導(dǎo)大型語言模型輸出,并基于提示模板,將大型語言模型輸出的粗標(biāo)注結(jié)果和小型語言模型的標(biāo)注結(jié)果進(jìn)行知識蒸餾,獲取對應(yīng)的蒸餾損失,并根據(jù)蒸餾損失對提示模板和小型語言模型進(jìn)行迭代更新,使得更新后小型語言模型輸出的標(biāo)注結(jié)果更加準(zhǔn)確可靠,并且減少了標(biāo)注過程中人力成本的同時(shí)提高了標(biāo)注效率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
安陆市| 花莲县| 临安市| 浦县| 买车| 定边县| 大悟县| 北辰区| 安达市| 安吉县| 儋州市| 普兰县| 雷州市| 礼泉县| 莲花县| 措美县| 弋阳县| 青铜峡市| 咸宁市| 锦屏县| 邵东县| 盘锦市| 德昌县| 新乐市| 扶风县| 大宁县| 布尔津县| 卢龙县| 贞丰县| 赣州市| 南丰县| 昌黎县| 晴隆县| 古丈县| 西华县| 边坝县| 孝义市| 高碑店市| 两当县| 磐安县| 长寿区|