文本標(biāo)注方法、裝置及存儲介質(zhì)與流程

文檔序號：40634770發(fā)布日期：2025-01-10 18:40閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及計(jì)算機(jī)，尤其涉及一種文本標(biāo)注方法、裝置及存儲介質(zhì)。

背景技術(shù)：

1、在對文本數(shù)據(jù)處理時(shí)，需要將半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù)，其中對文本數(shù)據(jù)的標(biāo)注是結(jié)構(gòu)化處理的基礎(chǔ)。

2、目前，現(xiàn)有對文本數(shù)據(jù)的標(biāo)注方案，通常是采用深度學(xué)習(xí)方式，即采用單一的語言模型進(jìn)行自動(dòng)標(biāo)注。

3、然而，僅采用單一的語言模型進(jìn)行標(biāo)注，會導(dǎo)致標(biāo)注結(jié)果的可靠性較低。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供文本標(biāo)注方法、裝置及存儲介質(zhì)，用以解決現(xiàn)有方案在對文本數(shù)據(jù)的標(biāo)注時(shí)，僅采用單一的語言模型進(jìn)行自動(dòng)標(biāo)注，使得標(biāo)注結(jié)果的可靠性較低的缺陷。

2、第一方面，本技術(shù)實(shí)施例提供一種文本標(biāo)注方法，包括：

3、獲取目標(biāo)數(shù)據(jù)集；

4、通過聚類算法對所述目標(biāo)數(shù)據(jù)集中各條文本數(shù)據(jù)進(jìn)行分類，以得到精標(biāo)數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集；

5、根據(jù)所述精標(biāo)數(shù)據(jù)集獲取專家知識集和對比數(shù)據(jù)集，其中所述專家知識集為隨機(jī)獲取的標(biāo)注數(shù)據(jù)組，所述對比數(shù)據(jù)集為刪除標(biāo)注的數(shù)據(jù)組；

6、創(chuàng)建初始提示模板，將所述對比數(shù)據(jù)集按照所述初始提示模板指引的數(shù)據(jù)格式輸入至大型語言模型，以輸出粗標(biāo)注數(shù)據(jù)組；

7、根據(jù)所述粗標(biāo)注數(shù)據(jù)組和所述專家知識集獲取對齊程度值，并基于所述對齊程度值，迭代更新所述初始提示模板，以獲取目標(biāo)提示模板；

8、將所述未標(biāo)注數(shù)據(jù)集分別輸入至小型語言模型，以及按照所述目標(biāo)提示模板輸入至大型語言模型，以獲取所述小型語言模型輸出的第一標(biāo)注結(jié)果和所述大型語言模型輸出的第二標(biāo)注結(jié)果；

9、根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失，若所述蒸餾損失小于損失閾值時(shí)，將所述第一標(biāo)注結(jié)果確定為文本標(biāo)注結(jié)果。

10、在一種可能的實(shí)施方式中，所述初始提示模板指引的數(shù)據(jù)格式包括評價(jià)對象和情感極性；

11、所述評價(jià)對象為文本數(shù)據(jù)中的識別目標(biāo)，所述情感極性為文本數(shù)據(jù)中提取的所述識別目標(biāo)的正向評價(jià)或者負(fù)向評價(jià)。

12、在一種可能的實(shí)施方式中，所述根據(jù)所述粗標(biāo)注數(shù)據(jù)組和所述專家知識集獲取對齊程度值，包括：

13、基于所述專家知識集，在所述粗標(biāo)注數(shù)據(jù)組中獲取真正例數(shù)量、假正例數(shù)量和假負(fù)例數(shù)量；其中所述真正例數(shù)量為大型語言模型輸出為正向評價(jià)，并且所述專家知識集中對應(yīng)文本標(biāo)注也為正向評價(jià)的文本數(shù)據(jù)數(shù)量；所述假正例數(shù)量為大型語言模型輸出為正向評價(jià)，而所述專家知識集中對應(yīng)文本標(biāo)注為負(fù)向評價(jià)的文本數(shù)據(jù)數(shù)量；所述假負(fù)例數(shù)量為大型語言模型輸出為負(fù)向評價(jià)，而所述專家知識集中對應(yīng)文本標(biāo)注為正向評價(jià)的文本數(shù)據(jù)數(shù)量；

14、根據(jù)所述真正例數(shù)量和假正例數(shù)量獲取精確率，根據(jù)所述真正例數(shù)量和假負(fù)例數(shù)量獲取召回率；

15、根據(jù)所述精確率和所述召回率獲取所述對齊程度值。

16、在一種可能的實(shí)施方式中，所述根據(jù)所述精確率和所述召回率獲取所述對齊程度值，包括：

17、確定所述精確率、所述召回率和預(yù)設(shè)值的乘積；

18、確定所述精確率與所述召回率的和值；

19、將所述乘積與所述和值的商值，確定為所述對齊程度值。

20、在一種可能的實(shí)施方式中，所述基于所述對齊程度值，迭代更新所述初始提示模板，以獲取目標(biāo)提示模板，包括：

21、檢測所述對齊程度值是否小于所述對齊閾值；

22、若是，將所述初始提示模板作為所述目標(biāo)提示模板；

23、若否，增加所述初始提示模板中的評價(jià)對象的數(shù)量，以及情感極性的數(shù)量，以更新所述初始提示模板；

24、基于更新后的所述初始提示模板獲取新的對齊程度值，直至所述新的對齊程度值小于所述對齊閾值時(shí)，將更新后的提示模板作為所述目標(biāo)提示模板。

25、在一種可能的實(shí)施方式中，所述根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失，包括：

26、獲取初始溫度縮放常數(shù)，基于所述初始溫度縮放常數(shù)，對所述第二標(biāo)注結(jié)果進(jìn)行溫度縮放，以獲取軟標(biāo)注結(jié)果；

27、獲取所述軟標(biāo)注結(jié)果與所述第一標(biāo)注結(jié)果的信息散度，確定為粗標(biāo)注損失；

28、獲取所述第一標(biāo)注結(jié)果與所述精標(biāo)數(shù)據(jù)集中專家標(biāo)注結(jié)果的交叉熵?fù)p失，確定為專家標(biāo)注結(jié)果損失；

29、根據(jù)所述粗標(biāo)注損失和所述專家標(biāo)注結(jié)果損失獲取所述蒸餾損失。

30、在一種可能的實(shí)施方式中，所述根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失后，還包括：

31、若所述蒸餾損失大于或者等于所述損失閾值時(shí)，獲取新的溫度縮放常數(shù)，所述新的溫度縮放常數(shù)大于初始溫度縮放常數(shù)；

32、將所述第一標(biāo)注結(jié)果作為新的精標(biāo)數(shù)據(jù)集，基于所述新的精標(biāo)數(shù)據(jù)集獲取新的第二標(biāo)注結(jié)果；

33、將所述新的第二標(biāo)注結(jié)果輸入至小型語言模型，以獲取新的第一標(biāo)注結(jié)果；

34、基于所述新的溫度縮放常數(shù)，根據(jù)所述新的第一標(biāo)注結(jié)果和新的第二標(biāo)注結(jié)果獲取新的蒸餾損失，如此循環(huán)，直至所述新的蒸餾損失小于損失閾值時(shí)，將新的第一標(biāo)注結(jié)果確定為所述文本標(biāo)注結(jié)果。

35、第二方面，本技術(shù)實(shí)施例提供一種文本標(biāo)注裝置，包括：

36、獲取模塊，用于獲取目標(biāo)數(shù)據(jù)集，通過聚類算法對所述目標(biāo)數(shù)據(jù)集中各條文本數(shù)據(jù)進(jìn)行分類，以得到精標(biāo)數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集，根據(jù)所述精標(biāo)數(shù)據(jù)集獲取專家知識集和對比數(shù)據(jù)集，其中所述專家知識集為隨機(jī)獲取的標(biāo)注數(shù)據(jù)組，所述對比數(shù)據(jù)集為刪除標(biāo)注的數(shù)據(jù)組；

37、處理模塊，用于創(chuàng)建初始提示模板，將所述對比數(shù)據(jù)集按照所述初始提示模板指引的數(shù)據(jù)格式輸入至大型語言模型，以輸出粗標(biāo)注數(shù)據(jù)組，根據(jù)所述粗標(biāo)注數(shù)據(jù)組和所述專家知識集獲取對齊程度值，并基于所述對齊程度值，迭代更新所述初始提示模板，以獲取目標(biāo)提示模板；

38、控制模塊，用于將所述未標(biāo)注數(shù)據(jù)集分別輸入至小型語言模型，以及按照所述目標(biāo)提示模板輸入至大型語言模型，以獲取所述小型語言模型輸出的第一標(biāo)注結(jié)果和所述大型語言模型輸出的第二標(biāo)注結(jié)果，根據(jù)所述第一標(biāo)注結(jié)果和所述第二標(biāo)注結(jié)果獲取蒸餾損失，若所述蒸餾損失小于損失閾值時(shí)，將所述第一標(biāo)注結(jié)果確定為文本標(biāo)注結(jié)果。

39、第三方面，本技術(shù)實(shí)施例提供一種電子設(shè)備，包括：存儲器，處理器；

40、所述存儲器存儲計(jì)算機(jī)執(zhí)行指令；

41、所述處理器執(zhí)行所述存儲器存儲的計(jì)算機(jī)執(zhí)行指令，使得所述處理器執(zhí)行如上第一方面和/或第一方面各種可能的實(shí)施方式。

42、第四方面，本技術(shù)實(shí)施例提供一種計(jì)算機(jī)可讀存儲介質(zhì)，所述計(jì)算機(jī)可讀存儲介質(zhì)中存儲有計(jì)算機(jī)執(zhí)行指令，所述計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時(shí)用于實(shí)現(xiàn)如上第一方面和/或第一方面各種可能的實(shí)施方式。

43、本技術(shù)提供的文本標(biāo)注方法、裝置及存儲介質(zhì)，通過創(chuàng)建的提示模板引導(dǎo)大型語言模型輸出，并基于提示模板，將大型語言模型輸出的粗標(biāo)注結(jié)果和小型語言模型的標(biāo)注結(jié)果進(jìn)行知識蒸餾，獲取對應(yīng)的蒸餾損失，并根據(jù)蒸餾損失對提示模板和小型語言模型進(jìn)行迭代更新，使得更新后小型語言模型輸出的標(biāo)注結(jié)果更加準(zhǔn)確可靠，并且減少了標(biāo)注過程中人力成本的同時(shí)提高了標(biāo)注效率。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙慧婷,黃興如,李奕萱,閆龍,宋雨倫
技術(shù)所有人：中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司
我是此專利的發(fā)明人

上一篇：一種新型刷碗液的制備方法與流程
上一篇：一種建筑消防系統(tǒng)泵房水泵連接處支撐裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文本標(biāo)注方法、裝置及存儲介質(zhì)與流程

文本標(biāo)注方法、裝置及存儲介質(zhì)與流程