本申請(qǐng)涉及人工智能,尤其涉及一種多角色模型自動(dòng)標(biāo)注方法、裝置、終端及介質(zhì)。
背景技術(shù):
1、近年來(lái),chatgpt等大型語(yǔ)言模型技術(shù)逐漸成熟,得益于大模型出色的自然語(yǔ)言生成能力,被用于各種領(lǐng)域任務(wù)當(dāng)中,如金融、法律等領(lǐng)域的數(shù)據(jù)生成任務(wù)中,同時(shí)利用大模型對(duì)數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注,有助于減少的人工和經(jīng)濟(jì)成本。但是在實(shí)際應(yīng)用場(chǎng)景中,面對(duì)具體特定領(lǐng)域,如教育領(lǐng)域時(shí),模型標(biāo)注的標(biāo)簽與標(biāo)準(zhǔn)的標(biāo)注標(biāo)簽存在較大的差異,自動(dòng)標(biāo)注準(zhǔn)確率低。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┝艘环N多角色模型自動(dòng)標(biāo)注方法、裝置、終端及介質(zhì),用于解決現(xiàn)有的大模型數(shù)據(jù)自動(dòng)標(biāo)注技術(shù)標(biāo)注準(zhǔn)確率低的技術(shù)問(wèn)題。
2、為解決上述技術(shù)問(wèn)題,本申請(qǐng)第一方面提供了一種多角色模型自動(dòng)標(biāo)注方法,包括:
3、獲取標(biāo)注樣本數(shù)據(jù),按照所述標(biāo)注樣本數(shù)據(jù)的標(biāo)注角色屬性,對(duì)所述標(biāo)注樣本數(shù)據(jù)進(jìn)行分類;
4、按照不同的標(biāo)注角色屬性,利用已分類的標(biāo)注樣本數(shù)據(jù)進(jìn)行模型訓(xùn)練,分別得到各個(gè)標(biāo)注角色屬性對(duì)應(yīng)的角色標(biāo)注子模型;
5、根據(jù)各個(gè)角色標(biāo)注子模型輸出的預(yù)測(cè)子標(biāo)簽概率分布,結(jié)合各個(gè)角色標(biāo)注子模型對(duì)應(yīng)的權(quán)重參數(shù),將各個(gè)預(yù)測(cè)子標(biāo)簽進(jìn)行整合,得到軟標(biāo)簽;
6、根據(jù)損失函數(shù),對(duì)各個(gè)角色標(biāo)注子模型進(jìn)行權(quán)重優(yōu)化,當(dāng)滿足預(yù)設(shè)的優(yōu)化條件,則通過(guò)所述各個(gè)角色標(biāo)注子模型整合得到多角色聯(lián)合標(biāo)注模型;
7、獲取待標(biāo)注數(shù)據(jù),將所述待標(biāo)注數(shù)據(jù)輸入到所述多角色聯(lián)合標(biāo)注模型,以通過(guò)所述多角色聯(lián)合標(biāo)注模型輸出對(duì)應(yīng)的多角色模型標(biāo)注數(shù)據(jù)。
8、優(yōu)選地,所述損失函數(shù)具體為:
9、
10、式中,為總損失值,為角色標(biāo)注子模型k輸出的預(yù)測(cè)子標(biāo)簽與標(biāo)準(zhǔn)子標(biāo)簽的角色標(biāo)注損失,為所述軟標(biāo)簽與各個(gè)預(yù)測(cè)子標(biāo)簽間的綜合標(biāo)注損失,為標(biāo)準(zhǔn)子標(biāo)簽,為第i個(gè)樣本經(jīng)過(guò)第k個(gè)角色標(biāo)注子模型輸出預(yù)測(cè)子標(biāo)簽的后驗(yàn)概率,為第i個(gè)樣本對(duì)應(yīng)的軟標(biāo)簽,為第i個(gè)樣本在第k個(gè)角色標(biāo)注子模型上的權(quán)重,n為標(biāo)注樣本數(shù)據(jù)的數(shù)量,m為標(biāo)準(zhǔn)子標(biāo)簽的數(shù)量,k為標(biāo)注角色種類的數(shù)量,為用于角色標(biāo)注損失和綜合標(biāo)注損失的超參數(shù)。
11、優(yōu)選地,所述軟標(biāo)簽的計(jì)算式具體為:
12、
13、式中,為第i個(gè)樣本對(duì)應(yīng)的軟標(biāo)簽,為第i個(gè)樣本經(jīng)過(guò)第k個(gè)角色標(biāo)注子模型輸出預(yù)測(cè)子標(biāo)簽的概率分布,為第i個(gè)樣本在第k個(gè)角色標(biāo)注子模型上的權(quán)重。
14、優(yōu)選地,所述多角色模型標(biāo)注數(shù)據(jù)的計(jì)算式具體為:
15、
16、式中,為第i個(gè)待標(biāo)注數(shù)據(jù)的多角色模型標(biāo)注數(shù)據(jù),為第i個(gè)樣本經(jīng)過(guò)第k個(gè)角色標(biāo)注子模型輸出預(yù)測(cè)子標(biāo)簽的概率分布,為第i個(gè)樣本在第k個(gè)角色標(biāo)注子模型上的權(quán)重。
17、優(yōu)選地,所述各個(gè)角色標(biāo)注子模型對(duì)應(yīng)的權(quán)重參數(shù)的生成方式包括:
18、根據(jù)各個(gè)角色標(biāo)注子模型輸出的預(yù)測(cè)子標(biāo)簽概率分布,以所述預(yù)測(cè)子標(biāo)簽概率分布作為預(yù)設(shè)的權(quán)重預(yù)測(cè)網(wǎng)絡(luò)模型的輸入特征,輸出角色標(biāo)注子模型的權(quán)重參數(shù)。
19、優(yōu)選地,所述權(quán)重預(yù)測(cè)網(wǎng)絡(luò)模型具體為mlp網(wǎng)絡(luò)模型。
20、同時(shí),本申請(qǐng)第二方面提供了一種多角色模型自動(dòng)標(biāo)注裝置,包括:
21、標(biāo)注樣本獲取單元,用于獲取標(biāo)注樣本數(shù)據(jù),按照所述標(biāo)注樣本數(shù)據(jù)的標(biāo)注角色屬性,對(duì)所述標(biāo)注樣本數(shù)據(jù)進(jìn)行分類;
22、角色模型構(gòu)建單元,用于按照不同的標(biāo)注角色屬性,利用已分類的標(biāo)注樣本數(shù)據(jù)進(jìn)行模型訓(xùn)練,分別得到各個(gè)標(biāo)注角色屬性對(duì)應(yīng)的角色標(biāo)注子模型;
23、角色綜合預(yù)測(cè)單元,用于根據(jù)各個(gè)角色標(biāo)注子模型輸出的預(yù)測(cè)子標(biāo)簽概率分布,結(jié)合各個(gè)角色標(biāo)注子模型對(duì)應(yīng)的權(quán)重參數(shù),將各個(gè)預(yù)測(cè)子標(biāo)簽進(jìn)行整合,得到軟標(biāo)簽;
24、多角色模型優(yōu)化單元,用于根據(jù)損失函數(shù),對(duì)各個(gè)角色標(biāo)注子模型進(jìn)行權(quán)重優(yōu)化,當(dāng)滿足預(yù)設(shè)的優(yōu)化條件,則通過(guò)所述各個(gè)角色標(biāo)注子模型整合得到多角色聯(lián)合標(biāo)注模型;
25、多角色模型自動(dòng)標(biāo)注單元,用于獲取待標(biāo)注數(shù)據(jù),將所述待標(biāo)注數(shù)據(jù)輸入到所述多角色聯(lián)合標(biāo)注模型,以通過(guò)所述多角色聯(lián)合標(biāo)注模型輸出對(duì)應(yīng)的多角色模型標(biāo)注數(shù)據(jù)。
26、優(yōu)選地,還包括:
27、權(quán)重參數(shù)生成單元,用于根據(jù)各個(gè)角色標(biāo)注子模型輸出的預(yù)測(cè)子標(biāo)簽概率分布,以所述預(yù)測(cè)子標(biāo)簽概率分布作為預(yù)設(shè)的權(quán)重預(yù)測(cè)網(wǎng)絡(luò)模型的輸入特征,輸出角色標(biāo)注子模型的權(quán)重參數(shù)。
28、本申請(qǐng)第三方面提供了一種多角色模型自動(dòng)標(biāo)注終端,包括:存儲(chǔ)器和處理器;
29、所述存儲(chǔ)器用于存儲(chǔ)程序代碼,所述程序代碼與如本申請(qǐng)第一方面提供的一種多角色模型自動(dòng)標(biāo)注方法相對(duì)應(yīng);
30、所述處理器用于讀取并執(zhí)行所述程序代碼。
31、本申請(qǐng)第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中保存有程序代碼,所述程序代碼用于被處理器讀取并執(zhí)行,以實(shí)現(xiàn)如本申請(qǐng)第一方面提供的一種多角色模型自動(dòng)標(biāo)注方法。
32、從以上技術(shù)方案可以看出,本申請(qǐng)具有以下優(yōu)點(diǎn):
33、本申請(qǐng)?zhí)峁┑募夹g(shù)方案通過(guò)引入多角色視角的標(biāo)注方式,按照特定領(lǐng)域場(chǎng)景的角色分類和知識(shí)架構(gòu),構(gòu)建多個(gè)不同角色屬性的標(biāo)注子模型模型,使其能夠從不同的視角對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,通過(guò)綜合多個(gè)角色模型的標(biāo)注結(jié)果,最大限度地減少模型標(biāo)注與人類標(biāo)注之間的偏差,且能夠有效解決現(xiàn)有技術(shù)中單一視角導(dǎo)致的標(biāo)注片面性問(wèn)題,使標(biāo)注結(jié)果更加全面和準(zhǔn)確。
1.一種多角色模型自動(dòng)標(biāo)注方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種多角色模型自動(dòng)標(biāo)注方法,其特征在于,所述損失函數(shù)具體為:
3.根據(jù)權(quán)利要求1所述的一種多角色模型自動(dòng)標(biāo)注方法,其特征在于,所述軟標(biāo)簽的計(jì)算式具體為:
4.根據(jù)權(quán)利要求1所述的一種多角色模型自動(dòng)標(biāo)注方法,其特征在于,所述多角色模型標(biāo)注數(shù)據(jù)的計(jì)算式具體為:
5.根據(jù)權(quán)利要求1所述的一種多角色模型自動(dòng)標(biāo)注方法,其特征在于,所述各個(gè)角色標(biāo)注子模型對(duì)應(yīng)的權(quán)重參數(shù)的生成方式包括:
6.根據(jù)權(quán)利要求5所述的一種多角色模型自動(dòng)標(biāo)注方法,其特征在于,所述權(quán)重預(yù)測(cè)網(wǎng)絡(luò)模型具體為mlp網(wǎng)絡(luò)模型。
7.一種多角色模型自動(dòng)標(biāo)注裝置,其特征在于,包括:
8.根據(jù)權(quán)利要求7所述的一種多角色模型自動(dòng)標(biāo)注裝置,其特征在于,還包括:
9.一種多角色模型自動(dòng)標(biāo)注終端,其特征在于,包括:存儲(chǔ)器和處理器;
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中保存有程序代碼,所述程序代碼用于被處理器讀取并執(zhí)行,以實(shí)現(xiàn)如權(quán)利要求1至6任意一項(xiàng)所述的一種多角色模型自動(dòng)標(biāo)注方法。