本說明書涉及計算機(jī),尤其涉及一種模型訓(xùn)練方法、裝置、設(shè)備及可讀存儲介質(zhì)。
背景技術(shù):
1、隨著人們對隱私數(shù)據(jù)和多方安全計算的關(guān)注度的提高,采用深度學(xué)習(xí)從數(shù)據(jù)中自動地學(xué)習(xí)有效的特征表示,提升預(yù)測模型的準(zhǔn)確度,已經(jīng)被廣泛應(yīng)用于語音識別、圖像識別、目標(biāo)檢測、風(fēng)險識別等領(lǐng)域。
2、目前,可以采用縱向聯(lián)邦學(xué)習(xí)(vertical?federated?learning,vfl)的方式對模型進(jìn)行分布式訓(xùn)練。在縱向聯(lián)邦學(xué)習(xí)中,參與模型訓(xùn)練的各節(jié)點(diǎn)分別持有的訓(xùn)練樣本可具有相同的樣本空間,以及不同的特征空間。例如,銀行持有某一用戶群體的信貸數(shù)據(jù),電商平臺可持有同一用戶群體的購物數(shù)據(jù),則該用戶群體的信貸數(shù)據(jù)和購物數(shù)據(jù)屬于具有相同的樣本空間而不同的特征空間的訓(xùn)練樣本,銀行和電商平臺可基于該用戶群體的信貸數(shù)據(jù)和購物數(shù)據(jù)共同訓(xùn)練一個信用評估模型。
3、一般的,為了提升訓(xùn)練樣本的隱私安全性,可預(yù)先采用加密對齊的方式,將各節(jié)點(diǎn)分別持有的訓(xùn)練樣本的樣本空間進(jìn)行對齊,以便從各節(jié)點(diǎn)分別持有的訓(xùn)練樣本中確定具有相同樣本空間的對齊樣本,進(jìn)而利用各節(jié)點(diǎn)的對齊樣本共同訓(xùn)練模型。仍以前述為例,購物平臺可以將自身持有的購物數(shù)據(jù)對應(yīng)的加密的用戶標(biāo)識發(fā)送給銀行,由銀行基于接收到的加密的用戶標(biāo)識,從銀行自身持有的信貸數(shù)據(jù)中確定用戶標(biāo)識相同的信貸數(shù)據(jù)作為銀行持有的對齊樣本。之后,銀行可以將自身持有的對齊樣本對應(yīng)的加密的用戶標(biāo)識返回給購物平臺,購物平臺則可以基于接收到的加密的用戶標(biāo)識從自身持有的購物數(shù)據(jù)中確定購物平臺持有的對齊樣本。從而,銀行和電商平臺可基于相同用戶標(biāo)識的對齊樣本共同訓(xùn)練模型。
4、但是,通常情況下,各節(jié)點(diǎn)分別持有的對齊樣本的樣本規(guī)模遠(yuǎn)小于各節(jié)點(diǎn)分別持有的訓(xùn)練樣本的樣本規(guī)模,模型只能基于樣本規(guī)模較小的對齊樣本進(jìn)行訓(xùn)練,導(dǎo)致訓(xùn)練后的模型的準(zhǔn)確率較低。
5、基于此,本說明書提供一種模型訓(xùn)練方法。
技術(shù)實(shí)現(xiàn)思路
1、本說明書提供一種模型訓(xùn)練方法、裝置、設(shè)備及可讀存儲介質(zhì),以部分的解決現(xiàn)有技術(shù)存在的上述問題。
2、本說明書采用下述技術(shù)方案:
3、本說明書提供了一種模型訓(xùn)練方法,所述方法應(yīng)用于第一節(jié)點(diǎn),所述第一節(jié)點(diǎn)至少部署第一編碼器,所述方法包括:
4、確定各第一對齊樣本、所述各第一對齊樣本的各標(biāo)注類別和各第一非對齊樣本;
5、將所述各第一對齊樣本分別輸入到所述第一編碼器,得到所述各第一對齊樣本的特征,并將所述各第一非對齊樣本分別輸入到所述第一編碼器,得到所述各第一非對齊樣本的特征;
6、針對所述各第一對齊樣本對應(yīng)的每個標(biāo)注類別,根據(jù)該標(biāo)注類別包含的各第一對齊樣本的特征,確定用于表征該標(biāo)注類別的特征中心的該標(biāo)注類別對應(yīng)的第一原型向量;
7、針對每個第一非對齊樣本,根據(jù)該第一非對齊樣本所屬的標(biāo)注類別對應(yīng)的第一原型向量,和該第一非對齊樣本的特征之間的差異,確定該第一非對齊樣本對應(yīng)的第一損失;
8、至少根據(jù)所述各第一非對齊樣本對應(yīng)的第一損失訓(xùn)練所述第一編碼器。
9、本說明書提供了一種模型訓(xùn)練方法,所述方法應(yīng)用于第二節(jié)點(diǎn),所述第二節(jié)點(diǎn)部署第二編碼器,所述方法包括:
10、確定各第二對齊樣本和各第二非對齊樣本;
11、將所述各第二對齊樣本分別輸入到所述第二編碼器,得到所述各第二對齊樣本的特征,并將所述各第二非對齊樣本分別輸入到所述第二編碼器,得到所述各第二非對齊樣本的特征;
12、將所述各第二對齊樣本的特征發(fā)送給第一節(jié)點(diǎn),并接收所述第一節(jié)點(diǎn)返回的各標(biāo)注類別對應(yīng)的第二原型向量,其中,所述第二原型向量是所述第一節(jié)點(diǎn)根據(jù)所述各第二對齊樣本的特征和各第一對齊樣本的標(biāo)注確定的,用于表征所述第二對齊樣本對應(yīng)的各標(biāo)注類別的特征中心;
13、針對每個第二非對齊樣本,根據(jù)該第二非對齊樣本所屬的標(biāo)注類別對應(yīng)的第二原型向量,與該第二非對齊樣本的特征之間的差異,確定該第二非對齊樣本對應(yīng)的第三損失;
14、至少根據(jù)所述各第二非對齊樣本對應(yīng)的第三損失訓(xùn)練所述第二編碼器。
15、本說明書提供了一種模型訓(xùn)練裝置,所述裝置應(yīng)用于第一節(jié)點(diǎn),所述第一節(jié)點(diǎn)至少部署第一編碼器,所述裝置包括:
16、第一樣本確定模塊,用于確定各第一對齊樣本、所述各第一對齊樣本的各標(biāo)注類別和各第一非對齊樣本;
17、第一特征確定模塊,用于將所述各第一對齊樣本分別輸入到所述第一編碼器,得到所述各第一對齊樣本的特征,并將所述各第一非對齊樣本分別輸入到所述第一編碼器,得到所述各第一非對齊樣本的特征;
18、第一原型向量確定模塊,用于針對所述各第一對齊樣本對應(yīng)的每個標(biāo)注類別,根據(jù)該標(biāo)注類別包含的各第一對齊樣本的特征,確定用于表征該標(biāo)注類別的特征中心的該標(biāo)注類別對應(yīng)的第一原型向量;
19、第一損失確定模塊,用于針對每個第一非對齊樣本,根據(jù)該第一非對齊樣本所屬的標(biāo)注類別對應(yīng)的第一原型向量,和該第一非對齊樣本的特征之間的差異,確定該第一非對齊樣本對應(yīng)的第一損失;
20、第一訓(xùn)練模塊,用于至少根據(jù)所述各第一非對齊樣本對應(yīng)的第一損失訓(xùn)練所述第一編碼器。
21、本說明書提供了一種模型訓(xùn)練裝置,所述裝置應(yīng)用于第二節(jié)點(diǎn),所述第二節(jié)點(diǎn)部署第二編碼器,所述裝置包括:
22、第二樣本對齊模塊,用于確定各第二對齊樣本和各第二非對齊樣本;
23、第二特征確定模塊,用于將所述各第二對齊樣本分別輸入到所述第二編碼器,得到所述各第二對齊樣本的特征,并將所述各第二非對齊樣本分別輸入到所述第二編碼器,得到所述各第二非對齊樣本的特征;
24、接收模塊,用于將所述各第二對齊樣本的特征發(fā)送給第一節(jié)點(diǎn),并接收所述第一節(jié)點(diǎn)返回的各標(biāo)注類別對應(yīng)的第二原型向量,其中,所述第二原型向量是所述第一節(jié)點(diǎn)根據(jù)所述各第二對齊樣本的特征和各第一對齊樣本的標(biāo)注確定的,用于表征所述第二對齊樣本對應(yīng)的各標(biāo)注類別的特征中心;
25、第三損失確定模塊,用于針對每個第二非對齊樣本,根據(jù)該第二非對齊樣本所屬的標(biāo)注類別對應(yīng)的第二原型向量,與該第二非對齊樣本的特征之間的差異,確定該第二非對齊樣本對應(yīng)的第三損失;
26、第二訓(xùn)練模塊,用于至少根據(jù)所述各第二非對齊樣本對應(yīng)的第三損失訓(xùn)練所述第二編碼器。
27、本說明書提供了一種計算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述模型訓(xùn)練方法。
28、本說明書提供了一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)上述模型訓(xùn)練方法。
29、本說明書采用的上述至少一個技術(shù)方案能夠達(dá)到以下有益效果:
30、本說明書提供的模型訓(xùn)練方法中,第一節(jié)點(diǎn)通過部署的第一編碼器得到各第一對齊樣本的特征以及各第一非對齊樣本的特征,針對各第一對齊樣本對應(yīng)的每個標(biāo)注類別,根據(jù)該標(biāo)注類別包含的各第一對齊樣本的特征,確定該標(biāo)注類別的第一原型向量,針對每個第一非對齊樣本,根據(jù)該第一非對齊樣本的特征與其所屬的標(biāo)注類別的第一原型向量,確定第一損失,并以各第一非對齊樣本對應(yīng)的第一損失訓(xùn)練第一編碼器。可見,將各第一非對齊樣本引入用于訓(xùn)練第一編碼器的樣本中,擴(kuò)大了訓(xùn)練樣本的規(guī)模,提升了訓(xùn)練完成的第一編碼器的準(zhǔn)確性。