本發(fā)明涉及大數(shù)據(jù),尤其涉及一種聯(lián)邦學(xué)習(xí)決策樹模型的訓(xùn)練方法和裝置。
背景技術(shù):
1、在機(jī)器學(xué)習(xí)的多種模型中,樹類模型因其解釋性強(qiáng)、可靠性高等特性,在金融、風(fēng)控等領(lǐng)域具有重要作用。其中,基于信息增益的決策樹模型是基礎(chǔ)的、應(yīng)用場(chǎng)景較多的模型。然而,在訓(xùn)練基于信息增益的決策樹模型時(shí),單一數(shù)據(jù)源方的數(shù)據(jù)特征、數(shù)據(jù)量有限,無法直接獲取其他數(shù)據(jù)源方的數(shù)據(jù),導(dǎo)致訓(xùn)練;并且,在節(jié)點(diǎn)分裂時(shí),需要對(duì)海量數(shù)據(jù)計(jì)算信息增益,訓(xùn)練成本高。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明實(shí)施例提供一種聯(lián)邦學(xué)習(xí)決策樹模型的訓(xùn)練方法和裝置,通過聯(lián)合學(xué)習(xí)擴(kuò)充數(shù)據(jù)特征,能夠提高模型預(yù)測(cè)的準(zhǔn)確率,提升模型的性能,利用全局感知概率構(gòu)建核心集,并利用核心集進(jìn)行模型訓(xùn)練,能夠提高模型的優(yōu)化效率及模型的訓(xùn)練速度,降低模型的訓(xùn)練成本。
2、為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種聯(lián)邦學(xué)習(xí)決策樹模型的訓(xùn)練方法,包括:
3、獲取多個(gè)用戶中每個(gè)用戶的第一信用特征數(shù)據(jù)和信用標(biāo)簽;
4、根據(jù)所述第一信用特征數(shù)據(jù)確定第一相異性矩陣;
5、接收數(shù)據(jù)提供方發(fā)送的基于所述多個(gè)用戶中每個(gè)用戶的第二信用特征數(shù)據(jù)得到的第二相異性矩陣;
6、根據(jù)所述第一相異性矩陣和所述第二相異性矩陣確定全局感知樣本選擇概率分布;
7、循環(huán)執(zhí)行以下過程,訓(xùn)練得到?jīng)Q策樹模型:
8、根據(jù)所述全局感知樣本選擇概率分布、當(dāng)前節(jié)點(diǎn)的用戶樣本集以及所述用戶樣本集中每個(gè)用戶的信用標(biāo)簽,確定當(dāng)前節(jié)點(diǎn)的用戶核心集;根據(jù)所述第一信用特征數(shù)據(jù)、所述第二信用特征數(shù)據(jù)和所述用戶核心集,確定所述當(dāng)前節(jié)點(diǎn)分裂后的各個(gè)子節(jié)點(diǎn),以每個(gè)所述子節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn)。
9、可選地,根據(jù)所述第一相異性矩陣和所述第二相異性矩陣確定全局感知樣本選擇概率分布,包括:
10、根據(jù)所述第一相異性矩陣和所述第二相異性矩陣確定相異性度量矩陣;
11、根據(jù)所述相異性度量矩陣和預(yù)設(shè)模型確定表征概率矩陣;
12、根據(jù)所述表征概率矩陣確定所述全局感知樣本選擇概率分布。
13、可選地,確定當(dāng)前節(jié)點(diǎn)的用戶核心集,包括:
14、根據(jù)所述全局感知樣本選擇概率和所述當(dāng)前節(jié)點(diǎn)的用戶樣本集,確定所述當(dāng)前節(jié)點(diǎn)的第一選擇概率;
15、確定所述用戶樣本集中每個(gè)用戶的預(yù)測(cè)信用標(biāo)簽,以根據(jù)所述用戶樣本集中每個(gè)用戶的預(yù)測(cè)信用標(biāo)簽和信用標(biāo)簽,確定所述當(dāng)前節(jié)點(diǎn)的第二選擇概率;
16、根據(jù)所述第一選擇概率和所述第二選擇概率確定樣本選擇概率;
17、根據(jù)所述樣本選擇概率從所述用戶樣本集中確定出所述用戶核心集。
18、可選地,確定所述用戶樣本集中每個(gè)用戶的預(yù)測(cè)信用標(biāo)簽,包括:
19、根據(jù)所述第一選擇概率從所述用戶樣本集中選擇出第一核心集;
20、根據(jù)所述第一核心集中各個(gè)用戶的信用標(biāo)簽確定所述預(yù)測(cè)信用標(biāo)簽。
21、可選地,確定當(dāng)前節(jié)點(diǎn)的第二選擇概率,包括:
22、根據(jù)所述用戶樣本集中每個(gè)用戶的預(yù)測(cè)信用標(biāo)簽和信用標(biāo)簽,確定殘差值;
23、根據(jù)所述殘差值生成所述第二選擇概率。
24、可選地,確定所述當(dāng)前節(jié)點(diǎn)分裂后的各個(gè)子節(jié)點(diǎn),包括:
25、根據(jù)所述用戶核心集中每個(gè)用戶的所述第一信用特征數(shù)據(jù)和所述信用標(biāo)簽,確定每個(gè)第一信用特征在每種分裂方式下的第一信息增益;
26、接收所述數(shù)據(jù)提供方發(fā)送的根據(jù)所述第二信用特征數(shù)據(jù)得到的各個(gè)分裂用戶集,所述分裂用戶集包括用戶標(biāo)識(shí);
27、根據(jù)所述分裂用戶集中的用戶標(biāo)識(shí)和所述用戶核心集,確定與所述分裂用戶集對(duì)應(yīng)的第二信息增益;
28、根據(jù)所述第一信息增益和所述第二信息增益確定所述各個(gè)子節(jié)點(diǎn)。
29、可選地,根據(jù)所述第一信息增益和所述第二信息增益確定所述各個(gè)子節(jié)點(diǎn),包括:
30、從所述第一信息增益和所述第二信息增益中選擇最大信息增益;
31、若所述最大信息增益為第一信息增益,獲取所述最大信息增益對(duì)應(yīng)的目標(biāo)第一信用特征和目標(biāo)分裂方式,根據(jù)所述目標(biāo)第一信用特征和所述目標(biāo)分裂方式對(duì)所述當(dāng)前節(jié)點(diǎn)進(jìn)行分裂,確定各個(gè)子節(jié)點(diǎn);
32、若所述最大信息增益為第二信息增益,獲取所述最大信息增益對(duì)應(yīng)的目標(biāo)分裂用戶集,根據(jù)所述當(dāng)前節(jié)點(diǎn)的用戶樣本集和所述目標(biāo)分裂用戶集確定各個(gè)子節(jié)點(diǎn)。
33、本發(fā)明實(shí)施例的另一方面,提供了一種聯(lián)邦學(xué)習(xí)決策樹模型的訓(xùn)練裝置,包括:
34、獲取模塊,獲取多個(gè)用戶中每個(gè)用戶的第一信用特征數(shù)據(jù)和信用標(biāo)簽;
35、第一確定模塊,根據(jù)所述第一信用特征數(shù)據(jù)確定第一相異性矩陣;
36、接收模塊,接收數(shù)據(jù)提供方發(fā)送的基于所述多個(gè)用戶中每個(gè)用戶的第二信用特征數(shù)據(jù)得到的第二相異性矩陣;
37、第二確定模塊,根據(jù)所述第一相異性矩陣和所述第二相異性矩陣確定全局感知樣本選擇概率分布;
38、訓(xùn)練模塊,循環(huán)執(zhí)行以下過程,訓(xùn)練得到?jīng)Q策樹模型:根據(jù)所述全局感知樣本選擇概率分布、當(dāng)前節(jié)點(diǎn)的用戶樣本集以及所述用戶樣本集中每個(gè)用戶的信用標(biāo)簽,確定當(dāng)前節(jié)點(diǎn)的用戶核心集;根據(jù)所述第一信用特征數(shù)據(jù)、所述第二信用特征數(shù)據(jù)和所述用戶核心集,確定所述當(dāng)前節(jié)點(diǎn)分裂后的各個(gè)子節(jié)點(diǎn),以每個(gè)所述子節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn)。
39、根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面,提供了一種電子設(shè)備,包括:
40、一個(gè)或多個(gè)處理器;
41、存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,
42、當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明提供的聯(lián)邦學(xué)習(xí)決策樹模型的訓(xùn)練方法。
43、根據(jù)本發(fā)明實(shí)施例的還一個(gè)方面,提供了一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明提供的聯(lián)邦學(xué)習(xí)決策樹模型的訓(xùn)練方法。
44、上述發(fā)明中的一個(gè)實(shí)施例具有如下優(yōu)點(diǎn)或有益效果:本發(fā)明實(shí)施例的聯(lián)邦學(xué)習(xí)決策樹模型的訓(xùn)練方法,根據(jù)多個(gè)用戶中每個(gè)用戶的第一信用特征數(shù)據(jù)確定第一相異性矩陣,接收數(shù)據(jù)提供方發(fā)送的基于第二信用特征數(shù)據(jù)得到的第二相異性矩陣,基于第一相異性矩陣和第二相異性矩陣得到全局感知樣本選擇概率分布,然后基于該全局感知樣本選擇概率分布,結(jié)合當(dāng)前節(jié)點(diǎn)的用戶樣本集,構(gòu)建用戶核心集,采用用戶核心集以及第一信用特征數(shù)據(jù)和第二信用特征數(shù)據(jù)得到當(dāng)前節(jié)點(diǎn)分裂后的各個(gè)子節(jié)點(diǎn),訓(xùn)練后得到聯(lián)邦學(xué)習(xí)決策樹模型。該方法利用聯(lián)邦學(xué)習(xí),合規(guī)從數(shù)據(jù)提供方獲取用戶的第二信用特征,以達(dá)到擴(kuò)充特征的目的,可以使得訓(xùn)練得到的模型的預(yù)測(cè)準(zhǔn)確率更高,提升了模型性能。該方法通過構(gòu)建用戶核心集,利用用戶核心集進(jìn)行模型訓(xùn)練,降低了模型訓(xùn)練過程中的空間復(fù)雜度和時(shí)間復(fù)雜度,同時(shí)減輕模了型訓(xùn)練過程中的計(jì)算成本和聯(lián)邦學(xué)習(xí)中的通信負(fù)擔(dān),降低了模型的訓(xùn)練成本,提升了模型的應(yīng)用價(jià)值。該方法通過構(gòu)建全局感知樣本選擇概率,并結(jié)合當(dāng)前節(jié)點(diǎn)的用戶樣本集,確定用戶核心集,用戶核心集能夠更好地表征原始用戶樣本集,為每次模型的建立提供良好的數(shù)據(jù)支撐,具有多樣性和代表性,并且提升了模型的優(yōu)化效率,提高了模型訓(xùn)練的效率。
45、上述的非慣用的可選方式所具有的進(jìn)一步效果將在下文中結(jié)合具體實(shí)施方式加以說明。