本說(shuō)明書(shū)一個(gè)或多個(gè)實(shí)施例涉及計(jì)算機(jī),尤其涉及跨域信息推送及相應(yīng)模型方法、裝置。
背景技術(shù):
1、信息推送通常是根據(jù)用戶(hù)行為等數(shù)據(jù),向用戶(hù)推送盡可能符合用戶(hù)需求的信息??缬蛲扑](cross-domain?recommendation,cdr)可以利用數(shù)據(jù)豐富的源域(也可稱(chēng)為參考信息域)的用戶(hù)行為(例如,在線服務(wù)平臺(tái)中積累的全局行為)來(lái)學(xué)習(xí)可轉(zhuǎn)移知識(shí),以幫助改進(jìn)數(shù)據(jù)稀疏的目標(biāo)域(也可以稱(chēng)為目標(biāo)信息域,例如,在線服務(wù)平臺(tái)中的某個(gè)小程序或微應(yīng)用)的推薦,通過(guò)對(duì)信息相對(duì)薄弱的目標(biāo)域進(jìn)行信息補(bǔ)充,從而提高目標(biāo)域推薦效果。
2、然而,盡管源域信息相對(duì)豐富,但并不是所有的源域信息都對(duì)目標(biāo)域任務(wù)有增益,例如用戶(hù)在源域中可能存在的一些誤點(diǎn)擊、隨機(jī)點(diǎn)擊等行為,并非用戶(hù)興趣度的表示,這類(lèi)信息如果也被遷移到目標(biāo)域中,反而可能會(huì)對(duì)目標(biāo)域信息推送業(yè)務(wù)帶來(lái)消極影響。
3、因此,如何在跨域的信息推送業(yè)務(wù)中,對(duì)源域信息進(jìn)行篩選,盡可能向目標(biāo)域遷移有效數(shù)據(jù),是值得研究的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本說(shuō)明書(shū)一個(gè)或多個(gè)實(shí)施例描述了一種跨域信息推送及相應(yīng)模型方法及裝置,用以解決背景技術(shù)提到的一個(gè)或多個(gè)問(wèn)題。
2、根據(jù)第一方面,提供一種跨域信息推送模型的訓(xùn)練方法,包括多個(gè)更新周期,在單個(gè)更新周期,所述方法包括:經(jīng)由對(duì)融合知識(shí)圖譜的處理,獲取當(dāng)前樣本用戶(hù)在源域的第一表征、在目標(biāo)域的第二表征,以及候選信息的信息表征,所述融合知識(shí)圖譜包括基礎(chǔ)圖譜和用戶(hù)、候選信息二部圖;將所述第一表征、第二表征融合為融合表征;針對(duì)所述融合表征進(jìn)行信息壓縮,以確定當(dāng)前樣本用戶(hù)的壓縮表征,其中,所述壓縮表征是所述融合表征與第一噪聲的加權(quán)融合結(jié)果,所述第一噪聲基于當(dāng)前批次樣本用戶(hù)的各個(gè)壓縮表征滿(mǎn)足的分布采樣確定,所述第一噪聲的加權(quán)權(quán)重由滿(mǎn)足第一預(yù)定參數(shù)下的離散映射的伯努利采樣確定;確定模型損失,以更新所述跨域信息推送模型中的待定參數(shù),所述模型損失包括表征損失和預(yù)測(cè)損失,所述表征損失經(jīng)由所述壓縮表征與所述第一表征、所述第二表征的對(duì)比確定,所述預(yù)測(cè)損失經(jīng)由所述壓縮表征結(jié)合所述信息表征進(jìn)行預(yù)測(cè)得到的預(yù)測(cè)結(jié)果確定。
3、在一個(gè)實(shí)施例中,所述經(jīng)由對(duì)融合知識(shí)圖譜的處理,獲取當(dāng)前樣本用戶(hù)在源域的第一表征、在目標(biāo)域的第二表征,以及候選信息的信息表征包括:利用圖神經(jīng)網(wǎng)絡(luò)針對(duì)基礎(chǔ)圖譜和源域二部圖構(gòu)成的融合知識(shí)圖譜進(jìn)行特征融合,得到所述第一表征和源域各條候選信息分別對(duì)應(yīng)的各個(gè)信息表征;利用圖神經(jīng)網(wǎng)絡(luò)針對(duì)基礎(chǔ)圖譜和目標(biāo)域二部圖構(gòu)成的融合知識(shí)圖譜進(jìn)行特征融合,得到所述第二表征和目標(biāo)域各條候選信息分別對(duì)應(yīng)的各個(gè)信息表征。
4、在一個(gè)實(shí)施例中,所述將所述第一表征、第二表征融合為融合表征包括:對(duì)所述第一表征、所述第二表征進(jìn)行加權(quán)、求平均、加和之一的方式進(jìn)行處理,得到所述融合表征。
5、在一個(gè)實(shí)施例中,各個(gè)壓縮表征滿(mǎn)足的分布為:利用各個(gè)壓縮表征的均值矩陣中相應(yīng)元素作為均值、方差矩陣中相應(yīng)元素作為方差確定的正態(tài)分布。
6、在一個(gè)實(shí)施例中,所述預(yù)測(cè)結(jié)果為當(dāng)前樣本用戶(hù)在各個(gè)候選信息上分別對(duì)應(yīng)的各個(gè)匹配分?jǐn)?shù),所述預(yù)測(cè)損失通過(guò)以下兩個(gè)向量之間的余弦相似度、歐氏距離、交叉熵、kl散度中的一項(xiàng)進(jìn)行描述,以表達(dá)兩個(gè)向量之間的偏離程度:各個(gè)匹配分?jǐn)?shù)構(gòu)成的匹配向量與根據(jù)當(dāng)前樣本用戶(hù)實(shí)際對(duì)候選信息的選定情形確定的選定向量。
7、在一個(gè)進(jìn)一步的實(shí)施例中,目標(biāo)域預(yù)測(cè)結(jié)果中,單個(gè)候選信息對(duì)應(yīng)的匹配分?jǐn)?shù)通過(guò)以下方式確定:將所述壓縮表征與所述第二表征融合,并確定融合結(jié)果與所述單個(gè)候選信息的信息表征的相似度,以作為匹配分?jǐn)?shù)。
8、在一個(gè)實(shí)施例中,所述模型損失還包括過(guò)濾損失,所述模型損失為所述壓縮損失、所述預(yù)測(cè)損失、所述過(guò)濾損失的加權(quán)和,所述過(guò)濾損失為目標(biāo)域子圖條件下,源域轉(zhuǎn)向目標(biāo)域的較優(yōu)子圖與源域子圖之間的互信息。
9、在一個(gè)實(shí)施例中,所述融合表征的加權(quán)權(quán)重與所述第一噪聲的加權(quán)權(quán)重和為1。
10、根據(jù)第二方面,提供一種信息推送的方法,用于利用源域的用戶(hù)信息,輔助進(jìn)行目標(biāo)域的信息推送,所述方法包括:經(jīng)由對(duì)融合知識(shí)圖譜的處理,獲取當(dāng)前用戶(hù)在源域的第三表征、在目標(biāo)域的第四表征,以及目標(biāo)域各個(gè)候選信息分別對(duì)應(yīng)的各個(gè)信息表征,所述融合知識(shí)圖譜包括基礎(chǔ)圖譜和用戶(hù)、候選信息二部圖;將所述第三表征、所述第四表征融合為第一融合表征;針對(duì)所述第一融合表征進(jìn)行信息壓縮,以確定當(dāng)前用戶(hù)的第一壓縮表征,其中,所述第一壓縮表征是所述第一融合表征與第二噪聲的加權(quán)融合結(jié)果,所述第二噪聲基于訓(xùn)練樣本的壓縮表征滿(mǎn)足的分布采樣確定,所述第二噪聲的加權(quán)權(quán)重由滿(mǎn)足第一預(yù)定參數(shù)下的離散映射的伯努利采樣確定;基于所述第一壓縮表征與各個(gè)信息表征的匹配,從目標(biāo)域的各個(gè)候選信息中確定待推送的目標(biāo)信息。
11、在一個(gè)實(shí)施例中,所述經(jīng)由對(duì)融合知識(shí)圖譜的處理,獲取當(dāng)前用戶(hù)在源域的第三表征、在目標(biāo)域的第四表征,以及目標(biāo)域各個(gè)候選信息分別對(duì)應(yīng)的各個(gè)信息表征包括:利用圖神經(jīng)網(wǎng)絡(luò)針對(duì)基礎(chǔ)圖譜和源域二部圖構(gòu)成的融合知識(shí)圖譜進(jìn)行特征融合,得到所述第三表征;利用圖神經(jīng)網(wǎng)絡(luò)針對(duì)基礎(chǔ)圖譜和目標(biāo)域二部圖構(gòu)成的融合知識(shí)圖譜進(jìn)行特征融合,得到所述第四表征和目標(biāo)域各條候選信息分別對(duì)應(yīng)的各個(gè)信息表征。
12、在一個(gè)實(shí)施例中,訓(xùn)練樣本的各個(gè)壓縮表征滿(mǎn)足的分布為:根據(jù)若干訓(xùn)練樣本的各個(gè)壓縮表征的均值矩陣中各個(gè)元素作為均值、方差矩陣中相應(yīng)元素作為方差確定的正態(tài)分布。
13、在一個(gè)實(shí)施例中,所述將所述第三表征、第四表征融合為第一融合表征包括:對(duì)所述第三表征、所述第四表征進(jìn)行加權(quán)、求平均、加和之一的方式進(jìn)行處理,得到所述第一融合表征。
14、在一個(gè)實(shí)施例中,所述基于所述第一壓縮表征與各個(gè)信息表征的匹配,從目標(biāo)域的各個(gè)候選信息中確定待推送的目標(biāo)信息包括:確定所述第一壓縮表征與各個(gè)信息表征分別對(duì)應(yīng)的各個(gè)匹配分?jǐn)?shù);按照匹配分?jǐn)?shù)大小選擇若干個(gè)候選信息作為推送給當(dāng)前用戶(hù)的目標(biāo)信息。
15、根據(jù)第三方面,提供一種跨域信息推送模型的訓(xùn)練裝置,用于通過(guò)多個(gè)更新周期訓(xùn)練跨域信息推送模型,所述裝置包括獲取單元、融合單元、壓縮單元、調(diào)整單元,在單個(gè)更新周期:
16、所述獲取單元,配置為經(jīng)由對(duì)融合知識(shí)圖譜的處理,獲取當(dāng)前樣本用戶(hù)在源域的第一表征、在目標(biāo)域的第二表征,以及候選信息的信息表征,所述融合知識(shí)圖譜包括基礎(chǔ)圖譜和用戶(hù)、候選信息二部圖;
17、所述融合單元,配置為將所述第一表征、第二表征融合為融合表征;
18、所述壓縮單元,配置為針對(duì)所述融合表征進(jìn)行信息壓縮,以確定當(dāng)前樣本用戶(hù)的壓縮表征,其中,所述壓縮表征是所述融合表征與第一噪聲的加權(quán)融合結(jié)果,所述第一噪聲基于當(dāng)前批次樣本用戶(hù)的各個(gè)壓縮表征滿(mǎn)足的分布采樣確定,所述第一噪聲的加權(quán)權(quán)重由滿(mǎn)足第一預(yù)定參數(shù)下的離散映射的伯努利采樣確定;
19、所述調(diào)整單元,配置為確定模型損失,以更新所述跨域信息推送模型中的待定參數(shù),所述模型損失包括表征損失和預(yù)測(cè)損失,所述表征損失經(jīng)由所述壓縮表征與所述第二表征的對(duì)比確定,所述預(yù)測(cè)損失經(jīng)由所述壓縮表征結(jié)合所述信息表征進(jìn)行預(yù)測(cè)得到的預(yù)測(cè)結(jié)果確定。
20、根據(jù)第四方面,提供一種信息推送的裝置,用于利用源域的用戶(hù)信息,輔助進(jìn)行目標(biāo)域的信息推送,所述裝置包括:
21、獲取單元,配置為經(jīng)由對(duì)融合知識(shí)圖譜的處理,獲取當(dāng)前用戶(hù)在源域的第三表征、在目標(biāo)域的第四表征,以及目標(biāo)域各個(gè)候選信息分別對(duì)應(yīng)的各個(gè)信息表征,所述融合知識(shí)圖譜包括基礎(chǔ)圖譜和用戶(hù)、候選信息二部圖;
22、融合單元,配置為將所述第三表征、所述第四表征融合為第一融合表征;
23、壓縮單元,配置為針對(duì)所述第一融合表征進(jìn)行信息壓縮,以確定當(dāng)前用戶(hù)的第一壓縮表征,其中,所述第一壓縮表征是所述第一融合表征與第二噪聲的加權(quán)融合結(jié)果,所述第二噪聲基于訓(xùn)練樣本的壓縮表征滿(mǎn)足的分布采樣確定,所述第二噪聲的加權(quán)權(quán)重由滿(mǎn)足第一預(yù)定參數(shù)下的離散映射的伯努利采樣確定;
24、匹配單元,配置為基于所述第一壓縮表征與各個(gè)信息表征的匹配,從目標(biāo)域的各個(gè)候選信息中確定待推送的目標(biāo)信息。
25、根據(jù)第五方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)中執(zhí)行時(shí),令計(jì)算機(jī)執(zhí)行第一方面或第二方面所述的方法。
26、根據(jù)第六方面,提供一種計(jì)算設(shè)備,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時(shí),實(shí)現(xiàn)第一方面或第二方面所述的方法。
27、通過(guò)本說(shuō)明書(shū)實(shí)施例提供的方法和裝置,在跨域的信息推送場(chǎng)景下,將源域二部圖和目標(biāo)域二部圖分別與基礎(chǔ)知識(shí)圖譜融合構(gòu)成相應(yīng)的融合知識(shí)圖譜,基于對(duì)融合知識(shí)圖譜的處理,分別確定用戶(hù)在源域和目標(biāo)域的用戶(hù)表征,以及候選信息的信息表征,從而將源域和目標(biāo)域的用戶(hù)表征融合后再利用信息瓶頸理論過(guò)濾掉與目標(biāo)域關(guān)聯(lián)性較小的數(shù)據(jù),得到用戶(hù)對(duì)應(yīng)的壓縮表征。再將用戶(hù)壓縮表征與候選信息的信息表征進(jìn)行匹配,得到預(yù)測(cè)結(jié)果(如確定與各條候選信息的匹配程度)。在模型訓(xùn)練過(guò)程中,各個(gè)更新周期模型損失可以包括預(yù)測(cè)損失和壓縮損失。通過(guò)最小化模型損失,可以使得模型中的待定參數(shù)向著以下目標(biāo)調(diào)整:最大化壓縮表征和第二表征之間的相似度;最小化預(yù)測(cè)結(jié)果與樣本標(biāo)簽之間的差距。在信息推送過(guò)程中,利用根據(jù)以上目標(biāo)調(diào)整的跨域信息推送模型得到的預(yù)測(cè)結(jié)果確定目標(biāo)信息推送給相應(yīng)用戶(hù)。
28、如此,本說(shuō)明書(shū)技術(shù)構(gòu)思下的信息推送流程可以借助源域中的用戶(hù)數(shù)據(jù),進(jìn)行數(shù)據(jù)稀疏的目標(biāo)域的信息推送,并在確定目標(biāo)信息過(guò)程中利用信息瓶頸理論過(guò)濾掉源域中對(duì)目標(biāo)域提供增益較少的信息,減少無(wú)效信息的影響,更準(zhǔn)確地進(jìn)行目標(biāo)域的信息推送,提高用戶(hù)體驗(yàn)。