本技術(shù)涉及計(jì)算機(jī),具體涉及一種分子生成方法、裝置、存儲(chǔ)介質(zhì)、設(shè)備及程序產(chǎn)品。
背景技術(shù):
1、在藥物設(shè)計(jì)和分子生物學(xué)領(lǐng)域,生成與特定蛋白質(zhì)結(jié)合的分子是實(shí)現(xiàn)靶向治療和藥物開發(fā)的關(guān)鍵步驟。目前,這一過程主要依賴于三種技術(shù)方法:基于口袋的結(jié)構(gòu)藥物設(shè)計(jì)(sbdd)、基于序列的方法、以及基于擴(kuò)散和流模型的方法。這些方法各有特點(diǎn),但都面臨著一些共同的技術(shù)挑戰(zhàn)和限制,如對(duì)蛋白質(zhì)三維結(jié)構(gòu)的依賴、以及對(duì)未知結(jié)構(gòu)蛋白-分子相互作用學(xué)習(xí)能力的缺乏。
2、因此,當(dāng)前技術(shù)存在對(duì)蛋白質(zhì)三維結(jié)構(gòu)的依賴、以及對(duì)未知結(jié)構(gòu)蛋白-分子相互作用學(xué)習(xí)能力的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種分子生成方法、裝置、存儲(chǔ)介質(zhì)、設(shè)備及程序產(chǎn)品,能夠利用目標(biāo)蛋白質(zhì)的至少一種模態(tài)的已知模態(tài)蛋白質(zhì)信息生成多模態(tài)標(biāo)準(zhǔn)化特征,實(shí)現(xiàn)在目標(biāo)蛋白質(zhì)缺少某些模態(tài)信息的情況下生成高質(zhì)量的藥物分子,提升了藥物設(shè)計(jì)的效率。
2、一方面,本技術(shù)實(shí)施例提供一種分子生成方法,所述方法包括:
3、獲取目標(biāo)蛋白質(zhì)對(duì)應(yīng)的已知模態(tài)蛋白質(zhì)信息,所述已知模態(tài)蛋白質(zhì)信息的已知模態(tài)包括模態(tài)集合中的至少一種模態(tài),所述模態(tài)集合包括序列模態(tài)、結(jié)構(gòu)模態(tài)和口袋模態(tài);
4、基于訓(xùn)練后的多模態(tài)語言模型的特征處理模塊對(duì)所述已知模態(tài)蛋白質(zhì)信息進(jìn)行特征處理,獲取所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征,所述多模態(tài)標(biāo)準(zhǔn)化特征包括具有相同維度的序列標(biāo)準(zhǔn)化特征、結(jié)構(gòu)標(biāo)準(zhǔn)化特征和口袋標(biāo)準(zhǔn)化特征;
5、基于訓(xùn)練后的多模態(tài)語言模型的分子生成模塊對(duì)所述多模態(tài)標(biāo)準(zhǔn)化特征進(jìn)行分子生成處理,得到針對(duì)所述目標(biāo)蛋白質(zhì)的目標(biāo)分子;
6、其中,所述訓(xùn)練后的多模態(tài)語言模型是基于多模態(tài)數(shù)據(jù)集訓(xùn)練得到的,所述多模態(tài)數(shù)據(jù)集包括樣本分子對(duì)應(yīng)的樣本蛋白質(zhì)的序列模態(tài)樣本、結(jié)構(gòu)模態(tài)樣本和口袋模態(tài)樣本,所述多模態(tài)數(shù)據(jù)集被劃分為序列模態(tài)樣本子集、口袋模態(tài)樣本子集和完整模態(tài)樣本子集。
7、另一方面,本技術(shù)實(shí)施例提供一種分子生成裝置,所述裝置包括:
8、獲取單元,用于獲取目標(biāo)蛋白質(zhì)對(duì)應(yīng)的已知模態(tài)蛋白質(zhì)信息,所述已知模態(tài)蛋白質(zhì)信息的已知模態(tài)包括模態(tài)集合中的至少一種模態(tài),所述模態(tài)集合包括序列模態(tài)、結(jié)構(gòu)模態(tài)和口袋模態(tài);
9、特征處理單元,用于基于訓(xùn)練后的多模態(tài)語言模型的特征處理模塊對(duì)所述已知模態(tài)蛋白質(zhì)信息進(jìn)行特征處理,獲取所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征,所述多模態(tài)標(biāo)準(zhǔn)化特征包括具有相同維度的序列標(biāo)準(zhǔn)化特征、結(jié)構(gòu)標(biāo)準(zhǔn)化特征和口袋標(biāo)準(zhǔn)化特征;
10、分子生成單元,用于基于訓(xùn)練后的多模態(tài)語言模型的分子生成模塊對(duì)所述多模態(tài)標(biāo)準(zhǔn)化特征進(jìn)行分子生成處理,得到針對(duì)所述目標(biāo)蛋白質(zhì)的目標(biāo)分子;
11、其中,所述訓(xùn)練后的多模態(tài)語言模型是基于多模態(tài)數(shù)據(jù)集訓(xùn)練得到的,所述多模態(tài)數(shù)據(jù)集包括樣本分子對(duì)應(yīng)的樣本蛋白質(zhì)的序列模態(tài)樣本、結(jié)構(gòu)模態(tài)樣本和口袋模態(tài)樣本,所述多模態(tài)數(shù)據(jù)集被劃分為序列模態(tài)樣本子集、口袋模態(tài)樣本子集和完整模態(tài)樣本子集。
12、在一些實(shí)施例中,所述特征處理模塊包括特征編碼模塊、投影器與模態(tài)恢復(fù)模塊,所述特征處理單元在用于基于訓(xùn)練后的多模態(tài)語言模型的特征處理模塊對(duì)所述已知模態(tài)蛋白質(zhì)信息進(jìn)行特征處理,獲取所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征時(shí),具體用于:
13、若所述已知模態(tài)蛋白質(zhì)信息的已知模態(tài)包括所述模態(tài)集合中的部分模態(tài),則根據(jù)所述已知模態(tài)蛋白質(zhì)信息與所述模態(tài)集合確定所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的缺失模態(tài);
14、基于所述特征編碼模塊對(duì)所述已知模態(tài)蛋白質(zhì)信息進(jìn)行特征編碼處理,獲取所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的已知模態(tài)源特征,所述已知模態(tài)源特征包括序列源特征、結(jié)構(gòu)源特征和口袋源特征中的一種或兩種;
15、基于所述投影器對(duì)所述已知模態(tài)源特征進(jìn)行標(biāo)準(zhǔn)化處理,得到所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的已知模態(tài)標(biāo)準(zhǔn)化特征;
16、基于所述模態(tài)恢復(fù)模塊對(duì)所述已知模態(tài)標(biāo)準(zhǔn)化特征與第一目標(biāo)模態(tài)提示信息進(jìn)行模態(tài)恢復(fù)處理,獲取所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的缺失模態(tài)恢復(fù)標(biāo)準(zhǔn)化特征,所述第一目標(biāo)模態(tài)提示信息用于提示恢復(fù)所述缺失模態(tài);
17、根據(jù)所述已知模態(tài)標(biāo)準(zhǔn)化特征與所述缺失模態(tài)恢復(fù)標(biāo)準(zhǔn)化特征,獲取所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征,所述多模態(tài)標(biāo)準(zhǔn)化特征包括序列標(biāo)準(zhǔn)化特征、結(jié)構(gòu)標(biāo)準(zhǔn)化特征和口袋標(biāo)準(zhǔn)化特征。
18、在一些實(shí)施例中,所述特征處理單元在用于基于訓(xùn)練后的多模態(tài)語言模型的特征處理模塊對(duì)所述已知模態(tài)蛋白質(zhì)信息與所述模態(tài)集合進(jìn)行特征處理,獲取所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征時(shí),還用于:
19、若所述已知模態(tài)蛋白質(zhì)信息的已知模態(tài)包括所述模態(tài)集合中的全部模態(tài),則基于所述特征編碼模塊對(duì)所述已知模態(tài)蛋白質(zhì)信息進(jìn)行特征編碼處理,獲取所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的已知模態(tài)源特征,所述已知模態(tài)源特征包括序列源特征、結(jié)構(gòu)源特征和口袋源特征;
20、基于所述投影器對(duì)所述已知模態(tài)源特征中各個(gè)源特征進(jìn)行標(biāo)準(zhǔn)化處理,得到所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征,所述多模態(tài)標(biāo)準(zhǔn)化特征包括序列標(biāo)準(zhǔn)化特征、結(jié)構(gòu)標(biāo)準(zhǔn)化特征和口袋標(biāo)準(zhǔn)化特征。
21、在一些實(shí)施例中,所述分子生成模塊包括模態(tài)嵌入模塊、編碼器和解碼器,所述分子生成單元在用于基于訓(xùn)練后的多模態(tài)語言模型的分子生成模塊對(duì)所述多模態(tài)標(biāo)準(zhǔn)化特征進(jìn)行分子生成處理,得到針對(duì)所述目標(biāo)蛋白質(zhì)的目標(biāo)分子時(shí),具體用于:
22、基于所述模態(tài)嵌入模塊對(duì)所述多模態(tài)標(biāo)準(zhǔn)化特征中各個(gè)標(biāo)準(zhǔn)化特征進(jìn)行模態(tài)嵌入處理,得到多模態(tài)嵌入特征,所述多模態(tài)嵌入特征包括序列嵌入特征、結(jié)構(gòu)嵌入特征和口袋嵌入特征;
23、基于所述編碼器對(duì)所述多模態(tài)嵌入特征進(jìn)行特征融合處理,得到所述目標(biāo)蛋白質(zhì)對(duì)應(yīng)的融合特征;
24、基于所述解碼器對(duì)所述融合特征進(jìn)行特征解碼處理,得到針對(duì)所述目標(biāo)蛋白質(zhì)的目標(biāo)分子。
25、在一些實(shí)施例中,所述分子處理單元在用于基于所述模態(tài)嵌入模塊對(duì)所述多模態(tài)標(biāo)準(zhǔn)化特征中各個(gè)標(biāo)準(zhǔn)化特征進(jìn)行模態(tài)嵌入處理,得到多模態(tài)嵌入特征時(shí),具體用于:
26、基于所述模態(tài)嵌入模塊將所述多模態(tài)標(biāo)準(zhǔn)化特征中的序列標(biāo)準(zhǔn)化特征與序列模態(tài)嵌入相加,得到所述多模態(tài)嵌入特征中的序列嵌入特征,所述序列模態(tài)嵌入用于增強(qiáng)所述序列模態(tài)的特征表示;
27、基于所述模態(tài)嵌入模塊將所述多模態(tài)標(biāo)準(zhǔn)化特征中的結(jié)構(gòu)標(biāo)準(zhǔn)化特征與結(jié)構(gòu)模態(tài)嵌入相加,得到所述多模態(tài)嵌入特征中的結(jié)構(gòu)嵌入特征,所述結(jié)構(gòu)模態(tài)嵌入用于增強(qiáng)所述結(jié)構(gòu)模態(tài)的特征表示;
28、基于所述模態(tài)嵌入模塊將所述多模態(tài)標(biāo)準(zhǔn)化特征中的口袋標(biāo)準(zhǔn)化特征與口袋模態(tài)嵌入相加,得到所述多模態(tài)嵌入特征中的口袋嵌入特征,所述口袋模態(tài)嵌入用于增強(qiáng)所述口袋模態(tài)的特征表示。
29、在一些實(shí)施例中,所述裝置還包括訓(xùn)練單元,用于:
30、獲取多模態(tài)數(shù)據(jù)集,所述多模態(tài)數(shù)據(jù)集包括樣本分子對(duì)應(yīng)的樣本蛋白質(zhì)的序列模態(tài)樣本、結(jié)構(gòu)模態(tài)樣本和口袋模態(tài)樣本,所述多模態(tài)數(shù)據(jù)集被劃分為序列模態(tài)樣本子集、口袋模態(tài)樣本子集和完整模態(tài)樣本子集;
31、根據(jù)所述多模態(tài)數(shù)據(jù)集訓(xùn)練所述多模態(tài)語言模型中的所述特征處理模塊,確定模態(tài)恢復(fù)損失函數(shù);
32、根據(jù)所述多模態(tài)數(shù)據(jù)集訓(xùn)練所述多模態(tài)語言模型中的所述分子生成模塊,確定分子生成損失函數(shù);
33、基于所述模態(tài)恢復(fù)損失函數(shù)與所述分子生成損失函數(shù)更新所述多模態(tài)語言模型的模型參數(shù),得到所述訓(xùn)練后的多模態(tài)語言模型。
34、在一些實(shí)施例中,所述訓(xùn)練單元在用于根據(jù)所述多模態(tài)數(shù)據(jù)集訓(xùn)練所述多模態(tài)語言模型中的所述特征處理模塊,確定模態(tài)恢復(fù)損失函數(shù)時(shí),具體用于:
35、基于所述特征處理模塊中的所述特征編碼模塊與所述投影器對(duì)所述完整模態(tài)樣本子集進(jìn)行特征處理,得到所述樣本蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征真實(shí)值,所述多模態(tài)標(biāo)準(zhǔn)化特征真實(shí)值包括序列標(biāo)準(zhǔn)化特征真實(shí)值、結(jié)構(gòu)標(biāo)準(zhǔn)化特征真實(shí)值和口袋標(biāo)準(zhǔn)化特征真實(shí)值;
36、基于所述特征處理模塊中的所述特征編碼模塊、所述投影器與所述模態(tài)恢復(fù)模塊,對(duì)所述序列模態(tài)樣本子集或者所述口袋模態(tài)樣本子集進(jìn)行特征處理,得到所述樣本蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征預(yù)測(cè)值,所述多模態(tài)標(biāo)準(zhǔn)化特征預(yù)測(cè)值包括序列標(biāo)準(zhǔn)化特征預(yù)測(cè)值、結(jié)構(gòu)標(biāo)準(zhǔn)化特征預(yù)測(cè)值和口袋標(biāo)準(zhǔn)化特征預(yù)測(cè)值;
37、根據(jù)所述多模態(tài)標(biāo)準(zhǔn)化特征真實(shí)值與所述多模態(tài)標(biāo)準(zhǔn)化特征預(yù)測(cè)值之間的差異,計(jì)算所述模態(tài)恢復(fù)損失函數(shù)。
38、在一些實(shí)施例中,所述訓(xùn)練單元在用于基于所述特征處理模塊中的所述特征編碼模塊與所述投影器對(duì)所述完整模態(tài)樣本子集進(jìn)行特征處理,得到所述樣本蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征真實(shí)值時(shí),具體用于:
39、基于所述特征編碼模塊對(duì)所述完整模態(tài)樣本子集進(jìn)行特征編碼處理,獲取所述樣本蛋白質(zhì)對(duì)應(yīng)的已知模態(tài)源特征真實(shí)值,所述已知模態(tài)源特征真實(shí)值包括序列源特征真實(shí)值、結(jié)構(gòu)源特征真實(shí)值和口袋源特征真實(shí)值;
40、基于所述投影器對(duì)所述已知模態(tài)源特征真實(shí)值中各個(gè)源特征真實(shí)值進(jìn)行標(biāo)準(zhǔn)化處理,得到所述樣本蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征真實(shí)值。
41、在一些實(shí)施例中,所述訓(xùn)練單元在用于基于所述特征處理模塊中的所述特征編碼模塊、所述投影器與所述模態(tài)恢復(fù)模塊,對(duì)所述序列模態(tài)樣本子集或者所述口袋模態(tài)樣本子集進(jìn)行特征處理,得到所述樣本蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征預(yù)測(cè)值時(shí),具體用于:
42、基于所述特征編碼模塊對(duì)所述序列模態(tài)樣本子集進(jìn)行特征編碼處理,獲取所述樣本蛋白質(zhì)對(duì)應(yīng)的序列源特征真實(shí)值;基于所述投影器對(duì)所述序列源特征真實(shí)值進(jìn)行標(biāo)準(zhǔn)化處理,得到所述樣本蛋白質(zhì)對(duì)應(yīng)的序列標(biāo)準(zhǔn)化特征真實(shí)值;以及基于所述模態(tài)恢復(fù)模塊對(duì)所述序列標(biāo)準(zhǔn)化特征真實(shí)值與第二目標(biāo)模態(tài)提示信息進(jìn)行模態(tài)恢復(fù)處理,獲取所述樣本蛋白質(zhì)對(duì)應(yīng)的結(jié)構(gòu)標(biāo)準(zhǔn)化特征預(yù)測(cè)值和口袋標(biāo)準(zhǔn)化特征預(yù)測(cè)值,所述第二目標(biāo)模態(tài)提示信息用于提示恢復(fù)所述結(jié)構(gòu)模態(tài)與所述口袋模態(tài);或者
43、基于所述特征編碼模塊對(duì)所述口袋模態(tài)樣本子集進(jìn)行特征編碼處理,獲取所述樣本蛋白質(zhì)對(duì)應(yīng)的口袋源特征真實(shí)值;基于所述投影器對(duì)所述口袋源特征真實(shí)值進(jìn)行標(biāo)準(zhǔn)化處理,得到所述樣本蛋白質(zhì)對(duì)應(yīng)的口袋標(biāo)準(zhǔn)化特征真實(shí)值;以及基于所述模態(tài)恢復(fù)模塊對(duì)所述口袋標(biāo)準(zhǔn)化特征真實(shí)值與第三目標(biāo)模態(tài)提示信息進(jìn)行模態(tài)恢復(fù)處理,獲取所述樣本蛋白質(zhì)對(duì)應(yīng)的序列標(biāo)準(zhǔn)化特征預(yù)測(cè)值和結(jié)構(gòu)標(biāo)準(zhǔn)化特征預(yù)測(cè)值,所述第三目標(biāo)模態(tài)提示信息用于提示恢復(fù)所述序列模態(tài)與所述結(jié)構(gòu)模態(tài)。
44、在一些實(shí)施例中,所述訓(xùn)練單元在用于根據(jù)所述多模態(tài)數(shù)據(jù)集訓(xùn)練所述多模態(tài)語言模型中的所述分子生成模塊,確定分子生成損失函數(shù)時(shí),具體用于:
45、基于所述特征處理模塊中的所述特征編碼模塊與所述投影器對(duì)所述完整模態(tài)樣本子集進(jìn)行特征處理,得到所述樣本蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征真實(shí)值,所述多模態(tài)標(biāo)準(zhǔn)化特征真實(shí)值包括序列標(biāo)準(zhǔn)化特征真實(shí)值、結(jié)構(gòu)標(biāo)準(zhǔn)化特征真實(shí)值和口袋標(biāo)準(zhǔn)化特征真實(shí)值;
46、獲取所述樣本分子的真實(shí)嵌入字符串序列中的位置i的真實(shí)令牌;
47、在給定所述真實(shí)嵌入字符串序列中位置i之前的所有令牌的情況下,基于所述分子生成模塊對(duì)所述多模態(tài)標(biāo)準(zhǔn)化特征真實(shí)值進(jìn)行分子生成處理,得到所述樣本分子的預(yù)測(cè)嵌入字符串序列中位置i的預(yù)測(cè)令牌;
48、基于所述真實(shí)嵌入字符串序列中位置i的真實(shí)令牌與所述預(yù)測(cè)嵌入字符串序列中位置i的預(yù)測(cè)令牌之間的差異,計(jì)算所述分子生成損失函數(shù)。
49、在一些實(shí)施例中,所述訓(xùn)練單元在用于根據(jù)所述多模態(tài)數(shù)據(jù)集訓(xùn)練所述多模態(tài)語言模型中的所述分子生成模塊,確定分子生成損失函數(shù)時(shí),具體用于:
50、基于所述特征處理模塊中的所述特征編碼模塊、所述投影器與所述模態(tài)恢復(fù)模塊,對(duì)所述序列模態(tài)樣本子集或者所述口袋模態(tài)樣本子集進(jìn)行特征處理,得到所述樣本蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征預(yù)測(cè)值,所述多模態(tài)標(biāo)準(zhǔn)化特征預(yù)測(cè)值包括序列標(biāo)準(zhǔn)化特征預(yù)測(cè)值、結(jié)構(gòu)標(biāo)準(zhǔn)化特征預(yù)測(cè)值和口袋標(biāo)準(zhǔn)化特征預(yù)測(cè)值;
51、獲取所述樣本分子的真實(shí)嵌入字符串序列中的位置i的真實(shí)令牌;
52、在給定所述真實(shí)嵌入字符串序列中位置i之前的所有令牌的情況下,基于所述分子生成模塊對(duì)所述多模態(tài)標(biāo)準(zhǔn)化特征真實(shí)值進(jìn)行分子生成處理,得到所述樣本分子的預(yù)測(cè)嵌入字符串序列中位置i的預(yù)測(cè)令牌;
53、基于所述真實(shí)嵌入字符串序列中位置i的真實(shí)令牌與所述預(yù)測(cè)嵌入字符串序列中位置i的預(yù)測(cè)令牌之間的差異,計(jì)算所述分子生成損失函數(shù)。
54、在一些實(shí)施例中,所述模型參數(shù)包括所述投影器的投影參數(shù)、所述模態(tài)恢復(fù)模塊的模態(tài)恢復(fù)參數(shù)與所述分子生成模塊的分子生成參數(shù);所述訓(xùn)練單元在用于基于所述模態(tài)恢復(fù)損失函數(shù)與所述分子生成損失函數(shù)更新所述多模態(tài)語言模型的模型參數(shù)時(shí),具體用于
55、基于所述模態(tài)恢復(fù)損失函數(shù)更新所述模態(tài)恢復(fù)模塊的模態(tài)恢復(fù)參數(shù);
56、基于所述分子生成損失函數(shù)更新所述投影器的投影參數(shù)與所述分子生成模塊的分子生成參數(shù)。
57、另一方面,本技術(shù)實(shí)施例一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序適于處理器進(jìn)行加載,以執(zhí)行如上任一實(shí)施例所述的分子生成方法。
58、另一方面,本技術(shù)實(shí)施例一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述處理器通過調(diào)用所述存儲(chǔ)器中存儲(chǔ)的所述計(jì)算機(jī)程序,用于執(zhí)行如上任一實(shí)施例所述的分子生成方法。
59、另一方面,本技術(shù)實(shí)施例一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上任一實(shí)施例所述的分子生成方法。
60、本技術(shù)實(shí)施例通過獲取目標(biāo)蛋白質(zhì)對(duì)應(yīng)的已知模態(tài)蛋白質(zhì)信息,已知模態(tài)蛋白質(zhì)信息的已知模態(tài)包括模態(tài)集合中的至少一種模態(tài),模態(tài)集合包括序列模態(tài)、結(jié)構(gòu)模態(tài)和口袋模態(tài);基于訓(xùn)練后的多模態(tài)語言模型的特征處理模塊對(duì)已知模態(tài)蛋白質(zhì)信息進(jìn)行特征處理,獲取目標(biāo)蛋白質(zhì)對(duì)應(yīng)的多模態(tài)標(biāo)準(zhǔn)化特征,多模態(tài)標(biāo)準(zhǔn)化特征包括具有相同維度的序列標(biāo)準(zhǔn)化特征、結(jié)構(gòu)標(biāo)準(zhǔn)化特征和口袋標(biāo)準(zhǔn)化特征;基于訓(xùn)練后的多模態(tài)語言模型的分子生成模塊對(duì)多模態(tài)標(biāo)準(zhǔn)化特征進(jìn)行分子生成處理,得到針對(duì)目標(biāo)蛋白質(zhì)的目標(biāo)分子;其中,訓(xùn)練后的多模態(tài)語言模型是基于多模態(tài)數(shù)據(jù)集訓(xùn)練得到的,多模態(tài)數(shù)據(jù)集包括樣本分子對(duì)應(yīng)的樣本蛋白質(zhì)的序列模態(tài)樣本、結(jié)構(gòu)模態(tài)樣本和口袋模態(tài)樣本,多模態(tài)數(shù)據(jù)集被劃分為序列模態(tài)樣本子集、口袋模態(tài)樣本子集和完整模態(tài)樣本子集。本技術(shù)實(shí)施例能夠利用目標(biāo)蛋白質(zhì)的至少一種模態(tài)的已知模態(tài)蛋白質(zhì)信息生成多模態(tài)標(biāo)準(zhǔn)化特征,實(shí)現(xiàn)在目標(biāo)蛋白質(zhì)缺少某些模態(tài)信息的情況下生成高質(zhì)量的藥物分子,提升了藥物設(shè)計(jì)的效率,這種方法減少了對(duì)完整蛋白質(zhì)三維結(jié)構(gòu)的依賴,從而加快了藥物設(shè)計(jì)的過程。通過多模態(tài)語言模型的特征處理模塊,本技術(shù)的多模態(tài)語言模型是基于包含序列模態(tài)樣本、結(jié)構(gòu)模態(tài)樣本和口袋模態(tài)樣本的多模態(tài)數(shù)據(jù)集訓(xùn)練得到的,這種多模態(tài)的訓(xùn)練方式使得模型能夠更充分地學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)和互補(bǔ)信息,從而提高了模型對(duì)未知結(jié)構(gòu)蛋白與目標(biāo)分子之間相互作用的學(xué)習(xí)能力。