两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于多模態(tài)對(duì)比學(xué)習(xí)的P-糖蛋白抑制劑和底物預(yù)測(cè)方法

文檔序號(hào):40614569發(fā)布日期:2025-01-07 21:02閱讀:15來(lái)源:國(guó)知局
一種基于多模態(tài)對(duì)比學(xué)習(xí)的P-糖蛋白抑制劑和底物預(yù)測(cè)方法

本發(fā)明涉及深度學(xué)習(xí)預(yù)測(cè)藥物性質(zhì)領(lǐng)域,具體涉及一種基于多模態(tài)對(duì)比學(xué)習(xí)的p-糖蛋白抑制劑和底物預(yù)測(cè)方法。


背景技術(shù):

1、p-糖蛋白是一種位于細(xì)胞膜上的跨膜蛋白,在肝、腎、小腸、血腦屏障等多種組織中廣泛表達(dá),參與藥物的吸收、分布、代謝和排泄等過(guò)程。它負(fù)責(zé)將許多有害物質(zhì)從細(xì)胞內(nèi)排出到細(xì)胞外空間,但它也將許多藥物推出細(xì)胞,其可顯著限制或破壞許多藥物的活性。鑒于p-gp在藥物外排和多藥耐藥中的關(guān)鍵作用,研究p-gp抑制劑和底物的預(yù)測(cè)具有重要意義。p-gp抑制劑或底物的活性評(píng)估可以通過(guò)體內(nèi)或體外實(shí)驗(yàn)獲得,然而這些方法具有周期較長(zhǎng)、成本高、實(shí)驗(yàn)條件不穩(wěn)定等缺點(diǎn)。因此,迫切需要研發(fā)計(jì)算方法來(lái)輔助p-gp抑制劑和底物的實(shí)驗(yàn)篩選。

2、近年來(lái),隨著人工智能和化學(xué)信息學(xué)和發(fā)展,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法被越來(lái)越多地應(yīng)用于p-gp抑制劑和底物的預(yù)測(cè)。然而當(dāng)前的研究中面臨幾個(gè)顯著的挑戰(zhàn)。首要挑戰(zhàn)在于數(shù)據(jù)瓶頸,p-gp抑制劑和底物相關(guān)的研究數(shù)據(jù)由于實(shí)驗(yàn)環(huán)境標(biāo)準(zhǔn)難以統(tǒng)一、存在噪音大等特性,導(dǎo)致現(xiàn)有數(shù)據(jù)集的質(zhì)量參差不齊且規(guī)模相對(duì)有限,這一現(xiàn)狀直接限制了預(yù)測(cè)模型的準(zhǔn)確性與泛化能力。

3、此外,在分子表征方面,大多數(shù)現(xiàn)有模型依賴(lài)于單一的分子表征類(lèi)型,難以全面、深入地捕捉分子內(nèi)部復(fù)雜多變的結(jié)構(gòu)信息與動(dòng)態(tài)交互過(guò)程,從而限制了模型對(duì)分子特性的全面理解與精準(zhǔn)預(yù)測(cè)。模型的可解釋性缺失也是不容忽視的問(wèn)題。雖然深度學(xué)習(xí)等技術(shù)在預(yù)測(cè)精度上屢創(chuàng)佳績(jī),但其“黑箱”特性使得預(yù)測(cè)結(jié)果背后的生物化學(xué)機(jī)制變得難以捉摸。這不僅阻礙了對(duì)藥物作用機(jī)制的深入理解,也限制了研究成果在藥物研發(fā)等實(shí)際應(yīng)用中的轉(zhuǎn)化效率。因此,為推動(dòng)p-gp抑制劑及底物預(yù)測(cè)研究的進(jìn)一步發(fā)展,亟需構(gòu)建高質(zhì)量、大規(guī)模的數(shù)據(jù)集,探索多模態(tài)的分子表征方法以增強(qiáng)預(yù)測(cè)模型的精度,并加強(qiáng)模型可解釋性研究,識(shí)別與p-gp相互作用密切相關(guān)的關(guān)鍵官能團(tuán),為藥物研發(fā)提供更加堅(jiān)實(shí)可靠的理論支撐與技術(shù)支持。


技術(shù)實(shí)現(xiàn)思路

1、為解決上述問(wèn)題,本發(fā)明提供了一種基于多模態(tài)對(duì)比學(xué)習(xí)的p-糖蛋白抑制劑和底物預(yù)測(cè)方法,構(gòu)建高質(zhì)量的p-糖蛋白抑制劑和底物數(shù)據(jù)集,提升了模型預(yù)測(cè)精度和泛化性能,并實(shí)現(xiàn)了模型的可解釋性,為藥物開(kāi)發(fā)中的分子設(shè)計(jì)提供可靠的科學(xué)依據(jù)。

2、一種基于多模態(tài)對(duì)比學(xué)習(xí)的p-糖蛋白抑制劑和底物預(yù)測(cè)方法,包括以下步驟:

3、1)構(gòu)建p-糖蛋白抑制劑和底物的數(shù)據(jù)集;

4、2)利用深度學(xué)習(xí)方法構(gòu)建p-糖蛋白抑制劑和底物預(yù)測(cè)模型;

5、3)將步驟1)獲取的數(shù)據(jù)集輸入到步驟2)構(gòu)建的p-糖蛋白抑制劑和底物預(yù)測(cè)模型中,針對(duì)分子圖特征引入圖對(duì)比學(xué)習(xí)策略,得到數(shù)據(jù)增廣后的分子圖,計(jì)算分子圖和數(shù)據(jù)增廣后的分子圖之間的對(duì)比損失,根據(jù)p-糖蛋白抑制劑和底物預(yù)測(cè)器輸出的融合特征計(jì)算分類(lèi)損失,將對(duì)比損失和分類(lèi)損失聯(lián)合得到總損失函數(shù),通過(guò)總損失函數(shù)訓(xùn)練并優(yōu)化p-糖蛋白抑制劑和底物預(yù)測(cè)模型的參數(shù),得到優(yōu)化后的p-糖蛋白抑制劑和底物預(yù)測(cè)模型;

6、4)將待預(yù)測(cè)的化合物數(shù)據(jù)輸入到優(yōu)化后的p-糖蛋白抑制劑和底物預(yù)測(cè)模型,輸出最終的分類(lèi)結(jié)果,判斷化合物是否為p-糖蛋白抑制劑和底物。

7、步驟1)中,構(gòu)建p-糖蛋白抑制劑和底物的數(shù)據(jù)集,具體包括:

8、從相關(guān)數(shù)據(jù)庫(kù)中收集分子化合物與p-糖蛋白抑制劑和底物相關(guān)的實(shí)驗(yàn)數(shù)據(jù)、化合物smiles序列,整合后進(jìn)行預(yù)處理,獲得p-糖蛋白抑制劑和底物的數(shù)據(jù)集。

9、步驟2)中,所述的p-糖蛋白抑制劑和底物預(yù)測(cè)模型,具體包括:

10、分子smiles序列特征提取模塊,用于接收p-糖蛋白抑制劑和底物的數(shù)據(jù)集并提取分子smiles序列特征;

11、分子指紋特征提取模塊,用于接收p-糖蛋白抑制劑和底物的數(shù)據(jù)集并生成分子指紋特征;

12、分子圖特征提取模塊,用于接收p-糖蛋白抑制劑和底物的數(shù)據(jù)集并生成分子圖特征;

13、基于注意力機(jī)制構(gòu)建的特征融合模塊,用于接收所述分子smiles序列特征提取模塊輸出的分子smiles序列特征、所述分子指紋特征提取模塊輸出的分子指紋特征、所述分子圖特征提取模塊輸出的分子圖特征,并將分子smiles序列特征、分子指紋特征和分子圖特征進(jìn)行特征融合輸出融合特征;

14、p-糖蛋白抑制劑和底物預(yù)測(cè)器,包括全連接層,用于接收融合特征并預(yù)測(cè)輸出分類(lèi)結(jié)果。

15、步驟2)中,提取分子smiles序列特征,具體步驟包括:

16、2-1-1)將p-糖蛋白抑制劑和底物的數(shù)據(jù)集中的smiles序列劃分為單個(gè)原子或符號(hào),然后從預(yù)訓(xùn)練字典中查找相對(duì)應(yīng)的原子的嵌入向量,如果不在字典中,則生成隨機(jī)嵌入向量;將原子的嵌入向量和隨機(jī)嵌入向量聚合得到smiles序列的初步表示;

17、2-1-2)通過(guò)雙向長(zhǎng)短記憶網(wǎng)絡(luò)bi-lstm對(duì)smiles序列的初步表示進(jìn)行預(yù)處理,捕獲smiles上下文信息表示;

18、2-1-3)通過(guò)注意力機(jī)制計(jì)算smiles上下文信息表示中的每個(gè)原子的注意力權(quán)重,并根據(jù)注意力權(quán)重對(duì)每個(gè)原子的隱藏狀態(tài)加權(quán)求和得到分子smiles序列的特征向量;

19、2-1-4)將分子smiles序列的特征向量傳入全連接層得到分子i的smiles序列特征si。

20、步驟2)中,生成分子指紋特征,具體包括:

21、分別計(jì)算p-糖蛋白抑制劑和底物的數(shù)據(jù)集中分子的圓形拓?fù)渲讣yecfp4指紋和pubchem指紋,將兩種指紋進(jìn)行連接得到混合指紋,并將混合指紋傳入全連接層,得到分子i的分子指紋特征fi。

22、步驟2)中,生成分子圖特征,具體包括:

23、2-3-1)根據(jù)p-糖蛋白抑制劑和底物的數(shù)據(jù)集中的分子smiles提取節(jié)點(diǎn)和邊信息,使用節(jié)點(diǎn)和邊的信息構(gòu)建圖的鄰接矩陣;

24、2-3-2)計(jì)算p-糖蛋白抑制劑和底物的數(shù)據(jù)集中的每個(gè)原子的理化性質(zhì),作為分子圖中點(diǎn)的初始特征向量;

25、2-3-3)采用圖同構(gòu)網(wǎng)絡(luò)gin,通過(guò)聚合圖的鄰接矩陣中節(jié)點(diǎn)的自身特征和鄰居節(jié)點(diǎn)的特征混合來(lái)更新步驟2-3-2)獲得的初始特征向量,通過(guò)對(duì)所有節(jié)點(diǎn)的特征進(jìn)行全局平均池化操作,得到整個(gè)分子的全局圖表征;

26、2-3-4)將全局圖表征輸入到全連接層,得到分子i的分子圖特征gi。

27、步驟3)中,總損失函數(shù),具體包括:

28、通過(guò)全連接層對(duì)融合特征的分子表征mi進(jìn)行處理,獲得用于分類(lèi)任務(wù)的最終分子表征yi,隨后計(jì)算二元交叉熵?fù)p失作為分類(lèi)損失其計(jì)算公式為:

29、

30、其中,n是分子的總數(shù),yi是第i個(gè)分子的實(shí)際標(biāo)簽,是模型預(yù)測(cè)第i個(gè)分子為正類(lèi)的概率;

31、針對(duì)分子圖特征引入圖對(duì)比學(xué)習(xí)策略,得到數(shù)據(jù)增廣后的分子圖,計(jì)算分子圖和數(shù)據(jù)增廣后的分子圖之間的nt-xent損失作為對(duì)比損失

32、最終總損失函數(shù)定義為分類(lèi)損失和對(duì)比學(xué)習(xí)損失的加權(quán)和:

33、

34、其中,β為可調(diào)整的權(quán)重參數(shù)。

35、具體地,本發(fā)明的技術(shù)方案如下:

36、1)構(gòu)建p-糖蛋白(p-glycoprotein,p-gp)抑制劑和底物數(shù)據(jù)集,包括從相關(guān)數(shù)據(jù)庫(kù)中收集小分子化合物與p-糖蛋白抑制劑和底物相關(guān)的實(shí)驗(yàn)數(shù)據(jù)、化合物簡(jiǎn)化分子線性輸入規(guī)范格式smiles序列等信息,整合后進(jìn)行預(yù)處理,獲得最終的數(shù)據(jù)集;

37、2)利用深度學(xué)習(xí)方法構(gòu)建p-糖蛋白抑制劑和底物預(yù)測(cè)模型,該模型架構(gòu)包括如下組件:分子smiles序列特征提取模塊、分子指紋特征提取模塊、分子圖特征提取模塊、基于注意力機(jī)制構(gòu)建的特征融合模塊和基于全連接層構(gòu)建的預(yù)測(cè)器;

38、3)在訓(xùn)練過(guò)程中,針對(duì)分子圖特征引入圖對(duì)比學(xué)習(xí)策略,得到數(shù)據(jù)增廣后的分子圖,計(jì)算分子圖和增廣圖之間的對(duì)比損失;

39、4)采用步驟1)獲取的數(shù)據(jù)集,并通過(guò)計(jì)算步驟2)中預(yù)測(cè)器的分類(lèi)損失和步驟3)中的對(duì)比損失,訓(xùn)練并優(yōu)化p-糖蛋白抑制劑和底物預(yù)測(cè)模型的參數(shù),得到優(yōu)化后的預(yù)測(cè)模型;

40、5)將待預(yù)測(cè)的化合物數(shù)據(jù)輸入優(yōu)化后的p-糖蛋白抑制劑和底物預(yù)測(cè)模型,輸出最終的分類(lèi)結(jié)果,判斷化合物是否為p-糖蛋白抑制劑和底物;

41、6)對(duì)于預(yù)測(cè)模型進(jìn)行可解釋性分析,識(shí)別化合物中與p-gp相互作用密切相關(guān)的關(guān)鍵官能團(tuán)。

42、步驟1)中,為了構(gòu)建p-gp抑制劑和底物數(shù)據(jù)集,具體包括以下步驟:

43、1-1)采用文本挖掘和手工核對(duì)方法從數(shù)據(jù)庫(kù)和文獻(xiàn)中收集與p-gp相關(guān)的實(shí)驗(yàn)數(shù)據(jù),數(shù)據(jù)庫(kù)包括chembl、ochem、pubchem、drugbank等;

44、1-2)仔細(xì)檢查實(shí)驗(yàn)數(shù)據(jù),依據(jù)指定閾值對(duì)化合物進(jìn)行陰陽(yáng)性標(biāo)注;

45、1-3)從數(shù)據(jù)集中刪除重復(fù)以及分類(lèi)矛盾的數(shù)據(jù);

46、1-4)所有化合物結(jié)構(gòu)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,包括去除無(wú)機(jī)物、絡(luò)合物,將鹽轉(zhuǎn)化為相應(yīng)的酸或堿,對(duì)于立體異構(gòu)體僅保留一條數(shù)據(jù)等;

47、1-5)額外收集相關(guān)研究和數(shù)據(jù)庫(kù)的化合物數(shù)據(jù)作為外部測(cè)試集,將以上的數(shù)據(jù)預(yù)處理步驟應(yīng)用于外部測(cè)試集,并刪除外部測(cè)試集中和數(shù)據(jù)集重復(fù)的化合物和相應(yīng)生物活性數(shù)據(jù)。

48、所述步驟2)中,根據(jù)輸入數(shù)據(jù)的smiles,通過(guò)分子smiles序列特征提取模塊提取分子smiles序列特征,具體包括以下步驟:

49、2-1-1)將給定的smiles序列劃分為單個(gè)原子或符號(hào),然后從預(yù)訓(xùn)練字典中查找相對(duì)應(yīng)的原子的嵌入向量,如果不在字典中,則生成隨機(jī)嵌入向量;預(yù)訓(xùn)練字典包含常見(jiàn)原子的嵌入向量;

50、2-1-2)將嵌入向量聚合得到嵌入矩陣其中m是原子數(shù)量,d是嵌入向量的維度;

51、2-1-3)通過(guò)以上步驟可得到smiles序列的特征向量x={x1,x2,…,xn},其中是第t個(gè)原子的特征向量。通過(guò)雙向長(zhǎng)短記憶網(wǎng)絡(luò)bi-lstm捕獲smiles上下文信息表示,得到原子t的隱藏狀態(tài)ht:

52、

53、其中和分別表示前向和后向的lstm單元,ht-1為原子t-1的隱藏狀態(tài);

54、2-1-4)采用注意力機(jī)制進(jìn)一步提升模型對(duì)重要序列信息的捕捉能力,采用以下公式計(jì)算ht的注意力權(quán)重:

55、et=tanh(w1ht+b1)??????(2)

56、

57、其中et為原子t注意力分?jǐn)?shù),通過(guò)tanh激活函數(shù)前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算,w1為權(quán)重矩陣,b1為偏置向量;對(duì)注意力分?jǐn)?shù)采用softmax函數(shù)進(jìn)行歸一化處理,得到原子t的注意力權(quán)重αt;

58、2-1-5)根據(jù)注意力權(quán)重對(duì)每個(gè)原子的隱藏狀態(tài)加權(quán)求和得到分子smiles序列的特征向量將特征向量hs傳入全連接層,得到分子i的smiles序列特征si。

59、所述步驟2)中,根據(jù)輸入數(shù)據(jù)的smiles,通過(guò)分子指紋特征提取模塊生成分子指紋特征,具體包括以下步驟:

60、分別計(jì)算分子的圓形拓?fù)渲讣yecfp4指紋和基于子結(jié)構(gòu)的pubchem指紋,將兩種指紋進(jìn)行連接得到混合指紋,并將混合指紋傳入兩層全連接層,得到分子i的分子指紋特征fi。

61、所述步驟2)中,根據(jù)輸入數(shù)據(jù)的smiles,通過(guò)分子圖特征提取模塊生成分子圖特征,具體包括以下步驟:

62、2-3-1)根據(jù)分子smiles提取節(jié)點(diǎn)和邊信息,其中分子中的每個(gè)原子映射為分子圖中的節(jié)點(diǎn),原子之間的化學(xué)鍵映射為分子圖中的邊,使用節(jié)點(diǎn)和邊的信息構(gòu)建圖的鄰接矩陣,以表示節(jié)點(diǎn)之間的連接關(guān)系;

63、2-3-2)計(jì)算每個(gè)原子的理化性質(zhì),作為分子圖中點(diǎn)的初始特征向量;理化性質(zhì)具體包括原子類(lèi)型、帶電荷數(shù)、手性碳情況、相連氫原子數(shù)、雜化類(lèi)型、是否是芳香原子等;

64、2-3-3)采用圖同構(gòu)網(wǎng)絡(luò)gin,通過(guò)聚合鄰居節(jié)點(diǎn)的特征并與自身特征混合來(lái)更新節(jié)點(diǎn)表示,第k層gin的節(jié)點(diǎn)特征更新規(guī)則如下:

65、

66、對(duì)所有節(jié)點(diǎn)特征進(jìn)行全局平均池化操作,得到整個(gè)分子的全局圖表征hg:

67、

68、其中表示節(jié)點(diǎn)v在第k層的特征向量,表示節(jié)點(diǎn)v的鄰居節(jié)點(diǎn)集合,mlp(k)表示第k層的多層感知機(jī)(mlp),∈是一個(gè)可學(xué)習(xí)的或固定的標(biāo)量,k表示gin的層數(shù),v表示節(jié)點(diǎn)的集合,global_mean_pool代表全局平均池化操作。

69、2-3-4)將全局圖表征輸入到全連接層,得到分子i的分子圖表征gi。

70、所述步驟2)中,采用注意力機(jī)制處理以上步驟得到的多模態(tài)特征,具體包括以下步驟:

71、2-4-1)針對(duì)三種不同的分子表征si(smiles表征)、fi(分子指紋表征)、gi(分子圖表征),通過(guò)tanh激活函數(shù)前饋神經(jīng)網(wǎng)絡(luò)計(jì)算注意力得分:

72、es=tanh(wssi+bs)????(6)

73、ef=tanh(wffi+bf)????(7)

74、eg=tanh(wggi+bg)????(8)

75、其中es、ef、eg,ws、wf、wg和bs、bf、bg分別是smiles表征、分子指紋表征、分子圖表征的注意力得分、權(quán)重矩陣、偏置向量;

76、2-4-2)通過(guò)對(duì)注意力得分歸一化計(jì)算每個(gè)表征的注意力權(quán)重,然后將注意力權(quán)重應(yīng)用于相應(yīng)的分子表征,進(jìn)行加權(quán)融合得到分子i的表征mi:

77、

78、通過(guò)計(jì)算得到的分類(lèi)損失和步驟2-5)得到的對(duì)比損失來(lái)訓(xùn)練優(yōu)化模型所述步驟3)中,分子圖對(duì)比學(xué)習(xí)策略具體包括以下步驟:

79、3-1)對(duì)于給定的分子圖,通過(guò)gin從節(jié)點(diǎn)屬性中獲得節(jié)點(diǎn)嵌入,并利用這些嵌入來(lái)預(yù)測(cè)對(duì)該節(jié)點(diǎn)的增強(qiáng)方式,即預(yù)測(cè)該節(jié)點(diǎn)應(yīng)被丟棄、保留還是遮掩。然后,采用gumbel-softmax技巧從預(yù)測(cè)的分布中采樣進(jìn)行節(jié)點(diǎn)操作,獲得數(shù)據(jù)增廣后的分子圖;

80、3-2)隨機(jī)抽取一批大小為n的分子圖,通過(guò)以上步驟進(jìn)行數(shù)據(jù)增廣,生成相等數(shù)量的對(duì)應(yīng)增廣分子圖。給定的分子圖表征gi與增廣分子圖表征構(gòu)成一個(gè)正樣本對(duì),與剩余的2(n-1)個(gè)圖/增廣圖的表示構(gòu)成負(fù)樣本對(duì)。nt-xent用于計(jì)算對(duì)比學(xué)習(xí)訓(xùn)練的損失,以最大化正樣本對(duì)表示之間的一致性,同時(shí)最小化負(fù)樣本對(duì)表示之間的一致性,將對(duì)比學(xué)習(xí)損失表示為:

81、

82、其中,τ是溫度系數(shù),用于調(diào)節(jié)相似度的尺度,設(shè)置為0.2。1[k≠i]是指示函數(shù),當(dāng)k≠i時(shí)為1,否則為0。表示gi和之間的余弦相似度;

83、3-3)對(duì)于輸入批次的樣本對(duì),對(duì)比損失通過(guò)對(duì)該批次中所有正樣本對(duì)的對(duì)比損失進(jìn)行平均計(jì)算而得到:

84、

85、其中和是一對(duì)分子圖和數(shù)據(jù)增廣后的分子圖之間的對(duì)比損失,n是分子的總數(shù);

86、所述步驟4)中,計(jì)算模型損失函數(shù)具體包括以下步驟:

87、4-1)通過(guò)全連接層對(duì)融合的分子表征mi進(jìn)行進(jìn)一步處理,獲得用于分類(lèi)任務(wù)的最終分子表征yi。隨后計(jì)算二元交叉熵?fù)p失(bce損失)作為分類(lèi)損失其計(jì)算公式為:

88、

89、其中,n是分子的總數(shù),gi是第i個(gè)分子的實(shí)際標(biāo)簽,是模型預(yù)測(cè)第i個(gè)分子為正類(lèi)的概率;

90、4-2)最終總損失函數(shù)定義為分類(lèi)損失和對(duì)比學(xué)習(xí)損失的加權(quán)和:

91、

92、其中,β為可調(diào)整的權(quán)重參數(shù)。

93、所述步驟6)中,可解釋性分析具體包括以下步驟:

94、6-1)針對(duì)分子smiles序列表征,采用注意力權(quán)重可視化技術(shù),分析模型在預(yù)測(cè)過(guò)程中分配給各個(gè)smiles字符的注意力權(quán)重來(lái)識(shí)別影響預(yù)測(cè)的關(guān)鍵因素;

95、6-2)針對(duì)分子指紋表征,采用積分梯度法,通過(guò)分析模型輸入和基準(zhǔn)輸入之間的路徑上的梯度來(lái)標(biāo)識(shí)重要的分子指紋位點(diǎn),積分梯度越高,說(shuō)明該位點(diǎn)所起的作用越大;

96、6-3)針對(duì)分子圖特征,應(yīng)用梯度加權(quán)類(lèi)激活映射(grad-cam)算法,利用卷積層的梯度信息來(lái)突出顯示圖中對(duì)模型預(yù)測(cè)貢獻(xiàn)最大的區(qū)域。通過(guò)可視化模型關(guān)注的關(guān)鍵原子和化學(xué)鍵,可以進(jìn)一步探索這些區(qū)域與藥物活性之間的關(guān)聯(lián),為藥物設(shè)計(jì)和優(yōu)化提供指導(dǎo)。

97、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn):

98、(1)本發(fā)明設(shè)計(jì)的多模態(tài)表征學(xué)習(xí)策略,整合了分子smiles序列特征、分子指紋特征以及分子圖特征,能夠捕捉到分子結(jié)構(gòu)的多個(gè)維度信息,提高了模型對(duì)p-gp抑制劑和底物識(shí)別的準(zhǔn)確性和全面性。相比之下,現(xiàn)有的單一模態(tài)或簡(jiǎn)單組合的技術(shù)方案往往難以全面反映分子的復(fù)雜性質(zhì)。

99、(2)本發(fā)明引入注意力機(jī)制進(jìn)行多模態(tài)特征融合,使得模型能夠自動(dòng)學(xué)習(xí)并強(qiáng)化關(guān)鍵特征的重要性,同時(shí)抑制非關(guān)鍵信息,從而提高了多模態(tài)特征提取與融合的效率和準(zhǔn)確性。

100、(3)本發(fā)明利用自動(dòng)圖對(duì)比學(xué)習(xí)策略生成分子增廣圖,用于最大化同一分子表示之間的相似性和最小化不同分子表示之間的相似性,不僅豐富了訓(xùn)練數(shù)據(jù)的多樣性,還增強(qiáng)了模型的泛化能力。

101、(4)本發(fā)明構(gòu)建的高質(zhì)量數(shù)據(jù)集以及采用的標(biāo)準(zhǔn)化數(shù)據(jù)處理流程,確保了數(shù)據(jù)的一致性和可靠性,為模型訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)。這種嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)準(zhǔn)備方式,是提升模型性能的關(guān)鍵。

102、(5)本發(fā)明針對(duì)三種特征進(jìn)行了可解釋性分析,準(zhǔn)確識(shí)別出與p-gp相互作用密切相關(guān)的關(guān)鍵官能團(tuán),為科研工作者進(jìn)行先導(dǎo)化合物優(yōu)化提供科學(xué)、可靠的信息,有效提升藥物研發(fā)的效率。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
云和县| 长汀县| 桐柏县| 天祝| 斗六市| 新巴尔虎右旗| 林周县| 通渭县| 武安市| 巴林左旗| 万安县| 安塞县| 德令哈市| 新竹市| 曲阳县| 建昌县| 五河县| 许昌市| 凤凰县| 墨竹工卡县| 阿拉善盟| 南木林县| 舟曲县| 瑞丽市| 珲春市| 陆川县| 牟定县| 仙桃市| 贵港市| 安仁县| 大渡口区| 安西县| 都匀市| 定远县| 金沙县| 呼伦贝尔市| 凌源市| 科尔| 元江| 东乌珠穆沁旗| 东光县|