本發(fā)明涉及一種基于多模態(tài)融合的對化學(xué)物發(fā)育毒性預(yù)測的方法,同時涉及相應(yīng)的基于多模態(tài)融合的對化學(xué)物發(fā)育毒性預(yù)測的裝置,屬于人工智能輔助預(yù)測化學(xué)物毒性領(lǐng)域,屬于計算機科學(xué)、毒理學(xué)、化學(xué)信息學(xué)、生物信息學(xué)的多學(xué)科交叉研究。
背景技術(shù):
1、迄今為止,人類社會發(fā)現(xiàn)及生產(chǎn)了大量的化學(xué)物質(zhì),以pubchem(https://pubchem.ncbi.nlm.nih.gov/)為例,該網(wǎng)站截至2024/05/15已經(jīng)收錄了1.18億種化合物,3.18億種物質(zhì)。然而,有毒性試驗結(jié)果報道的化合物數(shù)量小于30萬,在浩如煙海的化合物群中,可謂九牛一毛。合成化學(xué)品給現(xiàn)代生活帶來了便利,為社會發(fā)展做出了巨大貢獻。食品添加劑、化妝品原料、醫(yī)藥、農(nóng)藥、有機中間體等是商業(yè)上常用的化學(xué)品類別,是工業(yè)、農(nóng)業(yè)和日常生活中不可或缺的化學(xué)品。根據(jù)聯(lián)合國全球化學(xué)品展望ii,預(yù)計未來幾十年化學(xué)品銷售將持續(xù)增長。然而,接觸化學(xué)混合物被視為對人類健康的主要威脅之一。
2、大多數(shù)毒性/毒代動力學(xué)預(yù)測模型都是基于qsar概念,即將結(jié)構(gòu)或特征信息進行轉(zhuǎn)換將化學(xué)品轉(zhuǎn)化為計算機可識別的數(shù)字向量。這可以使用分子描述符和分子指紋來完成,從而進一步進行機器學(xué)習(xí)建模。數(shù)據(jù)庫包含從學(xué)術(shù)出版物收集的實驗活動數(shù)據(jù)和/或描述符值,而計算機程序通常從現(xiàn)有的嵌入式模型生成值。
3、基于人工智能的毒性預(yù)測模型,化學(xué)數(shù)據(jù)庫、分子描述符、指紋圖譜和模型算法的使用都是模型開發(fā)中的重要因素。隨著信息技術(shù)的發(fā)展,多模態(tài)的方法走進科學(xué)研究的視野之中,多模態(tài)深度學(xué)習(xí)被提出,并且由于其高度的非線性,已經(jīng)證明了其在表示多模態(tài)數(shù)據(jù)方面的優(yōu)勢。倘若以多模態(tài)融合為計算毒理學(xué)預(yù)測模型提供新的突破口,可以推動智能系統(tǒng)向更加智能化的方發(fā)展。
技術(shù)實現(xiàn)思路
1、本發(fā)明所要解決的首要技術(shù)問題在于提供一種基于多模態(tài)融合的對化學(xué)物發(fā)育毒性預(yù)測的方法。
2、本發(fā)明所要解決的另一技術(shù)問題在于提供一種基于多模態(tài)融合的對化學(xué)物發(fā)育毒性預(yù)測的裝置。
3、為了實現(xiàn)上述目的,本發(fā)明采用下述的技術(shù)方案:
4、根據(jù)本發(fā)明實施例的第一方面,提供一種化學(xué)物發(fā)育毒性預(yù)測,包括如下步驟:
5、步驟s1、獲取待預(yù)測的化學(xué)物的smiles式;
6、步驟s2、裝置調(diào)用內(nèi)部文件計算出該化學(xué)物3個模態(tài)的數(shù)據(jù),包括分子機構(gòu)、生物活性和批量的關(guān)鍵分子對接活性;
7、步驟s3、將計算好的3個模態(tài)數(shù)據(jù)輸入預(yù)先訓(xùn)練好的發(fā)育毒性預(yù)測模型中;
8、步驟s4、發(fā)育毒性預(yù)測模型預(yù)測的結(jié)果為該化學(xué)物存在發(fā)育毒性的概率值;
9、更進一步的,本發(fā)明通過以下步驟可以實現(xiàn)對化學(xué)物發(fā)育毒性的細分預(yù)測:
10、步驟s5、若預(yù)測概率值大于0.5,進一步調(diào)用自編函數(shù)對批量的關(guān)鍵分子對接數(shù)據(jù)進行離散化處理,獲取值為1變量對應(yīng)的基因;
11、步驟s6、對獲取的基因序列進行富集分析,富集分析結(jié)果作為細分預(yù)測結(jié)果。優(yōu)選的,并輸出效果圖。
12、其中較優(yōu)地,計算所需數(shù)據(jù)時,做如下處理:
13、步驟s21、通過hpo表型數(shù)據(jù)庫檢索出關(guān)鍵的與人類發(fā)育疾病表型相關(guān)的基因,使用alpha?fold預(yù)測出一系列對應(yīng)的蛋白質(zhì)結(jié)構(gòu)的pdbqt文件,通過去除配體、加氫等處理,保存在相應(yīng)的裝置內(nèi);
14、步驟s22、根據(jù)待測化學(xué)物smiles式,使用python等相關(guān)庫,計算出該化學(xué)物的3d分子機構(gòu)(化學(xué)結(jié)構(gòu)可以用一組數(shù)值來表征,這些數(shù)值被稱為分子指紋或描述符。它們可能表征分子的屬性,例如log?p、分子量、氫鍵供體、受體、可旋轉(zhuǎn)鍵等,這些屬性可以與分子的實驗證據(jù)聯(lián)系起來;對于分子表征的每個層次,可以計算數(shù)百或數(shù)千個結(jié)構(gòu)特征。有各種各樣的分子描述符和指紋,編碼結(jié)構(gòu)、拓撲、幾何、靜電、量子化學(xué)、熱力學(xué)、碎片特征等),并抽象提取出數(shù)千個特征,此為第1個模態(tài)數(shù)據(jù);
15、步驟s23、根據(jù)待測化學(xué)物smiles式,使用python等相關(guān)庫,計算出化學(xué)物的生物活性數(shù)據(jù)(本發(fā)明中使用的生物活性數(shù)據(jù)由chemical?checker工具計算。chemicalchecker將小分子相似性原理擴展到生物學(xué)的各個層面。cc將數(shù)據(jù)分為五個級別,從化合物的化學(xué)性質(zhì)到臨床結(jié)果,復(fù)雜性不斷增加。以通用矢量格式表達生物活性數(shù)據(jù),獲得25個cc空間的向量的詳細信息),提取出數(shù)千個特征,此為第2個模態(tài)數(shù)據(jù);
16、步驟s24、根據(jù)待測化學(xué)物smiles式,調(diào)用python等相關(guān)庫,計算出該化學(xué)物的3d分子結(jié)構(gòu),并進行去配體加氫處理,生成pbdqt文件。調(diào)用autodock?vina程序包進行批量的分子對接,生成一個對接活性序列,共計1k左右的特征,此為第3個模態(tài)數(shù)據(jù)。
17、其中較優(yōu)地,計算第1個模態(tài)數(shù)據(jù)時:
18、步驟221、該模態(tài)特征作為50×50的矩陣保存,所有數(shù)值向中心填充,邊緣以隨機噪聲填充。
19、其中較優(yōu)地,計算第2個模態(tài)數(shù)據(jù)時:
20、步驟231、該模態(tài)特征作為25×128的矩陣保存。
21、其中較優(yōu)地,計算第3個模態(tài)數(shù)據(jù)時:
22、步驟241、本發(fā)明預(yù)先額外訓(xùn)練了一個基于gene?cards數(shù)據(jù)庫文本數(shù)據(jù)挖掘的lda主題模型進行基因分類;
23、步驟242、根據(jù)步驟241的基因分類模型,將第3個模態(tài)的數(shù)據(jù)拆分成數(shù)個序列保存。
24、其中較優(yōu)地,對于計算得來的3個模態(tài)的數(shù)據(jù),我們做如下處理:
25、對于在本研究中計算獲得的原始特征數(shù)據(jù)依次進行異常值處理、重編碼、標準化、重采樣。
26、步驟s3數(shù)據(jù)輸入前標準化至0-1之間,防止不同變量間的量綱差異引起的誤差
27、其中較優(yōu)地,所述發(fā)育毒性預(yù)測模型經(jīng)過如下步驟得到:
28、步驟s41、獲得多組化學(xué)物smiles號與發(fā)育毒性結(jié)局,每一組數(shù)據(jù)均按照上述方法計算出3個模態(tài)的數(shù)據(jù)。并且將這些數(shù)據(jù)整合成相應(yīng)格式進行建模。
29、步驟s42、獲得多組有或無發(fā)育毒性數(shù)據(jù)訓(xùn)練預(yù)先設(shè)計的模型結(jié)構(gòu)進行訓(xùn)練,進一步進行調(diào)參優(yōu)化,得到最優(yōu)的發(fā)育毒性預(yù)測模型。
30、其中較優(yōu)地,發(fā)育毒性預(yù)測模型采用多模態(tài)融合的方法,同時使用了dropout層進行正則化。通過調(diào)整中間層的節(jié)點數(shù)降低了模型復(fù)雜度。最后一個dense層用sigmoid激活函數(shù)輸出一個概率,用于二分類問題:
31、第一個模態(tài)數(shù)據(jù)傳入后,使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)的結(jié)構(gòu);
32、第二個模態(tài)數(shù)據(jù)傳入后,使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)的結(jié)構(gòu);
33、第三個模態(tài)數(shù)據(jù)傳入后,使用注意力機制(transformer)的結(jié)構(gòu);
34、最后一個網(wǎng)絡(luò)層,包含1個節(jié)點,使用sigmoid激活函數(shù),用于二分類問題的輸出。
35、其中較優(yōu)地,所述發(fā)育毒性預(yù)測模型在做出預(yù)測后,使用shapley方法計算各個結(jié)構(gòu)特征的shap值并進行可視化。
36、其中較優(yōu)地,所述發(fā)育毒性預(yù)測模型在做出預(yù)測后,存在后續(xù)處理與細分預(yù)測的功能:
37、步驟s51、當模型預(yù)測值大于0.5時,自動對第三個模態(tài)的數(shù)據(jù)按照某一設(shè)定好的閾值進行離散化處理,并返回對應(yīng)的基因序列。
38、步驟s61、根據(jù)s51返回的基因序列,進行富集分析,對可能受影響的通路進行細分預(yù)測。
39、根據(jù)本發(fā)明實施例的第二方面,提供一種基于多模態(tài)融合的對化學(xué)物發(fā)育毒性預(yù)測及細分預(yù)測的裝置,包括處理器和存儲器,所述處理器讀取所述存儲器中的計算機程序,結(jié)果展示于顯示器上,用于執(zhí)行以下操作:
40、獲得待采集數(shù)據(jù),該待采集數(shù)據(jù)僅包括待預(yù)測化學(xué)物的smiles式。
41、將所述smiles輸入到整個裝置的接收界面中;
42、所述發(fā)育毒性預(yù)測模型的輸出結(jié)果為化學(xué)物發(fā)育毒性風(fēng)險概率,以及風(fēng)險結(jié)構(gòu)特征排序、富集分析結(jié)果細分預(yù)測展現(xiàn)于顯示器上。
43、本發(fā)明的有益效果
44、本發(fā)明所提供的化學(xué)物發(fā)育毒性預(yù)測的方法及裝置,僅僅通過化學(xué)物的smiles式,為預(yù)測發(fā)育毒性預(yù)測及細分預(yù)測提供了更廣更豐富的相關(guān)特征,大大提高了預(yù)測精度和效率,一方面可以有效輔助對新型化學(xué)物的發(fā)育毒性鑒定與管理,另一方面有效節(jié)省實驗人員的時間于精力。