本發(fā)明涉及一種藥物篩選中基于深度哈希的配體分子指紋生成設計方法,屬于計算機輔助藥物設計的技術領域。
背景技術:
分子指紋(Molecular Fingerprint)將化學分子表示成“位串”(bit string),用于刻畫化學分子的結構或功能相似性,由于其使用的簡便性以及在子結構和相似性搜索中的高效性,在藥物發(fā)現(xiàn)和虛擬篩選中得到了廣泛應用。
目前,已經提出了很多的分子指紋生成方法,不同的方法反映了分子不同方面的信息。分子指紋生成方法主要包括:基于關鍵子結構的分子指紋生成方法、基于路徑的分子指紋生成方法、環(huán)形指紋生成方法、藥效團指紋生成方法和混合指紋生成方法等?;陉P鍵子結構的分子指紋生成方法根據(jù)是否存在給定列表中的子結構將化學分子表示成位串,如MACCS、PubChem等?;诼窂降姆肿又讣y生成方法根據(jù)分子的拓撲結構,順著分子化學鍵的不同路徑產生子結構,并哈希產生分子位串,其長度可變,可用于快速子結構搜索,如Daylight指紋和OpenEye樹形指紋。環(huán)形指紋生成方法利用分子的拓撲結構,考慮每個原子的周邊原子和鍵的信息生成位串,已為廣泛應用于分子的整體結構相似性搜索,如Molprint2D、ECFP、FCFP等。藥效團指紋生成方法,它與基于關鍵子結構的指紋相似,但它除了考慮與藥效相關的關鍵子結構,還考慮了這些子結構間的距離因素?;旌现讣y生成方法同時結合上述多種分子指紋信息,如UNITY 2G同時考慮了關鍵子結構和子結構連接路徑信息。除了上述分子指紋生成方法,最近還有不少全新的方法涌現(xiàn)。例如,LINGO為基于文本的分子指紋工具,PLIF分子指紋生成方法主要考慮蛋白質-配體相互作用信息,包括氫鍵、離子鍵等,SIFt分子指紋生成方法主要考慮分子結構間的相互作用信息。
現(xiàn)有的分子指紋生成方法依賴于開發(fā)者的手工特征提取,這對開發(fā)者提出了很高的要求,開發(fā)者需要對領域知識有很深的了解。同時發(fā)現(xiàn)分子結構式的可視化顯示是了解分子性質最直觀的方式,可以將其結構圖轉化成圖像格式,使用成熟的圖像處理技術來生成分子指紋。深度哈希將特征自動生成和哈希編碼學習通過深度學習框架結合到一起,憑借其強大的特征學習能力和標記監(jiān)督信息,迅速超越了基于手工設計特征的傳統(tǒng)哈希方法。
技術實現(xiàn)要素:
本發(fā)明的目的在于解決傳統(tǒng)分子指紋技術需要開發(fā)者對領域知識有較深了解,技術門檻較高的難題。本發(fā)明將分子結構式轉換成圖像文件,采用DPSH深度哈希算法自動學習分子指紋。本發(fā)明從全新的角度設計第一個“端到端”的分子指紋生成框架,開發(fā)者無需手工設計特征,模型將自動生成分子指紋。
為達到上述目的,本發(fā)明的技術方案為一種藥物篩選中基于深度哈希的配體分子指紋生成設計方法,包括如下步驟:
步驟1:生成分子結構式圖像文件;
步驟2:定義配體分子對的配對標記;
步驟3:訓練DPSH深度哈希學習模型;
步驟4:預測新配體分子的分子指紋。
進一步,步驟1通過現(xiàn)有分子軟件讀取配體分子SMILES,并調用軟件中的構圖函數(shù),生成固定尺寸為300*300像素的配體分子結構式圖像文件,用于表示配體分子的結構特征。
如果兩配體分子與共同的藥物靶標作用,則兩分子之間的配對標記為1;若兩分子分別與不同的藥物靶標作用,則兩分子之間的配對標記為0,DPSH深度哈希分子指紋生成模型的目的在于:配對標記為1的兩個配體分子,通過模型生成的分子指紋盡可能相似;配對標記為0的兩分子,其分子指紋之間差距較大。
步驟3將步驟1得到的配體分子結構式圖像進行預處理,轉換成像素大小為224*224的圖像形式,并結合步驟2生成的配對標記,一同輸入DPSH深度哈希學習模型,提取配體分子結構深層次的特征,進行配體分子指紋自動編碼,更新網(wǎng)絡參數(shù)。
步驟4中當要預測新的配體分子的哈希指紋時,只需將配體分子的結構式圖像輸入DPSH深度哈希學習模型處理,就能在輸出端得到指定長度的指紋向量。
本發(fā)明的有益效果:
1、本發(fā)明提出的方法將實現(xiàn)第一個“端到端”、自動的分子指紋生成框架,開發(fā)者無需手工設計特征,解決了“開發(fā)者需要對領域知識有較深的了解”的難題。
2、本發(fā)明從一個全新的角度來生成分子指紋,將捕獲不同的分子信息,可作為現(xiàn)有分子指紋生成方法的重要補充,也將推動分子指紋在藥物發(fā)現(xiàn)和虛擬篩選中更廣泛的應用。
附圖說明
圖1為本發(fā)明基于深度哈希的分子指紋生成系統(tǒng)的架構圖。
圖2為本發(fā)明基于深度哈希的分子指紋生成方法流程圖。
具體實施方式
下面結合附圖和實例對本發(fā)明做進一步的說明。
本發(fā)明提出的方法只需要輸入分子結構式文件,它將被轉換成圖像文件,利用DPSH深度哈希算法,通過優(yōu)化目標損失函數(shù)來自動生成最優(yōu)的分子指紋。本發(fā)明提出的方法將實現(xiàn)第一個“端到端”的分子指紋生成框架,開發(fā)者無需手工設計特征,解決了“開發(fā)者需要對領域知識有較深的了解”的難題。本發(fā)明從一個全新的角度來提供分子指紋生成的通用框架,可以作為現(xiàn)有的分子指紋生成方法重要的補充,也將推動分子指紋在藥物發(fā)現(xiàn)和虛擬篩選中更廣泛的應用。
本發(fā)明主要包含兩部分內容:分子的圖像文件生成和分子指紋自動生成。
分子的圖像文件生成:結構式是用元素符號和短線表示化合物(或單質)分子中原子的排列和結合方式的式子,是一簡單描述分子式的方法。本發(fā)明通過現(xiàn)有的軟件,例如RDkit,將分子結構式轉換成圖像格式的文件。
分子指紋自動生成:上面得到的圖像作為DPSH深度哈希模型的輸入,通過優(yōu)化目標損失函數(shù)來生成最優(yōu)的分子指紋。
方法流程:
步驟1:將配體化學分子式(SMILES格式)輸入RDkit工具,轉換為300*300像素的圖像;
步驟2:定義配體分子對的配對標記(pairwise label)。如果兩個配體分子與同一個藥物靶標作用,則這兩個配體分子的配對標記為1,否則為0;
步驟3:訓練DPSH深度哈希學習模型。將配體分子對的兩個配體分子的圖像文件(由步驟1產生)和配對標記作為DPSH深度哈希模型的輸入,訓練DPSH深度哈希學習模型,使得相似的配體分子的哈希碼(配體標記為1)盡量相似,不同的配體分子的哈希碼(配體標記為0)盡量不同;
步驟4:應用訓練好的DPSH深度哈希模型,預測新的配體分子的分子指紋。
本發(fā)明的具體實施步驟,如圖2所示,包括:
1、配體分子圖像文件生成
已知與疾病相關、具有特定藥效功能的藥物靶標和與之作用的配體分子(SMILES格式)。SMILES(Simplified molecular input line entry specification),簡化分子線性輸入規(guī)范,是一種用字符串明確描述分子結構的規(guī)范。SMILES用一串字符來描述一個三維化學結構,SMILES字符串可以被大多數(shù)分子編輯軟件導入并轉換成二維圖形或分子的三維模型。
調用RDkit中的Draw.MolToFile函數(shù),可根據(jù)配體分子SMILES產生結構式圖像,大小為300*300像素。
2、基于DPSH深度學習模型的配體分子指紋自動生成
2.1、定義屬性
如果兩配體分子與共同的藥物靶標作用,則兩配體分子之間的配對標記為1;若兩配體分子分別與不同的藥物靶標作用,則兩配體分子之間的配對標記為0。指紋生成模型的目的在于:配對標記為1的兩個配體分子,生成的分子指紋盡可能相似;配對標記為0的兩配體分子,其分子指紋之間差距較大。
2.2、建模與訓練
在這個步驟中,本發(fā)明將特征學習和目標函數(shù)學習兩部分融合到統(tǒng)一的框架之中。圖1為哈希指紋生成的完整模型。模型的特征學習部分采用預訓練過的卷積神經網(wǎng)絡VGG-F,如圖1所示,上下兩個卷積神經網(wǎng)絡具有相同的結構并且權值共享。這意味著:系統(tǒng)的輸入和損失函數(shù)的計算是基于成對的配體分子結構式圖像。
2.2.1、特征學習部分
將步驟1中得到的分子結構式圖像使用Matlab預處理,轉換成224*224像素的圖像形式,輸入卷積神經網(wǎng)絡,經過卷積、池化、激活等處理,在全連接層輸出固定長度(4096維)的特征向量。
2.2.2、目標函數(shù)學習部分
在步驟3中,DPSH深度哈希學習模型提出一個函數(shù)將特征學習部分和目標函數(shù)部分結合到統(tǒng)一框架。如下所示:
公式(1)中,θ代表神經網(wǎng)絡中所有層的參數(shù);表示第i個分子結構式圖片輸入卷積神經網(wǎng)絡產生的向量;W為一個4096*n維的權重矩陣,將全連接層輸出的4096維向量轉化為長度為n的分子指紋編碼;v代表偏移向量。
現(xiàn)已知每個配體分子的指紋編碼ui,以及配體分子對之間的配對標記sij,根據(jù)步驟2提出的目標:配對標記為1的兩個分子通過編碼后的指紋之間的漢明距離盡可能??;配對標記為0的兩分子編碼指紋的漢明距離大。構造如下函數(shù):
其中
Ωij是兩編碼的點乘,即對應位相乘再相加,代表指紋編碼之間的漢明距離;σ是一個限制函數(shù),使輸出值在0,1范圍之間,且單調遞增。當兩分子配對標記為1時,Ωij值較大,σ值較大;兩分子配對標記為0時,σ值較小,則1-σ值越大。結果使p(sij|U)在兩種不同的相似性條件下總能得到較大值。于是DPSH深度哈希學習模型使用的損失函數(shù)為:
式中即利用已知的樣本分布,找到最大概率導致這種分布的參數(shù)值。由于log函數(shù)單調遞增,因而log p(sij|U)會達到最大值,因此添加負號之后,最大化p(sij|U)等價于最小化J。
2.2.3、優(yōu)化損失函數(shù)
本發(fā)明中DPSH深度學習模型采用mini-batch方法對損失函數(shù)(3)進行優(yōu)化求導,如下所示:
式中對于其他三個參數(shù)W,v,使用后向傳播(BP)算法,對J求導進行更新。BP算法實質是求取誤差函數(shù)的最小值,把誤差信號按原來傳播的通路反向傳回,并對每個隱層的各個神經元的權系數(shù)進行修改,使得誤差信號趨向最小。公式如下:
2.2.4、使用模型進行預測
當特征學習部分和目標函數(shù)學習部分參數(shù)全部優(yōu)化結束,基于DPSH深度哈希的分子指紋生成模型便構建完成。預測某一配體分子的哈希指紋,只需要將分子結構式圖像輸入模型進行處理,輸出端就得到指定長度的指紋向量。
本發(fā)明提出的方法將實現(xiàn)第一個“端到端”、自動的分子指紋生成框架。大部分傳統(tǒng)分子指紋生成方法依賴于開發(fā)者的手工特征提取,這意味著,生成準確的分子指紋,需要開發(fā)者對分子特征領域的相關信息有很深的了解。本發(fā)明使用較為成熟的卷積神經網(wǎng)絡技術,提取分子結構內部深層次的特征信息,比手工設計的特征更加全面和準確。因此開發(fā)者無需手工設計特征,解決了“開發(fā)者需要對領域知識有較深的了解”的難題。
本發(fā)明從一個全新的角度即以輸入分子結構式圖像,來生成分子指紋。這是傳統(tǒng)指紋生成方法所不具備,這種方法將捕獲更多不同的分子的結構信息,既可作為現(xiàn)有分子指紋生成方法的重要補充,也將推動分子指紋在藥物發(fā)現(xiàn)和虛擬篩選中更廣泛的應用?;贒PSH深度哈希方法生成的指紋,可用于海量分子數(shù)據(jù)庫中的快速近似搜索,大大降低了藥物設計前期工作的成本與時間。