專利名稱:基于逆向合成的有機小分子化合物可合成性評價方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機輔助藥物分子設(shè)計領(lǐng)域,特別涉及一種基于逆向合成的有機小
分子化合物可合成性評價方法。
背景技術(shù):
自20世紀(jì)90年代以來,計算機技術(shù)、計算化學(xué)、分子生物學(xué)、生物信息學(xué)等學(xué)科的發(fā)展大大推動了計算機輔助藥物分子設(shè)計技術(shù)的進步,許多新的計算機輔助藥物分子設(shè)計方法大量涌現(xiàn),目前計算機輔助藥物分子設(shè)計已發(fā)展為一個相對完善的新興研究領(lǐng)域。
計算機輔助藥物分子設(shè)計方法主要包括分子對接、從頭設(shè)計、構(gòu)效關(guān)系和藥效團模型等方法。在靶分子的三維結(jié)構(gòu)已知的情況下,一般采用分子對接和從頭設(shè)計方法,分子對接從已知的化合物數(shù)據(jù)庫中尋找能夠與靶分子具有最佳幾何形狀和物理化學(xué)性質(zhì)匹配的有機小分子化合物,其缺點是找到的化合物均為已知,不具有新穎性或已受到專利保護。從頭設(shè)計是在靶分子的活性位點中直接采用片段生長或組裝的方法進行化合物分子的拼接,所設(shè)計的化合物具有新穎性。從頭設(shè)計方法能產(chǎn)生全新的藥物分子,但由于這些全新的分子都是不存在的,因此首先需要將其合成出來,然后才能進行后續(xù)的藥理實驗驗證。由于分子的產(chǎn)生是不同片段組合的結(jié)果,最后得到的分子數(shù)目相當(dāng)龐大。將這些分子全部合成出來進行實驗是一個十分消耗人力、財力和時間的過程,幾乎不能實現(xiàn)。因此在實際操作時,會從中選出小部分容易合成的分子進行合成。但要從成千上萬個化合物中挑選出數(shù)十個容易合成的分子,也是一件非常困難且耗時很長的工作。如果能夠借助計算機應(yīng)用技術(shù),解決化合物的可合成性的快速評價無疑具有不可估量的積極作用。
發(fā)明內(nèi)容
本發(fā)明的目的是利用計算機輔助設(shè)計,提供一種基于逆向合成的準(zhǔn)確快速的有機
小分子化合物可合成評價方法,解決現(xiàn)有化合物從頭設(shè)計方法發(fā)展的瓶頸問題。 本發(fā)明的基本思路是通過分析目標(biāo)分子結(jié)構(gòu),將其拆解為更簡單、更容易得到的
前體。然后,再將前體作為新的目標(biāo)分子進行逐步拆解,直到最后一步的前體能夠直接購
買。其中,最后一步的前體叫做原料,中間的前體稱為中間體。逆向合成分析結(jié)束后,反過
來將拆分得到的前體或其等價物通過合成反應(yīng)再結(jié)合起來。根據(jù)拆分的結(jié)果,逐步逆推,最
終得到從原料到目標(biāo)化合物的合成路線,并在此基礎(chǔ)上對化合物的可合成性進行評價。本
發(fā)明在計算機程序控制下自動生成化合物的合成路線。在逆向合成分析生成合成路線的過
程中,同時對逆合成分析樹進行優(yōu)化,對無用的合成步驟盡早剔除,以避免無用合成步驟的
原料作為目標(biāo)化合物進行再拆分。在合成路線生成后,對化合物的拆分難度和合成路線的
實現(xiàn)難度進行評價,以求準(zhǔn)確評價化合物可合成性。 本發(fā)明的主要理論依據(jù)基于以下四點(l)化學(xué)家評價化合物可合成性時,會對目標(biāo)化合物進行拆分并設(shè)計合成路線,根據(jù)拆分的難易進行評分。同以往使用的基于分子復(fù)雜度或基于原料的方法相比,基于逆向合成的評價方法可以得到最準(zhǔn)確的結(jié)果。(2)隨著化學(xué)信息學(xué)的發(fā)展,大量的化合物數(shù)據(jù)庫和有機反應(yīng)數(shù)據(jù)庫逐漸出現(xiàn),這些數(shù)據(jù)庫為計算機輔助設(shè)計奠定更加豐富、實用的基礎(chǔ)。(3)在應(yīng)用逆向合成方法自動生成合成路線時,能得到一個逆合成分析樹,除了頂點,樹中的其他節(jié)點表示逆向合成分析過程中得到的中間體或者原料。由于目標(biāo)分子及中間產(chǎn)物可能會有多個拆分點,或者一個拆分點可以有多種轉(zhuǎn)換規(guī)則適用,計算機自動拆分化合物時會產(chǎn)生組合爆炸,這也是逆向合成方法應(yīng)用于可合成性評價時耗時過長的問題。但是,產(chǎn)生的這眾多路線中,絕大部分是無用的。因此,在拆分過程中同時對逆合成分析樹進行刪減,以解決運算時間的問題。(4)化合物的合成難度不僅在于拆分的難度,還在于合成路線的實現(xiàn)難度。同時對這兩部分進行評價,能得到更準(zhǔn)確的評分結(jié)果。 本發(fā)明的目的是這樣達到的收集各種常見的化學(xué)試劑建立原料數(shù)據(jù)庫,收集常用的有機合成反應(yīng)和經(jīng)典的有機人名反應(yīng)建立轉(zhuǎn)換規(guī)則數(shù)據(jù)庫,收集已報道的化合物分子的合成路線建立固定路線數(shù)據(jù)庫。應(yīng)用這三個數(shù)據(jù)庫,對目標(biāo)化合物進行逆向合成分析,自動生成有機小分子化合物的合成路線,在拆分過程中,對逆合成分析樹的生成進行優(yōu)化處理,預(yù)先刪減逆合成分析樹中的節(jié)點。在合成路線生成后,同時對化合物的拆分難度和合成路線的實現(xiàn)難度進行評價。程序流程包括以下4個步驟1)識別輸入分子;將分子的二維結(jié)構(gòu)轉(zhuǎn)換成唯一的計算機識別的一維的64位字長的哈希數(shù)字編碼后程序識別;2)讀取原料數(shù)據(jù)庫、轉(zhuǎn)換規(guī)則數(shù)據(jù)庫和固定路線數(shù)據(jù)庫數(shù)據(jù);對于收集的化學(xué)試劑數(shù)據(jù),用哈希數(shù)字編碼表示;對于收集的有機反應(yīng)數(shù)據(jù),從反應(yīng)的轉(zhuǎn)換規(guī)則數(shù)據(jù)庫提取出一個反應(yīng)中心,對于已知化合物分子的合成路線數(shù)據(jù),采取先簡化再提取反應(yīng)中心的步驟處理成程序能夠使用的數(shù)據(jù)結(jié)構(gòu)后后再行讀??;3)以優(yōu)化逆合成分析樹方式生成合成路線;使用計算機的圖匹配算法將化合物的化學(xué)結(jié)構(gòu)當(dāng)成圖的數(shù)據(jù)結(jié)構(gòu)來處理4)對可合成性的評分;對有效合成路線的數(shù)目和路線實現(xiàn)難度的綜合評分。 識別輸入分子的具體步驟是計算機首先讀入需要評價的目標(biāo)分子文件,分子文件用M0L2或者SD文件表示分子的基本信息,包括,原子數(shù)目、鍵的數(shù)目、每個原子的的元素類型和三維坐標(biāo)、每個鍵的鍵類型和成鍵原子,讀入基本信息后,判定每個原子是否處于價態(tài)的飽和結(jié)構(gòu),對未飽和的原子自動加氫,加氫后,通過上述基本信息,識別目標(biāo)分子的拓?fù)浣Y(jié)構(gòu)、連接度、官能團和環(huán)的結(jié)構(gòu),最后,通過上述所有信息,將分子的二維結(jié)構(gòu)轉(zhuǎn)換成一維的64位字長的哈希數(shù)字編碼,該編碼唯一表示一個分子二維結(jié)構(gòu),同時一個二維結(jié)構(gòu)也只能轉(zhuǎn)換為一個唯一的數(shù)字編碼。 讀取原料數(shù)據(jù)庫、轉(zhuǎn)換規(guī)則數(shù)據(jù)庫和固定路線數(shù)據(jù)庫數(shù)據(jù)的具體步驟計算機內(nèi)預(yù)先存入收集的各種常見的化學(xué)試劑的原料數(shù)據(jù)庫數(shù)據(jù),收集的常用的有機合成反應(yīng)和經(jīng)典的有機人名反應(yīng)數(shù)據(jù)的轉(zhuǎn)換規(guī)則數(shù)據(jù)庫數(shù)據(jù),收集報道的已知化合物分子的合成路線建立固定路線數(shù)據(jù)數(shù)據(jù),將這三個數(shù)據(jù)庫數(shù)據(jù)分別按照以下方式轉(zhuǎn)換成程序能夠使用的數(shù)據(jù)結(jié)構(gòu)后再行讀取數(shù)據(jù) 對于收集的化學(xué)試劑數(shù)據(jù),對其中每個數(shù)據(jù)按照與識別輸入分子相同的方法,轉(zhuǎn)換成64位長的哈希數(shù)字編碼,同時補充上原料的價格和CAS編號信息;
對于收集的有機反應(yīng)數(shù)據(jù),對其中每個數(shù)據(jù),從反應(yīng)的轉(zhuǎn)換規(guī)則數(shù)據(jù)庫提取出一個反應(yīng)中心,反應(yīng)中心提取步驟 (1)識別反應(yīng)位點反應(yīng)位點僅包含發(fā)生改變的化學(xué)鍵和這些化學(xué)鍵直接相連的
7原子,通過對比反應(yīng)中產(chǎn)物和原料的化學(xué)結(jié)構(gòu),找到發(fā)生了改變的化學(xué)鍵以及這些化學(xué)鍵直接相連的原子; (2)基本反應(yīng)中心的延伸將步驟(1)得到的基本反應(yīng)中心延伸,延伸后的反應(yīng)中
心還包括上述提到的化學(xué)環(huán)境,即與基本反應(yīng)中心中的原子相連的官能團; (3)反應(yīng)中心的抽象將反應(yīng)實質(zhì)一樣的反應(yīng)抽象化,抽象化的標(biāo)準(zhǔn)包括 (a)如果一個反應(yīng)中心包含鹵素,但與鹵素原子的類型無關(guān),則將該反應(yīng)中的具體
的鹵素原子抽象鹵素, (b)如果反應(yīng)中心表示的有機反應(yīng)反應(yīng)機理完全相同,則將這些反應(yīng)用同一個反應(yīng)中心表示,將反應(yīng)中心抽象后,刪除重復(fù)的反應(yīng)中心; 對于已知化合物分子的合成路線數(shù)據(jù),采取將合成路線簡化成單步反應(yīng)再提取反應(yīng)中心的步驟處理。 在提取出反應(yīng)中心后,以反應(yīng)中心為主要信息,補充上反應(yīng)的原料信息、反應(yīng)條件信息和產(chǎn)率,作為逆向合成的一條轉(zhuǎn)換規(guī)則,同時,對每條反應(yīng)能否實現(xiàn)的難易程度進行人工打分,將得分信息保存于轉(zhuǎn)換規(guī)則中,這些信息將用于后面的拆分過程和最后的可合成性評分。 以優(yōu)化逆合成分析樹方式生成合成路線的具體步驟是使用計算機的圖的匹配算法將化合物的化學(xué)結(jié)構(gòu)當(dāng)成圖的數(shù)據(jù)結(jié)構(gòu)來處理首先,依次用反應(yīng)中心去匹配目標(biāo)分子,檢測分子的哪些官能團或子結(jié)構(gòu)能夠成為拆分位點;如果匹配成功,則將這種子結(jié)構(gòu)作為作為一種可能的合成步驟,完成一步從目標(biāo)化合物到原料的轉(zhuǎn)換;接下來,上一步轉(zhuǎn)換得到的原料,又成為下一步拆分的目標(biāo)化合物,繼續(xù)進行拆分,直到拆分結(jié)束;最后,將每一步的拆分結(jié)果以樹的形式連接起來得到一個逆合成分析樹,樹的頂點是待評價的目標(biāo)化合物,樹的底端是最終原料,到此拆分過程結(jié)束;反過來,從終結(jié)點到頂點,構(gòu)成一條完整的合成路線。 對可合成性的評分是指在生成了目標(biāo)化合物的合成路線后,在合成路線基礎(chǔ)上進行有效合成路線的數(shù)目和路線的實現(xiàn)難度的評分,有效合成路線是指,在用戶設(shè)定的拆分步數(shù)n步下,最終能拆分到原料的合成路線;路線的實現(xiàn)難度是指反應(yīng)試驗條件和產(chǎn)物分離難度的評分方法。 在以優(yōu)化逆合成分析樹方式生成合成路線中采用了即邊拆分邊優(yōu)化的方法即直接終止逆向合成分析的方法、逆向合成分析子樹的簡化方法和每條反應(yīng)設(shè)定一個參數(shù)rate來表示該步驟實現(xiàn)的可能性的方法。 本發(fā)明的積極效果是解決現(xiàn)有化合物從頭設(shè)計方法發(fā)展的瓶頸問題,在計算機程序控制下自動生成化合物的合成路線。在逆向合成分析生成合成路線的過程中,同時對逆合成分析樹進行優(yōu)化,盡早剔除了無用的合成步驟,避免了無用合成步驟的原料作為目標(biāo)化合物進行再拆分,有效解決了計算機自動拆分化合物時產(chǎn)生組合爆炸的問題從而有效縮短了運算時間。在合成路線生成后,對化合物的拆分難度和合成路線的實現(xiàn)難度同時進行評價,為化合物可合成性提供了有效準(zhǔn)確的評價。
圖1是本基于逆向合成的有機小分子化合物可合成性評價方法的程序流程圖。
圖2是逆合成分析樹示意圖。
圖3是固定合成路線示意圖。
圖4是簡化后的單步反應(yīng)示意圖。
具體實施方式
參見附圖。 在步驟1)識別輸入分子中,分子文件用M0L2或者SD文件表示分子的基本信息,這兩種文件格式是計算化學(xué)、分子生物學(xué)、生物信息學(xué)領(lǐng)域中表示分子結(jié)構(gòu)最常用的文件格式。讀取的基本信息包括原子數(shù)目、鍵的數(shù)目、每個原子的的元素類型和三維坐標(biāo)、每個鍵的鍵類型和成鍵原子。讀入基本信息后,判定每個原子是否處于價態(tài)的飽和結(jié)構(gòu),對未飽和的原子自動加氫。加氫后,通過上述基本信息,識別目標(biāo)分子的拓?fù)浣Y(jié)構(gòu)、連接度、官能團和環(huán)的結(jié)構(gòu)。最后,通過上述所有信息,將分子的二維結(jié)構(gòu)轉(zhuǎn)換成一維的64位字長的哈希數(shù)字編碼,該編碼唯一表示一個分子二維結(jié)構(gòu),同時一個二維結(jié)構(gòu)也只能轉(zhuǎn)換為一個唯一的數(shù)字編碼。 在步驟2)讀取原料數(shù)據(jù)庫、轉(zhuǎn)換規(guī)則數(shù)據(jù)庫和固定路線數(shù)據(jù)庫數(shù)據(jù)中,建立的原
料數(shù)據(jù)庫、轉(zhuǎn)換規(guī)則和固定路線數(shù)據(jù)庫數(shù)據(jù)先按照以下方式轉(zhuǎn)換成程序能夠使用的數(shù)據(jù)結(jié)構(gòu) 對于收集的化學(xué)試劑數(shù)據(jù),對其中每個數(shù)據(jù)按照識別輸入分子步驟的方法,轉(zhuǎn)換成64位長的哈希數(shù)字編碼,同時補充上原料的價格和公知的唯一數(shù)字識別號碼CAS編號信息。 對于收集的有機反應(yīng)數(shù)據(jù),對其中每個數(shù)據(jù),從反應(yīng)的轉(zhuǎn)換規(guī)則數(shù)據(jù)庫提取出一個反應(yīng)中心。每個有機反應(yīng)可以用A — B的形式表示,但反應(yīng)的實質(zhì)是一個化學(xué)鍵的斷裂、生成和改變的過程。這里提出的反應(yīng)中心,是一個多個原子或官能團組成的子結(jié)構(gòu),它不僅包含了這個反應(yīng)過程中化學(xué)鍵斷裂、生成和改變的信息,還包含影響化學(xué)鍵斷裂和生成的周圍的化學(xué)環(huán)境的信息,可以有效的表達有機反應(yīng)的實質(zhì)。反應(yīng)中心的提取步驟如下
(1)識別反應(yīng)位點。反應(yīng)位點僅包含發(fā)生改變的化學(xué)鍵和這些化學(xué)鍵直接相連的原子,通過對比反應(yīng)中產(chǎn)物和原料的化學(xué)結(jié)構(gòu),可以找到發(fā)生了改變的化學(xué)鍵以及這些化學(xué)鍵直接相連的原子。
(2)基本反應(yīng)中心的延伸。將步驟(1)得到的基本反應(yīng)中心延伸,延伸后的反應(yīng)中
心還包括上述提到的化學(xué)環(huán)境,即與基本反應(yīng)中心中的原子相連的官能團。
(3)反應(yīng)中心的抽象。通過(1)、(2)步驟,每一個反應(yīng)都可以提取一個反應(yīng)中心,
但可能多個反應(yīng)的反應(yīng)實質(zhì)是一樣。在這一步將反應(yīng)實質(zhì)一樣的反應(yīng)抽象化,抽象化的標(biāo)
準(zhǔn)包括(a)如果一個反應(yīng)中心包含鹵素,但與鹵素原子的類型無關(guān),則將該反應(yīng)中的具體
的鹵素原子抽象鹵素。(b)如果反應(yīng)中心表示的有機反應(yīng)反應(yīng)機理完全相同,則將這些反應(yīng)
用同一個反應(yīng)中心表示。將反應(yīng)中心抽象后,刪除重復(fù)的反應(yīng)中心。 在提取出反應(yīng)中心后,以反應(yīng)中心為主要信息,補充上反應(yīng)的原料信息、反應(yīng)條件信息和產(chǎn)率,作為逆向合成的一條轉(zhuǎn)換規(guī)則。同時,對每條反應(yīng)能否實現(xiàn)的難易程度進行人工打分,將得分信息保存于轉(zhuǎn)換規(guī)則中,這些信息將用于后面的拆分過程和最后的可合成性評分。
參見附圖3、4。對于已知藥物分子的合成路線數(shù)據(jù),采取先簡化再提取反應(yīng)中心的
步驟處理。這部分?jǐn)?shù)據(jù),是一個多步反應(yīng)的過程,可以由A —B —C —D的形式表示。其中
D是要合成的目標(biāo)藥物分子,B和C是合成路線的中間體,A是原料。簡化就是將這個合成
路線簡化為單步反應(yīng),即用A — D來表示。然后,提取這個反應(yīng)的反應(yīng)中心。 按上述方法預(yù)先建立了程序可以識別的數(shù)據(jù)庫,就可以讀取3個數(shù)據(jù)庫的數(shù)據(jù)了。 在步驟3)以優(yōu)化逆合成分析樹方式生成合成路線中,利用原料數(shù)據(jù)庫、轉(zhuǎn)換規(guī)則 和固定路線數(shù)據(jù)庫數(shù)據(jù),以優(yōu)化逆向合成分析樹方式對目標(biāo)化合物進行逆向合成分析。在 化學(xué)信息學(xué)和生物信息學(xué)中,將化合物的化學(xué)結(jié)構(gòu)當(dāng)成圖的數(shù)據(jù)結(jié)構(gòu)來處理。這樣,使用計 算機科學(xué)中基本的圖的匹配算法,可以準(zhǔn)確地判斷目標(biāo)化合物中是否含有某類子結(jié)構(gòu),本 發(fā)明使用的圖的匹配算法是匈牙利算法。首先,依次用反應(yīng)中心去匹配目標(biāo)分子,檢測分子 的哪些官能團或子結(jié)構(gòu)能夠成為拆分位點。如果匹配成功,則將這種子結(jié)構(gòu)作為作為一種 可能的合成步驟,完成一步從目標(biāo)化合物到原料的轉(zhuǎn)換。接下來,上一步轉(zhuǎn)換得到的原料, 又成為下一步拆分的目標(biāo)化合物,繼續(xù)進行拆分,直到拆分結(jié)束。將每一步的拆分結(jié)果以樹 的形式連接起來,就得到了一個逆合成分析樹,樹的頂點是待評價的目標(biāo)化合物,樹的底端 是最終原料,到此拆分過程結(jié)束。反過來,從終結(jié)點到頂點,就構(gòu)成一條完整的合成路線。
在上述過程中,本方法使用優(yōu)化逆向合成樹的方式進行,即邊拆分邊優(yōu)化,具體如 下 逆向合成分析樹的優(yōu)化包括對直接終止逆向合成分析原則、逆向合成分析子樹的 簡化和每條反應(yīng)設(shè)定一個參數(shù)rate來表示該步驟實現(xiàn)的可能性的方法。關(guān)于這三個方法 的描述如下 1.直接終止逆向合成分析的原則對目標(biāo)化合物,若在它的多種拆分可能中,有 一種拆分能得到的前體是原料,那這種拆分可能就是唯一的拆分。確定是不是原料的方法 是將前體同原料數(shù)據(jù)庫中的每個分子進行比較,運用圖的匹配算法。確定后,對于該目標(biāo)化 合物的其他拆分可能,如果不是同這種拆分可能一樣得到的前體是原料,那就直接剔除掉, 將這種拆分可能作為目標(biāo)化合物的唯一拆分方法,并終止這條樹枝上的分析。
2.逆向合成分析子樹的簡化對于一些特定的子結(jié)構(gòu),已經(jīng)存在了相對固定的合 成路線,即上述提到的已知藥物分子的合成路線數(shù)據(jù)。這些路線是由多步反應(yīng)構(gòu)成。本方 法在進行逆向合成分析時,其中一種可能是按照這種固定的多步反應(yīng)組成的合成路線進行 拆分。在化學(xué)家進行拆分時,會自動過濾掉中間體的拆分。但在計算機拆分目標(biāo)化合物時, 還會對這些多步反應(yīng)的中間體再進行拆分,這造成了時間的大量浪費。因此,依據(jù)建立的固 定路線數(shù)據(jù)庫,使用圖的匹配算法檢測目標(biāo)分子中是否含有這類子結(jié)構(gòu),如果有,則就按照 這種轉(zhuǎn)換規(guī)則直接拆分到原料。該方法與直接終止逆向合成分析的原則相比,它不具有唯 一的排他性,即目標(biāo)化合物的其他可能的轉(zhuǎn)換規(guī)則仍然會被記錄到逆向合成分析樹中。
3.每條反應(yīng)設(shè)定一個參數(shù)rate來表示該步驟實現(xiàn)的可能性rate值的初始值 與表示這個轉(zhuǎn)換規(guī)則的有機反應(yīng)的難易程度有關(guān),該反應(yīng)本身的難度的越大,則rate值越 ??;同時,rate值還與反應(yīng)的原料分子有關(guān)。當(dāng)rate值小于設(shè)定的數(shù)值,即該步反應(yīng)步驟 的實現(xiàn)難度太大,這條可能的路線就直接被拋棄不再繼續(xù)拆分,即刪除逆向合成分析樹上 的這條樹枝。rate值的改變與原料的分子的關(guān)系如下
(1)檢測反應(yīng)位點化學(xué)環(huán)境的電子效應(yīng)與進行的拆分步驟要求的電子效應(yīng)匹配 的方法根據(jù)有機化學(xué)的基本理論,電子效應(yīng)會嚴(yán)重影響反應(yīng)中心的活性,最終決定反應(yīng) 的難易程度。如果原料上反應(yīng)位點化學(xué)環(huán)境的電子效應(yīng)與進行的拆分步驟反應(yīng)要求的電 子效應(yīng)匹配,則反應(yīng)會更加容易;相反,反應(yīng)難度增加。反應(yīng)位點化學(xué)環(huán)境是指反應(yīng)位點 的a位置官能團,因此,化學(xué)環(huán)境的電子效應(yīng)是由具體的官能團來表示的,如硝基、鹵素表 現(xiàn)為吸電子效應(yīng),而烷基一般表現(xiàn)為供電子效應(yīng)。電子效應(yīng)對活性影響最典型的例子就是 Diels-Alder反應(yīng)。對于每一個拆分步驟,都將自動檢測該步反應(yīng)原料商反應(yīng)位點的化學(xué)環(huán) 境。如果反應(yīng)位點的a位置官能團表現(xiàn)出的電子效應(yīng)與增加反應(yīng)活性的電子效應(yīng)相同,則 rate值增加;相反,rate值減少。 (2)檢測進行的拆分步驟的空間位阻的方法同電子效應(yīng)一樣,空間效應(yīng)同樣影 響著反應(yīng)中心的活性,決定反應(yīng)的難易程度。分子中靠近反應(yīng)位點的原子或基團占有一定 的空間位置,而影響分子反應(yīng)活性的效應(yīng),降低分子反應(yīng)活性的空間效應(yīng)稱即空間位阻???間位阻同樣是通過官能團來表示,體積大的官能團會產(chǎn)生一個空間位阻,如叔丁基。對于一 些反應(yīng),反應(yīng)的活性跟空間效應(yīng)密切相關(guān)。如果反應(yīng)中心周圍存在空間位阻,那反應(yīng)的難度 會大大增加。對于每步轉(zhuǎn)換,如果該步轉(zhuǎn)換需要考慮空間位阻,則會自動檢測轉(zhuǎn)換得到的原 料。若該原料反應(yīng)位點附近官能團存在空間位阻,則rate值減少。 (3)檢測影響反應(yīng)選擇性因素的方法在有機反應(yīng)中,可能存在反應(yīng)的選擇性。一 個化學(xué)反應(yīng)若同時可生多種產(chǎn)物,其中目標(biāo)化合物是最希望獲得的,因此這目標(biāo)化合物產(chǎn) 率的大小代表了這反應(yīng)選擇性的好壞。反應(yīng)性的好壞雖然不會影響反應(yīng)本身的難易程度, 但它會影響到反應(yīng)的產(chǎn)率,更會增加產(chǎn)物和副產(chǎn)物的分離純化難度,而在實際操作中,分離 純化的難度遠遠可能大于反應(yīng)本身。在本方法中,兩類影響選擇性的因素著重被考慮。第 一類是原料分子上含有多個相同的官能團,這意味著按這種方式進行拆分時,或許反應(yīng)中 心那個位點可以按設(shè)想的過程進行,但還存在其他位點也能按同樣方式進行,最終導(dǎo)致低 產(chǎn)率和分離純化難度。第二類是含有類似的反應(yīng)位點,比如羧基和氨基上,雖然官能團不同 但都含有活性氫,而對于某些反應(yīng),實際上是活性氫上的反應(yīng)。對這類反應(yīng),羧基和氨基雖 然從官能團上看不同,但仍然會相互影響,導(dǎo)致副反應(yīng)產(chǎn)生與上面一樣的結(jié)果。因此,對于 這兩類可能導(dǎo)致反應(yīng)選擇性降低的因素,如果在該步轉(zhuǎn)換的原料中存在,則rate值降低。
(4)檢測是否含有不穩(wěn)定化學(xué)結(jié)構(gòu)的方法在有機化合物分子中,可能存在一些 不穩(wěn)定的化學(xué)結(jié)構(gòu),這些結(jié)構(gòu)在室溫含氧情況下,可以自動發(fā)生反應(yīng),轉(zhuǎn)換成其他更為穩(wěn)定 的結(jié)構(gòu)。因此,對于含這種結(jié)構(gòu)的反應(yīng)、純化和轉(zhuǎn)運,一般需要在低溫?zé)o氧無水的情況下進 行。而低溫?zé)o氧無水是一個很苛刻的反應(yīng)條件,這也意味著這類反應(yīng)很難進行。我們收集 了常見的不穩(wěn)定的化學(xué)結(jié)構(gòu),在進行拆分后對原料進行判斷,如果原料含有這類不穩(wěn)定的 化學(xué)結(jié)構(gòu),則意味著再拆分時的轉(zhuǎn)換所代表的反應(yīng)實際操作難度大,因此這類情況下該步 轉(zhuǎn)換的rate值減少。 (5)分子復(fù)雜度的評判方法逆向合成的過程就是將復(fù)雜的目標(biāo)分子逐步拆分到 簡單的復(fù)雜,這里的復(fù)雜和簡單可以用分子復(fù)雜度來表示。分子復(fù)雜度也可以單獨用來評 價化合物的可合成性,但由于分子復(fù)雜度的定義和算法仍然模糊,因此準(zhǔn)確度不高。本方法 中,我們將分子復(fù)雜度作為一個輔助評價標(biāo)準(zhǔn)。對于每一步轉(zhuǎn)換,如原料的復(fù)雜度還要高于 目標(biāo)分子,則它可能是一步不合理的轉(zhuǎn)換,rate值減少。本方法中分子復(fù)雜度cpxtx是在隱氫圖下進行,算法如下 a).環(huán)cpxtx = cpxtx+size (i) *k。 size為每個環(huán)的成環(huán)重原子數(shù),k是經(jīng)驗常 數(shù),本方法中k = 6。b).連接度cpxtx = cpxtx+i,i隨不同連接度而不同。連接度是指分子中每個原
子相連的重原子數(shù)目。若以雙鍵相連,則為2。若是三鍵,則為3。 如果連接度cnt(i) = 4,則i = 24 ; 如果連接度cnt (i) =3,則i = 12 ; 如果連接度cnt (i) = 2,則i = 6 ; 如果連接度cnt (i) = 1,則i = 3 ; c) 原子類型:cpxtx = cpxtx+k。如果原子類型是C,則k = 3 ;如果是其他原子, 則k = 6 ; d).得到一個最后的cpxtx值。 在步驟4)對可合成性的評分中,對可合成性的評分是在生成了目標(biāo)化合物的合 成路線后,在合成路線基礎(chǔ)上進行可合成性評分。最終的評分SA由兩部分組成,一是有效 合成路線的數(shù)目,二是實現(xiàn)合成路線的難度,即SA = SjSr,具體如下其中,SA表示最終的 評分,Sa表示有效合成路線的數(shù)目,Sr表示實現(xiàn)合成路線的難度。 1.有效合成路線是指,在用戶設(shè)定的拆分步數(shù)N步下,最終能拆分到原料的合成 路線。因為拆分的最終目的是用能夠購買到的原料來進行合成,因此能到原料的合成路線 是最有效的。其他路線,雖然最終未拆分到原料,但經(jīng)過N步拆分,已將復(fù)雜的目標(biāo)化合物 轉(zhuǎn)換成簡單的分子,具有參考意義。有效合成路線的數(shù)目n越大,具體合成時選擇越大,最 終合成目標(biāo)化合物來說更容易。根據(jù)n的不同,Sa值如下
(1) Sa = -4. 25*n+38. 25 1 < < n < < S (2) Sa = -0. 95*In n+18. 7 n > 5
(3)Sa = 0. 87*In X+30 n = 0 X是逆向合成分析樹中節(jié)點的數(shù)目。 2.對于每一條合成路線,在實現(xiàn)上難度是不同的,簡單容易的合成路線意味著化 合物的合成難度更低,一般來說,常溫常壓、沒有無水無氧、試劑催化劑穩(wěn)定容易處理、產(chǎn)物 之間容易分離的反應(yīng)組成的合成路線,更容易實現(xiàn)。實現(xiàn)的難度是使用基于反應(yīng)難度的評 分方法,對于每一步反應(yīng),得分Sp如下 (1)每步反應(yīng)對應(yīng)的反應(yīng)規(guī)則,在建立轉(zhuǎn)換規(guī)則數(shù)據(jù)庫時,已經(jīng)對該反應(yīng)能否實現(xiàn) 的難易程度進行人工打分d,首先Sp = d (2)計算產(chǎn)物和反應(yīng)分離難度的得分。分離難度以產(chǎn)物和原料的logP差值A(chǔ) logP
表示,Sp與A logP的關(guān)系Sp = Sp+In A logP。 logP的計算方法按照公知的方式進行這是
一種基于原子加和的方法,對有機小分子化合物中的各類原子,按照其雜化狀態(tài)、成鍵狀況
以及相連原子的狀態(tài)劃分為76種基本類型。另外氰基、異硫氰酸酯基、硝基和亞硝基這四
種末端基團也當(dāng)做一個整體來看待,定義為四種"假原子"類型,共80種原子類型。每種原
子類型具有特定的貢獻值,分子的logP值即為分子中各個原子貢獻之和。 合成路線的實現(xiàn)Sy難度是單步反應(yīng)難度得分的加和,即Sy = E Sp 對于整個合成路線的得分Sr,取合成線路中得分最小的表示,即= minSy。
1權(quán)利要求
一種基于逆向合成的有機小分子化合物可合成性評價方法,其特征在于收集各種常見的化學(xué)試劑建立原料數(shù)據(jù)庫,收集常用的有機合成反應(yīng)和經(jīng)典的有機人名反應(yīng)建立轉(zhuǎn)換規(guī)則數(shù)據(jù)庫,收集已報道的化合物分子的合成路線建立固定路線數(shù)據(jù)庫;應(yīng)用這三個數(shù)據(jù)庫,對目標(biāo)化合物進行逆向合成分析,自動生成有機小分子化合物的合成路線,在拆分過程中,對逆合成分析樹的生成進行優(yōu)化處理,預(yù)先刪減逆合成分析樹中的節(jié)點;在合成路線生成后,同時對化合物的拆分難度和合成路線的實現(xiàn)難度進行評價;程序流程包括以下4個步驟1)識別輸入分子;將分子的二維結(jié)構(gòu)轉(zhuǎn)換成唯一的計算機識別的一維的64位字長的哈希數(shù)字編碼后程序識別;2)讀取原料數(shù)據(jù)庫、轉(zhuǎn)換規(guī)則數(shù)據(jù)庫和固定路線數(shù)據(jù)庫數(shù)據(jù);對于收集的化學(xué)試劑數(shù)據(jù),用哈希數(shù)字編碼表示;對于收集的有機反應(yīng)數(shù)據(jù),從反應(yīng)的轉(zhuǎn)換規(guī)則數(shù)據(jù)庫提取出一個反應(yīng)中心,對于已知化合物分子的合成路線數(shù)據(jù),采取先簡化再提取反應(yīng)中心的步驟處理成程序能夠使用的數(shù)據(jù)結(jié)構(gòu)后后再行讀?。?)以優(yōu)化逆合成分析樹方式生成合成路線;使用計算機的圖的匹配算法將化合物的化學(xué)結(jié)構(gòu)當(dāng)成圖的數(shù)據(jù)結(jié)構(gòu)來處理4)對可合成性的評分;對有效合成路線的數(shù)目和路線實現(xiàn)難度的綜合評分。
2. 如權(quán)利要求1所述的基于逆向合成的有機小分子化合物可合成性評價方法,其特征 在于所述識別輸入分子是的具體步驟是計算機首先讀入需要評價的目標(biāo)分子文件,分 子文件用M0L2或者SD文件表示分子的基本信息,包括,原子數(shù)目、鍵的數(shù)目、每個原子的的 元素類型和三維坐標(biāo)、每個鍵的鍵類型和成鍵原子,讀入基本信息后,判定每個原子是否處 于價態(tài)的飽和結(jié)構(gòu),對未飽和的原子自動加氫,加氫后,通過上述基本信息,識別目標(biāo)分子 的拓?fù)浣Y(jié)構(gòu)、連接度、官能團和環(huán)的結(jié)構(gòu),最后,通過上述所有信息,將分子的二維結(jié)構(gòu)轉(zhuǎn)換 成一維的64位字長的哈希數(shù)字編碼,該編碼唯一表示一個分子二維結(jié)構(gòu),同時一個二維結(jié) 構(gòu)也只能轉(zhuǎn)換為一個唯一的數(shù)字編碼。
3. 如權(quán)利要求1所述的基于逆向合成的有機小分子化合物可合成性評價方法,其特征在于所述讀取原料數(shù)據(jù)庫、轉(zhuǎn)換規(guī)則數(shù)據(jù)庫和固定路線數(shù)據(jù)庫數(shù)據(jù)的具體步驟是計算 機內(nèi)預(yù)先存入了收集的各種常見的化學(xué)試劑的原料數(shù)據(jù)庫數(shù)據(jù),收集的常用的有機合成反 應(yīng)和經(jīng)典的有機人名反應(yīng)數(shù)據(jù)的轉(zhuǎn)換規(guī)則數(shù)據(jù)庫數(shù)據(jù),收集報道的已知化合物分子的合成 路線建立固定路線數(shù)據(jù)數(shù)據(jù),將這三個數(shù)據(jù)庫數(shù)據(jù)分別按照以下方式轉(zhuǎn)換成程序能夠使用 的數(shù)據(jù)結(jié)構(gòu)后再行讀取數(shù)據(jù)對于收集的化學(xué)試劑數(shù)據(jù),對其中每個數(shù)據(jù)按照與識別輸入分子相同的方法,轉(zhuǎn)換成64位長的哈希數(shù)字編碼,同時補充上原料的價格和CAS編號信息;對于收集的有機反應(yīng)數(shù)據(jù),對其中每個數(shù)據(jù),從反應(yīng)的轉(zhuǎn)換規(guī)則數(shù)據(jù)庫提取出一個反應(yīng)中心,反應(yīng)中心提取步驟(1) 識別反應(yīng)位點反應(yīng)位點僅包含發(fā)生改變的化學(xué)鍵和這些化學(xué)鍵直接相連的原 子,通過對比反應(yīng)中產(chǎn)物和原料的化學(xué)結(jié)構(gòu),找到發(fā)生了改變的化學(xué)鍵以及這些化學(xué)鍵直 接相連的原子;(2) 基本反應(yīng)中心的延伸將步驟(1)得到的基本反應(yīng)中心延伸,延伸后的反應(yīng)中心還 包括上述提到的化學(xué)環(huán)境,即與基本反應(yīng)中心中的原子相連的官能團;(3)反應(yīng)中心的抽象將反應(yīng)實質(zhì)一樣的反應(yīng)抽象化,抽象化的標(biāo)準(zhǔn)包括(a) 如果一個反應(yīng)中心包含鹵素,但與鹵素原子的類型無關(guān),則將該反應(yīng)中的具體的鹵 素原子抽象鹵素,(b) 如果反應(yīng)中心表示的有機反應(yīng)反應(yīng)機理完全相同,則將這些反應(yīng)用同一個反應(yīng)中 心表示,將反應(yīng)中心抽象后,刪除重復(fù)的反應(yīng)中心;對于已知化合物分子的合成路線數(shù)據(jù),采取將合成路線簡化成單步反應(yīng)再提取反應(yīng)中 心的步驟處理。在提取出反應(yīng)中心后,以反應(yīng)中心為主要信息,補充上反應(yīng)的原料信息、反應(yīng)條件信息 和產(chǎn)率,作為逆向合成的一條轉(zhuǎn)換規(guī)則,同時,對每條反應(yīng)能否實現(xiàn)的難易程度進行人工打分,將得分信息保存于轉(zhuǎn)換規(guī)則中,這些信息將用于后面的拆分過程和最后的可合成性評 分。
4. 如權(quán)利要求1所述的基于逆向合成的有機小分子化合物可合成性評價方法,其特 征在于所述以優(yōu)化逆合成分析樹方式生成合成路線的具體步驟是使用計算機的圖的匹 配算法將化合物的化學(xué)結(jié)構(gòu)當(dāng)成圖的數(shù)據(jù)結(jié)構(gòu)來處理首先,依次用反應(yīng)中心去匹配目標(biāo) 分子,檢測分子的哪些官能團或子結(jié)構(gòu)能夠成為拆分位點;如果匹配成功,則將這種子結(jié)構(gòu) 作為作為一種可能的合成步驟,完成一步從目標(biāo)化合物到原料的轉(zhuǎn)換;接下來,上一步轉(zhuǎn)換 得到的原料,又成為下一步拆分的目標(biāo)化合物,繼續(xù)進行拆分,直到拆分結(jié)束;最后,將每一 步的拆分結(jié)果以樹的形式連接起來得到一個逆合成分析樹,樹的頂點是待評價的目標(biāo)化合 物,樹的底端是最終原料,到此拆分過程結(jié)束;反過來,從終結(jié)點到頂點,構(gòu)成一條完整的合 成路線。
5. 如權(quán)利要求1所述的基于逆向合成的有機小分子化合物可合成性評價方法,其特征 在于所述對可合成性的評分是指在生成了目標(biāo)化合物的合成路線后,在合成路線基礎(chǔ)上 進行有效合成路線的數(shù)目和路線的實現(xiàn)難度的評分,有效合成路線是指,在用戶設(shè)定的拆 分步數(shù)n步下,最終能拆分到原料的合成路線;路線的實現(xiàn)難度是指反應(yīng)試驗條件和產(chǎn)物分離難度的評分方法。
6. 如權(quán)利要求4所述的基于逆向合成的有機小分子化合物可合成性評價方法,其特 征在于所述在以優(yōu)化逆合成分析樹方式生成合成路線中采用了即邊拆分邊優(yōu)化的方法 即直接終止逆向合成分析的方法、逆向合成分析子樹的簡化方法和每條反應(yīng)設(shè)定一個參數(shù) rate來表示該步驟實現(xiàn)的可能性的方法直接終止逆向合成分析的方法對目標(biāo)化合物,將前體同原料數(shù)據(jù)庫中的每個分子進 行比較,運用圖的匹配算法比對,若在它的多種拆分可能中,有一種拆分得到的前體是原 料,則直接剔除掉該目標(biāo)化合物的其他拆分可能,將這種拆分可能作為目標(biāo)化合物的唯一 拆分方法,并終止這條樹枝上的分析逆向合成分析子樹的簡化的方法對于一些特定的子結(jié)構(gòu),已經(jīng)存在了相對固定的合 成路線,即已知化合物分子的合成路線數(shù)據(jù),依據(jù)建立的固定路線數(shù)據(jù)庫,使用圖的匹配算 法檢測目標(biāo)分子中是否含有這類子結(jié)構(gòu),如果有,則就按照這種轉(zhuǎn)換規(guī)則直接拆分到原料, 但目標(biāo)化合物的其他可能的轉(zhuǎn)換規(guī)則仍然會被記錄到逆向合成分析樹中;每條反應(yīng)設(shè)定一個參數(shù)rate來表示該步驟實現(xiàn)的可能性的方法每條反應(yīng)設(shè)定一個參數(shù)rate來表示該步驟實現(xiàn)的可能性rate值的初始值與表示這個轉(zhuǎn)換規(guī)則的有機反應(yīng)的難易程度有關(guān),該反應(yīng)本身的難度的越大,則rate值越?。煌瑫r, rate值還與反應(yīng)的原料分子有關(guān),當(dāng)rate值小于設(shè)定的數(shù)值,即該步反應(yīng)步驟的實現(xiàn)難度 太大,這條可能的路線就直接被拋棄不再繼續(xù)拆分,即刪除逆向合成分析樹上的這條樹枝。
7. 如權(quán)利要求6所述的基于逆向合成的有機小分子化合物可合成性評價方法,其特征 在于所述每條反應(yīng)設(shè)定一個參數(shù)rate來表示該步驟實現(xiàn)的可能性的方法,其rate值的改 變與原料的分子的關(guān)系是反應(yīng)位點化學(xué)環(huán)境的電子效應(yīng)與進行的拆分步驟要求的電子效應(yīng)匹配對于每一個拆分步驟,都自動檢測該步反應(yīng)原料商反應(yīng)位點的化學(xué)環(huán)境,即反應(yīng)位點 的a位置官能團,如果反應(yīng)位點的a位置官能團表現(xiàn)出的電子效應(yīng)與增加反應(yīng)活性的電 子效應(yīng)相同,則rate值增加;相反,rate值減少;進行的拆分步驟的空間位阻對于每步轉(zhuǎn)換,如果該步轉(zhuǎn)換需要考慮空間位阻,則自動 檢測轉(zhuǎn)換得到的原料,若該原料反應(yīng)位點附近官能團存在空間位阻,則rate值減少;影響反應(yīng)選擇性因素檢測兩類可能導(dǎo)致反應(yīng)選擇性降低的因素,第一類是原料分子 上含有多個相同的官能團,第二類是是否含有類似的反應(yīng)位點,如果在該步轉(zhuǎn)換的原料中 存在,則rate值降低;是否含有不穩(wěn)定化學(xué)結(jié)構(gòu)檢測在在室溫含氧情況下,是否存在可以自動發(fā)生反應(yīng)的化學(xué)結(jié)構(gòu),在進行拆分后對原料進行判斷,如果原料含有這類不穩(wěn)定的化學(xué)結(jié)構(gòu),則意味著再拆分時的轉(zhuǎn)換所代表的反應(yīng)實際操作難度大,該步轉(zhuǎn)換的rate值減少;分子復(fù)雜度cpxtx的評判對于每一步轉(zhuǎn)換,如原料的復(fù)雜度還要高于目標(biāo)分子,則它 可能是一步不合理的轉(zhuǎn)換,rate值減少,分子復(fù)雜度cpxtx是在隱氫圖下進行,算法如下a) .環(huán)cpxtx = cpxtx+size(i)氺ksize為每個環(huán)的成環(huán)重原子數(shù),k是經(jīng)驗常數(shù),本方法的k = 6,b) .連接度cpxtx = cpxtx+i,其中,i隨不同連接度而不同,連接度是指分子中每個原子相連的重原子數(shù)目,若以雙鍵相連,則為2,若是三鍵,則為3 ;如果連接度cnt (i) = 4,則i = 24 ; 如果連接度cnt(i) = 3,則i = 12 ; 如果連接度cnt(i) = 2,則i = 6 ; 如果連接度cnt(i) = l,則i = 3 ;c) .原子類型cpxtx = cpxtx+k如果原子類型是C,則k = 3 ;如果是其他原子,則k = 6 ;d) .得到一個最后的cpxtx值。
8. 如權(quán)利要求5所述的基于逆向合成的有機小分子化合物可合成性評價方法,其特征在于在合成路線基礎(chǔ)上進行有效合成路線的數(shù)目和實現(xiàn)合成路線的難度的評分是指最終的評分SA = Sa+Sr,其中,SA表示最終的評分,Sa表示有效合成路線的數(shù)目,Sr表 示實現(xiàn)合成路線的難度,有效合成路線的拆分步數(shù)n的數(shù)目越大,具體合成時選擇越大,最終合成目標(biāo)化合物 來說更容易,根據(jù)n的不同,Sa值如下(1) Sa = -4. 25*n+38. 251 1 < < n < < 5(2) Sa = -0. 95*ln n+18. 7 n > 5(3) Sa = 0.87*ln X+30 n = 0其中,X是逆向合成分析樹中節(jié)點的數(shù)目;對于每一條合成路線,實現(xiàn)的難度用Sp表示(1) 每步反應(yīng)對應(yīng)的反應(yīng)規(guī)則,在建立轉(zhuǎn)換規(guī)則數(shù)據(jù)庫時,已經(jīng)對該反應(yīng)能否實現(xiàn)的難易程度進行人工打分d,首先Sp = d(2) 計算產(chǎn)物和反應(yīng)分離難度的得分分離難度以產(chǎn)物和原料的logP差值A(chǔ)logP表示,Sp與A logP的關(guān)系Sp = Sp+ln A logP合成路線的實現(xiàn)Sy難度是單步反應(yīng)難度得分的加和,即Sy = E Sp對于整個合成路線的得分Sr,取合成線路中得分最小的表示,即= minSy。
全文摘要
基于逆向合成的有機小分子化合物可合成性評價方法涉及計算機輔助藥物分子設(shè)計領(lǐng)域。建立原料數(shù)據(jù)庫、轉(zhuǎn)換規(guī)則數(shù)據(jù)庫和固定路線數(shù)據(jù)庫,應(yīng)用這三個數(shù)據(jù)庫對目標(biāo)化合物進行逆向合成分析,自動生成有機小分子化合物的合成路線,在拆分過程中,對逆合成分析樹的生成進行優(yōu)化處理,預(yù)先刪減逆合成分析樹中的節(jié)點。合成路線生成后,同時對化合物的拆分難度和合成路線的實現(xiàn)難度進行評價。程序流程包括識別輸入分子;讀取原料數(shù)據(jù)庫、轉(zhuǎn)換規(guī)則數(shù)據(jù)庫和固定路線數(shù)據(jù)庫數(shù)據(jù);以優(yōu)化逆合成分析樹方式生成合成路線和對可合成性的評分4個步驟。本發(fā)明解決現(xiàn)有化合物從頭設(shè)計方法發(fā)展的瓶頸問題,有效縮短了運算時間,提供了有效準(zhǔn)確的化合物可合成性評價。
文檔編號G06F17/50GK101789047SQ201010106648
公開日2010年7月28日 申請日期2010年2月5日 優(yōu)先權(quán)日2010年2月5日
發(fā)明者李琳麗, 楊勝勇, 鄭仁林, 魏于全, 黃奇 申請人:四川大學(xué)