一種用一維細(xì)胞神經(jīng)網(wǎng)絡(luò)檢測dna序列相似度的方法
【專利摘要】本發(fā)明公開了一種用一維細(xì)胞神經(jīng)網(wǎng)絡(luò)檢測DNA序列相似度的方法,首先設(shè)計出一維細(xì)胞神經(jīng)網(wǎng)絡(luò)基本模型,然后利用這種模型建構(gòu)一個一維的對偶細(xì)胞神經(jīng)網(wǎng)絡(luò);再用兩個待檢測的DNA序列信息對該網(wǎng)絡(luò)進(jìn)行初始化,網(wǎng)絡(luò)運行過程中,記錄各時刻網(wǎng)絡(luò)中的細(xì)胞狀態(tài)和輸出,據(jù)此形成最優(yōu)輸出矩陣;再對最優(yōu)輸出矩陣中的元素進(jìn)行遍歷,從而確定最佳的對齊路徑;最后根據(jù)對齊路徑對兩個序列進(jìn)行空格插入操作以便將兩個序列全局對齊;序列對齊后,再根據(jù)對齊的堿基數(shù)量和總的堿基數(shù)量來計算其全局相似度。經(jīng)過測試對比表明,本發(fā)明在保證檢測準(zhǔn)確的基礎(chǔ)上,對于長度較長的DNA序列,所需的計算時間比現(xiàn)有方法明顯有較大幅度地減少。
【專利說明】—種用一維細(xì)胞神經(jīng)網(wǎng)絡(luò)檢測DNA序列相似度的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于生物信息學(xué)中的DNA序列相似度檢測【技術(shù)領(lǐng)域】,更為具體地講,涉及一種用一維細(xì)胞神經(jīng)網(wǎng)絡(luò)檢測DNA序列相似度的方法,用于對DNA雙序列全局相似度的檢測。
【背景技術(shù)】
[0002]20世紀(jì)70年代,DNA測序方法的出現(xiàn)產(chǎn)生出許多生物分子序列數(shù)據(jù),這些數(shù)據(jù)正以幾何速度迅速增長,它已成為人類實踐產(chǎn)生數(shù)據(jù)量最大的領(lǐng)域。在人類基因組序列圖繪制成功后,人們又相繼啟動了各種動植物的基因組測序計劃。但是,數(shù)據(jù)并不等于知識和信息,研究和處理這些數(shù)據(jù)的任務(wù)越來越重,我們必須尋找高效地方法來解決這類問題。
[0003]DNA 一般是通過堿基配對相連接以雙鏈形式存在,而堿基的配對存在特異性,總是一條鏈上的堿基G與另一條鏈上的堿基C連接,一條鏈上的堿基T與另一條鏈上的堿基A連接。DNA核酸序列就是由這4個基本元素組成的字符序列。因此,DNA序列匹配實際上就是匹配兩個由ACGT這4個字符中任意一個字符組成的序列之間的相似度。序列比對就是一個通過某種特定的算法尋找兩條或多條序列之間最大匹配。匹配堿基數(shù)的過程通過序列比對的方法來挖掘序列之間在結(jié)構(gòu)或功能上的相似性,這對于生物數(shù)據(jù)庫的搜索算法,蛋白質(zhì)或DNA的結(jié)構(gòu)預(yù)測、進(jìn)化分析和功能分析具有非常重要的實踐意義。
[0004]根據(jù)進(jìn)行比對的生物序列的個數(shù)的不同,序列比對方法可以分為雙序列比對方法和多序列比對方法。雙序列比對方法又可以分為三種,分別是點陣法、動態(tài)規(guī)劃算法和啟發(fā)式算法(BLAST算法、FASTA算法等)。多序列比對是一個NP完全問題,是一個尚未解決的難題,它可以分為以下幾種:精確比對算法、迭代比對算法、漸進(jìn)比對算法、啟發(fā)式算法和基于圖論的比對算法等。
[0005]雙序列比對方法中,點陣法是1970年McIntyre和Gibbs首先提出來的,是最基本的一種可視化的雙序列比對方法點陣法的優(yōu)點是可以直接的發(fā)現(xiàn)兩個序列間所有可能的匹配,但是它得到的比對結(jié)果不夠精確,而且只適用于較短的兩個序列,面對如今數(shù)據(jù)量龐大的生物序列數(shù)據(jù)明顯存在著缺陷。動態(tài)規(guī)劃算法的基本思想就是將待求解的問題分解成若干個子問題,先分別把子問題的解求解出來,然后存儲子問題的解而避免重復(fù)計算,最后通過將子問題的解合并起來就得到了原問題的解。采用動態(tài)規(guī)劃算法求解生物序列比對問題可以在給定的得分系統(tǒng)下得到最優(yōu)的比對結(jié)果,但是如果問題量特別大,那么它的計算速度會非常慢,而且這種方法對參數(shù)的選擇很敏感,參數(shù)的微小改動也會使比對的結(jié)果有著較大的變化。求解生物序列比對問題的動態(tài)規(guī)劃算法主要有1970年由Needleman和Wunsch提出的一種全局序列比對算法-Needleman-Wunsch算法(簡稱NW算法),Smith和Waterman于1981年提出的一種用來解決尋找具有局部相似性區(qū)域的Smith-Waterman算法(簡稱為SW算法),1985年由Pearsom和Lipman首先提出并在1988年進(jìn)行了改進(jìn)的一種FASTA算法雙序列比對的啟發(fā)式算法,1990年由Altschul等人提出的一種BLAST算法雙序列比對的啟發(fā)式算法。[0006]而傳統(tǒng)的比對算法在解決數(shù)據(jù)量較大的雙序列比對問題時,所需要的時間和存儲空間隨著序列條數(shù)和序列長度的增長呈指數(shù)級增長,因此,我們需要研究更好更新的方法來提高算法的搜索速度,減少計算時間。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種用一維細(xì)胞神經(jīng)網(wǎng)絡(luò)檢測DNA序列相似度的方法,以減少計算時間。
[0008]為實現(xiàn)上述發(fā)明目的,本發(fā)明用一維細(xì)胞神經(jīng)網(wǎng)絡(luò)檢測DNA序列相似度的方法,其特征在于,包括以下步驟:
[0009](I)、設(shè)計一維細(xì)胞神經(jīng)網(wǎng)絡(luò)基本模型
[0010]將單細(xì)胞進(jìn)行鏈狀排列,各細(xì)胞序號依次用“…、i_l、1、i+l、…”來表示,其中的字母i表不細(xì)胞的排列序號;
[0011]該基本模型中細(xì)胞狀態(tài)用微分方程組來表示:
【權(quán)利要求】
1.一種用一維細(xì)胞神經(jīng)網(wǎng)絡(luò)檢測DNA序列相似度的方法,包括以下步驟: (I )、設(shè)計一維細(xì)胞神經(jīng)網(wǎng)絡(luò)基本模型 將單細(xì)胞進(jìn)行鏈狀排列,各細(xì)胞序號依次用“…、1-l、1、i+l、…”來表示,其中的字母i表不細(xì)胞的排列序號; 該基本模型中細(xì)胞狀態(tài)用微分方程組來表示:
【文檔編號】G06F19/22GK103544406SQ201310552472
【公開日】2014年1月29日 申請日期:2013年11月8日 優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】紀(jì)祿平, 郝德水, 周龍, 黃青君, 尹力, 楊潔 申請人:電子科技大學(xué)