两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

Rna全序列特征可視化提取方法

文檔序號(hào):456161閱讀:293來源:國知局
專利名稱:Rna全序列特征可視化提取方法
技術(shù)領(lǐng)域
本發(fā)明是一種RNA全序列特征可視化提取方法,涉及圖像處理、模式識(shí)別和傳統(tǒng)的基因序列分析的技術(shù),與傳統(tǒng)RNA序列比對(duì)分析方法不同,能比較形象地反映基因序列的特性。
背景技術(shù)
二十一世紀(jì)是生物的世紀(jì),在人類基因組計(jì)劃完成后,生物學(xué)家把更多的目光投向基因序列分析。傳統(tǒng)的基因序列分析方法中,有相當(dāng)?shù)牟糠质峭ㄟ^基因序列比對(duì)來完成的。而傳統(tǒng)的基因序列比對(duì)主要通過基因?qū)R,逐一堿基比對(duì)來完成的,其中比較典型的方法是用BLAST等非常成熟的軟件來完成(http//www.ncbi.nlm.nih.gov/BLAST)。用該軟件可以比較容易地反映堿基的缺失、插入、變異。這種方法雖然可以很簡單地得到基因變異,但得到的結(jié)果并不直觀。而其它基因的序列分析方法,如蛋白質(zhì)二級(jí)結(jié)構(gòu)Kuo-ChenChou,2000,Prediction of Protein structural classes and Subcellular locations,CurretnProtein and Peptide Science.2000,通過特定的結(jié)構(gòu)來分析基因某部分的可能的功能。這些分析方法又過于傾向于局部的功能。
20世紀(jì)50年代,計(jì)算機(jī)創(chuàng)始人、著名數(shù)學(xué)家馮·諾依曼(Von Neumann)曾希望通過特定的程序在計(jì)算機(jī)上實(shí)現(xiàn)類似于生物體發(fā)育中細(xì)胞的自我復(fù)制Wolfram S.2002.A New Kind of Science.Wolfram Media Inc.,Champaign,IL。他提出了一個(gè)簡單的模式,把一個(gè)長方形平面分成若干個(gè)網(wǎng)格,每個(gè)網(wǎng)格點(diǎn)表示一個(gè)細(xì)胞或系統(tǒng)的基元,它們的狀態(tài)賦值為0或1,在網(wǎng)格中用空格或?qū)嵏癖硎荆谑孪仍O(shè)定的規(guī)則下,細(xì)胞或基元的演化用網(wǎng)格的實(shí)格或空格的變動(dòng)來描述。這樣的模型就是元胞自動(dòng)機(jī)。而S.Wolfram的潛心研究則充分展示了元胞自動(dòng)機(jī)(CellularAutomation,CA)用簡單規(guī)則模擬復(fù)雜系統(tǒng)的強(qiáng)大能力Wolfram S.1984.Cellularautomation as models of complexity.Nature 311,419-424.。元胞自動(dòng)機(jī)為物理、生物和計(jì)算機(jī)科學(xué)提供一種簡單模型,正是利用這些簡單模型的“反復(fù)計(jì)算”,可以模擬復(fù)雜系統(tǒng)的離散模型。該方法在使用簡單規(guī)則模擬復(fù)雜系統(tǒng)上的應(yīng)用非常有效,但未用于生物序列的分析上。為了分析基因序列這種超乎尋常的復(fù)雜系統(tǒng),使用CA方法將其可視化,然后分析生成的圖像,從而得到不同基因序列具有的特點(diǎn),是一個(gè)新的研究課題。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)傳統(tǒng)的基因序列分析方法中存在的基因變異結(jié)果不直觀,或是功能分析不全面等缺點(diǎn),提供一種RNA全序列特征可視化提取方法,可從生成的基因可視化圖像中得到不同基因序列具有的特征,進(jìn)而分析利用其序列特征進(jìn)行醫(yī)學(xué)研究。
為實(shí)現(xiàn)這樣的目的,本發(fā)明的基于元胞自動(dòng)機(jī)的RNA全序列可視化提取方法,主要包括數(shù)據(jù)預(yù)處理、規(guī)則選取、元胞自動(dòng)機(jī)CA方法應(yīng)用及序列圖像生成四個(gè)步驟。首先對(duì)得到的RNA序列中每個(gè)脫氧核糖核酸“A“”T“”G“”U”進(jìn)行編碼,引入一維元胞自動(dòng)機(jī)CA模型,選用特定的元胞自動(dòng)機(jī)規(guī)則對(duì)編碼后的“0”“1”基因序列進(jìn)行演化,即元胞的下一時(shí)刻的狀態(tài)由元胞和它的左右兩個(gè)相鄰元胞當(dāng)前時(shí)刻的狀態(tài)按照演化規(guī)則來決定,經(jīng)若干次演化后形成一個(gè)“0”“1”二維矩陣,將二維矩陣轉(zhuǎn)化為黑白圖像并進(jìn)行縮放,得到具有RNA全序列特征可視化圖形。
本發(fā)明的方法按如下具體步驟進(jìn)行1.數(shù)據(jù)預(yù)處理首先對(duì)得到的RNA序列中每個(gè)脫氧核糖核酸“A“”T“”G“”U”進(jìn)行編碼,將RNA序列轉(zhuǎn)換為“0”“1”序列,具體為A=00 U=01 G=10 T=11,并在序列的兩端各補(bǔ)上一個(gè)0。
對(duì)RNA序列處理,如果直接用原始的ATGU字符組成的RNA序列處理,計(jì)算量會(huì)非常大。如果對(duì)RNA進(jìn)行編碼,將RNA序列轉(zhuǎn)換為0,1序列,則計(jì)算量會(huì)小許多。將核苷酸序列按照上述方式編碼后,新序列的長度就為原始序列的兩倍。為了讓序列兩端的元胞也參加運(yùn)算,可以在序列的兩端各補(bǔ)上一個(gè)0。
2.元胞自動(dòng)機(jī)CA方法規(guī)則的選取對(duì)于編碼后的“0”“1”,在元胞自動(dòng)機(jī)CA法三點(diǎn)定一點(diǎn)的規(guī)則中選定一條區(qū)分性最好的規(guī)則作為演化規(guī)則。
對(duì)于CA方法中三點(diǎn)定一點(diǎn)的規(guī)則數(shù)一共有256條,所以需要根據(jù)具體情況對(duì)所有規(guī)則進(jìn)行比較后,在其中選擇一條區(qū)分性最好的規(guī)則進(jìn)行演化。本發(fā)明主要選擇第184號(hào)演化規(guī)則。
3.元胞自動(dòng)機(jī)CA的應(yīng)用本發(fā)明在基因序列中引入了一維元胞自動(dòng)機(jī)模型。在這一模型中,所有的元胞分布在一維直線上。對(duì)于基因序列,按照選定的元胞自動(dòng)機(jī)規(guī)則對(duì)編碼后的“0”“1”基因序列演化,即元胞的下一時(shí)刻的狀態(tài)由元胞和它的左右兩個(gè)相鄰元胞當(dāng)前時(shí)刻的狀態(tài)按照演化規(guī)則來決定。
將已編碼的原始基因序列作為第一行,把對(duì)第一行進(jìn)行演化的結(jié)果作為第二行,把對(duì)第二行進(jìn)行演化的結(jié)果作為第三行,依次類推。須注意,除了第一行的序列兩端需要補(bǔ)零,每次演化后的新序列也在其序列兩端各補(bǔ)上一個(gè)0,以便于下一步的演化運(yùn)算。經(jīng)過若干次的演化后,就可以形成一個(gè)“0”“1”二維矩陣。
4.序列圖像的生成定義“0”“1”二維矩陣中“0”表示黑色,“1”表示白色,使用可視化技術(shù),將二維矩陣轉(zhuǎn)化為一個(gè)黑白相間的二值圖像。由于上述圖像太大,以至于不可能直接分析原始圖像的特點(diǎn)。本發(fā)明對(duì)圖像進(jìn)行水平和垂直方向變換縮小,得到具有RNA全序列特征的可視化圖形。
本發(fā)明所收集的相關(guān)基因序列,最好能找到相關(guān)的可以相互比較基因全序列,這點(diǎn)一般都可以做到。選擇規(guī)則的時(shí)候,可以從基因全序列中選擇一個(gè)可以接受的片斷,如3000個(gè)堿基。然后使用選定的適當(dāng)規(guī)則,進(jìn)行基因序列演化,從生成的可視化序列圖像中可尋找得到不同基因序列具有的特征,發(fā)現(xiàn)規(guī)律。
與傳統(tǒng)的序列比對(duì)方法相比較,本發(fā)明方法具有全序列分析,直觀性,敏感性和普適性的特點(diǎn)。首先本方法是對(duì)全序列進(jìn)行分析,可以考慮序列間的長程相互影響作用并給出序列本質(zhì)的排列組合特征。而傳統(tǒng)的序列分析方法只能通過比對(duì)得出突變點(diǎn)的位置和內(nèi)容,并不能給出序列具有的組成特點(diǎn)。本方法是將序列轉(zhuǎn)化為二維圖像,利用人的視覺對(duì)圖像敏感的特點(diǎn)發(fā)現(xiàn)生成圖像的特征。而傳統(tǒng)的方法是對(duì)一維序列直接進(jìn)行分析,很顯然,這是很抽象繁瑣的過程。本方法對(duì)于序列中的少數(shù)突變點(diǎn)具有敏感性,也就是可以放大序列間的差別。通過對(duì)大量病毒序列的分析,本方法通過選取不同的規(guī)則可以將不同類別的病毒加以區(qū)分,也就是說本發(fā)明的這種方法具有普適性。


圖1為元胞自動(dòng)機(jī)CA方法規(guī)則中184規(guī)則的示意圖。
圖1中自左到右分別說明了,“0”“1”序列中上一行三點(diǎn)可能出現(xiàn)的8種排列組合,以及在下一行相應(yīng)位置應(yīng)該取的值。
圖2為與圖1對(duì)應(yīng)的184規(guī)則的數(shù)字表述形式。
意義和圖一相同,只是用數(shù)字1,0分別表示白色和黑色。
圖3為冠狀病毒229E原圖(非SARS)。
圖4為冠狀病毒Sin2774原圖(SARS)。
具體實(shí)施例方式
以下結(jié)合附圖和實(shí)施例對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步描述。
本發(fā)明以SARS病毒序列分析為例說明其具體的實(shí)施方式。SARS的原名為嚴(yán)重急性呼吸綜合癥,是冠狀病毒(coronavirus)引起的一種呼吸道急性傳染疾病。本發(fā)明從NCBI網(wǎng)站上下載66種不同SARS病毒的RNA序列,每種病毒序列的長度大約在29700左右。對(duì)這些SARS病毒序列進(jìn)行可視化處理,進(jìn)行分析,尋找SARS序列的基本特征,比較與非SARS冠狀病毒序列有哪些的不同點(diǎn),從而可以利用SARS病毒的序列特征。表格1中列出了SARS病毒的RNA序列,表格2中列出了非SARS冠狀病毒的RNA序列。
表格1SARS病毒序列SARSAccession Length SARS Accession LengthBJ01AY27848829725 TC1 AY338174 29573BJ02AY27848729745 HSR1 AY323977 29751BJ03AY27849029740 Frankfurt1 AY291315 29727BJ04AY27935429732 AS AY427439 29711GZ01AY27848929757 CUHK-AY345986 29736ZJ01AY29702829714 CUHK-AY345987 29736HKU39849AY27849129742 CUHK-AY345988 29736CUHK W1 AY27855429736 GD69 AY313906 29754CUHK Su10 AY28275229736 PUMC01 AY350750 29738Sin2500 AY28379429711 PUMC02 AY357075 29738Sin2677 AY28379529705 PUMC03 AY357076 29745Sin2679 AY28379629711 Sino1-11 AY485277 29741Sin2748 AY28379729705 Sino3-11 AY485278 29740Sin2774 AY28379829729 SoD AY461660 29715TW1 AY29145129714 GZ02 AY390556 29760Urbani AY27874129727 ZS-C AY395003 29647Tor2NC 004718 29751 LC5 AY395002 29350GZ50AY30449529720 LC4 AY395001 29350SZ16AY30448829731 LC3 AY395000 29350SZ3 AY30448629741 LC2 AY394999 29350FRA AY31012029740 LC1 AY394998 29736GD01AY27848929757 ZS-A AY394997 29683TWC AY32111829725 ZS-B AY394996 29683TWC2AY36269829727 HSZ-Cc AY394995 29765TWC3AY36269929727 HSZ-Bc AY394994 29765ZMY1AY35168029749 HGZ8L2 AY394993 29736TWY AP00656129727 HZS2-C AY394992 29736TWS AP00656029727 HZS2-Fc AY394991 29736TWK AP00655929727 HZS2-E AY394990 29736TWJ AP00655829725 HZS2-D AY394989 29736
TWH AP006557 29727 HZS2-Fb AY39498729709TC3 AY348314 29573 HSZ-Cb AY39498629729TC2 AY338175 29573 HSZ-Bb AY39498529530表格2非SARS冠狀病毒Non-SARS genome Accession Length Non-SARS genome Accession LengthD13096 Avian D13096 27608 AY391777 HCoV- AY391777 30738AJ311317 Avian 1 AJ311317 27635 NC 005147 HCoV- NC 005147 30738U00735 Bovine U00735 31032 AF304460 229EAF304460 27317AF220295 Bovine1 AF220295 31100 AF029248 Murine AF029248 31357NC 003436 Porcine NC 003436 28033 AF208066 Murine AF208066 31112AF353511 Porcine1 AF353511 28033 NC 003045 Bovine NC 003045 31028NC 002645 229ENC 002645 27317 NC 001451 Avian NC 001451 27608NC 001846 Murine NC 001846 31357 AY319651 Avian AY319651 27733AF208067 Murine1 AF208067 31233 AF391542 Bovine AF391542 31028AF207902 Murine2 AF207902 31217 AF391541 Bovine AF391541 31028AF029248 Murine4 AF029248 31357 AF201929 Murine AF201929 31276NC 002306 Tran S NC 002306 28586 AJ271965 Trans AJ271965 28586本發(fā)明方法按如下步驟進(jìn)行1、數(shù)據(jù)預(yù)處理對(duì)RNA序列進(jìn)行編碼,將RNA序列轉(zhuǎn)換為“0”“1”序列,編碼具體方式為A=00 U=01 G=10 T=11。為了讓序列兩端的元胞也參加運(yùn)算,可以在序列的兩端各補(bǔ)上一個(gè)0。
2、CA方法規(guī)則的選取本發(fā)明在CA三點(diǎn)定一點(diǎn)的256條規(guī)則中,選擇184號(hào)規(guī)則進(jìn)行演化。第184號(hào)演化規(guī)則如圖1所示,其中白格表示編碼1,黑格表示編碼0,所以第184條演化規(guī)則的數(shù)字表述形式也可由圖2所示。以第三種情況為例(從左數(shù))當(dāng)上一行三點(diǎn)分別是白,黑,白的組合時(shí),下一行對(duì)應(yīng)于中間點(diǎn)的位置應(yīng)當(dāng)取白色。
3、CA方法的應(yīng)用首先將原始的基因序列作為起始行,按照184規(guī)則從左至右依次生成下一行對(duì)應(yīng)點(diǎn),這樣生成第二行序列。然后對(duì)生成的第二行再按照規(guī)則184進(jìn)行演化。重復(fù)以上步驟2400次得到一個(gè)“0”“1”矩陣。注意序列兩邊需要補(bǔ)0,以使計(jì)算可以進(jìn)行。使用184規(guī)則三點(diǎn)定一點(diǎn)的原則,對(duì)一維的“0”“1”序列運(yùn)行2400次得到一個(gè)二維的“0”“1”矩陣,大小是2400*N,N是“0”“1”序列的長度。
4、序列圖像的生成定義“0”“1”二維矩陣中“0”表示黑色,“1”表示白色,使用可視化技術(shù),將二維矩陣轉(zhuǎn)換為一個(gè)黑白相間的二值圖像,大小為60Kb×2.4Kb。這樣做的優(yōu)點(diǎn)是可以發(fā)揮人對(duì)圖像的敏感性,從而非常方便地發(fā)現(xiàn)圖像中的圖案、規(guī)律等,從另外一個(gè)方面來研究基因序列。由于上述圖像太大,以至于不可能直接分析原始圖像的特點(diǎn),所以還需對(duì)序列進(jìn)行縮放,以發(fā)現(xiàn)圖形特征。本發(fā)明利用如下的步驟對(duì)所有的圖像進(jìn)行變換(1)水平方向縮小1/4,垂直方向縮小1/3.5;(2)水平方向再縮小1/3.5。受計(jì)算精度影響,全部的縮小尺寸是水平方向縮小到原來的1/14.007,垂直方向縮小到原來的1/2。最后得到具有RNA全序列特征的可視化圖形。
最終根據(jù)上述結(jié)果,從圖像特征提取到相關(guān)規(guī)則。圖3為非SARS冠狀病毒229E原圖,圖4為SARS冠狀病毒Sin2774原圖。從圖3、4中可以明顯的看到,SARS基因序列所形成的圖像中有非常明顯的V字形交叉區(qū)域,并且區(qū)域比較大,而非SARS基因序列所形成的圖案則沒有這樣多的特征,主要是平行區(qū)域。這樣一個(gè)顯著的特點(diǎn)給我們一個(gè)區(qū)分SARS-CoV序列和非SARS序列的視覺準(zhǔn)則。比較66個(gè)SARS-CoV和24個(gè)非SARS序列的圖像,可以發(fā)現(xiàn)所有的SARS-CoV圖像中都含有6個(gè)V字形交叉區(qū)域,且這些區(qū)域的位置分布一致,大約在84-2483nt、3040-5439nt、5592-7991nt、12050-14449nt、16412-18811nt和19677-22076nt。這些特征是SARS所特有的,即6個(gè)V形區(qū)域可以被認(rèn)為是SARS病毒的特征。
權(quán)利要求
1.一種RNA全序列特征可視化提取方法,其特征在于包括如下具體步驟1)首先對(duì)得到的RNA序列中每個(gè)脫氧核糖核酸“A“”T“”G“”U”進(jìn)行編碼,將RNA序列轉(zhuǎn)換為“0”“1”序列,具體為A=00 U=01 G=10 T=11,并在序列的兩端各補(bǔ)上一個(gè)0;2)在元胞自動(dòng)機(jī)CA法三點(diǎn)定一點(diǎn)的規(guī)則中選定一條區(qū)分性最好的規(guī)則作為演化規(guī)則;3)在基因序列中引入一維元胞自動(dòng)機(jī)模型,在這一模型中,所有的元胞分布在一維直線上,按照選定的元胞自動(dòng)機(jī)規(guī)則對(duì)編碼后的“0”“1”基因序列演化,即元胞的下一時(shí)刻的狀態(tài)由元胞和它的左右兩個(gè)相鄰元胞當(dāng)前時(shí)刻的狀態(tài)按照演化規(guī)則來決定,將已編碼的原始基因序列作為第一行,把對(duì)第一行進(jìn)行演化的結(jié)果作為第二行,把對(duì)第二行進(jìn)行演化的結(jié)果作為第三行,依次類推,每次演化后的新序列在其序列兩端各補(bǔ)上一個(gè)0,經(jīng)過若干次的演化后,形成一個(gè)“0”“1”二維矩陣;4)定義“0”“1”二維矩陣中“0”表示黑色,“1”表示白色,使用可視化技術(shù),將二維矩陣轉(zhuǎn)化為一個(gè)黑白相間的二值圖像,并對(duì)圖像進(jìn)行水平和垂直方向變換縮小,得到具有RNA全序列特征的可視化圖形。
2.如權(quán)利要求1的RNA全序列特征可視化提取方法,其特征在于所述演化規(guī)則選擇第184號(hào)規(guī)則。
全文摘要
一種RNA全序列特征可視化提取方法,主要包括數(shù)據(jù)預(yù)處理、規(guī)則選取、元胞自動(dòng)機(jī)CA方法應(yīng)用及序列圖像生成,首先對(duì)得到的RNA序列中每個(gè)脫氧核糖核酸“A”“T” “G”“U”進(jìn)行編碼,引入一維元胞自動(dòng)機(jī)模型,選用特定的元胞自動(dòng)機(jī)規(guī)則對(duì)編碼后的“0”“1”基因序列進(jìn)行演化,即元胞的下一時(shí)刻的狀態(tài)由元胞和它的左右兩個(gè)相鄰元胞當(dāng)前時(shí)刻的狀態(tài)按照演化規(guī)則來決定,經(jīng)若干次演化后形成一個(gè)“0”“1”二維矩陣,將二維矩陣轉(zhuǎn)化為黑白圖像并進(jìn)行縮放,得到具有RNA全序列特征可視化圖形。本發(fā)明方法具有全序列分析,直觀性,敏感性和普適性的特點(diǎn),從生成的可視化序列圖像中可得到不同基因序列具有的特征。
文檔編號(hào)C12N15/10GK1584027SQ20041002503
公開日2005年2月23日 申請(qǐng)日期2004年6月10日 優(yōu)先權(quán)日2004年6月10日
發(fā)明者王猛, 黃振德, 楊杰, 劉國平, 徐志節(jié), 姚莉秀 申請(qǐng)人:上海交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
龙南县| 蛟河市| 应城市| 江源县| 武冈市| 四子王旗| 新郑市| 通道| 都匀市| 衡阳市| 百色市| 县级市| 屯门区| 库尔勒市| 崇礼县| 荔波县| 天门市| 锦州市| 克拉玛依市| 醴陵市| 镇沅| 绵竹市| 南郑县| 包头市| 吉木乃县| 昌乐县| 繁昌县| 无极县| 三明市| 宁武县| 湘阴县| 拉萨市| 泌阳县| 江城| 宁夏| 河南省| 澄江县| 涡阳县| 卢龙县| 镇原县| 五峰|