專利名稱:一種microRNA探針序列的設計方法
技術領域:
本發(fā)明涉及一種高通量microRNA芯片技術領域,特別涉及一種microRNA探針的 分析方法。
背景技術:
高通量生物芯片技術是集微電子學、分子生物學、計算機科學等多學科交叉的先 進技術,通過在厘米尺寸的計算機芯片上集成數(shù)千至上萬個分子探針來實現(xiàn)對生物體各過 程、各狀態(tài)進行各個層次的快速、并行、大信息量檢測。其中,microRNA芯片技術是當前最 新的芯片技術,其探針為一種新的RNA分子,稱microRNA,這類RNA分子通過抑制mRNA的 翻譯或降解mRNA的方式調控基因表達。近十年來,大量研究證明microRNA廣泛參與動 植物生長發(fā)育、細胞分化與凋亡以及重大疾病的發(fā)生發(fā)展過程。有人認為,microRNA在腫 瘤發(fā)生過程中起著樞紐作用,用microRNA作為腫瘤治療靶標將可能比使用編碼基因更有 效。(文獻1 一種檢測microRNA表達的微陣列芯片的研制及應用,駱明勇等,生物物理與 生物化學進展,2007,34(1) :31-41)。利用該項技術,人們研究了多種癌變組織和細胞系 的microRNA表達譜。(文獻2 :MicroRNA在人結腸癌干細胞中的表達譜,鄒健等,世界華人 消化雜志,2010,18 (2) 173-178)不僅如此,2008年又有人發(fā)現(xiàn)多種疾病的血清microRNA 表達譜具有疾病特異性( 文獻3 Characterization of microRNAs in serum :a novel class of biomarkers fordiagnosis of cancer and other diseases, Xi Chen 等’ Cell Research (2008) 18 :997_1006)。因此,利用microRNA芯片技術進行microRNA表達譜檢測 正逐步成為相關研究、開發(fā)機構的常規(guī)實驗手段,廣泛應用于動植物分子生物學研究、分子 醫(yī)學研究、藥理研究和新型RNA藥物開發(fā)、以致食品安全領域。不同于其它芯片技術,由于 已經(jīng)知道的microRNA有限,所以探針序列的設計也是決定microRNA芯片檢測能力的重要 因素之一。目前大多采用miRBase數(shù)據(jù)庫中已收錄的人microRNA序列或者人-小鼠-大 鼠microRNA序列作為芯片探針,這樣的芯片只能檢測有限數(shù)量的microRNA,而無法檢測數(shù) 據(jù)庫中尚未收錄的microRNA。最近Exiqon公司推出了 11. 0版本microRNA芯片,其中附加 了 435條基于某個計算方法設計的miRPLus探針,使得其產(chǎn)品在檢測新microRNA方面擁有 優(yōu)勢,但他們并沒有發(fā)表該探針的分析方法,而如上所述,microRNA探針序列的設計對于后 續(xù)的理論研究以及醫(yī)藥生物領域的應用都有至關重要的作用。microRNA探針序列的設計都以基因組信息數(shù)據(jù)為基礎。目前,生物信息學領域 的一些算法可以看作與探針序列設計技術有關。一般是通過對相關物種基因組序列進行 比較,識別出其中的進化保守序列片段,然后結合RNA 二級結構的莖環(huán)特征進行分析;或 者應用機器學習的方法,如SVM,利用已知microRNA序列及其周邊核酸序列所有可能的 特征進行分析提取。但這些方法大多只能提供microRNA所屬的前體莖環(huán)結構(由介于 pri-microRNA與pre_microRNA之間的序列構成),由于成熟體microRNA的序列長度大 約只占構成前體莖環(huán)結構序列的大約四分之一,所以如果用前體莖環(huán)結構對應的序列作 探針將會導致芯片檢測信號低弱或無信號(文獻1)。目前還沒有有效的方法直接產(chǎn)生microRNA成熟體序列。僅報道了 3個嘗試工作,但都未達到目的。包括一個基于SVM的 石if究(文獻 4 :Reliable prediction of Drosha processing sites improvesmicroRNA gene prediction, S. A. Helvik, 0. Sn0ve Jr and Pal Saetrom, BIOINFORMATICS,23(2), 2007,P142-149),該方法僅能預測人microRNA的一端在其前體莖環(huán)結構中的位置(即,該 方法只能給出準確的microRNA前體,即pre-microRNA),而無法提供完整、準確的microRNA 成熟體核酸序列;另外兩個分別基于隱馬科夫鏈和貝葉斯公式,但準確度過低,無法用于 microRNA探針序列的設計。限制了 microRNA芯片在實際應用中的價值。
發(fā)明內容
發(fā)明目的本發(fā)明所要解決的技術問題是針對現(xiàn)有技術的不足,提供一種 microRNA探針的分析方法,提高現(xiàn)有microRNA芯片技術對新microRNA的檢測能力。技術方案本發(fā)明公開了一種microRNA探針序列的設計方法,包括以下步驟步驟(1),從基因組序列中收集所有能形成莖環(huán)結構的莖種序列;使用動態(tài)規(guī) 劃算法在序列上找出所有可以互相配對的、且配對片段之間的距離不超過120個核苷酸 (120nt)的配對片段,稱之為莖種。步驟(2),計算各莖種序列及其附近IOOnt 150nt區(qū)域序列所形成的RNA 二級結 構;具體為將一段包含莖種的長度為130nt左右的序列從所輸入的全長基因組序列中截取 下來,將其對折并且固定莖種的配對,然后以遞歸的方式調整各個位置上堿基的配對形式 以生成各種可能的二級結構。步驟(3),根據(jù)microRNA前體莖環(huán)結構特征對產(chǎn)生的RNA 二級結構進行篩選,提取 含microRNA的莖環(huán)結構;步驟⑷,計算含microRNA莖環(huán)結構的自由能分布譜;步驟(5),使用microRNA莖環(huán)結構的自由能特征譜確定microRNA前體;步驟(6),使用標準轉換關系將microRNA前體二級結構歸屬為成熟體等效長度;步驟(7),用設定的等效總長度在microRNA前體二級結構中截取microRNA成熟體 序列并輸出結果。本發(fā)明步驟(2)中,所述計算各莖種及其附近區(qū)域對應序列的RNA 二級結構包括 以下步驟從全長基因組序列中截取一段莖種序列,將所述莖種及其附近IOOnt 150nt區(qū) 域的序列對折并且固定莖種的堿基配對,以遞歸的方式調整各個位置上堿基的配對形式從 而生成各莖種所屬的RNA 二級結構,一般選擇附近130nt的區(qū)域。本發(fā)明步驟(3)具體包括以下步驟步驟(31),判斷莖種序列所屬RNA 二級結構的能量和配對堿基數(shù)是否符合判據(jù), 如果判斷結果為否,則拋棄該莖種序列;否則,執(zhí)行步驟(32);步驟(32),判斷能量和配對堿基數(shù)的綜合貢獻PE值是否為最大值,如果判斷結果 為否,則拋棄該莖種序列;否則,執(zhí)行步驟(4)。本發(fā)明步驟(31)中能量的判據(jù)為-0. 35kJ/mol -base以下;配對堿基數(shù)所占的百 分比為65 %以上。配對數(shù)目越多,二級結構能量就越低,但是配對堿基數(shù)最多的結構不一定 能量最低,而能量最低的結構其配對堿基數(shù)也不一定最多。本發(fā)明步驟(32)中能量與配對堿基數(shù)的綜合貢獻PE值根據(jù)以下公式計算
PE = PairBases X (l_k) -Energy X k,其中,PairBases表示該莖環(huán)結構的配對堿基數(shù),Energy表示該莖環(huán)結構的總自 由能,k為兩者間的權重值,取值范圍為0. 6 1. 0,最優(yōu)選地k值取為0. 8。同一個序列片 段存在多個低能態(tài)結構,取PE值最大者為最佳候選結構。本發(fā)明步驟(4)中含microRNA莖環(huán)結構的自由能分布譜由每個面的自由能值 構成,所述每個面由一堿基配對與其最鄰近的堿基配對、以及兩堿基配對之間的兩條邊構 成;若兩邊堿基數(shù)相等,則按堿基數(shù)平均分割成小面,并對各個分割小面賦予平均能量值; 若兩邊的堿基數(shù)目不相等,對其中較長的一邊按堿基數(shù)目進行平均分割并對各個分割小 面賦予平均能量值。計算含microRNA莖環(huán)結構的自由能分布譜,對于莖環(huán)結構的每一個 面,根據(jù)Zuker(MFOLD)等人提供的能量表(文獻5 :Expanded sequenced印endence of thermodynamic parameters improves prediction of RNA secondary structure,Mathews DH, Sabina J, Zuker M, Turner DH. ,J. Mol. Biol. (1999) 288 (5),p911-940)對含 microRNA 莖環(huán)結構的每個小面逐個賦予能量值,即得到自由能分布譜。具體為對于連續(xù)的堿基配對 結構,直接在能量表中查詢各個堿基堆積面的自由能值;對于各類非對稱的環(huán)結構,在其較 長的一邊按堿基平均分割成小面,各個小面的自由能取環(huán)面自由能的平均值;對于對稱的 環(huán)結構,按堿基將環(huán)面分割成小面,各個小面的自由能取環(huán)面自由能的平均值。通過這個計 算可以使能量與結構的實際空間位置對應起來。本發(fā)明步驟(5)中使用microRNA莖環(huán)結構的自由能特征譜對各個microRNA前 體二級結構的自由能分布譜掃描,以與自由能特征譜匹配得分值最高的位置確定microRNA 前體(Pre-miRNA)末端位置。利用microRNA所屬莖環(huán)結構的自由能特征譜,確定Pre-miRNA 末端的位置。Pre-miRNA莖環(huán)結構末端位置下游的自由能分布譜具有特征模式,本步驟 所用自由能特征譜由對上步中已知的Pre-miRNA莖環(huán)結構末端區(qū)域的自由能分布譜計 算所得。具體為1)從mirBase數(shù)據(jù)庫(http://www.mirbase.org)中獲取所有human pre-microRNA,去除冗余數(shù)據(jù)(即重復性數(shù)據(jù));2)再根據(jù)mirBase中的microRNA基因組 位置注釋信息從人基因組序列(http://Ww. ensembl. org)中以pre-microRNA為中心提取 130nt 長的序列片段;3)使用 RNAfold of Vienna package 1·8(文獻 6:Ivo L. H. (2003) Vienna RNA Secondary Structure Server. Nucleic Acids Research. 31,3429-3431)計 算其RNA 二級結構(莖環(huán)結構);4)進一步計算這些含microRNA莖環(huán)結構的自由能分布譜 (方法如步驟⑷中所述);5)將所有這些已知的人的含microRNA莖環(huán)結構自由能分布譜 以其pre-microRNA末端位置對齊,即構成人microRNA莖環(huán)結構自由能特征譜(矩陣)。其 它哺乳動物物種的microRNA莖環(huán)結構自由能特征譜可以用同樣的方法產(chǎn)生。對待測莖環(huán)結構的自由能分布譜掃描,找到與特征模式最匹配的位置,即可確定 待測莖環(huán)結構中Pre-microRNA末端的位置。與特征能譜的匹配可使用多種方法,如隨機森 林法、支持向量機、神經(jīng)網(wǎng)絡等機器學習中常用的分類方法,以找到最佳匹配為原則。本發(fā)明步驟(6)中所述標準轉換關系為microRNA前體二級結構與microRNA成熟 體等效長度之間的轉換關系矩陣ro02 1 )
T =23n/α η!a9、1.801 η!a ^轉換矩陣T用于處理microRNA前體所含的三種結構類型第一行是類型一,即3’ 端非配對結構的轉換參數(shù),第二行是類型二,即對稱的內環(huán)結構的轉換參數(shù),第三行是類型 三,即鼓包結構的轉換參數(shù);根據(jù)轉換關系矩陣,用下式計算等效長度
‘類型一’ χ = 2,3,4,5 L = Γ(2,χ)類型二,jc = 1,2,
Γ(3,χ)類型三,;c 二 1,2,3 ’其中,χ為各種類型的結構所含的核苷酸數(shù)目,L為轉換后的等效長度。將 Pre-miRNA 二級結構歸屬為成熟體等效長度后,統(tǒng)一以等效長度20在各Pre-miRNA 二級結 構中截取相應的成熟體序列。本發(fā)明方法中所用到的基因表達譜芯片檢測和識別裝置為本領域常用的檢測設備。本發(fā)明步驟(7)設定的等效總長度為10 30,優(yōu)選地為20。有益效果本發(fā)明的主要目的是針對現(xiàn)有方法無法準確地從基因組序列中提 取microRNA成熟體(功能形式)序列探針的問題,提供一種基于自由能量分布特征的 microRNA探針序列的設計方法。鑒于microRNA數(shù)據(jù)庫能夠提供的數(shù)據(jù)不足,傳統(tǒng)上僅使用 數(shù)據(jù)庫的序列作為microRNA檢測探針,其檢測范圍和數(shù)量受到限制,而使用本方法設計的 探針則具有檢測新microRNA的能力,且可用于多種脊椎動物microNRA表達譜的檢測。
下面結合附圖和具體實施方式
對本發(fā)明做更進一步的具體說明,本發(fā)明的上述和 /或其他方面的優(yōu)點將會變得更加清楚。圖1為本發(fā)明中microRNA表達譜芯片檢測裝置的工作流程圖。圖2為本發(fā)明方法的流程圖。圖3為本發(fā)明判斷含microRNA莖環(huán)結構的方法流程圖。圖4為本發(fā)明含microRNA莖環(huán)結構的自由能譜計算示意圖。圖5為本發(fā)明隨機森林法確定待測Pre-miRNA莖環(huán)結構末端位置流程圖。圖6為本發(fā)明microRNA芯片探針序列設計效果檢驗結果圖。
具體實施例方式如圖1所示,按檢測需求根據(jù)數(shù)據(jù)庫收錄的和計算方法分析microRNA成熟體序列 設計芯片探針,并設計內標和外標探針;在基底上合成探針或探針合成后用點樣儀點制固 定在芯片的基底上;將待測樣本進行熒光標記后,加樣于高通量生物芯片檢測裝置中,與芯 片上的microRNA探針雜交,雜交完畢后清洗去雜物;光電部分檢測,例如熒光信號圖像掃描,記錄microRNA表達強度數(shù)據(jù),將數(shù)據(jù)預處理,產(chǎn)生microRNA表達譜數(shù)據(jù)。本發(fā)明實施例的方法具體如圖2所示步驟1,輸入基因組的核酸序列,使用現(xiàn)有的計算機技術提取間距小于120nt的相 互配對作為莖種。步驟2,計算莖種所屬序列區(qū)域(對于短序列需將序列延伸之130bp)的二級結構, 將序列對折并且固定莖種的配對,然后以遞歸的方式調整各個位置上堿基的配對形式以生 成各種可能的二級結構。步驟3,判斷莖種所屬二級結構是否符合含microRNA莖環(huán)結構的判據(jù),如果判斷 結果為否,則拋棄該結構,重新進行步驟3 ;如果判斷結果為是,輸出含microRNA莖環(huán)結構, 執(zhí)行步驟4。圖3詳細說明了步驟3,包括步驟31,判斷莖種所屬二級結構的能量、配對堿基數(shù)是否符合判據(jù),其中能量的判 據(jù)為-0. 35kJ/mol · base以下,配對堿基數(shù)所占的百分比為65%以上;步驟32,計算綜合貢獻PE值,并判斷能量和配對堿基數(shù)的綜合貢獻PE值是否為 最大值,如果是最大值,則進行下一步驟,如果不是最大值,則重新計算綜合貢獻PE值。兩 者的綜合貢獻根據(jù)公式PE = PairBasesX (l_k)-Energy Xk計算,其中,PairBases表示該 莖環(huán)結構的配對堿基數(shù),Energy表示該莖環(huán)結構的能量,k為兩者間的權重值,取值范圍為 0. 6 1. 0,最優(yōu)選地的k值為0. 8,取PE值最大為最佳二級結構。步驟4,計算含microRNA莖環(huán)結構的自由能分布譜。計算一個含microRNA莖環(huán) 結構的自由能分布譜的方法示于圖4,其中斜體字母代表已知的microRNA成熟體序列。圖 4以含人microRNA :has-mir-96的部分莖環(huán)結構為例解釋自由能分布譜的計算方法。圖4 中,最左邊的環(huán)狀結構為含microRNA莖環(huán)結構的環(huán)部,其余部分為莖部。以下針對莖部進 行敘述。莖部最左邊為連續(xù)的3個堿基配對(又稱堿基對),形成2個面。對于連續(xù)配對結 構,直接利用文獻數(shù)據(jù)賦值(文獻 5:David H. Mattews et al. (1999)Expanded Sequence Dependence of Thermodynamic Parameters Improves Prediction ofRNA Secondary Structure. J. Mol. Biol. 288 :p911_940),這兩個面的自由能參數(shù)值從左到右依次為:_1· 4 和-2. 5 ;緊接著是一個不對稱的非配對結構,較長的一邊比另一邊多3個堿基。對于各類 不對稱的非配對環(huán)結構,在其較長的邊上按堿基平均分割。對于這個不對稱結構,分割為4 個小面,每個小面的能量值均為0. 8。間隔一段連續(xù)的配對結構之后,繼續(xù)向右是一個對稱 的非配對結構,兩邊均為4個堿基長,分割成3個小面,每個小面賦平均值0.57。對每個小 面賦環(huán)面自由能平均值,即每個小面的能量之和等于環(huán)結構的自由能。因為盡管較大的結 構在mfold算法中只有一個能量值,但實際上卻與好幾個堆積面的大小相當,這樣處理是 為了使能量與結構的實際空間位置對應起來。圖4中,橢圓中的數(shù)字表示該例中各個小面 具體的能量值。步驟5,使用相應物種的自由能特征譜,對含microRNA莖環(huán)結構的能譜掃描,確定 Pre-microRNA末端位置。特定物種microRNA莖環(huán)結構擁有其特定的自由能特征譜,脊椎 動物擁有相近的自由能特征譜。對某物種所有已知microRNA莖環(huán)結構的自由能分布譜進 行統(tǒng)計分析,可獲得該物種的自由能特征譜。具體為1)從mirBase數(shù)據(jù)庫(http://WWW. mirbase.org)中獲取所有human pre-microRNA,去除冗余數(shù)據(jù)(即重復性數(shù)據(jù));2)再根 據(jù)mirBase中的microRNA基因組位置注釋信息從人基因組序列(http://WWW. ensembl.org)中以pre-microRNA為中心提取130nt長的序列片段;3)使用RNAfold of Vienna package 1· 8(文獻 6:Ivo L. H. (2003)Vienna RNA SecondaryStructure Server. Nucleic Acids Research. 31,3429-3431)計算其RNA 二級結構(莖環(huán)結構);4)進一步計算這些含 microRNA莖環(huán)結構的自由能分布譜(方法如步驟(4)中所述);5)將所有這些已知的人的 含microRNA莖環(huán)結構自由能分布譜以其pre-microRNA末端位置對齊,即構成人microRNA 莖環(huán)結構自由能特征譜(矩陣)。本步驟中使用隨機森林(RF)法確定待測Pre-microRNA莖環(huán)結構末端位置,圖5 為流程圖。以待測莖環(huán)結構的環(huán)區(qū)為中心,取50nt至SOnt之間的莖區(qū)為能譜掃描范圍,用 長度為20nt的窗口掃描待測莖環(huán)結構的能譜,使用隨機森林算法程序計算該窗口與特征 能譜具有相同特征的概率,取概率最大處對應的位置為pre-microRNA末端。在執(zhí)行隨機 森林法計算時,先對特征能譜采樣,獲得以已知pre-microRNA末端為起點、長度為20nt的 特征能譜構成的正樣本集和末端在隨機位置的負樣本集,生成100個決策樹,然后利用決 策樹對待測莖環(huán)結構能譜在指定掃描區(qū)域逐點計算取正概率。取正概率最大,即表明以該 點為起點的能譜與正樣本集最匹配。利用與特征譜的匹配確定待測Pre-microRNA莖環(huán)結 構末端位置也可以使用SVM、神經(jīng)網(wǎng)絡等其它機器學習方法,關鍵是找到與特征譜的最佳匹 配。方法不同,尋找最佳匹配的效果會有差異。步驟6,利用標準轉換關系將Pre-miRNA 二級結構歸屬為成熟體等效長度。標準轉 換關系指Pre-miRNA 二級結構與成熟體等效長度之間的轉換關系矩陣
0 2 1 、 T =
2 3 n/a n/a v1.8 0 1 η!a j轉換矩陣T用于處理Pre-miRNA所含的三種結構類型第一行是類型一,3’端非配 對結構,(所述3’端指Pre-microRNA序列的末端,序列起始端稱為5’端)的轉換參數(shù),第 二行是結構類型二(對稱的內環(huán)結構)的轉換參數(shù),第三行是結構類型三(鼓包結構)的 轉換參數(shù)。設各種類型的結構所含的核苷酸數(shù)目為X,則轉換為成熟體中的序列長度為L ; 使用轉換矩陣中的參數(shù)對一個Pre-miRNA 二級結構中所含的結構類型進行處理,分別獲得 其對應的等效長度;對于配對結構,則不需處理,其等效長度與配對長度相等。
L 二
TXlj-ι)
T(2,x) Τ(3,χ)
類型 1, χ = 2,3,4,5 類型2,x = l,2 類型3,X = I,2,3步驟7,用特定等效長度在Pre-microRNA 二級結構中截取microRNA成熟體序列并 輸出所獲得的microRNA成熟體序列。即利用步驟6獲得的Pre-miRNA 二級結構歸屬結果, 從分析的Pre-miRNA的3’末端以等效長度20截取相應序列,輸出microRNA成熟體序列。由于目前人們還沒有獲得任何一個物種的全部mi croRNA,所以只能利用已知 microRNA為樣本來檢驗本發(fā)明的效果。利用900條含已知microRNA的序列進行成熟體序列 設計檢驗,準確率達91%。其中,對于末端存在2個核苷酸的設計誤差,因其對芯片檢測能 力影響較小,所以可認為是成功的設計。圖6展示了部分檢驗結果,其中,編號為microRNA數(shù)據(jù)庫的標識號,粗斜體代表已知的準確microRNA成熟體序列,在其下面是使用本方法設 計的microRNA探針序列。WAmicroRNA :has-mir-320c-l為例,預測的探針序列在起始端 僅比已知的準確序列多出一個堿基;對于has-mir-1468,預測的探針序列在末端僅比已知 的準確序列多出一個堿基;而對于小鼠mmu-mir-743b,預測的探針序列與已知序列完全一 致。由此可以得出,本發(fā)明方法設計的microRNA探針具有較高的準確性。本發(fā)明方法中所用到的基因表達譜芯片檢測和識別裝置為本領域常用的設備,不 需要硬件上的任何改動,因而更加顯示出本方法在具體實施中的兼容性,大大降低了方法 在實踐應用中的成本。本發(fā)明提供了一種microRNA探針序列的設計方法的思路及方法,具體實現(xiàn)該技 術方案的方法和途徑很多,以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領 域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些 改進和潤飾也應視為本發(fā)明的保護范圍。本實施例中未明確的各組成部分均可用現(xiàn)有技術 加以實現(xiàn)。
權利要求
一種microRNA探針序列的設計方法,其特征在于,包括以下步驟步驟(1),從基因組序列中收集所有能形成莖環(huán)結構的莖種序列;步驟(2),計算各莖種序列及其附近100nt~150nt區(qū)域序列所形成的RNA二級結構;步驟(3),根據(jù)microRNA前體莖環(huán)結構特征對產(chǎn)生的RNA二級結構進行篩選,提取含microRNA的莖環(huán)結構;步驟(4),計算含microRNA莖環(huán)結構的自由能分布譜;步驟(5),使用microRNA莖環(huán)結構的自由能特征譜確定microRNA前體;步驟(6),使用標準轉換關系將microRNA前體二級結構歸屬為成熟體等效長度;步驟(7),用設定的等效總長度在microRNA前體二級結構中截取microRNA成熟體序列并輸出所述microRNA探針序列。
2.根據(jù)權利要求1所述的一種microRNA探針序列的設計方法,其特征在于,步驟(2) 中,所述計算各莖種及其附近區(qū)域對應序列的RNA 二級結構包括以下步驟從全長基因組 序列中截取一段莖種序列,將所述莖種及其附近IOOnt 150nt區(qū)域的序列對折并且固 定莖種的堿基配對,以遞歸的方式調整各個位置上堿基的配對形式從而生成各莖種所屬的 RNA 二級結構。
3.根據(jù)權利要求1所述的一種microRNA探針序列的設計方法,其特征在于,步驟(3) 具體包括以下步驟步驟(31),判斷所述莖種序列所屬RNA 二級結構的能量和配對堿基數(shù)是否符合判據(jù), 如果結果為是,執(zhí)行步驟(32),如果判斷結果為否,則拋棄該莖種序列;步驟(32),判斷能量和配對堿基數(shù)的綜合貢獻PE值是否為最大值,如果判斷結果為 是,執(zhí)行步驟(4),如果判斷結果為否,則拋棄該莖種序列。
4.根據(jù)權利要求3所述的一種microRNA探針序列的設計方法,其特征在于,步驟(31) 中能量的判據(jù)為-0. 35kJ/mol · base以下;配對堿基數(shù)所占的百分比為65%以上.
5.根據(jù)權利要求2所述的一種microRNA探針序列的設計方法,其特征在于,步驟(32) 中能量與配對堿基數(shù)的綜合貢獻PE值根據(jù)以下公式計算PE = PairBases X (l~k) -Energy Xk,其中,PairBases表示該莖環(huán)結構的配對堿基數(shù),Energy表示該莖環(huán)結構的總自由能, k為兩者間的權重值,取值范圍為0. 6 1. 0的實數(shù)。
6.根據(jù)權利要求1所述的一種microRNA探針序列的設計方法,其特征在于,步驟(4) 中含microRNA莖環(huán)結構的自由能分布譜由每個面的自由能值構成,所述每個面由一堿基 配對與其最鄰近的堿基配對、以及兩堿基配對之間的兩條邊構成;若兩邊堿基數(shù)相等,則按 堿基數(shù)平均分割成小面,并對各個分割小面賦予平均能量值;若兩邊的堿基數(shù)目不相等,對 其中較長的一邊按堿基數(shù)目進行平均分割并對各個分割小面賦予平均能量值。
7.根據(jù)權利要求6所述的一種microRNA探針序列的設計方法,其特征在于,步驟(5) 中使用microRNA莖環(huán)結構的自由能特征譜對各個microRNA前體二級結構的自由能分布譜 掃描,以與自由能特征譜匹配得分值最高的位置確定microRNA前體末端位置。
8.根據(jù)權利要求1所述的一種microRNA探針序列的設計方法,其特征在于,步驟(6) 中所述標準轉換關系為microRNA前體二級結構與microRNA成熟體等效長度之間的轉換關 系矩陣'0 02 1 )—2 3nl a nla、1.8 01 n/a J轉換矩陣T用于處理microRNA前體所含的三種結構類型第一行是類型一,即3’端非 配對結構的轉換參數(shù),第二行是類型二,即對稱的內環(huán)結構的轉換參數(shù),第三行是類型三, 即鼓包結構的轉換參數(shù);‘T(Ux-I) 類型一,x = 2,3,4,5L = J T(2,x)類型二,jc = 1,2,T(3,x)類型三,jc = 1,2,3 ’其中,χ為各種類型的結構所含的核苷酸數(shù)目,L為轉換后的等效長度。
9.根據(jù)權利要求1所述的一種microRNA探針序列的分析方法,其特征在于,步驟(7) 設定的等效總長度為20。
全文摘要
本發(fā)明公開了一種microRNA探針序列的設計方法,包括以下步驟從基因組序列中收集所有能形成莖環(huán)結構的莖種序列;計算各莖種序列及其附近100nt~150nt區(qū)域序列所形成的RNA二級結構;根據(jù)microRNA前體莖環(huán)結構特征對產(chǎn)生的RNA二級結構進行篩選,提取含microRNA的莖環(huán)結構;計算含microRNA莖環(huán)結構的自由能分布;使用microRNA莖環(huán)結構的自由能特征譜確定microRNA前體;使用標準轉換關系將microRNA前體二級結構歸屬為成熟體等效長度;用設定的等效總長度在microRNA前體二級結構中截取microRNA成熟體序列并輸出結果。
文檔編號C12N15/10GK101979540SQ20101051833
公開日2011年2月23日 申請日期2010年10月26日 優(yōu)先權日2010年10月26日
發(fā)明者嚴先昭, 何沉峰, 周志華, 張辰宇, 李捷, 李穎新, 楊嶸, 王進, 龔晨光 申請人:南京大學