專利名稱:再測序病原菌微陣列的制作方法
技術(shù)領(lǐng)域:
本發(fā)明提供了采用DNA再測序微陣列進(jìn)行病原菌檢測。優(yōu)選,本發(fā)明提供了多個病原菌的同時測定方法。本發(fā)明也提供了再測序微陣列和區(qū)分診斷用的微陣列芯片和生物樣本中緊密相關(guān)病原菌間的細(xì)微區(qū)別。本發(fā)明進(jìn)一步提供了檢測生物樣本中病原菌的存在和識別的方法。本發(fā)明能夠診斷和監(jiān)視已知病原菌序列和由于未預(yù)期序列突變而被確定的病原菌,以及這種病原菌的混合物。聯(lián)合一些擴(kuò)增策略,再測序允許同時臨床診斷和血清類型分類的傳統(tǒng)監(jiān)測試驗、抗生素耐藥性、遺傳漂變/遺傳漂移分析、法醫(yī)、和生物恐怖事件的快速探測。本發(fā)明也是關(guān)于多種自動篩選體系,該體系包括采用可供選擇的生成核酸或蛋白序列的任意方法自動子序列篩選體系。該系統(tǒng)適用于自動篩選由再測序DNA微陣列獲得的不完全核苷酸序列數(shù)據(jù)的子序列,依據(jù)系統(tǒng)預(yù)先確定的參數(shù)或使用者確定的參數(shù),采用一種或一種以上相似性搜索算法來篩選最適于對比預(yù)先確定數(shù)據(jù)庫序列收集的序列子集。本發(fā)明的實施方案也能夠進(jìn)一步分析和表達(dá)由一種或一種以上子序列提交的相似搜索得到的相關(guān)結(jié)果。這里描述的本發(fā)明的主題分辨序列標(biāo)記的組合,該序列標(biāo)記組合源于多個序列靶點(例如,微生物)的混合或源于單個靶點內(nèi)序列的重排。基于DNA微陣列的相對信號強(qiáng)度值,本方法的實施方案也能分配相對豐富的混合靶點序列。此外,本發(fā)明的一種主題為采用“原型”序列塊表達(dá)相關(guān)靶點序列(例如,病原菌)的范圍,設(shè)計再測序DNA微陣列的迭代程序的完整組成組分。
背景技術(shù):
由于我們正在經(jīng)歷人類基因組工程的生物技術(shù)時代,已經(jīng)將額外費(fèi)用投入到發(fā)展獲得和分析序列信息的高產(chǎn)量方法學(xué)中。為了滿足這種需要,多功能DNA微陣列平臺已經(jīng)擁有導(dǎo)致應(yīng)用方法中應(yīng)用爆發(fā)性增長的顯著名聲。更重要的,世界事件的發(fā)展和主流社會中生物恐怖行動的出現(xiàn)已經(jīng)引起科學(xué)團(tuán)體增長的情緒并且使人們必須發(fā)展用于鑒別和清除生物威脅的新穎、快速并準(zhǔn)確的技術(shù)。用于廣譜病原菌鑒別的微陣列的概念對醫(yī)療實踐和國家防御都具有相當(dāng)大的和顯而易見的吸引力。在這個構(gòu)架中,本發(fā)明者已經(jīng)做出了努力。迄今,通常依賴于微陣列表面上的固定“探針”DNA序列與互補(bǔ)基因組“靶點”的雜交能力來實現(xiàn)鑒別病原菌的目的,該互補(bǔ)基因組“靶點”獨一無二鑒別特殊種類或特異性細(xì)菌病原菌。針對該目的已經(jīng)發(fā)展了不同的微陣列技術(shù),這些技術(shù)在探針密度和試驗完成需要的時間范圍上有所不同。由于在獲得具有足夠量病原菌核酸樣本中的困難,產(chǎn)生了用微陣列進(jìn)行病原菌檢測的技術(shù)挑戰(zhàn)。因此,對于大部分樣本類型,某些種類的靶點擴(kuò)增將有可能需要提供用于經(jīng)微陣列雜交進(jìn)行檢測的病原菌基因標(biāo)記的足夠拷貝。不幸的是,擴(kuò)增的慣常方法與放置于微陣列芯片上的探針數(shù)量相比標(biāo)度不好。然而,提供足夠量的基因組靶點檢測雜交的更普遍采用的方式依賴于基因型鑒 定方法,該基因型鑒定方法利用分子生物學(xué)技術(shù),例如聚合酶鏈反應(yīng)(PCR)。這些技術(shù)比慣常微生物學(xué)方法具有一些潛在優(yōu)勢。核酸擴(kuò)增策略病原菌鑒定基于有機(jī)體內(nèi)的基因信息的檢測,例如不需要培養(yǎng)有機(jī)體。盡管PCR測試靈敏、準(zhǔn)確并且快速,這些方法也帶來新的問題。成功的鑒定完全依賴于適當(dāng)?shù)倪x擇引物,如PCR測試要求假設(shè)靶點有機(jī)物固有的精確序列。因此,迫切需要先進(jìn)的診斷體系以檢測假定的和不可預(yù)料的病原菌序列。DNA微陣列能夠查詢數(shù)千個遺傳因素,處理該緊要的需求。術(shù)語“微陣列”統(tǒng)指一類在單個位點具有高度復(fù)制能力(IO2到IO6)的平面底物或固體瓷球,每一種核酸探針設(shè)計用于選擇性地捕獲互補(bǔ)鏈的靶點(例如病原菌或宿主)核酸。然而,文庫內(nèi)描述的大部分病原菌鑒定微陣列采用寡核苷酸制備得到,該寡核苷酸被機(jī)械設(shè)備控制點樣于衍生的玻璃表面上(一般為3x1英寸載波片)。這種方法使得寡核苷酸的尺寸具有最大的靈活度,該寡核苷酸被沉淀下來,范圍從20-mers到幾千個堿基對(bp)的cDNA PCR產(chǎn)物。無一例外,檢測結(jié)果為在具有熒光團(tuán)標(biāo)記的靶點核酸的雜交之后污點產(chǎn)生的加強(qiáng)的熒光。
Argonne國家實驗室(DOE, USA)和Engelhard分子生物學(xué)研究所在AndreiMirzabekov領(lǐng)導(dǎo)下共同努力已經(jīng)使固定在丙烯酰胺襯墊內(nèi)的短寡核苷酸(14_25mer)廣泛用于與病原菌鑒定中(參見 Strizhkov et al.,2000 ;Vasiliskov et al., 1999)。此外,低密度微陣列(幾百個3x1英寸載波片)已經(jīng)用于抗藥物決定因素的確定(參見Volokhovet al.,2003)。該工作主要部分的一個不同方面是使用了探針固定的三維聚合物矩陣代替二維平面。目前,Cherkasova等人描述了玻璃固定短寡核苷酸點樣微陣列,使用重疊14_25mer探針來描繪脊髓灰質(zhì)炎病毒突變(Cherkasova et al.,2003)。這種方法的兩個改變已經(jīng)進(jìn)行使用:(I)再測序微陣列和序列異質(zhì)性(MARSH)試驗,和(2)病毒重組的微陣列分析(MAVR)試驗。MARSH使用了一組重疊的單個基因序列(半長度)核苷酸探針。雜交方式使得單點突變或取代或缺失成為半個探針長(如,7-10bp)解決方法而不考慮位點的準(zhǔn)確檢測或不變的性質(zhì)。因此,慣常的DNA測序技術(shù)后來一定被用于檢測這些改變。MAVR使用以150nt間距覆蓋整個基因組的有機(jī)體-特異性寡核苷酸探針并且用于檢測大規(guī)模遺傳重組。UCSF的DeRisi組開拓了使用長(70-mer)寡核苷酸探針微陣列用于光譜病原菌鑒定(Wang et al.,2002 ;ffang et al.,2003)的方法。長(70nt)寡核苷酸的使用具有絕對優(yōu)勢和劣勢。一種優(yōu)勢是相對于較短探針(例如,7-10)而言通常能由70-mer探針得到更高程度的靈敏性。然而,因為70-mer靶點/探針雜交一般對顯著性數(shù)量的單堿基不匹配不靈敏而減少了特異性,然而,較短探針提供了更大的序列特異性。DeRisi' s工作組描述使用具有1,600個不同的70_mer寡核苷酸探針的點樣微陣列來鑒定引發(fā)普通呼吸感染的多種病毒(Wang et al.,2002)。采用算法定位于已知病毒基因組列表中的鑒別序列,為每個病原菌選擇的探針。先前描述的方法和后來PCR/Klenow片斷基擴(kuò)增的一系列組合被用于獲得病毒KNA和DNA的無偏擴(kuò)增,生成足夠量的成功微陣列雜交的靶點擴(kuò)增子并且經(jīng)熒光標(biāo)記檢測。(N.B.這個草案被置于DeRisi實驗室網(wǎng)址的公共領(lǐng)域中(http://derisilab.ucsf.edu) 1 )。為得到結(jié)果進(jìn)行樣本準(zhǔn)備需要的時間約24個小時。因為確定序列信息從這個陣列得不到,病原菌鑒定是以雜交方式為基礎(chǔ)的,雜交方式能憑經(jīng)驗確定每個或每一株病原菌。在同一研究組的相關(guān)報告中(Wang et al.,2003),采用高度保守序列制備類似微陣列努力從樣本中捕獲盡可能多的微生物種類。隨后從微陣列中物理除去病原菌序列,克隆該序列并使用慣常DNA測序技術(shù)進(jìn)行測序。在DeRisi研究組的工作中沒有提供臨床樣本中病原菌檢測的分析/臨床靈敏性或特異性的測量。相對于上面提到的使用點樣微陣列的方法,Affymetrix, Inc.(Santa Clara, CA)使用高度密度探針制備技術(shù)在被測序的每個核苷酸堿基的正義和反義方向采用4個探針來構(gòu)建"拼接"微陣列。因此,單堿基取代通過雜交模式直接被檢測出(額外信息參見Affymetrix CustomSeq design manual)。一些工作組描述可使用病原菌基因型拼接微陣列。(Kozal et al.,1996)利用這種類型的微陣列測量HIV內(nèi)突變漂移,而Gingeras等人(Gingeras et al.,1998 ;Troesch et al.,1999)使用 65, 000 低聚物探針的 tiled 陣列進(jìn)行再測序并精確鑒定27個分枝桿菌的70個臨床分離物和15個耐利福平結(jié)核分枝桿菌株。目前,Andersen 等人(Wilson et al., 2002b)描述了使用 tiledAffymetrix 微陣列鑒定生化戰(zhàn)試劑。他們的方法完全依賴于實施特異性PC R反應(yīng)的使用同時生成微陣列雜交用的足夠病原菌靶點DNA。在所有上述列出的情況中,特異性PCR引物用于在微陣列雜交之前擴(kuò)增DNA靶點,通過使用保守引物位點,在多井格式中執(zhí)行 150個不同PCR反應(yīng)并且共有擴(kuò)增子。美國專利6,228,575B1 描述了如 Gingeras (Gingeras et al.,1998)和Troesch(Troesch et al., 1999)描述的相同的數(shù)據(jù)。在該專利中,祀點病原菌序列被拼接到陣列中。因為病原菌序列中的一些類型的變異(esp.插入/缺失或頻繁多重取代)能擾動雜交模式,Gingeras等人使用特異性病原菌雜交模式的不同測量方法來鑒定單個分枝桿菌變異體。那就是說,鑒定需要雜交模式的先驗知識,該雜交模式在陸地實測試驗中被經(jīng)驗確定出。如同上面闡述的,迫切需求先進(jìn)的診斷系統(tǒng)來探測抑制和病原菌基因組序列以及這些序列的變異。更特殊的是,迫切需要快速可信的DNA微陣列技術(shù),而且此微陣列技術(shù)沒有迄今已經(jīng)被采用的PCR方法的系統(tǒng)偏差。生物學(xué)與工程和計算機(jī)科學(xué)的融合導(dǎo)致生物技術(shù)和生物信息學(xué)的出現(xiàn),其目的之一在于迅速獲得和分析疾病診斷用的基因組和蛋白質(zhì)組序列信息。這種方法的實驗活性和普遍可用性主要基于DNA微陣列的出現(xiàn)(Stenger et al., 2002) 一般來說,微陣列制備應(yīng)用微處理器制造業(yè)的方法來制備能迅速可信鑒定生物樣本中的DNA序列或蛋白質(zhì)的“基因芯片”。術(shù)語“微陣列”統(tǒng)指任意類型的平面底物或可供選擇的矩陣,在單個位點具有高度復(fù)制能力(IO2到IO6),每個存在的探針(固定核酸或抗體)被設(shè)計選擇性捕獲溶液中互補(bǔ)鏈的靶點(例如,基因或基因轉(zhuǎn)錄)分析物。經(jīng)設(shè)計,DNA微陣列能同時審查幾千個基因或基因轉(zhuǎn)錄因素。 在使用再測序DNA微陣列進(jìn)行遺傳分析中,含有擴(kuò)增和熒光標(biāo)記遺傳靶點的溶液經(jīng)過微陣列,該微陣列由大量“ 拼接”格式的寡核苷酸探針組成(Kozal et al.,1996)。樣本中的互補(bǔ)序列結(jié)合相應(yīng)的微陣列上含有的探針。然后,使用如激光掃描儀分析微陣列,該激光掃描儀記錄微陣列探針光發(fā)射強(qiáng)度。然后,采用用于生成“堿基響應(yīng)”的陣列特異性軟件分析被記錄的強(qiáng)度,陣列特異性軟件為描述鑒定生物樣本中核酸(腺嘌呤;A,胸腺嘧啶;T,胞核嘧啶;C,或鳥嘌呤;G)某種程度的概率確定性序列的計算方法。廣泛IUPAC定義代碼也用于描述了不準(zhǔn)確地堿基響應(yīng)(參見,2004年7月2日提出的美國臨時申請序列號60/590,931題目為“再測序病原菌微陣列”,補(bǔ)充資料,Appendix J" gdas_manual.pdfpage255)。如果靶點序列與再測序序列的適宜拼接區(qū)域充分一致(每25個堿基有小于1_2個堿基取代),那么靶點的全部再測序是有可能的。然而,當(dāng)靶點序列包含插入、缺失或堿基取代在靶點序列每25個堿基大于2個取代次數(shù)時,拼接區(qū)域的雜交被中斷。“無[堿基]響應(yīng)”的結(jié)果由微陣列拼接區(qū)域上的相應(yīng)序列中得到。當(dāng)溶液中靶點核酸濃度低或當(dāng)存在干擾水平的雜交溶液中競爭底物核酸時,也導(dǎo)致N響應(yīng)。不完全生物序列信息也能由許多其他核酸或蛋白質(zhì)序列技術(shù)產(chǎn)生。再測序的主要應(yīng)用是為了檢測低概率單核苷酸多態(tài)性(SNPs)或靶點序列限制范圍內(nèi)的突變。然而,盡管在工業(yè)中目前沒有慣用的實施方法,微陣列序列輸出也能與序列數(shù)據(jù)庫對比來鑒定靶點序列。目前使用的序列數(shù)據(jù)的最普遍比對方法,或類似性搜索算法為基本的局部比對搜索工具,普遍以"BLAST."著稱并且這里統(tǒng)稱為"BLAST."。它存在許多變體,包括華盛頓大學(xué) BLAST (WU-BLAST)、NCB1-BLAST, FASTA、MPsrch, Scanps、和BestFit (Korf, Yandell&Bedell, 2003)。依據(jù)測試樣本包括已知序列的匹配生物主體的確定性,一般這種比對產(chǎn)生許多可能匹配(概率性測量)。微陣列密度分析序列產(chǎn)量經(jīng)常與包括生物主體的已知序列進(jìn)行比對,該生物主體包括病原菌微生物。然而,本發(fā)明技術(shù)領(lǐng)域中的普通技術(shù)人員不能從視覺上確定拼接區(qū)域中的最好序列部分,該拼接區(qū)域包含經(jīng)過改變無響應(yīng)(N)的數(shù)量介入和在一些情況下受支配的A、C、T和G堿基響應(yīng)。用于遺傳測序和鑒定用微陣列預(yù)期提高了一種研究者從生物樣本中提取大量序列數(shù)據(jù)比對大量先前測序的有機(jī)體和生物質(zhì)的能力。然而,研究者不能利用有效時間信息。對研究者因過度等待時間提交的比對樣本序列,模糊結(jié)果也是令人困惑的難題并且差結(jié)果與嘗試匹配模糊結(jié)果相關(guān)。因此,對研究者來說從序列比對中獲得更相關(guān)結(jié)果的廣泛使用的方法是分析搜索子序列的序列輸出,該子序列具有獲得相關(guān)結(jié)果的較高概率。特別的,許多研究者經(jīng)常發(fā)現(xiàn)自己手動并主觀篩選,或視覺分析某些子序列,與序列數(shù)據(jù)庫中子序列比對。結(jié)果,研究者消耗了時間和資源提交的類似性搜索是相對緩慢并且主觀優(yōu)化的序列數(shù)據(jù)。因此,上面提到的資源利用問題的目前解決方案導(dǎo)致了研究者要求的額外時間和資源要求必備的條件。此外,如同目前解決方案具有主觀性以及時間密集型的,促進(jìn)基因組研究發(fā)展(或加速)的凈收益至多是不確定的。然而,如同上面提到的,已知生物序列的巨大儲存庫通常包含在共享計算資源中。這些共享計算資源要求大量數(shù)據(jù)存儲能力,以及具有與數(shù)據(jù)庫中序列比對提交序列的強(qiáng)大工具。由于研究者生成的大量序列數(shù)據(jù)改善了一般研究使用的微陣列并增強(qiáng)了其可用性,主要任務(wù)在于利用寬帶共享數(shù)據(jù)庫(和相關(guān)系統(tǒng))并且處理要求顯著性提高了。換句話說,廣泛使用微陣列可能得到的數(shù)據(jù)增加通常導(dǎo)致更難有效利用共享生物信息計算資源。例如,如果提交的序列含有大百分比的不確定序列數(shù)據(jù),序列數(shù)據(jù)庫計算資源將設(shè)法找出與固有的不確定序列相匹配的序列,導(dǎo)致所有低確定性的可能類似性搜索結(jié)果。圖10(a)為說明目前可能采用工業(yè)可用方法執(zhí)行工藝的示范流程圖。在這個實施例中,采用類似性搜索109,提交對應(yīng)于主體序列的核苷酸或氨基酸序列數(shù)據(jù)103與已知序列數(shù)據(jù)庫進(jìn)行比對。當(dāng)與數(shù)據(jù)庫記錄比對時提交序列103,109可能或不可能獲得統(tǒng)計學(xué)顯著或有意義結(jié)果。因此,經(jīng)定義,使用大量確定類似性算法中的任何一種,采用“比對”方法對序列記錄數(shù)據(jù)庫執(zhí)行查詢序列的類似性搜索(例如BLAST)。上述“可比”序列與至少數(shù)據(jù)庫中的一種序列具有足夠程度的類似得到至少一種統(tǒng)計學(xué)上顯著性結(jié)果(使用者定義)。對終端用戶來說,視覺鑒定和選擇連續(xù)性核苷酸堿基響應(yīng)(僅由A、T、C、或G殘基組成)或可比較的氨基酸。然而,由于含在靶點序列內(nèi)的"Ns"的數(shù)量或百分比提高,對終端用戶更加困難憑視覺確定完整序列或其中的子序列的可比性。結(jié)果111包括高概率匹配111a,較低概率匹配111b,和有效量的統(tǒng)計學(xué)上無顯著性結(jié)果111c,結(jié)果Illc導(dǎo)致與數(shù)據(jù)庫偶然匹配。經(jīng)類似性搜索算法Ns處理為"aNy" (wild card)特性,意味著當(dāng)使用缺省參數(shù)時,N可為四個堿基殘基中的任何一種或間隙。在再測序DNA輸出中,N說明再測序算法不能解決響應(yīng)并且能對應(yīng)四個堿基殘基(A、T、C或G)的任何一種或?qū)?yīng)空腔(Korf et al.,2003)。在在提交序列中包括許多無響應(yīng)(Ns)的情況下,類似性搜索(如BLAST)將計算出E值比認(rèn)可E值(如1.0e-9)高,說明偶然性更大,返 回的序列不是獨一無二的。類似地,短序列可能具有較高E值,說明確定獨一無二的DNA存在中,終端用戶缺乏使用短序列。結(jié)果111包括許多不確定結(jié)果111c,那么剩下的結(jié)果111成為研究者分析的113。在圖10(a)中,顯不出其他用戶將喊基響應(yīng)序列提交給共孚序列數(shù)據(jù)庫109,處理這些局部排列搜索的附加要求。如上面描述的,多個用戶提交不確定序列給共享序列排列資源經(jīng)常導(dǎo)致可用計算資源僅服務(wù)于一小部分序列提交。圖10(b)說明這個可供選擇情況經(jīng)常在工業(yè)實施中發(fā)現(xiàn),研究者時間消耗是使人困惑的難題。相對于先前說明的情況,在研究者手動實施的119切割和粘貼操作中改變103序列數(shù)據(jù)。更特殊的是,研究者經(jīng)常目測掃描原始數(shù)據(jù)輸出并且主觀拷貝和粘貼119原始數(shù)據(jù)輸出子集,119原始 數(shù)據(jù)明顯包含較少的"Ns"并且提交這些主觀篩選121比對109。然而,如主觀實施子集篩選并且重復(fù)大量原始數(shù)據(jù),人篩選的提交物121通常包括可比的121a和不可比的121b數(shù)據(jù)。因此,BLAST比對123的結(jié)果仍包括一系列可能匹配,范圍從高概率匹配123a到低概率匹配123b,其經(jīng)常由篩選引起,而篩選中存在許多無響應(yīng)123c而不存在由無類似性的序列匹配引起的低概率匹配的預(yù)期結(jié)果。根據(jù)上面討論的,圖10(c)是在有線或無線網(wǎng)絡(luò)128上,與計算機(jī)終端的序列數(shù)據(jù)庫服務(wù)器作用的這個系統(tǒng)設(shè)計的示意圖。在一些情況中,序列數(shù)據(jù)庫(和相關(guān)服務(wù)器)127遠(yuǎn)離終端用戶129??晒┻x擇地,一些設(shè)備定制序列數(shù)據(jù)庫133,數(shù)據(jù)庫133可進(jìn)入局部終端131。然而,上面提到的時間和共享資源消耗的問題在時間消耗較大增加的公共數(shù)據(jù)庫水平的設(shè)備配置中是顯著性的。許多不同因素能導(dǎo)致再排序DNA微陣列不能產(chǎn)生確定堿基響應(yīng)。在純凈靶點樣本中,堿基響應(yīng)的雜交模式(Cutler et al., 2001 ;Kozal et al., 1996)被中斷。一種祀點序列完全不同于探針序列,該探針序列拼接在微陣列表面上。這在再測序微陣列輸出文檔的阻斷位中引入了 N響應(yīng)。當(dāng)樣本不純而含有不同量的其他核酸分子,發(fā)生了相同效應(yīng),該核酸分子能低親和力非特異性結(jié)合拼接探針,導(dǎo)致經(jīng)探針裝置較低信噪比的雜交(熒光)信號。為說明這些因素怎么能確定是否序列是可比較的或不可比較的數(shù)據(jù),圖10(d)顯示了當(dāng)發(fā)生不完全雜交時發(fā)生了再測序DNA微陣列輸出文檔的實施例。在該說明情況中,序列135是FASTA形式,然而可供選擇的序列數(shù)據(jù)格式同樣適于,包括,但不限于plain、EMBL、GCG、GenBank、和IG。在實施例中,序列136為序列子集140 (子序列)。實施例子序列140包括具有大量無響應(yīng)(Ns) 137的子序列,子序列太短而不能從類似性搜索如BLAST139中返回有效結(jié)果,并且子序列可能生成有效結(jié)果143。此外,由aliase產(chǎn)生多重序列,其位于序列標(biāo)頭138,涉及存在于微陣列表面上的探針拼接裝置??偟膩碚f,上面提到的目前工業(yè)實施的問題基本關(guān)于研究者時間消耗和共享資源分配。更特殊地,樣本中得到的增加量的子序列數(shù)據(jù)導(dǎo)致共享資源,如序列比對數(shù)據(jù)庫利用的迅速增加。這種迅速增加成為逐漸增加的群體(研究者和數(shù)據(jù))效率使用的必要條件。為了更有效使用共享資源,現(xiàn)在研究者面臨著需要耗費(fèi)時間和資源來主觀手動篩選比對序列子集。根據(jù)上面陳述的,迫切需要先進(jìn)的診斷體系以迅速探測出已知和未預(yù)料到的序列。更特殊地,迫切需要DNA微陣列技術(shù),尤其在共享類似性搜索數(shù)據(jù)庫和系統(tǒng)的利用中,該DNA微陣列技術(shù)減少了人工輸出的需要并且提高了共享資源利用的效率。除了上面描述的工業(yè)中存在關(guān)于更有效率使用研究者和共享計算資源的問題,世界事件的發(fā)展和傳染性疾病的出現(xiàn)以及主流社會中生化恐怖事件在科學(xué)團(tuán)體中引發(fā)了逐漸增長的情緒并且使人們發(fā)展鑒別出威脅和消除威脅的新穎、迅速并且準(zhǔn)確技術(shù)。用于廣譜病原菌鑒別的微陣列的概念對醫(yī)療實踐和國家防御都具有相當(dāng)大的和顯而易見的吸引力。在這個構(gòu)架中,本發(fā)明者已經(jīng)在努力。此外,不管序列數(shù)據(jù)的來源,需要更有準(zhǔn)備和強(qiáng)有力確定混合物和生物序列數(shù)據(jù)的生物樣本中組合。
發(fā)明內(nèi)容
本發(fā)明的目的是提供下列優(yōu)選實施方案:在本發(fā)明的一種實施方案中,多組寡核苷酸引物的再測序DNA微陣列固定在固相支撐物上,該寡核苷酸引物長度范圍在13至70個核苷酸,其中每組寡核苷酸引物被選擇跨參考序列的特殊區(qū)域,占用陣列(如,拼接)的不連續(xù)區(qū),并且包括至少芯片上平行方式安排的四組引物:1)第一組與參考序列互補(bǔ);和2)三組額外引物,除了中心位置上的核苷酸之外,每一組與第一組引物一致,這三組的各自的中心位置上的核苷酸也相互都不同,使得所有四個常規(guī)核苷酸堿基出現(xiàn)在上述陣列中。a.在本實施方案的一個優(yōu)選方面中,寡核苷酸引物的長度為25個核苷酸。b.在本實施方案的一種優(yōu)選方面中,寡核苷酸引物跨越的參考序列區(qū)域經(jīng)(n+1)個核苷酸穿過參考序列進(jìn)行移動,參考序列的每個鄰近拼接區(qū)域穿過微陣列表面。c.在本實施方案的一種優(yōu)選方面中,再測序DNA微陣列包含18x18微米特點。d.在本實施方 案的一種優(yōu)選方面中,再測序DNA微陣列包含8x8微米特點。e.在本實施方案的一種優(yōu)選方面中,篩選出用于拼接的序列為單基因或子序列,該子序列可能代表更廣類型的有機(jī)物類、種類和亞種類。f.在本實施方案的一種優(yōu)選方面中,篩選出用于拼接的序列為“原型”,該原型代表病原菌家族的基因型。g.在本實施方案的一種優(yōu)選方面中,篩選出用于拼接的序列為“原型”,該原型代表腺病毒家族或腺病毒組。h.在本實施方案的一種優(yōu)選方面中,篩選出用于拼接的序列為“原型”,該原型代
表流行感冒病毒家族或流行感冒病毒組。1.在本實施方案的一種優(yōu)選方面中,篩選出用于拼接的序列為單基因或子序列,該子序列對單個病原毒株是獨一無二的。j.在本實施方案的一種優(yōu)選方面中,篩選出用于拼接的序列編碼耐藥標(biāo)記。k.在本實施方案的一種優(yōu)選方面中,再測序DNA微陣列為呼吸病原菌微陣列版本I (RPMVl)。1.在本實施方案的一種優(yōu)選方面中,再測序DNA微陣列為呼吸病原菌微陣列版本2(RPMV2)。m.在本實施方案的一種優(yōu)選方面中,至少一種普通病原菌和至少一種生物恐怖藥劑在同一芯片上。η.在本實施方案的一種優(yōu)選方面中,再測序DNA微陣列包括前述方面的任何組
入
口 ο在本發(fā)明的一種實施方案中,試劑盒包含(a)前述再測序DNA微陣列,和(b)適于靶標(biāo)序列與上述再測序DNA微陣列上的探針序列進(jìn)行特異性雜交的試劑。本發(fā)明的一種實施方案為檢測微生物或?qū)儆谔厥忸愋陀袡C(jī)物種或亞種類的微生物中存在耐藥標(biāo)記的方法,其中該方法包括:(I)提供了上面描述的再測序DNA微陣列;(2)接觸上述再測序DNA微陣列未知樣本;(3)在適宜條件下,將上述未知樣本與固定在上述再測序DNA微陣列的探針序列雜交適宜的時間;(4)檢測微生物或?qū)儆谔厥忸愋陀袡C(jī)物種或亞種類的微生物中耐藥標(biāo)記的存在和/或同源性,和(5)檢測足夠量的病原菌序列從而為病原菌可能來源進(jìn)行法醫(yī)學(xué)鑒定a.在本實施方案的一種優(yōu)選方面中,本方法用于檢測特殊病原菌種類的存在。b.在本實施方案的一種優(yōu)選方面中,本方法用于檢測耐藥標(biāo)記的存在。c.在本實施方案的一種優(yōu)選方面中,雜交時間范圍在15分鐘到24小時。d.在本實施方案的一種優(yōu)選方面中,未知樣本為生物樣本,包括鼻腔沖洗液樣本、喉嚨拭子標(biāo)本、血液樣本、和唾液樣本,或環(huán)境樣本,包括土壤樣本、空氣樣本和水樣本。e.在本實施方案的一種優(yōu)選方面中,雜交前,未知樣本經(jīng)過下列一種或一種以上步驟:(1)分離,⑵富集主體靶點序列,⑶擴(kuò)增,⑷標(biāo)記,和(5)雜交(例如,消減雜交)。f.在本實施方案的一種優(yōu)選方面中,雜交前,未知樣本中主體的靶點核酸經(jīng)特異性反轉(zhuǎn)錄(RT)、PCR、多重PCRJP /或隨機(jī)PCR進(jìn)行擴(kuò)增。g.在本實施方案的一種優(yōu)選方面中,雜交主體靶點核酸之前,未知樣本經(jīng)隨機(jī)擴(kuò)增策略(例如,隨機(jī)引物的、等溫Klenow聚合酶、Φ29 ΝΑ聚合酶、串聯(lián)擴(kuò)增、多重PCR、和全部擴(kuò)增)。h.在本實施方案 的一種優(yōu)選方面中,對上述未知樣本中的DNA進(jìn)行富集。1.在本實施方案的一種優(yōu)選方面中,上述未知樣本中主體靶點核酸經(jīng)消減從上述未知樣本中背景核酸進(jìn)行富集。j.在本實施方案的一種優(yōu)選方面中,通過從包含核酸的未知樣品混合物中選擇性除去靶點核酸,從而富集未知樣品中的目標(biāo)核酸。k.在本實施方案的一種優(yōu)選方面中,上述未知樣本中主體靶點核酸經(jīng)具有完整或部分序列同源性的探針篩選性捕獲進(jìn)行富集,隨即進(jìn)行擴(kuò)增和雜交到微陣列上。1.在本實施方案的一種優(yōu)選方面中,上述探測存在和/或同源性是通過(a)根據(jù)上述未知樣本的主體核酸和再測序DNA微陣列上探針DNA之間的雜交反應(yīng)進(jìn)行堿基配對和(b)通過將雜交區(qū)序列和序列數(shù)據(jù)庫內(nèi)序列進(jìn)行比較確定相應(yīng)全長基因或基因組片段的序列。1.在特別優(yōu)選方面中,堿基響應(yīng)經(jīng)Affymetrix GDAS軟件在“許可”設(shè)置下生成。i1.在特別優(yōu)選方面中,序列鑒定是經(jīng)再測序病原菌辨識器(REPI)軟件進(jìn)行(參見2004年9月15日提出的美國臨時申請序列第60/609,918號和2004年11月29日提出的美國臨時申請序列第60/609,918號)。ii1.在特別優(yōu)選方面中,序列數(shù)據(jù)庫為GenBank。本發(fā)明的一種實施方案為采用上面C方法常規(guī)診斷普通呼吸病原菌和/或生物恐怖藥劑的方法。本發(fā)明的一種實施方案為十三個在本發(fā)明日期時未知的腺病毒株的基因組序列,包括:Ad3、Ad3FS_navy、Ad4、Ad4vaccine、Ad4FS_navy、Ad4FS_AF、Ad5FS、Ad7、Ad7FS_navy、Ad7 vaccine、Adl6、Ad1、和 Ad21 和其片段。本發(fā)明的一種實施方案為采用上面C方法監(jiān)視普通呼吸病原菌和/或生物恐怖藥劑的方法。本發(fā)明的一種實施方案為評估生物樣本中相對量的病原菌的方法,該生物樣本包含提供上面描述的再測序DNA微陣列同一組成;(2)接觸上述再測序DNA微陣列生物樣本;
(3)在適宜的條件下,將上述未知樣本與固定在上述再測序DNA微陣列上的探針序列雜交適宜的時間;和(4)量化上述未知樣本中微生物或?qū)儆谔厥忸愋陀袡C(jī)物種類或亞種類的微生物中的耐藥標(biāo)記的存在和/或同源性。a.在本實施方案的一種優(yōu)選方面中,上述定量通過確定芯片上雜交信號的絕對強(qiáng)度進(jìn)行。b.在本實施方案的一種優(yōu)選方面中,通過確定堿基響應(yīng)的百分比進(jìn)行上述定量。所述堿基響應(yīng)百分比即可以視作總拼接區(qū)域尺寸的百分比又可以視作滿足滑窗算法(例如,REPI)的篩選子序列內(nèi)的堿基響應(yīng)百分比。本發(fā)明的另一種方面提供了計算機(jī)實施生物序列辨識器(CIBSI)系統(tǒng)和依據(jù)至少一種篩選參數(shù)從生物序列數(shù)據(jù)中篩選子序列的方法。至少一種篩選參數(shù)對應(yīng)于從類似性搜索返回有效結(jié)果的可能性。本發(fā)明的附加實施方案提供了自動篩選最佳序列或子序列的系統(tǒng),該子序列用于比對一組預(yù)先確定的未知序列。選擇性地,系統(tǒng)自動用Ns分布高度片段的序列,并且篩選可比對能從類似性搜索中返回有效結(jié)果的子序列。選擇性地,該系統(tǒng)利用滑窗型算法篩選子序列。隨后,該系統(tǒng)自動從類似性搜索返回輸出給終端用戶,使得隨機(jī)分配對應(yīng)預(yù)先確定序列的給定堿基響應(yīng)。在本發(fā)明的附加實施方案中,源自堿基響應(yīng)算法的序列信息,如應(yīng)用于微陣列雜交模式,用于鑒定測試樣本中的單個生物體。選擇性地,微陣列的再測序探針確定的靶點序列采用類似性搜索算法查詢數(shù)據(jù)庫。類似搜索算法包括,但不限于,普遍使用的局部比對(例如,Smith-ffaterman, BLASTN)序列比對算法來統(tǒng)計學(xué)上確定給定祀點序列對應(yīng)數(shù)據(jù)庫中特異性序列的概率。(Korf et al,2003)此外,本發(fā)明的另外實施方案給用戶提交了類似性搜索的結(jié)果關(guān)于是否樣本中存在至少一種靶點序列。在本發(fā)明的另一種實施方案中,信號強(qiáng)度數(shù)據(jù)(例如,從微陣列中得到的數(shù)據(jù))由系統(tǒng)處理并且與序列數(shù)據(jù)相關(guān)。收集類似性搜索的結(jié)果或提煉給用戶顯示出生物體(包括,但不限于,病原菌)存在與否。此外,由于相對充足的生物體(包括,但不限于,病原菌),強(qiáng)度與上述結(jié)果相關(guān)。選擇性地,系統(tǒng)提供給終端用戶再測序微陣列試驗中檢測出的病原菌相關(guān)量的推測。本發(fā)明的另一種方面鑒定了序列的混合物和表示重組的序列。在一種實施方案中,系統(tǒng)自動檢測出微陣列不同拼接區(qū)域上重疊或同源序列片段,推測序列的混合物。在另一種實施方案中,該系統(tǒng)確定了不同拼接區(qū)域序列結(jié)果不重疊而對應(yīng)于用于推斷遺傳重組的連續(xù)序列。選擇性地,該系統(tǒng)在不同序列間的不同遺傳重組間進(jìn)行鑒別。本發(fā)明的另一種方面提供了設(shè)計再測序DNA 微陣列“原型”區(qū)域(參見,美國臨時申請序列第60/590,931號)的方法。在這個情況中,一組相關(guān)靶點序列采用多重序列比對算法如 ClustalW 或 Clustal_X (Thompson etal., 1997 ;Thompson, Higgins&Gibson, 1994)或搜索部分保守區(qū)域如HMMer (Eddy,1998)序列數(shù)據(jù)庫的另一種方法進(jìn)行比對,用于生成由比對柱給定殘基位點的最常用核苷酸組成的一致序列。一致序列由一致堿基響應(yīng)和無響應(yīng)(Ns)的混合物組成,比對柱內(nèi)的每個殘基位點不一致。選擇性地,本發(fā)明的一種實施方案通過鑒定具有保守核苷酸和變異核苷酸平衡的那些區(qū)域來搜索候選區(qū),拼接到再測序DNA微陣列上,使靶點雜交到再測序微陣列拼接區(qū)域上,但還要考慮足夠的序列可變性。這使得靶點序列的序列類似性搜索鑒定,包括用于生成一致的比對算法成為可能。在可供選擇的實施方案中,核苷酸或氨基酸序列來自交替型序列發(fā)生器,包括(Shendure et al.,2004)中描述的那些,并且局部氨基酸序列可組成蛋白質(zhì)序列。該系統(tǒng)經(jīng)選擇的實施方案處理氨基酸或蛋白質(zhì)序列,序列中相關(guān)位點為保守型的。在其他經(jīng)選擇的實施方案中,核苷酸序列包括蛋白質(zhì)合成用編碼的核糖核酸(RNA)轉(zhuǎn)錄。在鑒定抗靶點核酸重組的混合物的類似方法中,RNA轉(zhuǎn)錄混合物能被雜交并因此在拼接微陣列上再測序生成原始數(shù)據(jù),根據(jù)與轉(zhuǎn)錄編輯和可供選擇的剪接重組進(jìn)行對比,該原始數(shù)據(jù)可采用本發(fā)明進(jìn)行分析來鑒定相對量的不同RNA轉(zhuǎn)錄(Leipzig,Pevzner&Heber,2004)。本發(fā)明的附加實施方案可適用于核苷酸、轉(zhuǎn)錄產(chǎn)物、氨基酸、或其任何混合物。此外,本發(fā)明也適用于在本領(lǐng)域中眾所周知的程度上使用不同類型的序列數(shù)據(jù)庫和類似性搜索算法。而且,本發(fā)明的實施方案適合于或適應(yīng)于大范圍的方法和/或裝置,這些方法和/ 或裝置生成序列數(shù)據(jù),包括但不限于人工或自動Sanger測序、常規(guī)微陣列、再測序微陣列、微電泳測序、雜交測序(SBH)、Ednian降解和其變型、擴(kuò)增分子上循環(huán)陣列測序、和非循環(huán)、單分子、實時方法如納米孔測序(Shendure et al.,2004)。上述目的強(qiáng)調(diào)了本發(fā)明的某一方面。后面的具體實時方式中描述了本發(fā)明的另外目標(biāo)、方面和實施方案。經(jīng)過下列
和具體實施方式
的描述,本發(fā)明的其他系統(tǒng)、方法、特征和優(yōu)勢將對本技術(shù)領(lǐng)域中的技術(shù)人員來說是顯而易見的。所有附加系統(tǒng)、方法、特征、和優(yōu)勢都包括在本發(fā)明中,在本發(fā)明界定的范圍內(nèi),并且受到所附權(quán)利要求的保護(hù)。
經(jīng)過參考下列附圖和下面詳細(xì)的描述,更容易獲得本發(fā)明更完整評價和許多優(yōu)勢,同時,可以更好的理解本發(fā)明。圖1是對版本I呼吸病原菌微陣列(RPMVl)的圖形化描述。針對每個病原菌的所有拼接區(qū)域的幾何分布由著色表示出(公正的)。Affymetrixspike-1n對照在微陣列的頂部(白色的)。分布在拼接區(qū)域間的黑色區(qū)域不包含探針。圖2顯示出根據(jù)實施例1中描述的,將純化的原型4腺病毒(登錄號AY594253)DNA 雜交至Ij RPMVl 上,隨后使用(A)簡并引物 PCR(Lin et al.,2004)或(B)GenomiPhi 靶點DNA的全部擴(kuò)增來分離和擴(kuò)增核酸。簡并引物PCR(A)導(dǎo)致保守引物位點覆蓋的拼接區(qū)域內(nèi)靶點的雜交。全部擴(kuò)增(B)導(dǎo)致整個Ad4拼接區(qū)域的靶點雜交。兩個方法均不產(chǎn)生顯著性的微陣列交互雜交。在每個方案中,REPI鑒定了所有擴(kuò)增子被雜交的Ad4拼接區(qū)域,除了在一種情況外(實施例1中進(jìn)行描述的),正確的腺病毒4(AY594253)株具有最高的BLAST("基本的局部比對搜索工具")的比值。圖3顯示根據(jù)實施例3中描述的,純化的腺病毒5地方株(Ad5FS,登錄號AY601635) (A,B)和原型腺病毒7 (登錄號AY594255) (C,D)DNA雜交RPMVl,隨后采用(A,C)簡并引物PCR(Lin et al.,2004)或如實施例3中描述的(B, D) GenomiPhi靶點DNA的全部擴(kuò)增來分離和擴(kuò)增核酸。簡并引物PCR(A,C)導(dǎo)致Ad5FS和原型Ad7內(nèi)保守引物位點覆蓋的拼接區(qū)域內(nèi)靶點的雜交。全部擴(kuò)增(B,D)導(dǎo)致整個Ad5和Ad7拼接區(qū)域的靶點雜交。兩個方法均不產(chǎn)生顯著性微陣列的交互雜交。在每個方案中,REPI鑒定了所有拼接區(qū)域正確的腺病毒5 (Ad5FS,登錄號AY601635)株或腺病毒7 (登錄號AY594255),擴(kuò)增子被雜交。對于腺病毒7,原型Ad7被安排在Ad7疫苗拼接區(qū),正確區(qū)別于源自拼接區(qū)的Ad7疫苗株(AY594256)。也值得提到的是所有腺病毒擴(kuò)增用的簡并引物溶液被小量的Ad4和Ad7原型污染(由實時PCR反應(yīng)產(chǎn)生的污染不認(rèn)為是陽性的)。污染物不引起容易辨別的雜交(如圖3中顯示的)但遺傳數(shù)據(jù)分析軟件(GDAS)生成堿基響應(yīng)(配有微陣列閱讀器形成Affymetrix, Santa Clara, CA)和再測序病原菌辨別器(REPI)分配所有非故意堿基響應(yīng)給正確的污染物。GenomiPhi溶液沒被污染,各自試驗中,在Ad5和Ad7拼接區(qū)外的腺病毒拼接區(qū)上無堿基響應(yīng)。圖4顯示出如實施例4中描述的腺病毒4、5突破菌株?;加邪l(fā)熱性呼吸道疾病(以前接種過抗腺病毒疫苗)患者咽喉拭子培養(yǎng)物中的等量純化核酸采用保守/簡并引物進(jìn)行擴(kuò)增,根據(jù)(Lin et al., 2004)的描述,另外依據(jù)Affymetrix CustomSeq標(biāo)準(zhǔn)策略實施?;颊呓?jīng)血清分型抗體中和診斷為Ad4陽性,并且經(jīng)六鄰體序列分析診斷為Ad5陽性。本發(fā)明者獲得多重靶點雜交,導(dǎo)致所有腺病毒5和腺病毒7原型拼接區(qū)上的堿基響應(yīng)。REPI分析揭示鑒別出了高置信度的腺病毒,例如Ad5 (Ad5FS,登錄號AY601635),而多重原型Ad7區(qū)域給出B亞群種類而非Ad7,即Ad21。再值得注意的是,如在圖3中顯示的情況,用于所有腺病毒擴(kuò)增的簡并引物溶液無意間被小量的Ad4和Ad7原型污染。該污染物不引起在Ad4拼接(如圖4中顯示的)中的易辨識的雜交,但由GDAS和REPI引起的堿基響應(yīng)被分配給正確的污染物(腺病毒4原型;登錄號AY594253),不給基本軍訓(xùn)地中傳播的地方株。此外,在Ad7拼接中獲得的最高比值不是原型Ad7(不管低水平污染物)而是腺病毒型21((Ad21 ;AY601633),Ad7原型(AY594255)代表B亞群腺病毒的另一種成員。采用Ad5常規(guī)DNA測序、Ad21擴(kuò)增子測序、和點樣微陣列結(jié)果證實了該樣本中的Ad5和Ad21的混合物的觀察(Lin et al.,2004)。然而,經(jīng)單個拼接區(qū)子序列中的高比值檢測出原型Ad7的低水平污染物并且對其進(jìn)行鑒別。因此,在該實施例中,意外受小量Ad4和原型Ad7 (在地方樣本中沒有發(fā)現(xiàn))污染,由Ad5和Ad21組成的意外混合的腺病毒樣本被完全鑒別出。沒有這類事件和探針設(shè)計成果,使用其他類型微陣列(如,點樣)不可能有這么詳盡的辨別。圖5顯示根據(jù)實施例5描述的方法鑒定流行感冒A株的結(jié)果。等量流行感冒A株發(fā)熱性患者鼻腔沖洗 物(經(jīng)標(biāo)準(zhǔn)病毒細(xì)胞培養(yǎng)技術(shù)證實),在2003-2004流行感冒季節(jié)采用(A)通用的(Hoffmann et al.,2001)或(B)多路(Offringa et al.,2000) RT/PCR 進(jìn)行免疫,并且按照標(biāo)準(zhǔn)Affymetrix CustomSeq策略進(jìn)行處理。因為兩個方案生成全部HA、NA、和M基因的擴(kuò)增子,微陣列上各自拼接區(qū)域在兩個方案中幾乎完全雜交。兩個方案的REPI輸出顯示出Fujian/411/2002流行感冒病毒株獲得了 HA3最高比值(ISDN38157_流行性感冒A/Fujian/411/2002_紅血球凝聚素_1042),該Fujian/411/2002流行感冒病毒株在2003-2004流行感冒季節(jié)沒有進(jìn)行疫苗包括。用于定義HA3拼接區(qū)的原型流行感冒A HA序列不在HA拼接堿基響應(yīng)的REPI輸出中。因此,流行感冒A預(yù)期株的原型區(qū)鑒定了未預(yù)期株。圖6顯示出依據(jù)實施例6中描述的減少雜交時間試驗的結(jié)果。在這個實施例中,鼻腔沖洗物被證實經(jīng)微陣列探試所有靶點為陰性,除了耐紅霉素標(biāo)記物SPYERMB、SPYERMTR、和SPYMEFAE每個都經(jīng)過特異性多重PCR反應(yīng)。然后,將擴(kuò)增子雜交到分離的微陣列上或者16個小時(A)或者15分鐘(B),另外依照Affymetrix CustomSeq策略進(jìn)行處理。相比較,15分鐘雜交微陣列(B)信號強(qiáng)度低于對照組16小時微陣列(A)的信號強(qiáng)度(注意對(B)中微陣列頂部的Affymetrix對照組探針進(jìn)行不完全雜交)。然而,三個拼接區(qū)的REPI輸出顯示了對于(A)和(B),每個區(qū)域的最高比值是相同的,盡管比值和預(yù)期值在較少雜交時間的情況下是較低的。30分鐘和I小時雜交也獲得類似結(jié)果,增加雜交時間得到的堿基響應(yīng)的數(shù)量提高了。然而,這個實施例清晰地說明了具有不同雜交模式的靶點之間進(jìn)行精密鑒另方法的穩(wěn)健性。圖7顯示了實施例7中描述的消減雜交方法的功效。(A)顯示了依照在LacklandAFB患有發(fā)熱性呼吸疾病患者的等量鼻腔沖洗物中分離核酸的總擴(kuò)增得到雜交模式。每微升104個遺傳拷貝的估計效價,樣本相對于Ad4為陽性的。高背景雜交穿微陣列抑制了 GDAS生成堿基響應(yīng)即使腺病毒4區(qū)顯示的可分辨信號高于全部背景信號。如針對GDAS生成的無堿基響應(yīng),(A)中獲得的同一組全部擴(kuò)增子與C0T-1部分人基因組DNA⑶共雜交得到小量提高。(C)顯示了在全部擴(kuò)增之前,單獨使用磁性玻璃珠消減不導(dǎo)致足夠量的堿基響應(yīng)進(jìn)行類似性搜索。然而,通過結(jié)合使用玻璃球基消減(鏈霉素涂覆玻璃珠結(jié)合生物素化COT-1人DNA)與液相C0T-1人DNA (D)共雜交的聯(lián)合使用,足夠堿基響應(yīng)可明確排列Ad4HEX0N拼接區(qū)內(nèi)辨別的三個序列的每個中的最高腺病毒4空軍本地株(登錄號AY599837)。此外,實施用2微升起始樣本材料代替I微升(E)的同一組組合步驟,堿基響應(yīng)除了 Ad4HEX0N-l外,深入到Ad4FIBER拼接區(qū),使得在Ad4HEX0N-l拼接和幾個Ad4FIBER子序列中排序的Ad4本地株有高的比值。 圖8顯示了流行感冒病毒A靶點的雜交(Fujian411/2002),摻入到正常鼻腔沖洗物中,其次采用無偏差擴(kuò)增RNA基因組靶點方案(Wang et al.,2003)的最近描述的修改(Kessler et al.,2004)進(jìn)行擴(kuò)增。圖8 (A-C)顯示了 ΙΟ5、103、和IO1個溶菌斑形成單位(Pfu)劑量摻料的各自雜交模式(參見實施例9)。這些結(jié)果說明甚至在使用無偏差擴(kuò)增方案時能獲得本方法的功效。這應(yīng)將全部方法延伸到未知RNA靶點的制備并且將特殊方案結(jié)合用于再測序微陣列的RNA和DNA病原菌靶點的通用擴(kuò)增。圖9顯示了本發(fā)明實施方案的流程圖,其中RNA和DNA路徑匯聚在一點。圖10(a)為說明工業(yè)中目前使用方法的示范流程圖。圖10(b)說明了工業(yè)實施中通常存在的可供選擇的方案。圖10(c)為與比對數(shù)據(jù)庫和服務(wù)器相互作用的一般系統(tǒng)設(shè)計的示意圖。圖10(d)顯示了分析微陣列證實不良雜交的序列輸出的實施例。圖11(a)為系統(tǒng)的一種實施例的示范示意圖。圖11(b)為再測序病原菌識別器(REPI)的一種實施例的示范示意圖。圖11(c)為ASP接觸面的示范屏幕拍攝。
圖12為描述ASP —般功能性的流程圖。圖13為對照組檢查步驟地示范流程圖。圖14(a)為提取子序列步驟的流程圖。圖14(b)為依照系統(tǒng)的一種實施方案的滑窗實施例。圖15為系統(tǒng)實施更詳細(xì)剔除功能的示范流程圖。圖16顯示了描述檢驗長度步驟中示范流程圖。圖17顯示了計算百分比步驟地示范流程圖。圖18(a)為描述分析步驟中系統(tǒng)更詳細(xì)活動的示范流程圖。
圖18(b)說明本發(fā)明的一種實施方案的不范輸出。圖19為描述系統(tǒng)的附加實施方案的示范流程圖。圖20為本發(fā)明的實施方案可被執(zhí)行的計算機(jī)系統(tǒng)(或服務(wù)器)的方框圖。圖21為辨別混合物和再重組的實施方案的示范流程圖。圖22為合并數(shù)據(jù)給用戶提供決策質(zhì)量信息的實施方案的程式化示范示意圖。圖23為說明設(shè)計最優(yōu)化再測序微陣列的方法的示范流程圖。圖24為說明設(shè)計或最優(yōu)化再測序微陣列的附加示范流程圖。圖25為系統(tǒng)樹圖的實施例。圖26為多重比對的示范性圖形表示。圖27為多重比對生成的一致序列的實施例。圖28為多重比對包括一致序列的另一種示范性圖形表示。圖29說明了修飾的一致序列的實施例。圖30為本發(fā)明的一種實施方案的示范性結(jié)果。圖31為依照本發(fā)明的實施方案模擬雜交結(jié)果的實施例。圖32說明了一致序列的另一種實施例。圖33為依據(jù)本發(fā)明的實施方案格式化再測序陣列數(shù)據(jù)的示范流程圖。附圖中的各部分不一定是成比例的,主要是為了清晰地說明本發(fā)明的原理。此外,在附圖中,同一數(shù)字指出了貫穿幾個圖形的對應(yīng)部分。
具體實施例方式除非特殊定義,這里使用的所有技術(shù)和科學(xué)術(shù)語具有酶學(xué)、生物化學(xué)、細(xì)胞生物學(xué)、生物信息學(xué)、和醫(yī)藥科學(xué)中的技術(shù)人員普遍理解的相同含義。類似于或等同于這里描述的方法和原料能在本發(fā)明的實施或測試中使用,只要采用這里描述的合適的方法和原料。在沖突的情況下,將以本說明書,包括定義部分為準(zhǔn)。此夕卜,原料、方法和實施例僅具有說明性,并不是限制性的,除非另外說明。眾所周知,DNA微陣列可用于分析用于診斷或監(jiān)視目的的病原菌中靶點核酸的序列。寡核苷酸探針序列篩選、長度、表面上的位置、結(jié)合的生理化學(xué)性、和標(biāo)記技術(shù)的影響是過去10年中大規(guī)模研究的主題。采用的方法幾乎專有涉及單寡核苷酸探針(13-70mers)的使用,該單寡核苷酸特定設(shè)計與具有高度特異性單個可識別病原菌靶點序列(13-25mers)雜交或與具有較低特異性的較長病原菌靶點(70mers)雜交。這些微陣列以點樣微陣列普遍周知,但相同內(nèi)容的點樣微陣列除了二維平面之外也能以其他形式具體化,一種實施例就是玻璃珠陣列(Ferguson, Steemers&Walt, 2000)。已經(jīng)有許多對使用Affymetrix再測序微陣列鑒別和表征病原菌的簡單描述。Kozal (Kozal et al., 1996)測量HIV中突變漂移并且采用再測序陣列,Gingeras(Gingeraset al., 1998 ;Gingeras et al., 2001)、和 Troesch (Troesch et al., 1999)鑒別了分枝桿菌種類并且單核苷酸多形性(SNPs)與耐抗生素有關(guān)。Wilson et al.(Wilson et al.,2002a)采用核糖體RNA,使用相同類型陣列鑒別細(xì)菌并且檢測多重生物戰(zhàn)藥劑(Wilson etal.,2002b)。使用再測序微陣列用于同時病原菌鑒別和監(jiān)視有超過單寡核苷酸方法的基礎(chǔ)優(yōu)勢,因為詳細(xì)靶點序列信息作為原始微陣列數(shù)據(jù)的部分直接可用。經(jīng)定義,具有IO2到IO4個寡核苷酸探針的點樣微陣列不能辨別細(xì)微序列變異,大于10-1000堿基對的全部靶點序列,即使采用拼接方案設(shè)計陣列。因此,點樣寡核苷酸微陣列需要采用常規(guī)DNA測序技術(shù)進(jìn)行鑒定,需要特殊的設(shè)備、操作人員、和幾天的時間,該點樣寡核苷酸微陣列方便了寬譜個體株或 SNP 水平(Cherkasova et al., 2003 ;ffang et al., 2002 ;ffang et al., 2003)病原菌的鑒別
因此,本發(fā)明通常關(guān)于采用DNA微陣列技術(shù)檢測和鑒別細(xì)菌、病毒和原生動物病原菌和毒性標(biāo)記物。本發(fā)明也關(guān)于設(shè)計、測試和分析具有定義區(qū)的再測序微陣列,該再測序微陣列可用于大量的特異性病原菌基因型和病原菌混合物分配數(shù)字檢測概率。此外,它關(guān)于需要處理上述微陣列的簡單和復(fù)雜(例如,臨床的和環(huán)境的)樣本的方法。更特別的,本發(fā)明關(guān)于使用高度多元再測序微陣列作為包括傳染性疾病藥劑診斷和病原菌檢測為目的的一類新設(shè)備。特殊的,它適合于DNA微陣列,該DNA微陣列采用來自靶點基因組序列的大量篩選的“原型”核酸序列區(qū)域(每個典型具有250-2000堿基對)來檢測和鑒別較大對數(shù)的無關(guān)和緊密相關(guān)的(菌種水平)微生物病原菌。更特別地,本發(fā)明關(guān)于設(shè)計制備微陣列采用“拼接”探針方法再測序靶點核酸。然而甚至更特別地,本發(fā)明關(guān)注采用拼接探針設(shè)計Affymetrix再測序微陣列,該拼接探針將能夠分析等于IO5到IO6個堿基對的靶點序列。在特殊的實施方案中,本發(fā)明提供了經(jīng)過檢測他們的核酸序列和使被檢測序列經(jīng)自動類似性搜索公共結(jié)構(gòu)域和專用數(shù)據(jù)庫來同時分析大量病原菌的方法。經(jīng)非明顯調(diào)節(jié)商業(yè)技術(shù)(Affymetrix CustomSeq )實施該目標(biāo)。設(shè)計采用該程序,CustomSeq ,經(jīng)再測序靶點DNA檢測單核苷酸多形性(SNPs)該所謂的SNP檢測要求:(I)堿基響應(yīng)誤差率遠(yuǎn)低于突變自然發(fā)生率(人類中約每IO8堿基對中有一個),(2)在采用特異性PCR引物進(jìn)行微陣列雜交之前,以每微升IO6基因組拷貝,擴(kuò)增純化起始原料,和(3)采用算法組合和處理復(fù)制樣本的多重芯片,該算法限制了那些具有一定程度置信度的堿基響應(yīng),低頻SNPs的存在能被推導(dǎo)出。本發(fā)明證實了在時間量程內(nèi)和樣本制備復(fù)雜性水平內(nèi),Affymetrix再測序技術(shù)能適合于插入到高度多樣性傳染性疾病診斷和病原菌檢測的完整系統(tǒng),使床旁診斷應(yīng)用成為可能。該系統(tǒng)實質(zhì)上不同于Affymetrix技術(shù)的具體用途,對于微陣列技術(shù)的典型技術(shù)人員不是顯而易見的。目前,鑒別病原菌的Affymetrix再測序技術(shù)應(yīng)用的相關(guān)文獻(xiàn)描述很少。從這個設(shè)計、試驗和分析觀點,采用再測序,本法明具有超過病原菌表征的現(xiàn)有技術(shù)。Kozal (Kozalet al., 1996)測量了 HIV 中的突變漂移,并且Gingeras (Gingeras et al., 1998 ;Gingeraset al.,2001)和Troesch (Troesch et al., 1999)采用再測序陣列,鑒別了分枝桿菌種類并且單核苷酸多形性(SNPs)與耐抗生素有關(guān)。在每個方案中,篩選最佳序列用于拼接,基于可能靶點序列的分析。設(shè)計特異性PCR引物擴(kuò)增雜交靶點。未知臨床分離鑒定采用以經(jīng)驗確定不同雜交模式的模式識別算法制成陣列。同樣地,該方法依賴于全長靶點序列的擴(kuò)增和雜交,不適合于:(1)危險的非特異性結(jié)合導(dǎo)致丟失堿基響應(yīng),⑵由于低同源性引起的低靶點濃度或孔隙穿過靶點長度的不完全雜交,和(3)臨床或環(huán)境樣本的未知靶點序列的無偏差(全部)擴(kuò)增誘導(dǎo)的降低了雜交完整性。本發(fā)明者優(yōu)選的方法不存在現(xiàn)有采用再測序微陣列技術(shù)中公開的相同限制。此夕卜,擁有至少一種用途的技術(shù)方法,即同時檢測大量的多樣病原菌種類,僅最近經(jīng)引入CustomSeq RPMVl芯片用Affymetrix微陣列(18x18微米)和高密度(8x8微米)呼吸微陣列版本2(RPMV2)而產(chǎn)生,分別將29.7kb和300kb拼接再測序。然而,本發(fā)明提供的最重要改進(jìn)為使用了具有序列長度無關(guān)類似性搜索的增加密度芯片(BLASTN),提供了在篩選拼接用序列之前產(chǎn)生的許多較小假定。此外,使用長度無關(guān)類似性搜索(BLASTN)去掉了特殊已知子序列完全被再測序的限制,使得該方法對靶點濃度的變化和非特異性結(jié)合導(dǎo)致丟失堿基響應(yīng)的影響具有抗性。因此,在本發(fā)明中,拼接用篩選的序列為“原型”,這是在單個基因或子序列可代表更廣類型的有機(jī)體種類和亞種類(可供選擇的類型、菌株、變異體或突變體)的意義上而言。根據(jù)單個病原菌和菌株的基因型中的較小改變,該方法是穩(wěn)健的,并且能在大量候補(bǔ)病原菌中進(jìn)行檢測和鑒別,該候補(bǔ)病原菌不能在試驗芯片設(shè)計中明確表示出。芯片設(shè)計也利用了部分過余拼接組(在設(shè)計過程中,受到廠商指導(dǎo)方針和廠商的阻止),單個病原菌株,和多重類似或多樣性病原菌類型間的基因內(nèi)和基因間變異。然而,本發(fā)明者已經(jīng)確定了冗余對提升結(jié)果置信度和最小化錯誤陽性結(jié)果和錯誤陰性結(jié)果的可能性是重要的。該設(shè)計/分析方法的優(yōu)勢將允許摻入基因組保守和超變區(qū),便于鑒別組、類型和菌株水平。 僅存在很少的一些文獻(xiàn)報道描述用于微生物病原菌微陣列分析的基因類擴(kuò)增策略。Wang et al.(Wang et al., 2002)描述了在70mer寡核苷酸陣列上雜交之前,進(jìn)行RNA病原菌靶點擴(kuò)增,隨即連續(xù)PCR反應(yīng)和Klenow片段擴(kuò)增的多重步驟方法。擴(kuò)增要求的時間和/或技術(shù)步驟數(shù)量不是指定的但同一組的后續(xù)論文報道約24個小時。也沒詳細(xì)說明擴(kuò)增步驟導(dǎo)致檢測效率提高。我們研究組(Vora et al.,2004)的最近報道描述了許多單獨使用和聯(lián)合使用非特異性核酸擴(kuò)增技術(shù)雜交到70mer寡核苷酸陣列上。沒有任何已知的現(xiàn)有技術(shù)報道過純化的或者在復(fù)雜混合物(例如,臨床樣本)中非特異性擴(kuò)增DNA靶點與再測序微陣列的雜交。本發(fā)明在幾個方面領(lǐng)先于經(jīng)微陣列進(jìn)行病原菌檢測的基因擴(kuò)增技術(shù):(I)為得到高密度短(25mer)Affymetrix再測序微陣列,詳細(xì)描述了經(jīng)純化或高度富集病原菌核酸的全部擴(kuò)增的特殊方法,既不是先前描述的也不顯而易見,因為該方法很大程度偏離了規(guī)定的Affymetrix方案,和(2)描述了新穎并可供選擇的使用酶處理、競爭性雜交、和磁性玻璃球基消減和富集步驟來減少背景和后續(xù)無偏差(如,全部)擴(kuò)增和微陣列雜交的方法。本發(fā)明體現(xiàn)了一組特殊的設(shè)計和處理方法,該方法利用再測序微陣列大規(guī)模鑒別和表征病原菌。特別地,本發(fā)明允許在單陣列中精確、靈敏、和高置信度鑒別大量(成千的)多樣性的病原菌。本發(fā)明的一種實施方案為多組寡核苷酸引物的再測序DNA微陣列,該寡核苷酸引物長度范圍在13到70個核苷酸之間(優(yōu)選25個核苷酸,盡管可能和在本發(fā)明界定范圍內(nèi)使用相對于陳述范圍內(nèi)每個整數(shù)值長度引物)固定在固相支撐物上,其中每組寡核苷酸引物被篩選擴(kuò)越參考序列的特殊區(qū),占據(jù)陣列的不連續(xù)區(qū)域(例如,拼接區(qū)),并且包括至少四組引物以平行方式安排在芯片上:1)第一組,與參考序列互補(bǔ),和2)三個附加組引物,除了中心位置的核苷酸,每個組都與第一組引物同源,而這三組的每一組中的中心位置的核苷酸也各不相同,以至于所有四個常規(guī)核苷酸堿基存在于上述陣列上。本發(fā)明進(jìn)一步提供了處理復(fù)雜臨床樣本(如,鼻腔沖洗液)的方法,要求最小限度核酸分離/擴(kuò)增步驟。本發(fā)明區(qū)別于絕對多數(shù)的微陣列基病原菌檢測方案,應(yīng)為它使用高密度“拼接”微陣列來確定病原菌遺傳靶點的實際序列。許多重要區(qū)域內(nèi)的其他再測序病原菌鑒別策略,包括結(jié)合:(1)高度多樣性的異型病原菌“原型”靶點區(qū)域,該靶點區(qū)域顯示出很少或無可辨別的交互雜交或彼此干擾,(2)緊密相關(guān)病原菌內(nèi)較高序列冗余允許較高置信度鑒別特異株(例如,腺病毒或流行感冒病毒),(3) 一類病原菌典型的較大拼接片斷的“原型”區(qū)域允許精確鑒別特異性病原菌株和使用特殊設(shè)計軟件來分析和排列序列片段提呈給類似性搜索(例如,BLAST)算法,辨別病原菌混合物和病原菌之間的重組,代替更限制性拼接篩選和在最緊密相關(guān)現(xiàn)有技術(shù)(美國專利6,228,575)中描述的微分算法,(4)最低限度的偏性核酸擴(kuò)增策略,在無顯著性干擾或交互雜交情況下,允許精確、高置信度病原菌靶點再測序,和(5)樣本處理方法學(xué),允許再測序陣列聯(lián)合復(fù)雜臨床樣本的最低限度偏性氨基酸擴(kuò)增策略而使用。這些方法的組合可以使一種合格的技術(shù)員在24小時內(nèi),優(yōu)選在4小時內(nèi),更優(yōu)選2小時,最優(yōu)選在30分鐘內(nèi)同時檢測和鑒別臨床樣本的高度多樣性病原菌。因此,由于該實施 方案,本發(fā)明支持:(a)樣本收集的幾個小時內(nèi),臨床傳染病的常規(guī)診斷,(b)同時查詢樣本少見感染性疾病跡象(例如,未預(yù)料的病原菌、耐抗生素模式或生物戰(zhàn)爭藥劑),(C)常規(guī)分子病原菌監(jiān)視,(d)疫苗質(zhì)量控制和(e)自然遺傳變異、藥物治療、故意操作、或其他情況引起的監(jiān)測病原菌的遺傳改變。高密度再測序微陣列經(jīng)DNA低聚物的光導(dǎo)組合合成制備高密度微陣列(HDMs) (Kozal et al.,1996)。在這些位點上合成的DNA低聚物通常具有20-30堿基長度。采用高分辨率半導(dǎo)體光刻膠對該方法進(jìn)行后續(xù)改進(jìn),Affymetrix證實了制備具有分辨率接近I μ m2特性的HDMs,使探針特征密度比mat在RPMVl證實的大10-100倍。到此為止,關(guān)于病原菌鑒別的HDM設(shè)計以“拼接”策略為基礎(chǔ)。因此,等長的四個探針被合成正義和反義方向的每個堿基,需要所有8個25-mer探針用作給定參考序列中的每個堿基對。每個方向上的一種探針確實互補(bǔ)參考序列而其他三個單個堿基在查詢堿基位上錯配。因此,拼接HDM能有效“再測序”靶點核酸。以這種方式,未知靶點的堿基響應(yīng)在四個可能堿基位中的每一個都可以被查出(每四個可能堿基對中的一個在拼接25mer探針內(nèi)的第13位處改變),直讀陣列相應(yīng)位點的革巴點序列。在CustomSeq陣列中,GCOS(Versionl.1)軟件被用于使原始圖像(.DAT)文件為指定每個相應(yīng)探針位密度的簡化文件格式(.CEL file)。最后,GDAS(Version2.0)軟件用于運(yùn)用嵌入式ABA⑶S (CutIer et al.,2001)算法來生成正確堿基響應(yīng)評價,比較正義和反義探針組的密度。GDAS的可用輸出文件類型之一為再測序陣列拼接區(qū)域生成的FASTA形式堿基響應(yīng)。在一系列采用培養(yǎng)的微生物,包括HIV (Kozal et al.,1996)的體外試驗中,上述的HDMs類型用于鑒別病原菌種類和檢測耐藥性-相關(guān)突變。Troesch等人(Troesch etal.,1999)設(shè)計HDMs在54之間分析不同于檢測分枝桿菌類和耐利福平的分枝桿菌肺結(jié)核。65,000個低聚物探針的拼接陣列用于精確再測序70個臨床隔離群的27株分枝桿菌類和15株耐利福平結(jié)核分枝桿菌株。最近,特異性序列鑒別F.tularensis和Y.pestis采用拼接HDMs (Wilson et al.,2002b)在環(huán)境樣本中得到證實。這些通常方法依賴于特異性雜交模式,以野外實測(對照組)測量方法為基礎(chǔ)。此外,作者沒有提供了指導(dǎo)定量比較怎樣針對緊密相關(guān)或未預(yù)料有機(jī)物的起始濃度,該起始濃度可改變六個數(shù)量級。陣列類型本發(fā)明采用Affymetrix CustomSeq再測序微陣列形成。為了討論再測序微陣列,技術(shù)人員可見U.S.6,228,575。然而,本發(fā)明不在概念上被限制于采用特殊制備方案生成微陣列。原則上,再測序能以任何技術(shù)描述的規(guī)模實施,該技術(shù)能產(chǎn)生相當(dāng)大密度的微陣列。理論上,能采用寡核苷酸打印技術(shù)完成,但采用光學(xué)光刻法更可能完成。然而,Affymetrix再測序芯片以采用分離的光刻掩模后續(xù)步驟為基礎(chǔ),該光刻掩模對應(yīng)于每一步驟,可供選擇的方法可采用無掩模光刻技術(shù)(Albert et al.,2003 ;Nuwaysir et al., 2002)或通過納米光刻法(Ginger, Zhang&Mirkin, 2004)。更普遍地,任何生成以確定可用祀點序列為目的的多數(shù)寡核苷酸探針。甚至玻璃珠“陣列”不是2維形式(Ferguson et al.,2000)。探針可由DNA變異體組成,即RNA或低聚物肽-核酸(PNA)。探針能制成對酶消化具有敏感性,然后接受后續(xù)處理。在優(yōu)選實施方案中,探針將加入dUTP代替dTTP,使它們對尿嘧啶-DNA-糖基化酶具有靈敏性。這將使它們用于選擇性降解隨后捕獲靶點。此外,在本發(fā)明界定的范圍 內(nèi),也可能固定RNA并獲得其互補(bǔ)序列識別。固定RNA將需要RNA的化學(xué)穩(wěn)定性。在更普遍意義上,探針能由化學(xué)修飾核酸制成,該化學(xué)修飾核酸使它們或多或少易受到后續(xù)化學(xué)處理步驟的影響。陣列設(shè)計采用RPMVl微陣列,本發(fā)明舉例說明拼接原型序列能在沒有假定特異性病原菌鑒別需要特異性雜交模式的情況下鑒別更多種類的特異性病原菌株。在目前的設(shè)備中,拼接區(qū)域的原型,尤其腺病毒4、5和7,分別憑經(jīng)驗被選擇代表腺病毒子群E、C、和B。該設(shè)計的更優(yōu)選和更系統(tǒng)的方法包括使用多重序列分析來生成一致序列,一致序列定義為分析位上那些表示最常用堿基。在優(yōu)選實施方案中,分析算法將產(chǎn)生單個病原菌株中靶點基因序列或病原菌家族群的等級系統(tǒng)發(fā)生樹。采用適當(dāng)?shù)乃惴ǎ恢滦蛄袑⑹紫刃纬擅總€樹結(jié)點成員或樹結(jié)點群成員,距離測量落在閾值范圍之內(nèi)(Lee,2003)。實際靶點序列將與一致序列單獨比對,并且由一致序列定義雜交到拼接微陣列區(qū)域上的功效將被模擬。已知功效如堿基插入或缺失,以及寡核苷酸探針區(qū)域內(nèi)多重堿基取代的功效將確定為模擬雜交的規(guī)則。生成雜交的后續(xù)分析和堿基響應(yīng)模式將說明所提拼接適于作為給定范圍病原菌的原型。這個過程將重復(fù)直到最合適組的原型區(qū)域被確定覆蓋給定組病原菌。在一種優(yōu)選實施方案中,該過程將用于最大化芯片的空間利用率,導(dǎo)致最大減少再測序微陣列的實際尺寸,并且因此,最大減少每個微陣列上的產(chǎn)品費(fèi)用。在一種優(yōu)選實施方案中,再測序陣列將被設(shè)計聯(lián)合另一種簡單固相捕捉器(陣列、凝膠、或其他的),該固相捕捉器將最初用于排列再測序陣列。例如,由多樣性較長寡核苷酸探針組成的陣列將最初用于通過識別病原菌家族內(nèi)的保守序列來檢測病原菌。再測序陣列能用于查詢與初始陣列上保守探針相關(guān)的可變區(qū),提供了病源體上詳細(xì)的序列信息。在非常優(yōu)選實施方案中,樣本制備普遍用于固相捕捉器和再測序微陣列。然而在另一種非常優(yōu)選實施方案中,初始陣列將用于捕捉靶點,該靶點將被隔離并采用無偏擴(kuò)增技術(shù)進(jìn)行擴(kuò)增提給再測序陣列。該用途的總體設(shè)計基本原理本發(fā)明利用從不同公共和/或私有資源的病原菌基因組信息來設(shè)計、制備、評估、驗證和一體化先進(jìn)診斷平臺作為有效生物防御監(jiān)視部分和操作醫(yī)學(xué)系統(tǒng)。流行病爆發(fā)監(jiān)控(EOS)程序生物防御模型是完整的,該系統(tǒng)經(jīng)采用廣泛分布設(shè)備將被最有效激活,這些設(shè)備將發(fā)現(xiàn)傳染性疾病的常規(guī)診斷學(xué)中的效用,尤其在傳染性呼吸疾病診斷中的效用(參見國防科學(xué)會2006夏季研究報告及健康科學(xué)生物防御系統(tǒng)(HSBS)簡報)。該設(shè)備(例如,微陣列)將提供可供選擇的有成本效益的常規(guī)方法診斷、處理和監(jiān)視傳染性疾病,最顯著的呼吸傳染病是具有重要性的。采用設(shè)計和分析信息學(xué)支持設(shè)備并且確保來自那個設(shè)備的判定質(zhì)量信息可遺傳的并且可被許多就診單位、公共衛(wèi)生官員、和決策者解釋。因此,也是本發(fā)明的重要目的,設(shè)備為由局部床旁診斷設(shè)備組成的完整系統(tǒng)的重要組成,該局部床旁診斷設(shè)備在就診單位、公共衛(wèi)生官員、和決策者之間提供了自動、雙向數(shù)據(jù)共享(這或許交叉對照陣列中商業(yè)模型專利)。這里描述的本發(fā)明可至少兩個途徑實施其作用:(I)經(jīng)減少陣列尺寸(例如,較低費(fèi)用),自動化處理,和利用處理再測序陣列便攜式硬件,本發(fā)明可為床旁設(shè)備的目標(biāo),和⑵如果存在低成本或易自動化微陣列,再測序陣列可成為診斷/監(jiān)視流水線中較高梯隊組成。在后面的方案中,低成本可供選擇設(shè)備將提供初始樣本處理、病原菌靶點富集、擴(kuò)增、床旁判定信息,而必要時,再測序通過促進(jìn)更詳細(xì)查詢樣本提供了順次測定性能。再測序微陣列芯片設(shè)計的一般策略依據(jù)本發(fā)明,設(shè)計再測序微陣列芯片的過程通過篩選病原菌基因組序列被執(zhí)行,該病原菌基因組序列具有使它們對于少量(理論數(shù)量)病原菌是唯一的序列性質(zhì),或者是高度保守的,使它們檢測許多類型的微生物種類家族或?qū)偌?,或適度保守并篩選為“原型”區(qū)域。原型區(qū)域?qū)⒕哂锌缬蛞唤M微生物種類的中級序列同源性并且考慮有效雜交和獨一無二鑒別大部分或所有亞類型病原菌。設(shè)計再測序拼接的策略包括通過分析類似序列和應(yīng)用一致探針序列拼接到芯片上產(chǎn)生巨大影響。一致序列可能不與任何篩選的病原菌同源,但將與許多類似病原菌基因組作用。真實病原菌基因組序列與一致的序列完美匹配和不完美匹配的模式將提供診斷的個體識別力。本發(fā)明的特別實施方案為設(shè)計再測序微陣列芯片的一般方案,該再測序微陣列芯片可在樣本(例如,部分純化的樣本,純化的樣本,富集的樣本、生物樣本,等等)中鑒別和標(biāo)明病原菌。該設(shè)計和驗證方案的多方面在隨后的第6 “階段”中進(jìn)行了具體化。階段1:病原菌鑒別: a.病原菌列表(例如:腺病毒;流行性感冒;化膿性鏈球菌)_由病原菌專家或公開領(lǐng)域提供b.屬/種類(新病原菌例如.冠狀病毒嚴(yán)重急性呼吸綜合癥變異)c.種類/亞種(流行病學(xué)追蹤;取證)d.病原菌獨一無二片斷(交互雜交結(jié)果)e.遺傳漂移/漂變問題(例如.流行性感冒、HIV)f.耐藥性標(biāo)記物g.致病相關(guān)基因或毒性標(biāo)記(有利于診斷和預(yù)后目的)h.基因工程特征標(biāo)記1.質(zhì)粒 DNA 序列 (Bluescript, PUC etc.)1.多克隆位點i1.耐藥標(biāo)記物(氨比西林,卡那霉素,盤尼西林等)(或可列為:Amp,Kan, PBP,等)ii1.毒素(肉毒毒素;蓖麻毒素等)階段2:關(guān)于樣本來源的病原菌鑒別:a.常見呼吸病原菌(和近緣病原菌)b.生物威脅藥劑:(經(jīng)疾病控制中心鑒別)c.背景或寄生物考慮:1.臨床樣本(鼻腔沖洗液、拭子、糞便標(biāo)本,等)i1.載體(例如.蚊子)ii1.環(huán)境(水、食物、土壤)階段3:基因鑒別(病原菌設(shè)計相關(guān)的最復(fù)雜問題)a.序列同源性(相對于病原菌鑒別)a.新穎的或未預(yù)期的高度保守鑒別(屬/種鑒別)1.鑒別新穎的/未預(yù)期的有機(jī)物I.嵌合體(細(xì)菌基因交換)2.遺傳漂移/漂變(例如.流行性感冒)3.人工的i1.辨別復(fù)雜病原菌家族1.鼻病毒(許多完全不同變異體)b.較少保守超變量(種類/亞種)c.病原菌獨一無二序列片斷(交互雜交)1.全部擴(kuò)增方法的潛在重要的b.功能序列(相對于致病性和患者管理)a.共生細(xì)菌中耐藥基因b.致病性相關(guān)基因1.毒素基因i1.傳播(傳染性)相關(guān)基因ii1.致病島iv.毒力因素
c.其他宿主-病原菌作用基因1.免疫反應(yīng)i1.腫瘤形成ii1.DNA 修復(fù)階段4:基因篩選(什么序列應(yīng)置于芯片上)a.鑒別基因登錄號a.完整基因b.側(cè)翼序列病原菌基因組(對照組)c.最近/流行可用變異體1.快速培育病原菌尤其重要(流行性感冒)b.BLAST搜索:(納入/排除標(biāo)準(zhǔn))a.人序列同源性(排除標(biāo)準(zhǔn))b.相關(guān)病原菌序列1.可能的排除/注釋標(biāo)準(zhǔn)i1.如果同源性> 90%,序列僅需要發(fā)表一次1.使用一致序列鑒別和注釋ii1.鑒別病原菌特異性基因/序列c.實用問題a.細(xì)菌中水平基因轉(zhuǎn)移問題b.病原菌中基因拷貝數(shù)量c.人序列的同源序列(交互雜交)d.較少致病菌的序列同源性(例如.桿狀菌;天花[痘])階段5 =RPM芯片優(yōu)先處理a.確定芯片“有效面積”(全部表達(dá)序列)a.靶點基因拼接尺寸1.拼接相關(guān)登錄號ii 一致序列相關(guān)登錄號b.參考優(yōu)先順序標(biāo)準(zhǔn)的主要目標(biāo)。主要問題包括:a.病原菌流行取決于靶點人群、地理位置、季節(jié)、和其他疾病傳播因素
b.臨床、操作、和公共衛(wèi)生相關(guān)性c.芯片功能性問題:1.混合病原菌i1.數(shù)據(jù)注釋和提交給終端用戶階段6.微陣列驗證:a.設(shè)計對照組a.套式引物組:1.外引子組:形成對照組i1.內(nèi)引子組:測試陽性對照組ii1.對照組和RPM序列應(yīng)為100%的序列匹配
b.形成對照組克隆c.用于匹配性驗證的對照組克隆序列b.形成病原菌芯片注釋圖解:a.較差雜交位點1.較差信號i1.錯誤信號b.交互雜交位點1.人交互雜交i1.其他病原菌(尤其生物恐怖行動藥劑和毒素)c.序列特異性水平1.鑒別亞種/變異體的標(biāo)記物1.形成取證數(shù)據(jù)庫基礎(chǔ)i1.僅鑒別屬和 種的標(biāo)記物ii1.鑒別發(fā)現(xiàn)的新變異標(biāo)記物c.芯片驗證試驗框架:a.檢測交互雜交區(qū)域的人雜交b.質(zhì)粒驗證計劃:1.滴定質(zhì)粒試驗PCR靈敏性i1.滴定法測量RPM檢測靈敏度ii1.改變濃度評估堿基響應(yīng)精確性1.注釋任何錯誤c.培養(yǎng)驗證技術(shù)1.滴定病毒1.核酸分離效率2.芯片雜交靈敏性/特異性a.總擴(kuò)增靈敏性/特異性b.PCR 比對3.滴定培養(yǎng)物的芯片雜交靈敏性4.培養(yǎng)菌序列的驗證d.將病原菌摻入到復(fù)雜介質(zhì)中1.將病毒滴到溶液中i1.雜交到芯片上(背景干擾)ii1.如果與培養(yǎng)病原菌比較不同驗證病毒序列e.評估復(fù)合矩陣中靶點濃度1.鼻腔沖洗液i1.棉拭子1.鼻腔拭子2.咽喉拭子ii1.溶液中病毒的穩(wěn)定性
1.鼻腔沖洗液2.拭子iv.病毒溶液的冷凍/解凍影響V.靶點病原菌的序列驗證下表(表I)代表一組優(yōu)選(但非限制性)的病原菌(病毒和細(xì)菌),該病原菌可按照監(jiān)測和診斷普通呼吸病原菌的設(shè)計在本發(fā)明的背景下使用:表I微陣列病原菌
權(quán)利要求
1.腺病毒株的基因組序列,選自由Ad3、Ad3FS_navy、Ad4、Ad4vaccine、Ad4FS_navy>Ad4FS_AF、Ad5FS、Ad7、Ad7FS_navy、Ad7vaccine、Adl6、Ad1、和 Ad21 和其片段組成的組。
2.計算機(jī)實施的方法,該方法用于篩選輸入查詢的生物子序列來鑒別預(yù)先確定的生物水平序列,包括步驟:用處理器實施方法篩選來自存儲器中存儲的生物序列數(shù)據(jù)中的子序列;和提交子序列進(jìn)行查詢來鑒別具有最初預(yù)先確定置信水平的預(yù)先確定的生物序列,其中最初預(yù)先確定置信水平在篩選閾值之上。
3.根據(jù)權(quán)利要求2所述的計算機(jī)實施的方法,進(jìn)一步包括:以FASTA、MSF、GCG、Clustal、BLC、PIR、MSP、PFAM、POSTAL和JNET格式中的一種格式存儲生物序列數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的計算機(jī)實施的方法,進(jìn)一步包括:確定生物序列數(shù)據(jù)是否符合生物序列或?qū)φ战M序列中的一種。
5.根據(jù)權(quán)利要求2所述的計算機(jī)實施的方法,其中篩選步驟包括:篩選對應(yīng)于生物序列數(shù)據(jù)中堿基響應(yīng)數(shù)量的窗口尺寸參數(shù);并計算出生物序列數(shù)據(jù)的觀察窗口內(nèi)有效堿基響應(yīng)的百分率。對應(yīng)于篩選步驟中篩選出的窗口尺寸參數(shù)的窗口尺寸。
6.根據(jù)權(quán)利要求4所述的計算機(jī)實施的方法,其中篩選步驟包括:當(dāng)計算步驟中計算的百分率不滿足預(yù)先確定的閾值時,滑動觀察窗口到生物序列內(nèi)的另一種數(shù)量的堿基響應(yīng);并且計算生物序列中含在另一種數(shù)量的堿基響應(yīng)內(nèi)的有效堿基響應(yīng)的百分率。
7.根據(jù)權(quán)利要求4所述的計算機(jī)實施的方法,其中篩選步驟包括:當(dāng)計算的百分率滿足預(yù)先確定的閾值時,按照提交給查詢的子序列,在觀察窗口內(nèi)篩選堿基響應(yīng)的子序列。
8.根據(jù)權(quán)利要求7所述的計算機(jī)實施的方法,進(jìn)一步包括在被篩選子序列在提交步驟中被提交之前,從堿基響應(yīng)的被篩選子序列中剔除無效堿基響應(yīng)。
9.根據(jù)權(quán)利要求2所述的計算機(jī)實施的方法,進(jìn)一步包括將子序列與大量的預(yù)先確定的序列比對;并且生成對應(yīng)于至少一種上述預(yù)先確定序列的比對結(jié)果。
10.根據(jù)權(quán)利要求9所述的計算機(jī)實施的方法,其中比對步驟的比對結(jié)果包括表明子序列和至少一種上述預(yù)先確定序列之間預(yù)先確定水平的一致的統(tǒng)計值。
11.根據(jù)權(quán)利要求2所述的計算機(jī)實施的方法,進(jìn)一步包括將信號強(qiáng)度與生物序列數(shù)據(jù)結(jié)合在一起;并評估至少一種靶點序列的濃度。
12.根據(jù)權(quán)利要求11所述的計算機(jī)實施的方法,進(jìn)一步包括:依據(jù)至少一個篩選參數(shù),探測來自生物序列數(shù)據(jù)的至少兩個子序列;并且探測混合物和重組事件的至少一種。
13.根據(jù)權(quán)利要求12所述的計算機(jī)實施的方法,其中至少兩個序列對應(yīng)于微陣列的不同區(qū)域。
14.根據(jù)權(quán)利要求11所述的計算機(jī)實施的方法,進(jìn)一步包括:在類似性序列的混合物和不同序列之間的重組之間進(jìn)行辨別;其中類似性序列具有預(yù)先確定水平的相似性。
15.根據(jù)權(quán)利要求11所述的計算機(jī)實施的方法,進(jìn)一步包括: 在混合物和重組之間進(jìn)行辨別,包括 評估微陣列第一區(qū)域的第一信號和微陣列第二區(qū)域的第二信號,并且 將第一信號與第二信號比對生成至少一種特征參數(shù),至少一種特征參數(shù)對應(yīng)于一種概率,第一信號和第二信號表明混合物和重組中的一種。
16.根據(jù)權(quán)利要求2所述的計算機(jī)實施的方法,進(jìn)一步包括: 鑒別至少一種一致序列對應(yīng)于大量測試序列;篩選出至少一種一致序列中的子序列; 將至少一種子序列與至少一種預(yù)先確定的序列比對; 生成比對結(jié)果;計算比對結(jié)果與大量測試序列之間的差異; 并且生成至少一種候選一致序列。
17.根據(jù)權(quán)利要求16所述的計算機(jī)實施的方法,進(jìn)一步包括: 依據(jù)至少一種候選一致序列制備微陣列探針。
18.根據(jù)權(quán)利要求16所述的計算機(jī)實施的方法,進(jìn)一步包括: 依據(jù)拼接參數(shù),修飾至少一種一致序列,拼接參數(shù)對應(yīng)于至少大量測試序列中的至少一種測試序列的至少一種部分。
19.根據(jù)權(quán)利要求16所述的計算機(jī)實施的方法,進(jìn)一步包括: 依據(jù)至少一種雜交參數(shù),模擬至少一種候選一致序列和大量測試序列之間的雜交。
20.根據(jù)權(quán)利要求16所述的計算機(jī)實施的方法,其中生物序列數(shù)據(jù)包括至少核酸、轉(zhuǎn)錄單體、轉(zhuǎn)錄產(chǎn)物、DNAJP RNA中的一種。
21.根據(jù)權(quán)利要求2所述的計算機(jī)實施的方法,其中生物序列數(shù)據(jù)包括空位和不確定子序列中的至少一種。
22.根據(jù)權(quán)利要求 2所述的計算機(jī)實施的方法,進(jìn)一步包括:計算生物序列數(shù)據(jù)的相對位置,其中生物序列數(shù)據(jù)包括氨基酸和蛋白質(zhì)中的至少一種。
23.根據(jù)權(quán)利要求2所述的計算機(jī)實施的方法,進(jìn)一步包括: 通過人工Sanger測序、自動Sanger測序、鳥槍法測序、常規(guī)微陣列、再測序微陣列、微電泳測序、雜交測序(SBH)、Ednian降解、擴(kuò)增分子上循環(huán)陣列測序、單分子上循環(huán)陣列測序和納米孔測序中的至少一種獲得生物序列數(shù)據(jù)。
24.根據(jù)權(quán)利要求2所述的計算機(jī)實施的方法,其中生物序列數(shù)據(jù)為核苷酸序列和蛋白質(zhì)序列中的至少一種。
25.計算機(jī)可讀存儲媒體,為計算機(jī)上執(zhí)行的存儲計算機(jī)可讀指令的配置,計算機(jī)可讀指令,當(dāng)由計算機(jī)執(zhí)行時,設(shè)置執(zhí)行鑒別預(yù)先確定生物序列的方法,該方法包括:采用處理器實施方法從存儲在存儲器中的生物數(shù)據(jù)中篩選出子序列;并且提交查詢中的子序列來鑒別具有最初預(yù)先確定置信水平的生物序列,其中最初置信水平在篩選閾值之上。
26.一種設(shè)備,通過輸入查詢鑒別預(yù)先確定生物序列篩選生物子序列,該設(shè)備包括: 從存儲在存儲器中的生物序列數(shù)據(jù)中篩選子序列的裝置;提交查詢中的子序列鑒別具有最初預(yù)先確定置信水平的生物序列,其中最初置信水平在篩選閾值之上。
27.一種計算機(jī)實施方法,通過輸入查詢鑒別預(yù)先確定生物序列,產(chǎn)生生物序列數(shù)據(jù),該方法包括的步驟為:采用處理器實施方法,鑒別存儲在存儲器中的生物序列數(shù)據(jù)的大量局部序列;用大量參考序列比對探測步驟中被探測到的每個局部序列;將局部序列組合為混合組的序列數(shù)據(jù),這些序列數(shù)據(jù)是以比對步驟結(jié)果為基礎(chǔ);篩選混合組序列數(shù)據(jù)的被提交查詢的子序列來鑒別預(yù)先確定置信水平內(nèi)的預(yù)先確定生物序列。
28.根據(jù)權(quán)利要求27所述的計算機(jī)實施方法,其中探測步驟包括:掃描生物序列數(shù)據(jù)探測出位于連續(xù)系列無喊基響應(yīng)內(nèi)的一系列喊基響應(yīng);并提取該序列喊基響應(yīng)作為大量局部序列中的堿基響應(yīng)。
29.根據(jù)權(quán)利要求27所述的計算機(jī)實施方法,其中探測步驟包括:在探測到有效堿響應(yīng)位置開始查詢窗口 ;延伸查詢窗口尺寸來擴(kuò)大連續(xù)序列的無堿基響應(yīng);并提取窗口系列的喊基響應(yīng)作為大量局部序列中的一種喊基響應(yīng)。
30.根據(jù)權(quán)利要求27所述的計算機(jī)實施方法,其中局部序列包括大量有效和無效堿基響應(yīng)。
31.根據(jù)權(quán)利要求27所述的計算機(jī)實施方法,其中比對步驟包括:在大量局部序列中每一種局部序列和大量參考序列中的至少一種參考序列之間確定統(tǒng)計水平的相似性,其中統(tǒng)計水平的相似性表明在大量局部序列中每一種局部序列和大量參考序列中的至少一種參考序列之間的一致水平。
32.根據(jù)權(quán)利要求31所述的計算機(jī)實施方法,其中組合步驟包括:提取大量局部序列中的每一種局部序列,這一種局部序列被確定出與預(yù)先確定閾值上的大量參考序列中的至少一種參考序列具有統(tǒng)計水平的相似性;線性組合大量被提取序列中的一種來生成混合組的序列數(shù)據(jù)。
33.根據(jù)權(quán)利要求27所述的計算機(jī)實施方法,其中篩選步驟進(jìn)一步包括:篩選出對應(yīng)于混合組序列數(shù)據(jù)中堿基響應(yīng)的窗口尺寸參數(shù);計算包含在觀察窗口的混合組序列數(shù)據(jù)內(nèi)的有效堿基響應(yīng)的百分率,窗口尺寸對應(yīng)于在篩選步驟中篩選出的窗口尺寸參數(shù)。
34.根據(jù)權(quán)利要求33所述的計算機(jī)實施方法,其中篩選步驟進(jìn)一步包括:當(dāng)計算步驟中計算的百分率不滿足預(yù)先確定的閾值時,滑動觀察窗口到混合組序列數(shù)據(jù)內(nèi)的另一種數(shù)量的堿基響應(yīng);并且計算混合組序列數(shù)據(jù)中含在另一種數(shù)量的堿基響應(yīng)內(nèi)的有效堿基響應(yīng)的百分率。
35.根據(jù)權(quán)利要求33所述的計算機(jī)實施方法,其中篩選步驟進(jìn)一步包括:當(dāng)計算百分率滿足預(yù)先確定的閾值時,子序列被提交查詢中時,在觀察窗口內(nèi)篩選子序列的堿基響應(yīng)。
36.根據(jù)權(quán)利要求35所述的計算機(jī)實施方法,進(jìn)一步包括的步驟為:在篩選子序列被提交查詢中之前,從被篩選子序列中剔除無效堿基響應(yīng)。
37.根據(jù)權(quán)利要求27所述的計算機(jī)實施方法,進(jìn)一步包括:用大量預(yù)先確定序列比對子序列;并且生成對應(yīng)于上述預(yù)先確定序列中至少一種序列的比對結(jié)果。
38.根據(jù)權(quán)利要求37所述的計算機(jī)實施方法,其中比對步驟中的比對結(jié)果包括表示子序列和上述預(yù)先確定序列中至少一種序列之間的預(yù)先確定水平的一致性的統(tǒng)計值。
39.計算機(jī)可讀存儲媒體,為在計算機(jī)上執(zhí)行的存儲計算機(jī)可讀指令而配置,計算機(jī)可讀指令,當(dāng)由計算機(jī)執(zhí)行時,被設(shè)置執(zhí)行輸入查詢生成的生物序列來鑒別預(yù)先確定生物序列的方法,該方法包括: 采用處理器實施方法,鑒別存儲在存儲器中的生物序列數(shù)據(jù)的大量局部序列; 用大量參考序列比對探測步驟中被探測到的每個局部序列; 以比對步驟結(jié)果為基礎(chǔ),將局部序列組合為混合組的序列數(shù)據(jù); 篩選被提交查詢的混合組序列數(shù)據(jù)的子序列來鑒別預(yù)先確定置信水平內(nèi)的預(yù)先確定生物序列。
40.一種設(shè)備,通過輸入查詢生成的生物序列數(shù)據(jù)鑒別預(yù)先確定生物序列,該設(shè)備包括: 采用處理器實施方法,探測存儲在存儲器中的生物序列數(shù)據(jù)中的大部分局部序列的裝置;比對由用大量參考序列進(jìn)行探測的設(shè)備探測到的每個局部序列的設(shè)備; 基于比對設(shè)備得到的結(jié)果,混合局部序列為混合組序列數(shù)據(jù)的設(shè)備; 篩選混合組被提交查詢的序列數(shù)據(jù)的子序列來鑒別預(yù)先確定置信水平內(nèi)的預(yù)先確定生物序列的 設(shè)備。
全文摘要
本發(fā)明是關(guān)于通過采用DNA再測序微陣列進(jìn)行病原菌探測和鑒別的方法。本發(fā)明也提供了再測序微陣列芯片,用于生物樣本中存在的病原菌的區(qū)分診斷和血清類型分類。本發(fā)明進(jìn)一步提供了探測生物樣本中存在病原菌和鑒別病原菌的方法。本發(fā)明也提供了計算機(jī)實施生物序列辨識器(CIBSI)系統(tǒng)和依據(jù)至少一種篩選參數(shù)從生物序列數(shù)據(jù)中篩選子序列的方法。至少一種篩選參數(shù)對應(yīng)從類似的篩選中獲得有意義結(jié)果的一種可能性。
文檔編號C12N15/34GK103224942SQ201310112018
公開日2013年7月31日 申請日期2005年7月5日 優(yōu)先權(quán)日2004年7月2日
發(fā)明者布賴恩·艾格, 埃里克·H·漢森, 拉塞爾·P·克魯澤洛克, 林寶釧, 羅伯·羅利, 司徒登, 大衛(wèi)·斯坦杰, 詹尼弗·約翰遜, 克拉克·蒂貝特斯, 德宗·撒奇, 加里·沃拉, 伊麗莎白·沃特, 王征 申請人:海軍秘書處代表的美國政府