專利名稱:診斷性基因表達平臺的制作方法
診斷性基因表達平臺本發(fā)明涉及用于評估細胞內(nèi)基因轉(zhuǎn)錄產(chǎn)物水平的寡核苷酸探針,所述探針可以用于分析技術(shù),特別是診斷技術(shù)中。探針可以方便地以試劑盒的形式提供。不同的探針組可以用于制備基因表達譜的技術(shù)中,以及鑒定、診斷或監(jiān)測乳腺癌或其發(fā)展階段的技術(shù)中。鑒別用于例如診斷應(yīng)用的快速簡便樣品分析方法仍然是許多研究人員的目標。終端使用者希望尋求成本效益高、能夠產(chǎn)生有統(tǒng)計學(xué)意義的結(jié)果并且不需要高技術(shù)人員即可常規(guī)應(yīng)用的方法。對細胞內(nèi)基因表達的分析已被用于提供關(guān)于這些細胞的狀態(tài),更重要的是細胞所來源的個體的狀態(tài)的信息。細胞中各種基因的相對表達經(jīng)鑒定可以反映體內(nèi)的特定狀態(tài)。例如,已知癌癥細胞表現(xiàn)出各種蛋白表達的變化,因此有可能把轉(zhuǎn)錄產(chǎn)物或者所表達的蛋白作為該種疾病狀態(tài)的標記物。
因此可以分析活體組織中是否存在這些標記物,并且通過標記物的存在可以在其他組織或體液中鑒定來源于疾病部位的細胞。此外,表達發(fā)生變化的產(chǎn)物可能釋放到血流中,可以對這些產(chǎn)物進行分析。而且與疾病細胞接觸過的細胞可能受到它們與這些細胞的直接接觸的影響,導(dǎo)致基因表達發(fā)生變化,可以對它們的表達或者表達產(chǎn)物進行類似地分析。但是這些方法有一些局限性。例如使用特異腫瘤標記物來鑒定癌癥存在各種缺陷,比如缺乏特異性或靈敏度;除特定癌癥類型外,標記物與疾病狀態(tài)的相關(guān)性;和無臨床癥狀個體中檢測的困難性。除了分析一或兩個標記物轉(zhuǎn)錄產(chǎn)物或者蛋白,近來還展開了對基因表達譜的分析。多數(shù)包含大規(guī)?;虮磉_分析的有疾病診斷應(yīng)用可能的工作涉及從疾病組織或細胞起源的臨床樣品。例如,多份出版物顯示了基因表達數(shù)據(jù)可以用于將類似的癌癥類型區(qū)分開,其中使用的即是來自患病組織或細胞的臨床樣品(Alon et al. 1999,PNAS,96,p6745_6750;Golub et al. 1999,Science,286,p531_537;Alizadeh et al,2000,Nature,403,p503_511;Bittner et al.,2000,Nature,406,p536_540)。然而,這些方法依賴于對含有患病細胞或這些細胞的產(chǎn)物或與患病細胞有接觸的細胞的樣品進行分析。對這類樣品的分析需要知道疾病的存在和發(fā)病部位,這對于沒有臨床癥狀的患者可能很困難。并且,有時無法從疾病部位取樣,例如對于腦部疾病的情況。一個意義重大的發(fā)現(xiàn)中,本發(fā)明人認識到體內(nèi)所有細胞都有的以前未被發(fā)掘的潛能,即提供關(guān)于細胞所來源生物體的狀態(tài)的信息。W098/49342描述了對距離疾病部位很遠的細胞的基因表達分析,例如從遠離癌癥部位采集的外周血。W004/046382(通過引用并入本文)描述了用于乳腺癌和阿爾茲海默癥的診斷的特異探針。我們的發(fā)現(xiàn)基于這樣的假設(shè),即生物體不同部分之間存在著動態(tài)相互作用。當疾病影響到身體的一部分時,身體的其他部分也會被影響?;疾^(qū)域釋放的廣譜生物化學(xué)信號導(dǎo)致的相互作用也會影響到體內(nèi)其他區(qū)域。雖然釋放的信號所誘導(dǎo)的生物化學(xué)和生理學(xué)變化的性質(zhì)在身體不同部分之間可能有區(qū)別,但可以在基因表達水平測量到這些變化并用于診斷目的。
生物體內(nèi)細胞的生理狀態(tài)由細胞內(nèi)基因表達的模式?jīng)Q定。該模式取決于所述細胞受到的內(nèi)部和外部生物刺激,這些刺激的程度或性質(zhì)發(fā)生的任何變化可能就導(dǎo)致細胞內(nèi)不同基因的表達模式的變化。人們越來越理解到通過分析生物樣品細胞內(nèi)基因表達模式的系統(tǒng)變化,有可能提供關(guān)于作用于它們的生物刺激的類型和性質(zhì)方面的信息。因此,例如通過監(jiān)測待測樣品中細胞里大量基因的表達,就有可能確定它們的基因表達模式是否是特定疾病、狀況或其某個階段所特有的。因此,測量例如來自組織或體液的細胞中的基因活性的變化正逐漸成為強有力的疾病診斷工具。這類方法具有多種優(yōu)勢。從身體某些患病區(qū)域獲得臨床樣品常常可能很難,并且涉及對身體的無益侵入,例如經(jīng)常要利用生物活檢來獲得癌癥樣品。某些情況中,比如阿爾茲海默癥,患病腦標本只能在死后獲取。此外,獲得的組織標本常常是異質(zhì)的,可能含有患病和未患病細胞的混合物,使得對生成的基因表達數(shù)據(jù)的分析復(fù)雜困難。
已有證據(jù)顯示,從腫瘤形態(tài)表觀角度來說似乎是病理上同質(zhì)的腫瘤組織集合可能在分子水平上是高度異質(zhì)的(Alizadeh,2000,同前),實際上可能含有代表非常不同的疾病的腫瘤(Alizadeh, 2000,同前;Golub,1999,同前)。為了鑒定疾病、狀況或其某個階段的目的,非常期待的是那些不需要臨床樣品直接來源于患病組織或細胞的方法,因為代表細胞類型均質(zhì)混合物的臨床樣品可以從容易達到的身體區(qū)域獲得。乳腺癌是全球婦女中最常見的癌癥,每年估計有1,300,000新病例和465,000例死亡。為了降低乳腺癌死亡率,關(guān)鍵的是及早探測和治療對癥。這強調(diào)了探測早,從而可以在腫瘤發(fā)展盡量早地開始治療的重要性。乳腺攝影篩檢、體檢和自檢是目前乳腺癌探測的主要手段,但只有乳腺攝影篩檢被證實可以降低死亡率。等到通過觸診或者乳房攝影篩檢可以在乳房中檢測到腫瘤時,腫瘤可能已經(jīng)存在了幾年并且有能力擴散到遠端器官。乳房腫瘤生長速率的個體差異很大。有些腫瘤生長得非常快,可以躲避過一年兩次的篩查,因此在乳房攝影篩檢到之前就顯示出臨床癥狀。此夕卜,乳房攝影篩檢的靈敏度在乳房組織密度大的婦女,常見于絕經(jīng)前或者接受絕經(jīng)荷爾蒙治療的婦女中顯著下降。由于乳房攝影篩檢對乳房組織密度大的婦女的靈敏度低,乳腺癌篩查已引入了其他成像手段,包括超聲檢查和磁共振成像(MRI)。但是超聲非常依賴操作人員、費時并且有許多假陽性結(jié)果。MRI昂貴,假陽性率高、資源有限并且沒有廣泛認可的成像指南使得MRI的用途限制在篩查情境。能夠準確地,特別是在早期探測到乳腺癌的改良的方法受到高度期待。我們現(xiàn)在鑒定到一組新的探針,這些探針可以用于通過確定被考察個體的細胞(例如外周血細胞)中的基因表達譜來鑒定乳腺癌,包括早期乳腺癌。在形成本發(fā)明的工作中,發(fā)明人檢驗了乳腺癌患者中大量基因相對正?;颊叩谋磉_水平。發(fā)現(xiàn)相當大數(shù)量的基因顯示出改變了的表達,可以按照基因在其中表現(xiàn)出表達改變并且被認為是能提供信息的交叉驗證模型的數(shù)量將這些基因分類。因此,例如那些具有100%出現(xiàn)頻率的基因與那些在所有交叉驗證模型中表現(xiàn)出表達改變并被認為是信息性的基因相關(guān),而那些0%出現(xiàn)頻率的在至少一個交叉驗證模型中表現(xiàn)出表達改變并被認為是信息性的。這樣這些基因提供了一個集合,可以從中產(chǎn)生相應(yīng)的探針,特別是根據(jù)它們的出現(xiàn)頻率生成這些基因在個體中的表達指紋。因為這些基因在乳腺癌個體中的表達發(fā)生變化,所以可以認為對于該狀態(tài)是信息性的,由探針集合生成的指紋表明相對正常狀態(tài)患有該疾病。因此發(fā)明提供了一組寡核苷酸探針,所述探針對應(yīng)的基因在細胞內(nèi)的表達所受到的影響模式是乳腺癌或其某個階段特有的,其中所述基因受到所述乳腺癌或其某個階段的系統(tǒng)影響。優(yōu)選所述基因是組成型中等表達或高表達的。優(yōu)選基因在樣品細胞內(nèi),而非來自疾病(乳腺癌)細胞的細胞內(nèi)或者與所述疾病細胞接觸過的細胞內(nèi)是中等表達或高表達。這類探針,特別當它們是從遠離疾病部位的細胞分離到的時候,不需要疾病發(fā)展到臨床可探測到的程度,允許在所述癌癥發(fā)病后非常的早期,甚至是其他主觀或客觀癥狀出現(xiàn)前的幾年檢測到乳腺癌或其某個階段。本文中被“系統(tǒng)地”影響的基因是指其體內(nèi)表達受到影響的基因,它們沒有與疾病細胞或者發(fā)病部位直接接觸并且被研究的細胞不是疾病細胞。
“接觸”在文中是指細胞相互靠近,從而可能觀察到一個細胞對另一個的直接影響,例如免疫反應(yīng),其中這些反應(yīng)不是由第一個細胞釋放的次級分子跨越長距離影響到第二個細胞。優(yōu)選接觸是指物理接觸,或者是空間上盡可能近的接觸,方便的是相互接觸的細胞處于同一單位體積內(nèi),例如Icm3以內(nèi)?!凹膊〖毎笔秋@示表現(xiàn)型變化并且在其生存期的某個時候位于疾病部位的細胞,即對于當前的情況,是位于腫瘤部位或者從腫瘤擴散出來的乳腺癌細胞?!爸械然蚋摺北磉_的基因是指在靜止細胞中拷貝數(shù)超過30-100拷貝/細胞的那些基因(假設(shè)每個細胞平均有3xl05個mRNA分子)。本文提供了具有上述性能的特異探針。因此,本發(fā)明的一個方面提供了一組寡核苷酸探針,其中所述組包含至少10個寡核苷酸,其中所述10個寡核苷酸中的每一個選自表5所不的寡核苷酸,或者衍生自表5所示的序列,或者具有與表5序列或衍生序列互補的序列的寡核苷酸,或者功能等同的寡核苷酸。優(yōu)選地,所述10個探針中的每一個對應(yīng)表5所示的不同寡核苷酸,但是所述寡核苷酸中的一或多個可以被相應(yīng)的衍生、互補或功能等同寡核苷酸替代,即被能夠結(jié)合相同基因轉(zhuǎn)錄產(chǎn)物的寡核苷酸替代。如果例如只使用引物,有很大可能所有的寡核苷酸是衍生寡核苷酸,例如是所提供序列的部分。這類探針在本發(fā)明的產(chǎn)品和方法中的用途構(gòu)成了發(fā)明的其他方面。所述“衍生”寡核苷酸包括由這些表中提供的序列所對應(yīng)的基因衍生得到的寡核苷酸。表5提供了各個序列(即與提供的寡核苷酸對應(yīng)的基因序列)的基因標識。這在名為“ABI Probe ID”的欄中陳述了,該欄提供了 ABI 1700標識。這些基因的細節(jié)可以在Panther Classification System for genes, transcripts and proteins (http://www.pantherdb. otr/Renes)找到。替代地,可以直接從Applied Biosystems Inc.,CA, USA得到這些細節(jié)。文中被稱為“寡核苷酸”的是聚合物結(jié)構(gòu)中具有至少6個單體(即核苷酸或其修飾形式)的核酸分子。核酸分子可以是DNA、RNA或PNA(肽核酸)或它們的雜交物或者它們的修飾形式,例如通過甲基化形成的化學(xué)修飾形式,例如LNA(鎖定核酸),或者由修飾的或者非天然堿基在合成過程中形成的,只要它們保持與互補序列結(jié)合的能力。這些寡核苷酸按照發(fā)明用于探測靶序列,因此在文中又被稱為寡核苷酸探針或者簡單地稱為“探針”。
文中被稱為“探針”的是這樣的寡核苷酸,所述寡核苷酸能夠結(jié)合相關(guān)轉(zhuǎn)錄產(chǎn)物,并且使得可以對它們所結(jié)合的靶分子的存在與否或者靶分子的量進行檢測。這類探針可以是例如作為靶分子標記的探針(下文稱為標記探針)或者是允許通過另一種手段產(chǎn)生信號的探針,例如引物。文中被稱為“標記探針”的是指所述探針能夠結(jié)合靶序列,從而使組合在一起的該靶序列和標記探針帶有可檢測的標記,或者能夠借助這種關(guān)聯(lián)的形成以其他方式進行評估。例如,實現(xiàn)這一點可以通過使用帶標記的探針,或者如下文描述將探針作為帶標記序列的捕獲探針。作為引物使用時,探針與靶序列結(jié)合,任選和另一個相關(guān)引物一起生成可表明靶序列的存在的擴增產(chǎn)物,然后可以對擴增產(chǎn)物進行評估和/或定量。引物可以包含標記,或者擴增步驟以其他方式引入標記或者在擴增過程中顯現(xiàn)出標記,從而能夠進行檢測。與靶序列結(jié)合并允許直接或間接生成可檢測信號的任何寡核苷酸都涵蓋在 內(nèi)?!耙铩笔侵竼捂溁螂p鏈寡核苷酸,所述寡核苷酸與靶序列雜交,并在合適條件(即,在有核苷酸和諸如DNA聚合酶的誘導(dǎo)劑的情況下,并且處于適宜的溫度和pH)下作為合成起始位點,從而借助例如PCR經(jīng)引物序列的延伸對靶序列進行擴增。在基于引物的方法中,優(yōu)選使用實時定量PCR,因為它能夠?qū)崟r對少量RNA進行有效的檢測和定量。過程遵循一般的RT-PCR原理,其中mRNA首先被轉(zhuǎn)錄為cDNA,然后在序列特異性引物的幫助下利用cDNA對短DNA序列進行擴增。實時PCR中兩種常見的檢測產(chǎn)物的方法是(I)能夠插入任何雙鏈DNA的非特異性熒光染料,例如SYBR Green染料和(2)由寡核苷酸構(gòu)成的序列特異性DNA探針,所述寡核苷酸標記了熒光報告分子,這樣只有探針與其互補目標DNA雜交后才能進行檢測,例如ABI TaqMan System(實施例中有更詳細的討論)?!把苌员? (或任何其他表格)所示序列的寡核苷酸”包括該表中公開的序列的一部分或其互補序列,所述序列滿足本文描述的寡核苷酸探針例如長度和功能方面的要求。優(yōu)選地,所述部分具有下文描述的大小,可以作為適合發(fā)明使用的大小的探針(包括引物)。因此,衍生寡核苷酸包括探針,比如與公開序列的一部分或其互補序列對應(yīng)的引物。由序列可以衍生一個以上的寡核苷酸,例如生成引物對和/或標記探針。正如上文提到的,“衍生”寡核苷酸還包括與那些表中提供的序列(即提供的寡核苷酸或者列舉的基因序列)對應(yīng)的基因所衍生的寡核苷酸。這種情況中,寡核苷酸構(gòu)成基因序列的一部分,表5提供的序列是所述基因序列的一部分。表5提供了 ABI 1700基因標識,因此衍生寡核苷酸可能構(gòu)成所述基因(或其轉(zhuǎn)錄產(chǎn)物)的一部分或其互補序列。這樣例如標記探針或引物序列可以衍生自基因上的任何一段,從而使得能夠與該基因或其轉(zhuǎn)錄產(chǎn)物特異結(jié)合。優(yōu)選地,構(gòu)成所述組的寡核苷酸探針至少有15個堿基長以便與靶分子結(jié)合。特別優(yōu)選地,所述寡核苷酸探針至少有10、20、30、40或50個堿基長,但低于200、150、100或50個堿基長,例如20-200個堿基長,例如30-150個堿基,優(yōu)選50-100個堿基長。當探針是引物時,有類似的考慮,但優(yōu)選所述引物有10-30個堿基長,例如15-28個堿基,例如20-25個堿基長。設(shè)計引物時適用通常的考慮,例如優(yōu)選引物具備50-60%的G+C含量,3’端以G或C或者CG或GC結(jié)束來提高效率,3’端不應(yīng)互補以便避免形成引物二聚體,應(yīng)當避免引物自身互補,應(yīng)當避免3’端有3個或以上的一串C或G。引物應(yīng)當足夠長,以便在有誘導(dǎo)劑的情況下引導(dǎo)所需延伸產(chǎn)物的合成。為了鑒定合適的引物來實施發(fā)明,可以利用表中提供的基因序列或探針序列來設(shè)計引物或探針。優(yōu)選所述引物是生成用于擴增短DNA序列(例如75-600個堿基)。優(yōu)選擴增短擴增子,例如優(yōu)選75-150個堿基。探針和引物可以設(shè)計成位于外顯子內(nèi)或者跨越外顯子連接處。例如,表5提供了 ABI芯片探針I(yè)D,這可以用于利用Panther ClassificationSystem for Genes, transcripts and Proteins (http://www. pantherdb. org/genes)來石角認相應(yīng)的ABI Taqman分析法ID。一旦確認好Taqman分析法,即可從供應(yīng)商處獲得。替代地,可以利用基因名稱和基因代碼在公共數(shù)據(jù)庫中確認相應(yīng)的基因序列,例如The NationalCenter for Biotechnology Information (http: //www. ncbi. nlm. nih. gov/)。替代地,提供的寡核苷酸核苷酸序列可用于利用NCBI的Nucleotide Blast(Blastn)程序?qū)⑺鼈兣c已知序列進行比對來鑒定相應(yīng)的基因和轉(zhuǎn)錄產(chǎn)物。利用基因或轉(zhuǎn)錄產(chǎn)物序列,可以通過使用免費的或商業(yè)的寡核苷酸和引物設(shè)計程序(例如Applied Biosystems的The PrimerExpress Software)來設(shè)計引物和探針。 文中使用的術(shù)語“互補序列”是指含有連續(xù)互補堿基(即T:A,G:C)的序列,因此所述互補序列能夠通過它們的互補性相互結(jié)合。提到的“10個寡核苷酸”是指10個不同的寡核苷酸。表5寡核苷酸、表5衍生的寡核苷酸以及它們的功能等同物被認為是不同的寡核苷酸,但互補寡核苷酸不被認為是不同寡核苷酸。但是優(yōu)選所述至少10個寡核苷酸是10個不同的表5寡核苷酸(或者表5衍生的寡核苷酸或者它們的功能等同物)。這樣所述10個不同的寡核苷酸優(yōu)選能夠結(jié)合10個不同的轉(zhuǎn)錄產(chǎn)物。優(yōu)選所述寡核苷酸是表5所示的或者是衍生自表5所示的序列。所述衍生寡核苷酸包括由那些表中提供的序列所對應(yīng)的基因衍生得到的寡核苷酸,或者它們的互補序列。在一個優(yōu)選方面中,所述寡核苷酸是表7C或8B所示的,或者衍生自表7C或8B所不的序列。表7C所不的寡核苷酸是出現(xiàn)在該表中的寡核苷酸。表8B所不的寡核苷酸是表5所示的寡核苷酸,其中在表8B中給出了表5的ABI Nos (即表8B的寡核苷酸是通過交叉引用表5獲得的)。表5、7C和SB所示的序列包括提供的寡核苷酸序列以及給出了基因標識(ABI No.)的基因序列。所述衍生寡核苷酸包括由那些表提供的序列所對應(yīng)的基因衍生的寡核苷酸,或者它們的互補序列。表7C和SB給出了來自表5的探針的子集,是通過它們在表5中的ID Nos識別。提及表5在本文中可以被認為是類似提及表7C或8B。特別優(yōu)選地,選擇寡核苷酸的基礎(chǔ)是它們?nèi)绫?、7C或8B中所示的出現(xiàn)頻率(有關(guān)表SB中序列的出現(xiàn)頻率的信息可以由表5中的相應(yīng)序列獲取)。因此,優(yōu)選地,所述探針組選自表5、7C或8B中具有至少10%、20%、30%、40%、50%、60%、70%、80%或100%出現(xiàn)率的那些。特別優(yōu)選的方面中,組中所有寡核苷酸具有以上出現(xiàn)率(或者衍生自這樣的寡核苷酸)。替代的實施方案中,組中的寡核苷酸可能具有0、10、20、30、40、50、60、70、80、90或100%出現(xiàn)率,即表5、7C或SB中的探針落入11個亞群,從中可以挑選探針組,并且優(yōu)選組中的所有寡核苷酸具有該出現(xiàn)率。在優(yōu)選實施方案中,所述組含有表5、7C或8B中的或者以上描述的子集中的所有探針(或者它們的衍生序列、互補序列或功能等同物)。因此,一個方面中,所述組可能含有表5、7C或8B中的所有探針(或者它們的衍生序列、互補序列或功能等同物),或者另一個方面中,所述組可能含有這些表中具有O、10、20、30,40、50、60、70、80、90或100%出現(xiàn)率的所有探針(或者它們的衍生序列、互補序列或功能等同物),或者另一個方面中,可能含有具有至少O、10、20、30、40、50、60、70、80、90或100%出現(xiàn)率的所有探針(或者它們的衍生序列、互補序列或功能等同物)。在優(yōu)選方面中,所述組僅由以上描述的探針(或者它們的衍生序列、互補序列或功能等同物)構(gòu)成。文中描述的“組(set)”是指獨特寡核苷酸探針(即具有不同的序列)的集合,優(yōu)選由少于1000個寡核苷酸探針組成,特別是少于500、400、300、200或100個探針,并且優(yōu)選10、20、30、40或50個以上探針,例如優(yōu)選10-500,例如10-100,200或300,特別優(yōu)選20-100,例如30-100個探針。某些情況中,可以使用10個以下的探針,例如2-9個探針,例如5-9個探針。可以理解,增加探針的數(shù)量能夠防止出現(xiàn)劣質(zhì)分析(例如誤診)的可能,例如通過與討論中特定基因表達發(fā)生類似改變的其他疾病進行比較。還可以有其他本文沒有描述的 寡核苷酸探針,特別是如果它們能夠輔助寡核苷酸探針組的應(yīng)用。但是,優(yōu)選所述組僅由所述表5、7C或SB寡核苷酸、表5、7C或SB衍生寡核苷酸、它們的互補序列或功能等同寡核苷酸、或者(例如具有以上描述的大小和類型的)子集組成。每組中每個獨特寡核苷酸探針可以有多拷貝,例如10個或以上拷貝,但這僅構(gòu)成
單一探針。優(yōu)選固定在固體支持物上或者有途徑進行這種固定的寡核苷酸探針組包含至少10個選自上文描述的寡核苷酸探針。正如以上提到的,這10個探針必須是獨特的,具有不同序列。盡管如此,但可以使用兩個獨立的探針,這兩個探針可能識別相同基因但反映不同的剪切事件。但優(yōu)選的是與不同基因互補并結(jié)合的寡核苷酸探針。當組中的探針都是引物時,優(yōu)選方面中提供了引物對。這種情況中,提到應(yīng)當存在的寡核苷酸(例如10寡核苷酸)要相應(yīng)地擴展,即20個寡核苷酸。這20個寡核苷酸對應(yīng)10對引物,每對對特定靶序列有特異性。再一種替代情況中,組中的探針可能包含針對單一靶序列的標記探針和引物(例如對于下文更詳細描述的Taqman分析法)。這種情況中,提到應(yīng)該有的寡核苷酸(例如,10個寡核苷酸)要擴展到30個寡核苷酸,即針對特定靶序列的10對引物和相應(yīng)的有關(guān)標記探針。因此優(yōu)選方面中,發(fā)明的組包含至少20個寡核苷酸,并且所述組包含引物對,其中所述引物對中的每個寡核苷酸與相同的轉(zhuǎn)錄產(chǎn)物或其互補序列結(jié)合,優(yōu)選引物對中的每個與不同轉(zhuǎn)錄產(chǎn)物結(jié)合。更優(yōu)選的方面中,發(fā)明提供了包含至少30個寡核苷酸的寡核苷酸探針組,所述組包含引物對和給每對引物的標記探針,其中所述引物對中的每個寡核苷酸和所述標記探針與相同轉(zhuǎn)錄產(chǎn)物或其互補序列結(jié)合,優(yōu)選地引物對中的每個和標記探針與不同轉(zhuǎn)錄產(chǎn)物結(jié)合。標記探針與其引物對的“相關(guān)性”在于引物結(jié)合到靶序列的上游或下游,而標記探針結(jié)合到相同的轉(zhuǎn)錄產(chǎn)物。本文描述的表5所示寡核苷酸或由它們衍生的寡核苷酸的“功能等同”寡核苷酸是指能夠和表5的寡核苷酸或其衍生寡核苷酸識別相同基因的寡核苷酸,即所述寡核苷酸可以和表5寡核苷酸或表5衍生的寡核苷酸(或其互補序列)結(jié)合到由基因(靶核酸分子)轉(zhuǎn)錄的相同mRNA分子(或DNA)。優(yōu)選地,所述功能等同寡核苷酸能夠和表5寡核苷酸或表5衍生的寡核苷酸識別也就是結(jié)合相同的剪切產(chǎn)物。優(yōu)選地,所述mRNA分子是與表5寡核苷酸或表5衍生的寡核苷酸對應(yīng)的全長mRNA分子。本文提到的“能夠結(jié)合”或“結(jié)合”是指在下文描述的條件下進行雜交的能力。換而言之,功能等同寡核苷酸(或互補序列)與靶分子的一個區(qū)域有序列同一性或者能夠象下文描述的進行雜交,其中所述靶分子是表5寡核苷酸或表5衍生的寡核苷酸或者互補寡核苷酸能夠結(jié)合其上的。優(yōu)選地,功能等同寡核苷酸(或者它們的互補序列)與mRNA序列中的一個在下文描述的條件下能夠雜交,所述mRNA序列對應(yīng)表5寡核苷酸或表5衍生的寡核苷酸;或者與mRNA序列中的一個的一部分有序列同一性,所述mRNA序列對應(yīng)表5寡核苷酸或表5衍生的寡核苷酸。這個語境中的“一部分”是指至少一段5個,例如至少10或20個堿基,比如5-100個,例如10-50或者14-30個堿基。特別優(yōu)選的方面中,功能等同寡核苷酸與祀核酸分子(mRNA或cDNA)中會被表5寡核苷酸或表5衍生的寡核苷酸結(jié)合的區(qū)域的全部或部分結(jié)合?!鞍小焙怂岱肿邮腔蜣D(zhuǎn)錄產(chǎn)物或相關(guān)產(chǎn)物,例如mRNA或cDNA,或者它們的擴增產(chǎn)物。所述靶分子中被所述表5寡核 苷酸或表5衍生的寡核苷酸結(jié)合的所述“區(qū)域”是存在互補性的一段。該區(qū)域最大是表5寡核苷酸或表5衍生的寡核苷酸的全長,但如果表5序列或表5衍生的寡核苷酸不是整個與靶序列區(qū)域互補,該區(qū)域可以短一些。優(yōu)選地,所述靶分子中所述區(qū)域的所述部分是一段至少5個,例如至少10或20個堿基,比如5-100個,例如10-50個或者15-30個堿基。具有與表5寡核苷酸或表5衍生的寡核苷酸的堿基相同的幾個堿基的功能等同寡核苷酸可能實現(xiàn)這一點。這些堿基可能在連續(xù)的一段內(nèi)都相同,例如在功能等同寡核苷酸的一部分中;或者不是連續(xù)的,但提供了足夠的互補性使得可以與靶序列結(jié)合。因此,在優(yōu)選特征中,所述功能等同寡核苷酸與表5寡核苷酸或表5衍生的寡核苷酸或者它們的互補序列在高嚴緊度條件下雜交。換而言之,所述功能等同寡核苷酸顯示出對表5寡核苷酸的全部或部分的高序列同一'丨生。優(yōu)選地,所述功能等同寡核苷酸與表5寡核苷酸的全部或其部分有至少70%的序列同一性,優(yōu)選至少80%、例如至少90、95、98或99%。用在這個語境中,“部分”是指所述表5寡核苷酸中至少一段5個,例如至少10或20個堿基,比如5-100個,例如10-50或15-30個堿基。特別優(yōu)選地,當只與所述表5寡核苷酸中的一部分有序列同一性時,序列同一性較高,例如象以上描述的至少80%。滿足上述功能要求的功能等同寡核苷酸包括由表5寡核苷酸衍生的那些,還包括通過單個或多個核苷酸堿基(或等同物)取代、添加和/或缺失修飾得到的那些,它們?nèi)员3种δ芑钚裕缗c表5寡核苷酸或者進一步衍生或者修飾得到它們的表5寡核苷酸結(jié)合相同的靶分子。優(yōu)選所述修飾是1-50個,例如10-30個,優(yōu)選1-5個堿基。特別優(yōu)選地,只有小的修飾,例如不到10個堿基有改變,例如只有不到5個堿基發(fā)生變化。在“添加”等同物的含義中包括這樣的寡核苷酸,所述寡核苷酸含有的額外序列與靶分子中被表5寡核苷酸或表5衍生的寡核苷酸結(jié)合的連續(xù)堿基段互補。替代地,添加可能包含不同的無關(guān)序列,所述序列賦予例如另外的性能,例如提供進行固定化的手段,比如所述序列是將寡核苷酸探針結(jié)合到固體支持物的連接分子。特別優(yōu)選的是天然存在的等同物,比如生物變體,例如等位基因、地理或者同種異型變體,例如對應(yīng)比如不同物種中存在的基因變體的寡核苷酸。
功能等同物包括含有使用了例如非天然堿基的修飾堿基的寡核苷酸。這類衍生物可以在合成過程中或者通過產(chǎn)生后修飾來制備。在低嚴緊度條件下結(jié)合的“雜交”序列是在非嚴緊條件(例如,室溫下6xSSC/50%甲醛)下結(jié)合,并且在低嚴緊度條件(2X SSC,室溫,更優(yōu)選2X SSC,42° C)下洗滌時保持結(jié)合狀態(tài)的序列。高嚴緊度雜交是指其中洗滌是在2X SSC,65° C(其中SSC=O. 15M NaCU0.015M檸檬酸鈉、pH 7. 2)進行的上述條件。本文提到的“序列同一性”是指利用參數(shù)如下的ClustalW (Thompson etal.,1994,Nucl. Acids Res.,22,p4673_4680)進行評估 時得到的數(shù)值:雙序列比對參數(shù)_方法準確,矩陣IUB,開放空位罰分15.00,空位延伸罰分6.66;多序列比對參數(shù)-矩陣IUB,開放空位罰分15. 00,延遲的%同一性30,負性矩陣無,空位延伸罰分6. 66,DNA轉(zhuǎn)換權(quán)重0. 5。特定堿基處的序列同一性應(yīng)包括經(jīng)過簡單衍生化的相同堿基。正如以上描述的,可以方便地將所述寡核苷酸探針組固定于一或多個固體支持物。每個獨特探針有單個或者優(yōu)選多個拷貝被附著在所述固體支持物上,例如10個以上,例如每個獨特探針至少有100個拷貝?!蚨鄠€獨特寡核苷酸探針可以與分開的固體支持物關(guān)聯(lián),一起形成固定在多個固體支持物上的探針組,例如一或多個獨特探針可以固定于多個珠子、膜、濾膜、生物芯片等,一起形成探針組,探針組一起又形成下文描述的試劑盒的模塊。不同模塊的固體支持物被方便地物理連接,雖然與每個探針相關(guān)聯(lián)的信號(按照下文描述產(chǎn)生的信號)必須分開確定。替代地,探針可以固定在相同固體支持物的不同部分,例如每個獨特寡核苷酸探針以例如多個拷貝被固定在單個濾膜或膜的分離各異部分或區(qū)域從而形成陣列。還可以將這類技術(shù)組合使用,例如可以使用幾個固體支持物,其中每個固定幾個獨特探針。表達方式“固體支持物”意味著任何能夠通過疏水、離子或共價鍵結(jié)合寡核苷酸的固體材料?!肮潭ā北疚闹惺侵柑结樌眠@類結(jié)合與所述固體支持物形成的可逆或不可逆聯(lián)系。如果可逆,探針與固體支持物的聯(lián)系能夠保持足夠?qū)嵤┌l(fā)明所述方法的時間。許多適合作為本發(fā)明的固定部分的固體支持物是本領(lǐng)域已知的,在文獻中有廣泛描述。一般來說,固體支持物可以是目前在化學(xué)或生物化學(xué)操作中廣泛用于或者建議用于固定、分離等等的任何已知支持物或基質(zhì)。這類材料包括,但不限于任何合成的有機高分子,比如聚苯乙烯、聚氯乙烯、聚乙烯;或硝酸纖維素和醋酸纖維素;或甲苯磺?;罨谋砻妫换蛘卟AЩ蚰猃埢驇в羞m合與核酸共價偶聯(lián)的基團的任何表面。固定化部分可以采取利用例如聚合物材料(例如瓊脂糖、纖維素、藻酸鹽、聚四氟乙烯、乳膠或聚苯乙烯或磁珠)制成的顆粒、薄片、凝膠、濾膜、膜、超細纖維條、管子或板、纖維或毛細管的形式。優(yōu)選能夠?qū)㈥嚵谐尸F(xiàn)在單一維度內(nèi)的固體支持物上,例如薄片、濾膜、膜、板或生物芯片??梢灾苯踊蜷g接將核酸分子附著到固體支持物上。例如,如果使用濾膜,可以通過UV誘導(dǎo)的交聯(lián)進行附著。替代地,可以利用寡核苷酸探針和/或固體支持物上帶有的附著部分間接地實現(xiàn)附著。因此,可以利用例如一對親和結(jié)合伙伴,比如親和素、鏈霉親和素或者生物素;DNA或DNA結(jié)合蛋白(例如,IacI阻遏蛋白或者它所結(jié)合的Iac操縱子序列);抗體(可以是單克隆或多克隆抗體)、抗體片段或抗體的表位或半抗原。這些情況中,結(jié)合對中的一個成員附著在固體支持物上(或者本來就是它的一部分),另一個成員附著在核酸分子上(或者本來就是它的一部分)。本文中,“親和結(jié)合對”是指相互識別并特異結(jié)合(即優(yōu)先于結(jié)合其他分子)的兩個成分。這類結(jié)合對當結(jié)合到一起時形成復(fù)合體。將適宜的功能基團附著到固體支持物上可以通過本領(lǐng)域已知的方法進行,所述方法包括例如經(jīng)由羥基、羧基、醛基或氨基基團進行附著,這些基團可以通過對固體支持物進行處理提供合適的表面涂層來提供??梢酝ㄟ^本領(lǐng)域已知的常規(guī)方法來生產(chǎn)固體支持物,所述固體支持物提供了適合結(jié)合伙伴附著的部分。給本發(fā)明的寡核苷酸探針附著適宜的功能基團可以通過連接反應(yīng)或者在合成或 擴增過程中引入來進行,例如利用帶有合適的部分(比如生物素或者用于捕獲的特定序列)的引物。以上描述的探針組可以方便地以試劑盒形式提供。因此從再一個方面來說,本發(fā)明提供了包含以上描述的寡核苷酸探針組的試劑盒,其中所述寡核苷酸探針任選固定在一或多個固體支持物上。優(yōu)選地,所述探針固定在單個固體支持物上,每個獨特探針附著在所述固體支持物的不同區(qū)域。但當探針是附著到多個固體支持物時,所述多個固體支持物組成模塊,模塊構(gòu)成了試劑盒。特別優(yōu)選所述固體支持物是薄片、濾膜、膜、板或生物芯片。任選地,試劑盒還可以含有與正常樣品或患病樣品產(chǎn)生的信號有關(guān)的信息(下文關(guān)于試劑盒用途中有更詳細描述)、標準化材料,例如為了進行比較的來自正常和/或患病樣品的mRNA或cDNA、用于引入cDNA的標記、為了擴增目的用于引入核酸序列的接頭、用于擴增的引物和/或適宜的酶、緩沖液和溶液。任選地,所述試劑盒還含有包裝插頁,描述應(yīng)當如何實施本發(fā)明的方法,任選還提供標準曲線、數(shù)據(jù)或軟件,以便對實施發(fā)明獲得的結(jié)果進行解釋。如下所述,這類試劑盒在制備標準診斷性基因轉(zhuǎn)錄產(chǎn)物譜中的用途構(gòu)成發(fā)明的再一個方面。本文描述的探針組有多種用途。但它們主要是用于評估待測細胞的基因表達狀態(tài),從而提供關(guān)于所述細胞所來源的生物體的信息。因此探針可用于診斷、確認或監(jiān)控生物體內(nèi)的乳腺癌或其某個階段。發(fā)明再一方面提供了以上描述的寡核苷酸探針組或試劑盒在確定細胞基因表達譜中的用途,所述基因表達譜反映了所述寡核苷酸結(jié)合的基因的基因表達水平,包括至少以下步驟a)從所述細胞分離mRNA,任選將其逆轉(zhuǎn)錄為cDNA;b)將步驟(a)中的mRNA或cDNA與本文限定的寡核苷酸探針組或試劑盒雜交;以及c)評估與所述探針中的每一個雜交的mRNA或cDNA的量從而產(chǎn)生所述表達譜。正如前面提到的,寡核苷酸探針可以作為靶序列的直接標記(對于靶序列和探針形成的復(fù)合體帶有標記的情況)或者作為引物使用。對于前一種情況,可以通過任何能夠檢測雜交實體的合適手段進行步驟C),例如如果mRNA或CDNA被標記,可以檢測試劑盒中留下的標記。對于作為引物的情況,這些引物可以用于生成擴增產(chǎn)物,然后對后者進行評估。這種情況下,步驟b)中所述探針與mRNA或cDNA雜交,用于擴增mRNA或cDNA或者它們的一部分(大小是文中描述的部分的大小或者擴增子的優(yōu)選大小),在步驟c)中擴增產(chǎn)物的量經(jīng)評估制備表達譜。對于既使用引物也使用標記探針的情況,以上方法中引物和標記探針在步驟b)與mRNA或cDNA雜交,被用于擴增mRNA或cDNA或者它們的一部分。該擴增過程導(dǎo)致結(jié)合在相關(guān)靶序列上的探針被置換并產(chǎn)生信號。這種情況中,步驟c)中與探針雜交的mRNA或cDNA的量是通過確定是否存在信號或者產(chǎn)生的 信號的量來評估的。因此,在優(yōu)選方面中,所述探針是標記探針和引物對,在步驟b)中所述標記探針和引物與所述mRNA或cDNA雜交,所述mRNA或cDNA利用所述引物得以擴增,其中如果所述標記探針結(jié)合到靶序列上,在擴增過程中就會被置換,從而產(chǎn)生信號,然后在步驟c)中對產(chǎn)生的信號的量進行評估從而制備所述表達譜。以上描述的方法和下文描述的發(fā)明方法包括所有檢測是否存在探針結(jié)合或探針結(jié)合的量的模式。該方法和下文描述的方法中提到的mRNA和cDNA涵蓋所述分子的衍生物或拷貝,例如這類分子的拷貝,比如通過擴增或制備互補鏈產(chǎn)生的拷貝,但這些拷貝保留了 mRNA序列的屬性,即能夠在所述分子的至少某個區(qū)域內(nèi)通過準確互補或序列同一性與直接轉(zhuǎn)錄產(chǎn)物(或其互補序列)雜交??梢岳斫?,對于使用了可能將轉(zhuǎn)錄產(chǎn)物截短或者通過例如引物擴增引入了新序列的技術(shù)的情況,不會整個區(qū)域都有互補性。為了方便,優(yōu)選在步驟b)之前將所述mRNA或cDNA擴增。對于本文描述的寡核苷酸,只要能夠保持互補性,可以通過例如在合成過程中使用非天然堿基對所述分子進行修飾。這類分子還可以帶有其他部分,比如可以產(chǎn)生信號或用于固定化的手段。制備這類表達譜的方法中涉及的各種步驟在下文有更詳細的描述。本文中,“基因表達”是指將特定基因轉(zhuǎn)錄產(chǎn)生特異mRNA產(chǎn)物(即某個特定剪切產(chǎn)物)?;虮磉_的水平可以通過評估轉(zhuǎn)錄得到的mRNA分子或由mRNA分子逆轉(zhuǎn)錄得到的cDNA分子或者由這些分子衍生(例如通過擴增)的產(chǎn)物的水平來確定。由這一技術(shù)產(chǎn)生的“表達譜”是指這樣的信息,所述信息可以例如表述為表格或圖形的形式,傳達出關(guān)于兩個或多個寡核苷酸所關(guān)聯(lián)的信號的信息。優(yōu)選地,所述表達譜被表述為和每個探針關(guān)聯(lián)的表達水平有關(guān)的一個數(shù)字陣列。優(yōu)選地,所述表達譜是利用如下線性模型建立的y=Xb+f公式 I其中,X是基因表達數(shù)據(jù)的矩陣,y是響應(yīng)變量,b是回歸系數(shù)向量,f是估計殘差矢量。雖然有很多不同方法可以用于建立公式I中提供的關(guān)系,特別優(yōu)選的是利用偏最小二乘回歸(PLSR)法來建立公式I中的關(guān)系。因此利用探針生成表達譜,所述表達譜反映了細胞在被分離時的基因表達情況。表達譜反映了細胞所處環(huán)境的特點,并且取決于細胞受到的影響。因此可以給來自患有乳腺癌或某階段的個體的細胞制作特征性基因轉(zhuǎn)錄產(chǎn)物表達譜標準或指紋(標準探針譜),用于與待測細胞的轉(zhuǎn)錄產(chǎn)物譜進行比較。這顯然會在診斷、監(jiān)測或確認生物體是否罹患乳腺癌或其某個階段方面大有用途。
標準譜的制備是通過確定來自一或多個患有乳腺癌或其某個階段的生物體的細胞中總mRNA(或cDNA或相關(guān)產(chǎn)物)結(jié)合探針的程度。這反映了每個獨特探針對應(yīng)的轉(zhuǎn)錄產(chǎn)物的存在水平。評估與不同探針結(jié)合的核酸物質(zhì)的量,這些信息共同構(gòu)成乳腺癌或其某個階段的標準基因轉(zhuǎn)錄產(chǎn)物譜。每個這種標準譜是乳腺癌或其某個階段所特有的。因此,本發(fā)明再一方面提供了制備生物體乳腺癌或其某個階段的特征性標準基因轉(zhuǎn)錄產(chǎn)物譜的方法,所述方法包括至少以下步驟a)從患有乳腺癌或其某個階段的一或多個生物體的細胞樣品中分離mRNA,任選將其逆轉(zhuǎn)錄為cDNA ;b)將步驟(a)的mRNA或cDNA與上文描述的寡核苷酸組或試劑盒雜交,所述寡核苷酸組或試劑盒是對生物體及其樣品中的乳腺癌或其某個階段是特異的,其中所述生物體及其樣品對應(yīng)被考察的生物體及其樣品;以及c)評估與所述探針中每一個雜交的mRNA或cDNA的量,從而產(chǎn)生特征譜,所述特征 譜反映了乳腺癌或其某個階段樣品中所述寡核苷酸所結(jié)合的基因的基因表達水平。為了方便,優(yōu)選所述寡核苷酸被固定在一或多個固體支持物上。但是優(yōu)選方面中,是利用弓I物實施所述方法,所述弓I物擴增mRNA或cDNA或者它們的一部分,評估擴增產(chǎn)物的量來產(chǎn)生表達譜。正如上文描述過的,標記探針和引物都可以用于發(fā)明的優(yōu)選方面。利用特定探針獲得的各種乳腺癌的標準表達譜可以積累在數(shù)據(jù)庫中,根據(jù)要求提
供給實驗室。文中被稱為“疾病”樣品和生物體或者“癌癥”樣品和生物體的是指有異常細胞增殖的生物體(或來自生物體的樣品),例如形成實質(zhì)腫塊比如腫瘤的異常增殖。這樣的生物體已知患有或者表現(xiàn)出這里研究的癌癥(例如乳腺癌)或其某個階段?!鞍┌Y”在本文中包括胃、肺、乳腺、前列腺、大腸、皮膚、結(jié)腸以及卵巢的癌癥,優(yōu)選乳腺癌。文中被稱為“乳腺癌”的包括所有類型的乳腺癌,包括乳腺導(dǎo)管內(nèi)原位癌(DCIS)、乳腺小葉原位癌(LCIS)、浸潤性導(dǎo)管乳腺癌、浸潤性小葉乳腺癌、炎性乳腺癌、柏哲氏病(Paget’s disease)以及罕見的乳腺癌類型,比如髓樣乳腺癌、粘液(粘液或膠樣)乳腺癌、小管乳腺癌、乳腺腺樣囊性癌、乳頭狀乳腺癌、化生性乳腺癌、乳腺血管肉瘤、乳腺葉狀肉瘤或葉狀囊肉瘤、乳房的淋巴瘤和基底型乳腺癌。通過給這些狀況建立合適的分類模型,可以利用本文描述的方法來鑒別或診斷個體是否患有任何癌癥例如任何乳腺癌,或者某種特定的癌癥,例如具體的乳腺癌是否存在。其“階段”是指乳腺癌的不同階段,這些階段可能表現(xiàn)或者不表現(xiàn)具體的生理或代謝變化,但的確顯示出基因水平上的變化,可以檢測出基因表達的改變。應(yīng)當理解,在乳腺癌病程中(或者治療過程中),不同轉(zhuǎn)錄產(chǎn)物的表達可能有變化。因此在不同階段,與“正?!睒悠废啾?,特定轉(zhuǎn)錄產(chǎn)物也許不表現(xiàn)出表達的改變。但是,將多個在癌癥發(fā)展過程中一或多個階段顯示表達變化的轉(zhuǎn)錄產(chǎn)物的信息結(jié)合起來可以提供指示具體癌癥階段的特征性譜圖。因此可以鑒別到例如癌癥的不同階段,例如前期I (例如零期)、I期、II、III或IV期。優(yōu)選方面中,本文描述的方法可以用于在例如乳房表現(xiàn)出任何轉(zhuǎn)移跡象和/或已經(jīng)轉(zhuǎn)移到乳腺導(dǎo)管以外之前,檢測零期癌癥(例如DCIS或LCIS),并且可以用于區(qū)分疾病的不同階段?!罢!北疚闹惺侵笧榱诉M行比較而使用的生物體或樣品。優(yōu)選地,特別是對于要用它們作為正常標準的乳腺癌來說,所述生物體或樣品沒有表現(xiàn)出會影響基因表達的任何疾病或狀況的任何指征或者相信它們未患有這類疾病或狀況,從這個意義上它們是“正?!钡摹5?,應(yīng)當理解乳腺癌的不同階段可能要被比較,這種情況中,“正?!睒悠穼?yīng)乳腺癌的較早階段。本文中,“樣品”是指從生物體,例如從被考察的人或非人動物獲得的任何含有細胞的材料,所述樣品包括組織、體液或身體排泄物,或者對于原核生物的情況,就是生物體本身。“體液”包括血液、唾液、脊髓液、精液、淋巴。“身體排泄物”包括尿液、痰(肺病患者)、糞便等?!敖M織樣品”包括通過活檢、手術(shù)干預(yù)或者其他手段獲得的組織,例如胎盤。但是優(yōu)選地,檢驗的樣品來自身體中未被乳腺癌明顯影響的部位。這種樣品中的細胞不是疾病細胞(即癌細胞),沒有接觸過疾病細胞,不是起源于癌癥部位。“發(fā)病部位”被認為是身體中表現(xiàn)出疾病的區(qū)域,其中所述疾病的表現(xiàn)方式能夠客觀地給予確定(例如腫瘤),即在乳腺癌中,發(fā)病部位是乳房。優(yōu)選地,診斷利用外周血進行,血液中不需要含有來自癌癥的 惡性細胞或擴散細胞。但應(yīng)當理解,制備標準轉(zhuǎn)錄譜的方法和本發(fā)明的其他方法也可以應(yīng)用在真核生物有活性的部分上,比如細胞系和器官培養(yǎng)物和移植體。本文中,提到“相應(yīng)”樣品等是指優(yōu)選來自相同組織、體液或身體排泄物的細胞,但也包括來自對于制備標準或待測表達譜來說足夠類似的組織、體液或身體排泄物的細胞。當用于說明探針的“相應(yīng)”基因時,這是指與探針在序列上相關(guān)(可能是互補)的基因,雖然探針可能反映的是表達產(chǎn)物的不同剪切。本文中,“評估”是指可以從絕對或相對意義上確定的定量和定性評估。本發(fā)明可以如下述來實施。為了給乳腺癌或其某個階段制備標準轉(zhuǎn)錄產(chǎn)物譜,按照已知技術(shù)(參見例如Sambrook et.al. (1989), Molecular Cloning:A laboratory manual, 2nd Ed. , ColdSpring Harbor Laboratory Press, Cold Spring Harbor, N. Y.)從患有乳腺癌或其某個階段的個體或生物體的組織、體液或身體排泄物的細胞提取樣品mRNA。鑒于操作RNA的困難性,優(yōu)選將RNA逆轉(zhuǎn)錄形成第一鏈cDNA。但本發(fā)明的方法中不需要克隆cDNA或者篩選cDNA文庫或者使用cDNA文庫。優(yōu)選地,合成第一鏈cDNAs的互補鏈,即第二鏈cDNAs,但這取決于寡核苷酸探針中存在的是哪個相對鏈。替代地可以不需逆轉(zhuǎn)錄直接使用RNA,如果需要可以將其標記。優(yōu)選地,利用合適的引物通過已知擴增技術(shù),比如聚合酶鏈式反應(yīng)(PCR)擴增cDNA鏈。替代地,將cDNA鏈克隆到載體中,用于轉(zhuǎn)化諸如大腸桿菌的細菌,然后培養(yǎng)細菌來擴增核酸分子。當cDNAs的序列未知時,引物可以針對核酸分子中被引入的區(qū)域。因此,可以例如給cDNA分子連接上接頭,引物可以針對這些部分從而將cDNA分子擴增。替代地,對于真核生物樣品的情況,可以利用RNA的polyA尾巴和帽結(jié)構(gòu)來制備合適的引物。為了制備乳腺癌或其某個階段的標準診斷基因轉(zhuǎn)錄產(chǎn)物譜或指紋,利用以上描述的寡核苷酸探針探測患病樣品的mRNA或cDNA從而產(chǎn)生與每個特定寡核苷酸探針種類(即每個獨特探針)雜交的信號。如果需要,還可以利用來自正常樣品的mRNA或cDNA制備標準對照基因轉(zhuǎn)錄產(chǎn)物譜。因此,將mRNA或cDNA與寡核苷酸探針在適合雜交的條件下進行接觸。替代地,可以給高表達和中等表達的基因設(shè)計特異引物序列,并利用諸如定量RT-PCR的方法來確定高表達和中等表達基因,特別是本文描述的基因的水平。因此,技術(shù)人員可以利用各種本領(lǐng)域已知技術(shù)來確定生物樣品中mRNA的相對水平。當探測多個樣品時,可以用位于一或多個固體支持物(即探針試劑盒模塊)上的相同探針連續(xù)進行,或者通過與相應(yīng)探針(例如相應(yīng)探針試劑盒的模塊)同時雜交來進行。為了確認雜交發(fā)生的時間,并且獲得關(guān)于與寡核苷酸探針發(fā)生結(jié)合的轉(zhuǎn)錄產(chǎn)物/cDNA分子的數(shù)量的指示,有必要識別轉(zhuǎn)錄產(chǎn)物(或相關(guān)分子)雜交時產(chǎn)生的信號(例如通過洗滌除去未結(jié)合分子后,檢測雙鏈核酸分子或者檢測變成結(jié)合狀態(tài)的分子的數(shù)量,或者通過檢測擴增產(chǎn)物形成的信號)。為了獲得信號,發(fā)生雜交的兩種成分(即探針和轉(zhuǎn)錄產(chǎn)物)中的任何一種或者兩者都可以帶有或者形成能夠產(chǎn)生信號的手段或者一部分。這種“產(chǎn)生信號的手段”是能夠通 過信號的產(chǎn)生或存在而被直接或間接檢測到的任何部分。所述信號可以是任何可檢測的物理特征,比如現(xiàn)有分子(例如標記)或可能產(chǎn)生的分子(例如散發(fā)的氣體)的輻射、散射或吸收特性、磁性或其它物理屬性,比如電荷、大小或結(jié)合特性所賦予的可檢測物理特性。優(yōu)選那些能夠?qū)⑿盘柗糯蟮募夹g(shù),例如由單個活性結(jié)合部位產(chǎn)生多個信號事件的技術(shù),例如通過酶的催化作用產(chǎn)生多個可檢測的產(chǎn)物。信號傳遞的工具(means)可以方便地是本身提供可檢測信號的標記。這可以通過使用放射性標記或在生成cDNA、制備互補cDNA鏈、擴增目標mRNA/cDNA期間引入的或直接添加給靶核酸分子的其它標記來方便地實現(xiàn)。合適的標記是那些使得能夠直接或間接檢測或測量轉(zhuǎn)錄產(chǎn)物/cDNA的存在的標記。這類標記包括例如放射性標記、化學(xué)標記,例如發(fā)色團或熒光團(例如染料,比如熒光素和羅丹明),或者高電子密度的試劑,比如鐵蛋白、血藍蛋白或膠體金。替代地,標記可以是酶,例如過氧化物酶或堿性磷酸酶,其中可以通過酶和合適實體(例如底物)的相互作用來看到酶的存在。標記還可以構(gòu)成信號產(chǎn)生對的一部分,其中該信號產(chǎn)生對里的另一個成員被發(fā)現(xiàn)位于轉(zhuǎn)錄產(chǎn)物/cDNA所結(jié)合的寡核苷酸探針上或者離探針很近,例如可以使用熒光化合物和淬火熒光底物。還可以將標記放在不同實體(比如抗體)上提供,所述實體識別轉(zhuǎn)錄產(chǎn)物/cDNA上附著的肽部分,例如附著在合成或者擴增過程中使用的基底上的肽部分??梢酝ㄟ^在雜交步驟之前、之中或者之后引入標記來獲得信號。替代地,可以通過其他物理特性識別雜交轉(zhuǎn)錄產(chǎn)物的存在,比如它們的吸光度,這種情況中產(chǎn)生信號的手段是復(fù)合體本身。然后評估每個寡核苷酸探針相關(guān)聯(lián)的信號的量。評估可以是定量或定性的,可能基于單一轉(zhuǎn)錄產(chǎn)物種類(或相關(guān)cDNA或其它產(chǎn)物)與每個探針的結(jié)合,或者基于多個轉(zhuǎn)錄產(chǎn)物種類與每個獨特探針的多個拷貝的結(jié)合??梢岳斫?,定量結(jié)果能夠給編制的乳腺癌或其某個階段的轉(zhuǎn)錄產(chǎn)物指紋提供更多信息。這一數(shù)據(jù)可以表達為絕對數(shù)值(對宏觀陣列的情況)或者是相對具體標準或參照物(例如正常對照樣品)來確定。此外,還應(yīng)當理解,標準診斷基因轉(zhuǎn)錄產(chǎn)物譜的制備可以利用一或多種疾病(乳腺癌)樣品(還有正常樣品,如果使用的話)進行雜交步驟從而得到不偏向基因表達中特定個體差異的譜圖。利用探針制備標準譜,以及利用這樣產(chǎn)生的標準診斷基因產(chǎn)物譜對特定生物體中的乳腺癌或其某個階段進行鑒定或診斷或監(jiān)測構(gòu)成了發(fā)明的另一個方面。一旦利用選中的寡核苷酸探針給乳腺癌或其某個階段確定了標準診斷指紋或譜,該信息即可用于鑒定不同待測生物體或個體中乳腺癌的存在與否或者乳腺癌的程度或階段。為了考察待測樣品的基因表達譜,要從待研究的患者或生物體中獲得含有細胞的組織、體液或身體排泄物檢驗樣品,所述檢驗樣品對應(yīng)制備標準譜圖所使用的樣品。然后按照以上對制備標準譜的描述,制備待測基因轉(zhuǎn)錄產(chǎn)物譜。
因此本發(fā)明另一個方面提供了制備待測基因轉(zhuǎn)錄產(chǎn)物譜的方法,所述方法包括至少以下步驟a)從所述待測生物體的樣品細胞中分離mRNA,任選將其逆轉(zhuǎn)錄為cDNA ;b)將步驟(a)的mRNA或cDNA與上文描述的生物體及其樣品中乳腺癌或其某個階段的特異性寡核苷酸組或試劑盒進行雜交,所述生物體及其樣品對應(yīng)被考察的生物體及其樣品;和c)評估與每個所述探針雜交的mRNA或cDNA的量,從而產(chǎn)生所述譜圖,該譜圖反映了所述待測樣品中所述寡核苷酸結(jié)合的基因的基因表達水平。優(yōu)選方面中,所述方法使用了能夠擴增mRNA或cDNA或其一部分的引物,評估擴增產(chǎn)物的量從而產(chǎn)生譜圖。正如上文描述的,標記探針和引物都可以用于發(fā)明的優(yōu)選方面。然后可以將該待測譜圖與一或多個標準譜圖比較來評估樣品是否含有這樣的細胞,所述細胞表現(xiàn)出指示個體患有乳腺癌或其某個階段的基因表達譜。因此,從另一方面來說,本發(fā)明提供了診斷或確認或監(jiān)測生物體中乳腺癌或其某個階段的方法,所述方法包括以下步驟a)從所述生物體的樣品細胞中分離mRNA,任選將其逆轉(zhuǎn)錄為cDNA ;b)將步驟(a)的mRNA或cDNA與上文描述的生物體及其樣品中乳腺癌或其某個階段的特異性寡核苷酸組或試劑盒進行雜交,所述生物體及其樣品對應(yīng)被考察的生物體及其樣品;c)評估與每個所述探針雜交的mRNA或cDNA的量,從而產(chǎn)生特征譜,該特征譜反映了所述待測樣品中所述寡核苷酸所結(jié)合的基因的基因表達水平;和d)將所述譜圖與標準診斷譜比較來確定表明被考察生物體患有乳腺癌或其某個階段的相關(guān)度,其中所述標準診斷譜是按照發(fā)明的方法利用來自被考察生物體和樣品對應(yīng)的生物體的樣品制備的。上述方法直至步驟c)并包括步驟c)時是制備上述待測譜的方法。優(yōu)選方面中,所述方法使用了能夠擴增mRNA或cDNA或其一部分的引物,評估擴增產(chǎn)物的量從而產(chǎn)生譜圖。正如上文描述的,標記探針和引物都可以用于發(fā)明的優(yōu)選方面。文中被稱為“診斷”的是指確定生物體中是否存在(presence或existence)乳腺癌或其某個階段。“監(jiān)測”是指確立乳腺癌的程度,特別是已經(jīng)知道個體患有乳腺癌時,例如監(jiān)測治療效果或者乳腺癌的發(fā)展從而確定治療是否合適或者提供預(yù)后。優(yōu)選方面中,在通過例如手術(shù)、放療和/或化療治療后,對患者進行監(jiān)測,通過恢復(fù)到正常表達譜的情況來確定治療的效果。因此優(yōu)選方面中,本發(fā)明提供了監(jiān)測生物體中乳腺癌或其某個階段的方法,所述方法包括以上描述的步驟a)到d),其中所述監(jiān)測在對所述生物體中的所述乳腺癌治療后進行,以便確定所述治療的效果。樣品生成的譜圖和標準乳腺癌(或其某個階段)譜圖之間的相關(guān)程度可以表明是否仍存在乳腺癌的典型基因表達,因此可以表明治療是否成功?;謴?fù)到正常表達譜圖則指示治療的成功。通過確定標準和待測樣品的譜圖之間的相關(guān)度可以確認是否存在乳腺癌或其某個階段。這必然要考慮到由正常和疾病樣品獲得的數(shù)值的范圍。雖然可以通過從能夠結(jié)合探針的多個代表性樣品獲得標準差從而建立標準譜圖,但應(yīng)當明白,如果待測樣品表現(xiàn)出與標準的密切相關(guān)性,單個樣品可能就足以產(chǎn)生鑒定乳腺癌的標準譜圖。待測樣品中是否存在乳腺癌或其某個階段或者它們的發(fā)展程度可以方便地通過將待測樣品中探針表達水 平的有關(guān)數(shù)據(jù)插入根據(jù)公式I建立的標準診斷探針譜來進行預(yù)測??梢岳酶鞣N技術(shù),從最基本的可視化表示形式(例如與強度相關(guān)的情況)到更復(fù)雜的數(shù)據(jù)處理,對采用以上提到的方法生成的數(shù)據(jù)進行分析,從而識別出潛在的模式,所述模式反映了不同探針所結(jié)合的每個基因的表達水平的相互關(guān)系,這種相互關(guān)系可以數(shù)學(xué)地定量和表現(xiàn)。這樣生成的原始數(shù)據(jù)可以方便地通過下文描述的數(shù)據(jù)加工和統(tǒng)計方法來處理,特別是將數(shù)據(jù)歸一化和標準化,以及將數(shù)據(jù)與分類模型進行擬合從而確定所述測試數(shù)據(jù)是否反映乳腺癌或其某個階段的模式.本文描述的方法可以用于鑒定、監(jiān)測或診斷乳腺癌或其某個階段或者進展,為此使用的寡核苷酸探針是信息性的。本文的“信息性(informative) ”探針是那些反映這里討論的乳腺癌或者其特定階段中表達改變的基因的探針。本文描述的個別探針在單獨使用時可能對于診斷目的來說信息性不夠,但當用作幾個探針中的一個(例如在以上描述的探針組中)來提供特征性譜圖時則能夠提供信息。優(yōu)選地,所述探針對應(yīng)受到乳腺癌或其某個階段系統(tǒng)影響的基因。特別優(yōu)選地,轉(zhuǎn)錄產(chǎn)物所來源的與本發(fā)明所述探針結(jié)合的基因是中等表達或高表達的。使用針對中等表達或高表達基因的探針的優(yōu)勢是生成必要的基因表達數(shù)據(jù)組只需要較小的臨床樣品,例如小于Iml的血樣。此外,還發(fā)現(xiàn)這種已經(jīng)活躍轉(zhuǎn)錄的基因傾向于更容易受到新刺激的正面或負面影響。而且,因為轉(zhuǎn)錄產(chǎn)物的產(chǎn)生水平已經(jīng)一般來說是可以檢測到的,很容易檢測到這些水平發(fā)生的小變化,因為例如不需要達到某個可檢測的閾值。因此,本發(fā)明再一個方面中提供了上文描述的探針組用于診斷或鑒定乳腺癌或其某個階段或者監(jiān)測它們的進展。診斷方法可以單獨地作為其他診斷技術(shù)的替代,或者是這類技術(shù)的附加。例如,發(fā)明的方法可以在例如腫瘤的鑒定和/或診斷中作為利用成像技術(shù)(比如磁共振成像(MRI)、超聲成像、核成像或X射線成像)進行診斷的替代或者附加診斷措施。發(fā)明的方法可以在來自原核或真核生物的細胞上進行,所述原核或真核生物可以是任何真核生物,比如人、其他哺乳動物和動物、鳥、昆蟲、魚和植物,以及任何原核生物,比如細菌。
可以實施發(fā)明所述方法的優(yōu)選非人動物包括,但不限于哺乳動物,尤其是靈長類、家養(yǎng)動物、家畜和試驗動物。因此優(yōu)選的診斷動物包括小鼠、大鼠、豚鼠、貓、犬、豬、奶牛、山羊、綿羊、馬。特別優(yōu)選對人類癌癥,優(yōu)選地對人類乳腺癌進行診斷、鑒定或監(jiān)測。正如以上描述的,被研究的樣品可以是任何方便從生物體獲得的樣品。但正如以上提到的,優(yōu)選樣品是從遠離疾病部位的位置獲得的,這種樣品中的細胞不是疾病細胞、還未與疾病細胞接觸過,不是從疾病部位起源的。這種情況中,樣品可以含有不符合這些標準的細胞,雖然優(yōu)選沒有這類細胞。但是,因為本發(fā)明的探針與那些的確滿足這些標準的細胞中表達改變的轉(zhuǎn)錄產(chǎn)物有關(guān),即使有其他背景細胞,探針仍特異地針對檢測那些細胞中轉(zhuǎn)錄產(chǎn)物水平的變化。生成標準譜圖和待測譜圖的方法以及診斷技術(shù)依賴于使用信息性寡核苷酸探針來產(chǎn)生基因表達數(shù)據(jù)。某些情況中,對于特定方法(例如用于診斷特定乳腺癌或其某個階段)有必要從一系列可以得到的探針中挑選這些信息性探針,所述可以得到的探針是例如表5寡核苷酸、表5衍生的寡核苷酸、它們的互補序列和功能等同寡核苷酸。所述衍生的寡核苷酸包括與這些表中提供的序列(其中提供了基因標識)對應(yīng)的基因所衍生的寡核苷酸。以下方法學(xué)描述了鑒定這類信息性探針的簡便方法,或者更具體地說,如何從本文描述 的探針中選擇合適的探針子集。用于分析特定乳腺癌或其某個階段的探針可以通過現(xiàn)有技術(shù)中的多種已知方法來鑒定,包括通過差異表達或者文庫消減(參見例如W098/49342)。正如W004/046382和下文中描述的,考慮到多數(shù)轉(zhuǎn)錄產(chǎn)物的高信息含量,作為開始,可以直接分析與本文描述的序列家族對應(yīng)的mRNA或cDNA種類的隨機子集,并從該子集中選擇最有信息性的探針。當前的情況中提供了可供選擇的探針。以下方法描述了利用固定化寡核苷酸探針(例如,本發(fā)明的探針)來鑒定哪些探針對于鑒定乳腺癌,例如疾病樣品是最能提供信息的,其中所述寡核苷酸探針被來自不同樣品的mRNA(或相關(guān)分子)所結(jié)合。替代地,以上描述的子集可以本文中所述的方法。以下方法描述了如何從本文公開的那些探針中鑒定探針子集或者如何鑒定可以與本文公開的探針聯(lián)合使用的額外的信息性探針。方法還描述了一旦探針選擇好了,樣品診斷所使用的統(tǒng)計方法。固定化探針可以來源于各種無關(guān)或有關(guān)生物體;唯一的要求是所述固定化探針應(yīng)當與待測生物體中它們的同源對應(yīng)物特異結(jié)合。探針還可以來源于或者挑選自商業(yè)或公共數(shù)據(jù)庫,并固定在固體支持物上,或者象以上描述的,可以從cDNA文庫隨機挑選和分離,并固定在固體支持物上。固定在固體支持物上的探針的長度應(yīng)當保證能特異結(jié)合到靶序列上。固定化探針可以處于DNA、RNA或它們的修飾產(chǎn)物或PNAs (肽核酸)的形式。優(yōu)選地,被固定的探針應(yīng)當能與它們的同源對應(yīng)物特異結(jié)合,所述同源對應(yīng)物代表了待測生物體中高表達和中等表達的基因。方便的是,使用的探針是本文描述的探針。利用現(xiàn)有技術(shù)(比如下文描述的微陣列或宏觀陣列)或者利用本文描述的方法可以生成生物樣品中細胞的基因表達譜。目前已開發(fā)了多種同時監(jiān)測生物樣品中大量基因的表達水平的技術(shù),比如高密度oligo微陣列(Lockhart et al.,1996,Nat.Biotech.,14,pl675_1680)、cDNA 微陣列(Schena et al, 1995,Science, 270,p467_470)和 cDNA 宏觀陣列(Maier E et al. , 1994, Nucl. Acids Res. , 22, p3423~3424; Bernard etal. , 1996, Nucl. Acids Res. , 24, pl435_1442)。在高密度oligo微陣列和cDNA微陣列中,成千上萬探針寡核苷酸或cDNA被點在載片或尼龍膜上,或者合成在生物芯片上。分離自待測和參照樣品的mRNA用紅色或綠色熒光染料通過逆轉(zhuǎn)錄標記,混合并雜交到微陣列上。洗滌后,通過激光檢測結(jié)合的熒光染料,產(chǎn)生每種染料一個圖像共兩個圖像。這樣得到的兩個圖像上紅點和綠點的比率提供了關(guān)于待測樣品和參照樣品中基因表達水平變化的信息。替代地,還可以進行單通道或多通道微陣列。生成的基因表達數(shù)據(jù)需要預(yù)處理,因為有幾個因素會影響到雜交信號的質(zhì)量和數(shù)量。例如,不同樣品中分離到的mRNA的質(zhì)量和數(shù)量的差異、每個反應(yīng)中標記靶分子效率的微小差異,以及不同微陣列間非特異結(jié)合量的差異都可能造成所得數(shù)據(jù)組中的噪音,必須在分析前給予修正。例如,可以在分析前從數(shù)據(jù)組中去除低信噪比的測量值。然后將數(shù)據(jù)轉(zhuǎn)換以便穩(wěn)定數(shù)據(jù)結(jié)構(gòu)中的差異,針對探針強度的不同進行歸一。 多種轉(zhuǎn)換技術(shù)已在文獻中有描述,概述可見Cui, Kerr and Churchill, http://www.jax. org/research/churchill/research/expression/Cui-Transform. pdf。 基因表達數(shù)據(jù)歸一化的幾個方法已有描述(Richmond and Somerville, 2000, Current Opin.Plant Biol. , 3, pl08-116;Finkelstein et al. , 2001, In^Methods of Microarray DataAnalysis. Papers from CAMDA, Eds. Lin & Johnsom, Kluwer Academic, p57_68;Yang etal. , 2001, In^Optical Technologies and Informatics'Eds.Bittner, Chen, Dorsel& Dougherty, Proceedings of SPIE,4266,pl41-152;Dudoit et al,2000, J.Am. Stat. Ass.,97,p77_87;Alter et al 2000,同前;Newton et al. , 2001, J. Comp.Biol.,8,p37-52)。通常,首先計算換算系數(shù)或函數(shù)來修正強度效應(yīng),然后用于對強度進行歸一化。還建議使用外部對照來改善歸一化。大規(guī)?;虮磉_分析中遇到的另一個主要困難是對不同時間進行的試驗中采集到的數(shù)據(jù)進行標準化。我們觀察到對于相同試驗中獲取的樣品基因表達數(shù)據(jù),在背景修正和歸一化后可以有效地進行比較。但是不同時間進行的試驗獲取的數(shù)據(jù)在分析前需要進一步標準化。這是因為不同試驗中試驗參數(shù)的細微差別,例如不同時間提取的mRNA的質(zhì)量和數(shù)量的差別;靶分子標記使用的時間、雜交時間或者曝光時間的差別都可能對測量值有影響。此外,諸如被考察轉(zhuǎn)錄產(chǎn)物的序列屬性(它們的GC含量)以及它們之間的相對量的因素決定了它們?nèi)绾伪辉囼炦^程的細微差別所影響。這些因素決定了,例如在第一鏈合成過程中,與特定轉(zhuǎn)錄產(chǎn)物對應(yīng)的第一鏈cDNAs的轉(zhuǎn)錄和標記效率如何,或者雜交過程中相應(yīng)標記靶分子與其互補序列結(jié)合的效率如何批量生產(chǎn)中批次之間的差別也是造成所生成的表達數(shù)據(jù)不同的一個主要因素。不能適當?shù)靥幚砗托U@些影響會導(dǎo)致系列試驗之間的差別降低基因表達數(shù)據(jù)組中含有的主要目標信息可信度的情形,即來自不同系列試驗的組合數(shù)據(jù)中的差別。因此,需要的時候要在數(shù)據(jù)分析前對表達數(shù)據(jù)進行批次調(diào)整。監(jiān)測多個樣品中大量基因的表達會生成大量復(fù)雜的數(shù)據(jù),很難簡單地解釋。幾項非監(jiān)督式和監(jiān)督式多元數(shù)據(jù)分析技術(shù)經(jīng)證實可以用于從這些大數(shù)據(jù)組中提取有用的生物信息。目前為止,聚類分析是基因表達分析中最常用的技術(shù),曾用于鑒定調(diào)控方式類似的基因,或者利用基因表達特性鑒定新的/未知的腫瘤類型(Eisen et al.,1998,PNAS,95, pl4863-14868, Alizadeh et al. 2000,同前,Perou et al. 2000, Nature, 406, p747-752;Ross et al, 2000, Nature Genetics, 24(3), p227~235;Herwig et al. , 1999, GenomeRes.,9,pl093_1105;Tamayo et al, 1999, Science, PNAS, 96, p2907_2912)。在聚類方法中,基因根據(jù)它們的表達特性被分成功能類別(叢),所述叢滿足兩個標準同質(zhì)性-相同叢中的基因表達方式高度類似;和分隔性-不同叢中的基因表達方式相似度低。已用于基因表達分析的不同聚類技術(shù)的例子包括多級聚類(Eisen et al.,1998,同前;Alizadeh et al. 2000,同前;Perou et al. 2000,同前;Ross et al, 2000,同前)、K-均值聚類(Herwig et al. , 1999,同前;Tavazoie et al, 1999, NatureGenetics, 22 (3),ρ· 281-285)、基因剃須(gene shaving) (Hastie et al. , 2000, GenomeBiology, I (2), research 0003. 1-0003.21)> 塊聚類(block clustering) (Tibshirani et al. , 1999, Tech report Univ Stanford.)、格子模型(Plaid model)(Lazzeroni, 2002, Stat. Sinica, 12, p61-86)和自組織映射(self-organizing maps)(Tamayo et al. 1999,同前)。此外,相關(guān)的多元統(tǒng)計分析方法,比如利用奇異值分解(Alteret al. , 2000, PNAS, 97 (18), pl0101-10106; Ross et al. 2000,同前)或多維標度法進行的分析也可以有效地減少被研究對象的維度。但是,諸如聚類分析和奇異值分解的方法只是探索性的,僅提供數(shù)據(jù)中存在的內(nèi)部結(jié)構(gòu)概貌。它們是非監(jiān)督式方法,其中關(guān)于被考察類別的特點的信息不被用在分析中。通常具體樣品受到的生物擾動的性質(zhì)是已知的。例如,有時基因表達譜被分析的樣品是從患病還是健康個體得到的是已知的。這種情況中,可以利用判別分析將樣品根據(jù)其基因表達數(shù)據(jù)分成不同群。在這種分析中,人們通過訓(xùn)練數(shù)據(jù)建立能夠區(qū)分給定類別的成員和非成員的分類器。然后利用受訓(xùn)分類器來預(yù)測未知樣品的類別。文獻中描述過的判別方法的例子包括支持向量機(Support Vector Machines) (Brown et al, 2000,PNAS, 97,p262_267)、最近鄰域(Nearest Neighbour) (Dudoit et al. , 2000,同前)、分類樹(Dudoit et al. , 2000,同前)、投票分離(Voted classification) (Dudoit et al. , 2000,同前)、加權(quán)基因投票(WeightedGene voting) (Golub et al. 1999,同前)和 Bayesian 分類法(Keller et al. 2000, Tecreport Univ of Washington)。還描述(Nguyen & Rocke, 2002, Bioinformatics, 18, p39_50和1216-1226)過這樣一項技術(shù),其中首先利用PLS(偏最小二乘)回歸分析來減少基因表達數(shù)據(jù)組的維度,然后利用logistic判別分析和二次判別分析(LD和QDA)進行分類。基因表達數(shù)據(jù)給經(jīng)典判別方法帶來的挑戰(zhàn)是與被分析樣品的數(shù)量相比,其表達被分析的基因的數(shù)量巨大。但是多數(shù)情況中,這些基因中只有一小部分能夠給判別分析問題提供信息。而且,一個危險是來自無關(guān)基因的噪音可能掩蓋或扭曲來自信息性基因的信息。文獻中建議了幾種鑒定和挑選能夠給微陣列研究提供信息的基因的方法,例如 t-統(tǒng)計量(Dudoit et al, 2002,J. Am. Stat. Ass.,97,p77_87)、方差分析(Kerr et al.,2000,PNAS, 98,p8961_8965)、近鄰分析(Neighbourhood analysis)(Golub et al, 1999,同前)、群之間和群內(nèi)的平方和比率(Dudoit et al. , 2002,同前)、非參數(shù)打分(Non parametric scoring) (Park et al. , 2002, Pacific Symposium onBiocomputing, p52-63)和似然選擇(Likelihood selection) (Keller et al. , 2000,同前)。在本文描述的方法中,經(jīng)過歸一化和標準化的基因表達數(shù)據(jù)利用偏最小二乘回歸(PLSR)來分析。雖然PLSR主要是用于連續(xù)數(shù)據(jù)的回歸分析的方法,它也可以利用基于二進制編碼的虛擬響應(yīng)矩陣(dummy response matrix)作為建模和判別分析的方法。類別分配基于簡單的二分法區(qū)別,比如乳腺癌(類別I)/健康(類別2),或者基于多個疾病診斷的多重區(qū)別,比如乳腺癌(類別I)/卵巢癌(類別2)/健康(類別3)。根據(jù)可得到的對應(yīng)其他癌癥或其各階段的樣品,可以增加分類的疾病列表。作為分類方法應(yīng)用的PLSR被稱為PLS-DA (DA表示判別分析)。PLS-DA是PLSR算法的延伸,其中Y-矩陣是含有η行(對應(yīng)樣品的數(shù)量)和K欄(對應(yīng)類別的數(shù)量)的虛擬矩陣。Y-矩陣的構(gòu)建是如果相應(yīng)的X中第i個對象屬于類別k,則在第k欄中插入1,在所有其他欄中減I。經(jīng)Y對X的回歸,通過選擇與擬合中最大成分對應(yīng)的群實現(xiàn)對新樣品的分類,9(x) = (V 1(X),y2(x),...,因此,在-1/1響應(yīng)矩陣中,O以下的預(yù)測值意味著樣品屬于被指定為-I的類別,而O以上的預(yù)測值表明樣品屬于被指定為I的類別。 鑒于PLS-DA處理共線數(shù)據(jù)的能力和PLSR作為維度減少技術(shù)的屬性,通常推薦把它作為分類問題的出發(fā)點。一旦滿足了這個目的,就可能使用其他經(jīng)證實能有效提取進一步信息的方法,比如線性判別分析 _LDA(Indahl et al. , 1999, Chem. and Intell. Lab.Syst.,49,pl9-31)。該方法基于首先利用PLS-DA分解數(shù)據(jù),然后用得分向量(而不是開始的變量)給LDA作為輸入。LDA的其他細節(jié)可以參考Duda and Hart (Classification andScene Analysis, 1973, Wiley, USA) 建模后的下一步是模型驗證。該步驟被認為是多變量分析中最重要的方面之一,可以測試已建立的校準模型是否好用。本工作中,驗證使用了交叉驗證法。該方法中,每個節(jié)段中有一或少數(shù)幾個樣品被排除在外,同時在其余數(shù)據(jù)的基礎(chǔ)上利用全交叉驗證來建立模型。然后用留下的樣品進行預(yù)測/分類。將簡單的交叉驗證過程重復(fù)幾次,每次交叉驗證留下不同的樣品,得到所謂的雙重交叉驗證程序。該方法經(jīng)證實對有限量的數(shù)據(jù)可以順利執(zhí)行,正如本文描述的實施例中的情況。而且,因為交叉驗證步驟被重復(fù)了幾次,模型偏向性和擬合過度的危險會被減少?!┙⒉⑶因炞C好校準模型,可以通過現(xiàn)有技術(shù)中其他地方描述過的變量選擇技術(shù)來選擇模型中那些表現(xiàn)出與描述所需信息最相關(guān)的表達譜的基因。變量選擇能夠幫助減少最終模型的復(fù)雜度,提供簡約模型,由此產(chǎn)生可以用于預(yù)測的可靠模型。此外,使用較少基因來提供診斷能夠降低診斷產(chǎn)品的成本。以這種方式可以鑒定到能夠結(jié)合相關(guān)基因的信息性探針。我們發(fā)現(xiàn)在校準模型建立好后,可以利用比如基于重新取樣法的Jackknife(Effron, 1982, The Jackknife, the Bootstrap and other resampling plans。Society for Industrial and Applied mathematics, Philadelphia, USA)的統(tǒng)計技術(shù)有效地選擇或者確認顯著變量(信息性探針)??梢酝ㄟ^以下估計PLS回歸系數(shù)B的大概不確
定方差
MS2B= Σ ((B-Bm)g)2
m=l
其中S2B=B 的經(jīng)估計的不定方差(uncertainty variance);B=在經(jīng)交叉驗證的A排的回歸系數(shù),使用所有N個對象;Bffl = A排的回歸系數(shù),使用除給交叉驗證節(jié)段m所留對象外的所有對象;和g=換算系數(shù)(此處g=l)。在我們的方法中,將Jackknife與交叉驗證一起實行。對每個變量,首先計算經(jīng)過交叉驗證的子模型中的B系數(shù)Bi和總模型的Btot的差別。然后計算所有子模型中差別的平方和從而得到估計的變量的Bi方差表達方式。估計的Bi的顯著性利用t檢驗計算。因此,可以給予這樣得到的回歸系數(shù)對應(yīng)2個標準差的不確定性極限,由此檢測到顯著變量。這里沒有提供更多關(guān)于該步驟的實行或使用的細節(jié),因為在商業(yè)軟件The Unscrambler, CAMO ASA, Norway 中已有米用。并且 Westad & Martens (2000, J. Near Inf.Spectr.,8,pll7_124)中有關(guān)于利用Jackknfe進行變量選擇的細節(jié)。可以利用以下步驟從基因表達數(shù)據(jù)組中選擇信息性探針a)每個交叉驗證節(jié)段留出一個獨特樣品(包括數(shù)據(jù)中的重復(fù));b)利用PLSR-DA對剩下的樣品建立校準模型(交叉驗證節(jié)段);c)利用Jackknfe標準給步驟b)的模型選擇顯著基因;d)重復(fù)以上3個步驟直至數(shù)據(jù)組中的所有獨特樣品被留出來過一次(正如步驟a描述的)。例如,如果數(shù)據(jù)組中有75個獨特樣品,就建立75個不同校準模型,產(chǎn)生75個不同的顯著探針組;e)利用出現(xiàn)率標準選擇步驟d)生成的顯著探針組中最顯著的變量。例如,在步驟d)產(chǎn)生的所有組中都出現(xiàn)的一組探針(100%)比只在50%的組中出現(xiàn)的探針更有信息性。實施例I中執(zhí)行力這樣的方法。一旦選擇好疾病的信息性探針,即可制作并驗證最終模型。模型驗證最常用的兩種途徑是交叉驗證(CV)和測試集驗證。在交叉驗證中,數(shù)據(jù)被分為k個子集。然后將模型訓(xùn)練k次,每次留出一個子集不進行訓(xùn)練,但只用省略的這個子集來計算誤差準則RMSEP(均方根預(yù)測誤差(Root Mean Square Error of Prediction))。如果k等于樣品大小,這稱為“留一 ”交叉驗證。每個驗證節(jié)段留出一個或少數(shù)幾個樣品的想法只有在各個試驗之間的協(xié)方差是零的情況下才有效。因此,一次一個樣品的做法對于含有副本的情況不合理,因為只留出副本中的一個會給分析帶來系統(tǒng)性偏差。這種情況中正確的做法是每次留出相同樣品的所有副本,因為這樣可以滿足CV節(jié)段間協(xié)方差為零的假設(shè)。模型驗證的第二種方法是使用獨立的測試集來驗證校準模型。這要求進行獨立的一組試驗來作為測試集。只要有真實的測試數(shù)據(jù),這是優(yōu)選的方法。然后利用最終模型在待測樣品中鑒定乳腺癌或其某個階段。為了這個目的,由待測樣品生成選中的信息性基因的表達數(shù)據(jù),然后利用最終模型確定樣品是否屬于患病或未患病類別,即樣品是否來自患有乳腺癌或其某個階段的個體。優(yōu)選地,通過利用探針相關(guān)數(shù)據(jù)生成用于分類目的的模型,其中所述探針是按照以上描述的方法鑒定到的探針和/或上文描述的探針。這類寡核苷酸可以相當長,例如如果使用的是cDNA(涵蓋在術(shù)語“寡核苷酸”的范圍內(nèi))。鑒定到可以作為探針的這類cDNA分子就可以開發(fā)能夠反映cDNA分子的特異性但更容易生產(chǎn)和操作的較短寡核苷酸。優(yōu)選地,樣品如先前描述的。然后利用以上描述的模型生成和分析待測樣品的數(shù)據(jù),從而用于發(fā)明的診斷方法。在這些方法中,由待測樣品生成的數(shù)據(jù)提供了基因表達數(shù)據(jù)集,該數(shù)據(jù)集按照以上描述被歸一化和標準化。然后與以上描述的校準模型擬合從而提供分類。為了鑒定分離到的群體中高表達或中等表達的基因以便用于本發(fā)明的方法,可以利用幾種現(xiàn)有技術(shù)獲取關(guān)于所述基因的轉(zhuǎn)錄產(chǎn)物在目標樣品中相對水平的信息。非基于序列的方法(比如差異展示或RNA指紋法)和基于序列的方法(比如微陣列或宏觀陣列)都可以用于該目的。替代地,可以設(shè)計高表達和中等表達基因的特異引物,利用諸如定量RT-PCR的方法來確定高表達和中等表達基因的水平。因此,技術(shù)人員可以使用各種本領(lǐng)域已知技術(shù)來確定生物樣品中的mRNA相對水平。特別優(yōu)選地,以上描述的方法中用于分離mRNA的樣品和以前描述的一樣,優(yōu)選不是來自疾病部位,所述樣品中的細胞不是疾病細胞并且沒有接觸過疾病細胞,例如使用外 周血樣品。以下實施例僅用于說明,其中提到的圖是圖I顯示了從預(yù)先處理過的基因表汰數(shù)據(jù)(11217個探針)中除去0%出現(xiàn)率的探針時,預(yù)測模型在所有PLSR成員中的準確性;Ml顯示了在TaqMan LDA分析中使用96孔分析格式時,預(yù)測模型在不同PLS成員中的準確性;和Ml顯示了從表5寡核苷酸中隨機挑選5個或以上探針的效率,以及它們在校正乳腺癌樣品分類中的準確性。實施例I:信息性探針的鑒定和它們在乳腺癌診斷中的用途材料與方法受試對象信息和為微陣列試驗講行的采血2002-2004年,書面知情同意獲得Regional Ethical Committee of Norway (Ref.no. 416-01151)批準后,在兩家挪威醫(yī)院(Ulleval University Hospital 和 HaukelandUniversity Hospital)采集了 200個血樣。包括的受試對象是從第一次懷疑篩選乳房攝影后召集來進彳丁弟~■次檢驗的婦女中隨機挑選的。樣品在臨床檢驗如米集,所述臨床檢驗包括診斷性乳房攝影篩檢和活檢,或者對于陽性乳房攝影的情況,包括細針抽吸術(shù)。細胞學(xué)揭示表現(xiàn)是惡性還是良性的。對于沒有異常乳房攝影表現(xiàn)的受試對象,事實的標準是單獨的乳房攝影篩檢。從每名婦女米集2. 5ml 血液到 PAXgeneTM 管(PreAnalytiX, Hombrechtikon, Switzerland)中,室溫下放置過夜,然后保存在-80° C待用。由于方法的發(fā)展和對多種基因表達平臺的測試,本研究中僅包括了開始采集的200個樣品中的121個。診斷性乳房攝影術(shù)和組織病理報告顯示這121名婦女中,57名患有浸潤性乳腺癌,10名患有乳腺導(dǎo)管內(nèi)原位癌(DCIS),54名沒有惡性疾病跡象。在后面的54人中,12人有良性表現(xiàn),包括纖維腺瘤、囊腫和某些未指明的表現(xiàn)(表I)。關(guān)于乳腺癌受試對象、腫瘤階段、分級和其他的相關(guān)臨床數(shù)據(jù)進行了記錄(表I和2)。測試組和對照組中的個體在年齡、絕經(jīng)狀態(tài)和先前的絕經(jīng)荷爾蒙治療方面做了平衡(表3)。除了 121個樣品,還在不同時間點從兩名健康女性采集了 5份血樣(生物重復(fù)樣品),采集了來自懷孕婦女的三份血樣和來自哺乳健康婦女的一份樣品,得到來自127名個體的130個樣品進行基因表達分析(表I)。研究設(shè)計為了控制技術(shù)變化性,比如不同微陣列生產(chǎn)批次、試劑和試劑盒的逐批差異、與不同試驗操作人員有關(guān)的每日差異和影響,遵照了嚴格的試驗設(shè)計。樣品隨機分為10個一組的批次,每批含有相同數(shù)量的來自患有乳腺癌的婦女的樣品和沒有疾病跡象的婦女的樣品。每批中的所有樣品由一名操作人員獨自經(jīng)過每個試驗步驟一起處理,所述操作人員不知道癌癥狀態(tài)。每批中包括兩份對照樣品,和其他10份樣品遵循相同的試驗程序。這些對照樣品由分離自一名健康女性的總RNA構(gòu)成。每個批次內(nèi)樣品的順序經(jīng)過隨機化處 理。為了修正任何批次差異,我們使用了 Tibshirani描述的批次調(diào)整方法(Tibshirani etal.,2002, PNAS, 99,p6567_6572)??偣?3批包括130個樣品和26個技術(shù)對照得到了這樣的分析。RNA 提取PAXgene 管以12管的批次過夜融化,根據(jù)生產(chǎn)商的試驗方案提取總RNA。分析前將總RNA保存在-80 ° C。分別使用2100Bioanalyzer (AgilentTechnologies, California,USA)和 NanoDrop ND-1000 分光光度計(ThermoScientific, Delaware, USA)進行RNA質(zhì)量和數(shù)量的測量。微陣列討稈利用含有代表29,098個基因的32,878個探針的單通道Applied BiosystemsHuman Genome Survey microarrays v2. 0 進行了微陣列基因表達研究。按照 NanoAmpRT-IVT Labeling Kit Protocol,由每個樣品擴增并標記500ng總RNA,于55。C在陣列上雜交16小時。雜交后,根據(jù)生產(chǎn)商的建議將載片手動洗滌并準備,之后利用AB1700閱讀儀獲取圖像。利用Applied Biosystems Expression System軟件對基因表達信號、信噪比進行鑒定和定量并標志失敗的位點。輸出原始文件以便進一步分析。數(shù)據(jù)分析數(shù)據(jù)分析用R (R Development Core Team. R:A Language and Environment forStatistical Computing. 2009)和經(jīng)過調(diào)試適應(yīng)我們的需要的來自Bioconductor課題(Gentleman et al. , 2004, Genome Biol. , 5, R80)的工具進行。數(shù)據(jù)通過以下方式預(yù)處理將數(shù)據(jù)進行l(wèi)og2轉(zhuǎn)換,同時將信噪比〈3或者加標值>8191的個別測量設(shè)置為缺失。在全部156個陣列上缺失值大于5%的探針被排除。預(yù)處理留下156個樣品和11217個探針用于進一步分析。將數(shù)據(jù)標準化(即集中化(centred)和分級化(scaled)),利用k_最近鄰填補法(Troyanskaya et al. , 2001, Bioinformatics, 17, p520_525),以 k=10 將缺失值填補。對每個基因進行的主成分分析和ANOVA檢驗揭示了數(shù)據(jù)中存在極大的批次效應(yīng)。以前報導(dǎo)過同類數(shù)據(jù)的類似批次效應(yīng)(Dumeaux V, et al.,修訂中)。利用Tibshirani (Tibshiraniet al. , 2002,同前)描述過的單因素ANOVA程序給每個基因分別處理批次效應(yīng)。然后排除26個技術(shù)對照樣品。對于生物重復(fù)(來自一個受試對象的多個樣品),將每個探針的信號強度平均。這樣,每個個體一個共保留127個陣列進行分析。最后,通過全局均值相減進行陣列內(nèi)歸一化?;诔霈F(xiàn)率準則來鑒定探針
如上獲得的處理過的數(shù)據(jù)被用于通過下述步驟分離信息性探針a)給每個交叉驗證節(jié)段留出一個獨特樣品(包括所選樣品的所有重復(fù));b)采用PLSR-DA給其余的樣品建立校準模型(交叉驗證過的);c)利用Jackknife準則,給步驟b的模型選擇顯著基因組;
d)重復(fù)步驟a)、b)和c)直至所有獨特樣品被留出過一次(因此,總起來建立了127個不同的校準模型(將步驟b)重復(fù)127次后),得到127個不同的顯著探針組(步驟c)重復(fù)127次后);e)在127個不同的顯著探針組中利用出現(xiàn)頻率準則選擇顯著變量。在以上方法中,基因表達數(shù)據(jù)作為預(yù)測虛擬編碼的響應(yīng)向量(dummy-codedresponse vector)的預(yù)測器。根據(jù)每個樣品是健康對照還是乳腺癌樣品,分別賦予它們響應(yīng)向量值-I或I。如果預(yù)測值大于零,新基因表達樣品歸類為疾病樣品,否則歸為健康樣品O利用偏最小二乘法回歸(PLSR) (Nguyen & Rocke, 2002, Bioinformatics, 18,P1625-1632;Wold!Estimation of principal components and related models byiterative least squares. In Multivariate Analysis. Edited by Krishnaiah PR. NewYork:Academic Press; 1966,p391_420)和雙重交叉驗證構(gòu)建和測試我們的分類器。米用留一交叉驗證(L00-CV)的 PLSR 與 Jackknife 檢驗(Gidskehaug et al.,2007,BMC Bioinformatics, 8, p346;Wu:Jackknife, bootstrap and other resampling plans inregression analysis. The Annals of Statistics, 1986,14,pl261_1350)聯(lián)合用于顯著探針的選擇。具體來說,L00-CV給出成員的最佳數(shù)量和與每個探針關(guān)聯(lián)的一組回歸系數(shù),利用Jackknife特征選擇挑選回歸系數(shù)非O的探針(p-值彡0.05)。對這些顯著探針重新建立PLSR模型,并再次使用L00-CV來選擇成員的最佳數(shù)量。最后,為了測試分類器的準確性,將以上描述的分析合并到獨立的L00-CV循環(huán)中(Varma & Simon, 2006, BMCBioinformatics, 7, p91)。然后根據(jù)出現(xiàn)率準則選中的信息性探針被用于構(gòu)建分類模型。將鑒定到的信息性探針根據(jù)它們的出現(xiàn)頻率分組。例如,在全部127個交叉驗證模型中都是信息性的探針歸到100%組中,在90%交叉驗證模型中是信息性的探針歸到90%組中,而在至少一個交叉驗證節(jié)段中顯示信息性的探針歸到0%組。結(jié)果表4列舉了根據(jù)出現(xiàn)頻率準則鑒定到的探針數(shù)量,以及在這些探針的基礎(chǔ)上估計的基因表達特征的診斷準確率。為了避免任何選擇偏差和獲得無偏倚的準確率估計,使用了三重交叉驗證的做法,因為基因選擇是基于內(nèi)部的雙重交叉驗證例行程序。結(jié)果顯示,對于按照出現(xiàn)頻率準則歸入0-90%組的探針,可以預(yù)期大約75%的準確率。圖I顯示了當0%探針(在127個交叉驗證模型中的至少一個被認定為信息性的探針)被從數(shù)據(jù)中留出來時,基于其余數(shù)據(jù)的模型的準確率對所有PLSR成員都顯著下降(最大57%),這表明已經(jīng)從數(shù)據(jù)中發(fā)掘出了診斷相關(guān)信息中的大部分。表5列舉了鑒定到的探針的寡核苷酸序列和以ABI 1700編號標識的它們的基因序列。該表中提供的探針編號表示給出的序列的序列編號。實施例2:信息件探針子集在不同樣品和不同平臺上的驗證
實施例I鑒定到的基因探針組(出現(xiàn)率0%_100%)可用于構(gòu)建診斷相關(guān)的基因表達特征。但是,這些鑒定到的探針在預(yù)測未來樣品的可靠性方面有可能存在問題。已知從一具體實驗中被確認為信息性的變量可能是由數(shù)據(jù)驅(qū)動的。除了使用的樣品群,用來測量表達數(shù)據(jù)的平臺也可能影響到數(shù)據(jù)質(zhì)量。因此,如果一組基因探針在一個平臺中被鑒定為信息性的,當使用另一個平臺生成數(shù)據(jù)時,它不一定能保持診斷相關(guān)性。這是因為平臺特異性的噪音成分在不同平臺之間可能有變化。而且如果被測量的基因表達變化本質(zhì)上很微妙,由于例如微小的實驗室間的差別導(dǎo)致的小的技術(shù)差異也可能影響各個基因探針的測量值,決定了它們能保留還是喪失信息含量。因此,為了測試鑒定到的探針在不同情境下的有效性,我們擴大了分析。為了測試鑒定到的探針在不同實驗室使用新的樣品群進行的獨立試驗中是否能夠保留其診斷信息,我們重新分析了研究數(shù)據(jù),其中所述數(shù)據(jù)是用新的樣品群(表6A,40個樣品,20個乳腺癌和20個非乳腺癌)在不同實驗室,但使用相同的ABI平臺生成的。表6B顯示了所有探針組(0%_100%)均保留了它們的診斷信息,即使試驗是在不同 實驗室進行的并且使用的是新的樣品群。診斷模型的建立所使用的探針與研究I (實施例I)中的0%-100%探針對應(yīng)并且存在于基因表達數(shù)據(jù)(研究2)預(yù)處理后的新數(shù)據(jù)中。經(jīng)交叉驗證估計準確率。為了進一步測試不同平臺的影響,我們分析了位于我們開發(fā)的定制陣列上的一些信息性探針,所述定制陣列含有研究I (實施例I)中鑒定到的某些信息性探針。一個定制陣列基于微陣列技術(shù),但是由不同的平臺供應(yīng)商(Codelink,GE)提供。另一個依賴于定量實時PCR技術(shù)。與我們先前的試驗相比,Codelink研究(研究3)包括了新的獨立的乳腺癌和非乳腺癌樣品(表7A)。給表5列出的一些探針設(shè)計了 30聚體寡核苷酸。使用的探針在表7C中給出,該表還提供了引用ABI 1700基因標識(見表5)來識別的相應(yīng)基因。在很難根據(jù)表5提供的寡核苷酸序列設(shè)計出良好引物的情況中,ABI探針I(yè)D、寡核苷酸序列和基因術(shù)語被用于鑒定相關(guān)轉(zhuǎn)錄產(chǎn)物。一些情況中,還給特異轉(zhuǎn)錄產(chǎn)物設(shè)計了多個寡核苷酸引物。這是為了確保至少一個寡核苷酸能夠與它的相應(yīng)轉(zhuǎn)錄產(chǎn)物有效雜交。數(shù)據(jù)預(yù)處理主要按照實施例I的描述進行。表7B顯示了根據(jù)相應(yīng)0%_100%探針得出的準確率,所述探針存在于全部研究1-3的定制Codelink平臺中。結(jié)果再次顯示不同探針組保留了它們的診斷信息內(nèi)容,即使使用了不同的微陣列平臺。研究4中使用了 TaqMan方案。TaqMan系統(tǒng)利用每個延伸循環(huán)中,Taq DNA聚合酶對熒光DNA探針的5’核酸酶活性來檢測PCR產(chǎn)物。Taqman探針(通常是25聚體)5’端標記了熒光報告染料,3’端標記了熒光淬滅染料。當探針是完整的時,淬滅染料減少報告染料的發(fā)射強度。如果存在靶序列,探針會與靶序列退火,隨著引物延伸的進行被Taq DNA聚合酶的5’核酸酶活性切割。隨著探針的切割將報告染料和淬滅染料分開,報告染料的熒光以PCR循環(huán)數(shù)的函數(shù)增加。靶核酸的起始濃度越高,越快觀察到熒光的顯著提高。iiTaqMan探針”包含共價附著在寡核苷酸探針5’端的熒光團和3’端的淬滅劑。通常優(yōu)選25聚體寡核苷酸,但長度可以與此不同。關(guān)鍵是寡核苷酸探針應(yīng)當能夠特異結(jié)合靶序列。幾種不同熒光團(例如6-羧基熒光素,首字母縮寫FAM,或者四氯熒光素,首字母縮寫TET)和淬滅劑(例如,四甲基羅丹明,首字母縮寫TAMRA,或者二氫環(huán)吡咯吲哚三肽小溝結(jié)合劑,首字母縮寫MGB)可以用于分別附著到5’和3’端(這些形成了本發(fā)明使用的優(yōu)選標記)。為了進行TaqMan LDA,由分離自60個樣品(表8A)的總RNA制備cDNA?;虮磉_分析在ABI Prism 7900HT Fast System上用384個選中的檢驗(包括內(nèi)源性對照)進行。數(shù)據(jù)分析前去除有缺失值或平均ct>30的檢驗(總共166個檢驗)。利用TaqMan LDA中的208個檢驗的數(shù)據(jù)(見表8B列出的208個檢驗,鏈接了它們的基因標識(ABI 1700,見表5)和功能),我們鑒定到有限數(shù)量的適合96-assay平臺的檢驗,包括用于歸一化和質(zhì)量控制的檢驗。
圖2顯示了使用96assay平臺(跨越不同PLS成員)的模型準確率。在最佳的5個PLS成員,我們建立的特征正確預(yù)測了 49/60個樣品(82%)的類別。結(jié)果再次顯示由實施例I (研究I)得到的探針保留了診斷信息,即使使用的是不同平臺和技術(shù)來建立基因表達特征。圖3顯示了使用從表5隨機挑選的5個或以上探針對乳腺癌樣品正確分類的準確率。表I:研究所含對象的臨床特征(n=127)
診斷樣品數(shù)量
乳腺癌總病例67 —
單純DCIS10 浸潤性導(dǎo)管乳腺癌(IDC)49 浸潤性d、葉乳腺癌(I LC)4
其他浸潤病例__4_
浸潤性乳腺'j、管癌(ITC)2
乳腺髓_樣癌I
_其他/混合病例__J_
非惡性總病例63*
良性變化12
乳房纖維腺瘤I
乳房纖維腺瘤和血腫I
嚢腫6
_未說明的發(fā)現(xiàn)_^_
無乳房攝影篩檢時的發(fā)現(xiàn)42_對照9
I
懷孕3
_月經(jīng)周期(2個受試對象)5_
總樣品130**來自生物學(xué)重復(fù)樣品的數(shù)據(jù)被合并,留下127個檢驗用于分析表2:67例乳腺癌樣品的ER和PR狀態(tài)
權(quán)利要求
1.寡核苷酸探針組,其中所述組包含至少10個寡核苷酸,其中所述寡核苷酸中的每ー個選自表5、7C或8B所示的寡核苷酸,或者衍生自表5、7C或8B所示的序列;或者是有它們的互補序列的寡核苷酸;或者功能等同的寡核苷酸。
2.如權(quán)利要求I所述的組,其中所述至少10個寡核苷酸選自表5、7C或SB所示的寡核苷酸,或者衍生自表5、7C或8B所示的序列,所述序列有至少60%,優(yōu)選至少100%的出現(xiàn)頻率;或者是有它們的互補序列的寡核苷酸,或者功能等同的寡核苷酸。
3.如權(quán)利要求I或2所述的組,其中所述組中的所述寡核苷酸中的每ー個選自表5、7C或8B所示的寡核苷酸,或者衍生自表5、7C或8B所示的序列,并且有至少60%,優(yōu)選至少100%的出現(xiàn)頻率;或者是有它們的互補序列的寡核苷酸,或者功能等同的寡核苷酸。
4.如權(quán)利要求1-3中任ー項所述的組,其中所述組包含表5、7C或8B所示的有至少60%,優(yōu)選至少100%出現(xiàn)頻率的所有寡核苷酸,或者衍生自5、7C或8B所示的序列;或者是 有它們的互補序列的寡核苷酸;或者功能等同的寡核苷酸。
5.如權(quán)利要求1-4中任ー項所述的組,其中所述組包含表5、7C或8B所示的所有寡核苷酸,或者衍生自5、7C或8B所示的序列;或者是有它們的互補序列的寡核苷酸;或者功能等同的寡核苷酸。
6.如權(quán)利要求1-5中任一項所述的寡核苷酸探針組,其中所述組中的每個探針與不同轉(zhuǎn)錄產(chǎn)物結(jié)合。
7.如權(quán)利要求1-5中任ー項所述的組,其中所述組包含至少20個寡核苷酸,并且所述組包含引物對,所述引物對中的每個寡核苷酸與相同轉(zhuǎn)錄產(chǎn)物或其互補序列結(jié)合,優(yōu)選引物對中的每個結(jié)合不同轉(zhuǎn)錄產(chǎn)物。
8.如權(quán)利要求1-5中任一項所述的寡核苷酸探針組,其中所述組包含至少30個寡核苷酸,并且所述組包含引物對和每個引物對的標記探針,其中所述引物對中的每個寡核苷酸和所述標記探針結(jié)合相同的轉(zhuǎn)錄產(chǎn)物或其互補序列,優(yōu)選引物對中的每個和標記探針結(jié)合不同轉(zhuǎn)錄產(chǎn)物。
9.如權(quán)利要求1-8中任ー項所述的組,其包含10-500個寡核苷酸探針。
10.如權(quán)利要求1-9中任一項所述的寡核苷酸探針組,其中所述寡核苷酸探針中的每ー個有15-200個堿基長。
11.如權(quán)利要求ι- ο中任一項所述的寡核苷酸探針組,其中所述探針被固定在一或多個固體支持物上。
12.如權(quán)利要求11所述的寡核苷酸探針組,其中所述固體支持物是薄片、濾膜、膜、板或生物芯片。
13.試劑盒,其包含優(yōu)選固定在一或多個固體支持物上的如權(quán)利要求11或12所述的寡核苷酸探針組。
14.如權(quán)利要求13所述的試劑盒,其中所述探針被固定在單個固體支持物上,并且每個獨特探針附著到所述固體支持物的不同區(qū)域。
15.如權(quán)利要求13或14所述的試劑盒,還包含標準化材料。
16.如權(quán)利要求1-12中任一項所述的探針組或者權(quán)利要求13-15中任一項所述的試劑盒在確定細胞的基因表達譜中的用途,其中所述表達譜反映了所述寡核苷酸探針結(jié)合的基因的基因表達水平,所述用途包括至少以下步驟a)從所述細胞中分離mRNA,任選將其逆轉(zhuǎn)錄為cDNA; b)將步驟(a)的mRNA或cDNA與權(quán)利要求1_15中任ー項所定義的寡核苷酸組或者試劑盒雜交;和 c)評估與所述探針中姆ー個雜交的mRNA或cDNA的量,從而生成所述表達譜。
17.制備生物體中癌癥或其階段的特征性標準基因轉(zhuǎn)錄產(chǎn)物譜的方法,其包括至少以下步驟 a)從患有癌或其階段的一或多個生物體的樣品細胞中分離mRNA,任選將其逆轉(zhuǎn)錄為cDNA ; b)將步驟(a)的mRNA或cDNA與權(quán)利要求1_15中任ー項所定義的寡核苷酸組或者試劑盒雜交,所述寡核苷酸組或試劑盒特異于與被考察的生物體及其樣品對應(yīng)的生物體及其樣品中的癌癥或其階段;以及 c)評估與所述探針中姆ー個雜交的mRNA或cDNA的量,從而生成特征性譜,所述譜反映了患有癌癥或其階段的樣品中被所述寡核苷酸結(jié)合的基因的基因表達水平。
18.制備待測基因轉(zhuǎn)錄產(chǎn)物譜的方法,其包含至少以下步驟 a)從所述待測生物體的樣品的細胞中分離mRNA,任選將其逆轉(zhuǎn)錄為cDNA; b)將步驟(a)的mRNA或cDNA與權(quán)利要求1_15中任ー項所定義的寡核苷酸組或者試劑盒雜交,所述寡核苷酸組或試劑盒特異于與被考察的生物體及其樣品對應(yīng)的生物體及其樣品中的癌癥或其階段;以及 c)評估與所述探針中姆ー個雜交的mRNA或cDNA的量,從而生成所述譜,所述譜反映了所述樣品中被所述寡核苷酸結(jié)合的基因的基因表達水平。
19.診斷或確認或監(jiān)測生物體中癌癥或其階段的方法,其包括以下步驟 a)從所述生物體的樣品的細胞中分離mRNA,任選將其逆轉(zhuǎn)錄為cDNA; b)將步驟(a)的mRNA或cDNA與權(quán)利要求1_15中任ー項所定義的寡核苷酸組或者試劑盒雜交,所述寡核苷酸組或試劑盒特異于與被考察的生物體及其樣品對應(yīng)的生物體及其樣品中的癌癥或其階段; c)評估與所述探針中姆ー個雜交的mRNA或cDNA的量,從而生成特征性譜,所述譜反映了所述樣品中被所述寡核苷酸結(jié)合的基因的基因表達水平,以及 d)將所述譜與按照權(quán)利要求17所述制備的標準診斷譜進行比較,從而確定相關(guān)程度以指示所述癌癥或其階段在被考察的生物體中的存在,所述標準診斷譜是用與被考察的生物體和樣品對應(yīng)的生物體的樣品制備的。
20.如權(quán)利要求16-19中任一項所述的方法,其中所述探針都是引物,且在步驟b)中所述mRNA或cDNA或其一部分利用所述引物來擴增,在步驟c)中評估擴增產(chǎn)物的量來產(chǎn)生所述譜?!?br>
21.如權(quán)利要求16-19中任一項所述的方法,其中所述探針是標記探針和引物對,且在步驟b)中所述標記探針和引物與所述mRNA或cDNA雜交,并且所述mRNA或cDNA或其一部分利用所述引物擴增,其中當所述標記探針與靶序列結(jié)合時,在擴增過程中它被替換而產(chǎn)生信號,并且,在步驟c)中評估生成的信號的量來產(chǎn)生所述譜。
22.如權(quán)利要求17-21中任一項所述的方法,其中所述mRNA或cDNA在步驟b)之前擴+ >曰ο
23.如權(quán)利要求17-22中任一項所述的方法,其中所述寡核苷酸和/或mRNA或cDNA被
24.如權(quán)利要求17-23中任一項所述的方法,其中所述譜被表現(xiàn)為關(guān)于與每個探針相關(guān)聯(lián)的表達水平的數(shù)字陣列。
25.如權(quán)利要求17-24中任一項所述的方法,其中所述生物體是真核生物,優(yōu)選是哺乳動物。
26.如權(quán)利要求25所述的方法,其中所述生物體是人。
27.如權(quán)利要求17-27中任一項所述的方法,其中構(gòu)成所述譜的數(shù)據(jù)經(jīng)過分類模型的數(shù)學(xué)處理。
28.如權(quán)利要求17-28中任一項所述的方法,其中所述樣品是組織、體液或身體排泄物。
29.如權(quán)利要求17-29中任一項所述的方法,其中所述樣品是外周血。
30.如權(quán)利要求17-30中任一項所述的方法,其中樣品中的細胞不是疾病細胞,未與這種細胞接觸過并且不是起源于疾病部位或有狀況的部位。
31.如權(quán)利要求19-31中任一項所述的監(jiān)測生物體中癌癥或其階段的方法,其中所述監(jiān)測是在所述生物體的所述癌癥被治療后進行的,以便確定所述治療的效果。
32.權(quán)利要求17-32中任一項所述的方法,其中所述癌癥是胃、肺、乳腺、前列腺、大腸、皮膚、結(jié)腸或卵巢的癌癥。
33.權(quán)利要求34的方法,其中所述癌癥是乳腺癌。
全文摘要
發(fā)明提供了癌癥,優(yōu)選乳腺癌的特異寡核苷酸探針組;含有所述探針組的試劑盒;和它們在制備標準和測試表達譜中的用途;以及癌癥,優(yōu)選乳腺癌的診斷方法。
文檔編號C12Q1/68GK102859000SQ201180014374
公開日2013年1月2日 申請日期2011年1月14日 優(yōu)先權(quán)日2010年1月15日
發(fā)明者T.林達爾, P.莎瑪 申請人:迪亞尼克公司