两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

新型dna-結(jié)合蛋白及其用途的制作方法

文檔序號:908018閱讀:402來源:國知局
專利名稱:新型dna-結(jié)合蛋白及其用途的制作方法
技術(shù)領(lǐng)域
本發(fā)明提供使用工程化DNA結(jié)合蛋白用于內(nèi)源性基因和其他基因組基因座的基因修飾以及表達狀態(tài)的調(diào)節(jié)的方法。
背景技術(shù)
許多、可能大部分的生理和病理生理過程可通過選擇性上調(diào)或下調(diào)節(jié)基因表達來控制。通過選擇性調(diào)節(jié)可控制的病理學(xué)的例子包括在類風(fēng)濕性關(guān)節(jié)炎中促炎細胞因子的不恰當表達、在高膽固醇血癥中肝LDL受體的低表達、在實體瘤生長中促進血管新生因子的過表達以及抗血管生成因子的低表達,僅示出幾個例子。此外,諸如病毒、細菌、真菌和原生動物的病原生物可通過改變它們的宿主細胞的基因表達來控制。因此,對于能夠簡單上調(diào)有益基因和下調(diào)導(dǎo)致疾病基因的治療途徑的需求明顯尚未滿足。此外,使得可選擇性過表達和低表達選擇的基因的簡單方法在科學(xué)界具有巨大用途。使得可在細胞模型體系、轉(zhuǎn)基因動物和轉(zhuǎn)基因植物中調(diào)節(jié)基因的方法可廣泛用于學(xué)術(shù)實驗室、制藥公司、基因公司以及生物技術(shù)領(lǐng)域。通常通過改變稱為轉(zhuǎn)錄因子的序列特異性DNA結(jié)合蛋白的功能來控制基因表達。它們用于影響在啟動子處轉(zhuǎn)錄起始復(fù)合物的形成或功能的效果。轉(zhuǎn)錄因子可以積極方式(激活)或消極方式(抑制)作用。轉(zhuǎn)錄因子功能可以為構(gòu)成性(總是“作用”)或者條件性??赏ㄟ^各種方式來賦予轉(zhuǎn)錄因子條件性功能,但是大量這些調(diào)控機制依賴于在細胞質(zhì)中因子的隔絕,以及誘導(dǎo)性釋放和隨后核轉(zhuǎn)位、DNA結(jié)合和激活(或者抑制)。以這種方式作用的轉(zhuǎn)錄因子的例子包括孕酮受體、固醇應(yīng)答元件結(jié)合蛋白(SREBP)和NF-K B。有通過改變轉(zhuǎn)錄因子結(jié)合它們同源DNA識別序列的能力來應(yīng)答磷酸化或小分子配體的轉(zhuǎn)錄因子的例子(Hou等,Science 256 1701 (1994) ;Gossen&Bujard, Proc.Nat,I Acad Sci 89:5547(1992) ;01igino 等,GeneTher. 5 :491-496(1998) ;ffang 等,Gene Ther. 4 :432-441(1997) ;Neering 等,Blood88 1147-1155(1996);以及 Rendahl 等,Nat. Biotechnol. 16 :757-761 (1998))。包含來自鋅指蛋白("ZFP")的DNA結(jié)合結(jié)構(gòu)域的重組轉(zhuǎn)錄因子具有調(diào)節(jié)內(nèi)源性基因的基因表達的能力(參見,例如美國No. 6,534,261 ;6,599,692 ;6,503,717 ;6,689,558 ;7,067,317 ;7, 262, 054) 0使用這些包含工程化轉(zhuǎn)錄因子的鋅指蛋白的臨床試驗已經(jīng)顯示這些新型轉(zhuǎn)錄因子能夠治療各種病癥。(參見,例如Yu等(2006)FASEB J. 20 479-481)。在基因組生物學(xué)、特別是關(guān)于測定大量基因組中完整核苷酸序列中另一主要目標區(qū)是基因組序列的靶向改變。這些靶向切割活動可用于例如誘導(dǎo)細胞DNA序列的靶向誘變、誘導(dǎo)靶向缺失,以及促進在預(yù)定染色體基因座處靶向重組。參見,例如,美國專利公開 20030232410 ;20050208489 ;20050026157 ;20050064474 ;20060188987 ;2008015996 ;以及國際公開WO 2007/014275,其公開內(nèi)容以引用方式整體并入以用于所有目的。也參見 Santiago 等(2008)Proc Natl AcadSci USA 105 :5809-5814 ;Perez 等(2008)NatBiotechnol 26:808-816(2008)。已將連接核酸酶的切割結(jié)構(gòu)域至設(shè)計的DNA-結(jié)合蛋白(例如,連接至來自諸如FokI的核酸酶切割結(jié)構(gòu)域的鋅指蛋白(ZFP))的人工核酸酶用于在真核細胞中靶向切割。例如,已經(jīng)顯示,鋅指核酸酶-介導(dǎo)的基因組編輯修飾在特定位置處人基因組的序列,通過(I)在期望修飾的靶位點處特異性產(chǎn)生在活細胞的基因組中雙鏈斷裂(DSB);以及通過(2)使得可以天然機制來DNA修復(fù)以“治愈”該斷裂。 為了增加特異性,使用在結(jié)合DNA時二聚化的一對或多對定制設(shè)計的鋅指核酸酶來誘導(dǎo)切割活動以形成催化活性核酸酶復(fù)合物。此外,通過使用包括工程化切割半結(jié)構(gòu)域的一對或多對鋅指核酸酶來進一步增加特異性,該工程化切割半結(jié)構(gòu)域僅在形成異源二聚體時切割雙鏈DNA。參見,例如美國專利公開No. 20080131962,其以引用方式整體并入本文中。通過人工核酸酶產(chǎn)生的雙鏈斷裂(DSB)已經(jīng)用于例如誘導(dǎo)細胞DNA序列的靶向誘變、誘導(dǎo)靶向缺失;以及促進在預(yù)定染色體基因座處靶向重組。參見,例如,美國專利公開 20030232410 ;20050208489 ;20050026157 ;20050064474 ;20060188987 ;20060063231 ;20070218528 ;20070134796 ;20080015164 和國際公開 No. WO 07/014275 以及TO2007/139982,其公開內(nèi)容以引用方式整體并入以用于所有目的。因此,在靶基因組位置處產(chǎn)生DSB的能力使得可基因組編輯任何基因組。存在修復(fù)DSB-同源重組和非同源末端接合(NHEJ)的兩個主要和不同的途徑。同源重組需要作為模板(稱為“供體”)的同源序列的存在以引導(dǎo)細胞修復(fù)過程,并且修復(fù)的結(jié)果是無誤差的和可預(yù)測的。在缺乏同源重組的模板(或“供體”)序列下,細胞通常嘗試通過NHEJ的易錯過程來修復(fù)DSB。已知黃單胞菌屬(Xanthomonas)的植物致病細菌導(dǎo)致在重要作物中許多疾病。黃單胞菌屬的致病性依賴于保守III型分泌(T3S)系統(tǒng),其注入多于25種不同的效應(yīng)物蛋白至植物細胞內(nèi)。其中注入的蛋白為轉(zhuǎn)錄激活因子樣效應(yīng)物(“TALE”或“TAL-效應(yīng)物”),該轉(zhuǎn)錄激活因子樣效應(yīng)物模擬植物轉(zhuǎn)錄激活因子以及操縱植物轉(zhuǎn)錄組(參見Kay等(2007) Science 318:648-651)。這些蛋白包含DNA結(jié)合結(jié)構(gòu)域以及轉(zhuǎn)錄激活結(jié)構(gòu)域。最良好表征的TALE之一是來自野油菜黃單胞菌辣椒斑點病菌(Xanthomonas campestrispv. Vesicatoria)的 AvrBs3 (參見 Bonas 等(1989) Mol Gen Genet 218 127-136 以及W02010079430)。TALE包含介導(dǎo)DNA識別的集中重復(fù)結(jié)構(gòu)域,其各重復(fù)單元包含指定一個靶堿基的約33-35個氨基酸。TALE也包含核定位序列和多個酸性轉(zhuǎn)錄激活結(jié)構(gòu)域(關(guān)于概述參見 Schornack S,等(2006) J PlantPhysiol 163(3) :256-272)。此外,在植物致病細菌青枯雷爾氏菌(Ralstonia solanacearum)的兩個基因中,已經(jīng)發(fā)現(xiàn),指定的brgll和hpxl7與在青枯雷爾氏菌生物變型I菌株GMI1000和在生物變型4菌株RS1000中黃單胞菌屬的 AvrBs3 家族同源(參見Heuer 等(2007) Appl and Envir Micro 73(13) :4379-4384)。這些基因的核苷酸序列彼此具有98.9%同一性,但是區(qū)別在于在1^117的重復(fù)結(jié)構(gòu)域中
I,575bp的缺失。然而,兩基因產(chǎn)物與黃單胞菌屬的AvrBs3家族蛋白具有小于40%序列同一性。這些TALE的DNA-結(jié)合特異性依賴于在串聯(lián)TALE重復(fù)單元中發(fā)現(xiàn)的序列。重復(fù)的序列包含約33-35個氨基酸,并且重復(fù)序列(i^peat)通常彼此具有91-100 %同源性(Bonas等,同上)。在TALE靶序列中在位置12和13處高變二殘基的同一性與毗連核苷酸的同一性之間似乎有——對應(yīng)性(參見Moscou和Bogdanove,(2009) Science 326 :1501以及Boch等(2009) Science 326:1509-1512)。這些兩個相鄰氨基酸稱為重復(fù)可變二殘基(RVD)。經(jīng)實驗,已經(jīng)確定這些TALE的DNA識別的天然編碼,使得在位置12和13處HD序列可導(dǎo)致與胞嘧啶(C)結(jié)合;NG結(jié)合T ;NI結(jié)合A ;NN結(jié)合G或A ;以及NG結(jié)合T。已經(jīng)將 這些特異性測定TALE重復(fù)單元組裝至具有天然TALE重復(fù)單元和可變數(shù)量的重復(fù)序列的新組合的蛋白內(nèi),從而制備不同TALE蛋白。在這些天然結(jié)構(gòu)中,這些變體能夠與新序列相互作用,并且激活在植物細胞中報道基因的表達(Boch等,同上)。然而,這些蛋白保持天然(全長型)TALE蛋白結(jié)構(gòu),并且僅在構(gòu)建體內(nèi)TALE重復(fù)單元的數(shù)目和同一性改變。也已經(jīng)將全部或幾乎全部TALE蛋白稠合至FokI蛋白的核酸酶結(jié)構(gòu)域以產(chǎn)生TALE-核酸酶融合蛋白(“TALEN”),并且已經(jīng)顯示,這些TALEN切割在酵母細胞中游離報道基因(Christian等(2010)Genetics 186(2) :757-61 ;Li 等(2011a)Nucleic Acids Res. 39(1) :359-372)。當采用合適的序列擴增方案時,這些構(gòu)建體也修飾在酵母細胞中內(nèi)源性基因至可量化水平,并且可修飾在哺乳動物和植物細胞中內(nèi)源性基因至可檢測、但無法量化水平。參見,Li等(2011b)Nucleic Acida Res. epub doi 10.1093/nar/gkrl88 ;Cermak 等(2011)NucleicAcids Res. epub do1:10. 1093/nar/gkr218。需要兩步驟富集方案以檢測在植物和動物細胞中活性的事實表明在幾乎全部TALE蛋白以及來自FokI蛋白的核酸酶結(jié)構(gòu)域之間的融合沒有有效修飾在植物和動物細胞中內(nèi)源性基因。換而言之,在這些研究中使用的連接TALE重復(fù)陣列至FokI切割結(jié)構(gòu)域的肽不能通過在高級真核生物中內(nèi)源性基因的FokI結(jié)構(gòu)域來有效切割。因此,這些研究強調(diào)對開發(fā)能夠用于連接TALE陣列與核酸酶結(jié)構(gòu)域的組合物的需求,該核酸酶結(jié)構(gòu)域使得在內(nèi)源性真核環(huán)境中高度有效切割。對于工程化DNA結(jié)合結(jié)構(gòu)域仍然有需求以增加這些結(jié)合蛋白在各種應(yīng)用中的范圍、特異性和有用性,包括在各種細胞類型和工程化核酸酶中調(diào)節(jié)內(nèi)源性基因的工程化轉(zhuǎn)錄因子,該工程化轉(zhuǎn)錄因子可類似地用于各種模型、診斷和治療體系、以及基因組工程化和編輯應(yīng)用的各種方式中。發(fā)明概述因此,本發(fā)明提供靶向操縱內(nèi)源性基因座的表達狀態(tài)或序列的方法。在本發(fā)明的一些實施方案中,本發(fā)明的方法使用包含融合至功能蛋白結(jié)構(gòu)域(通稱“TALE-融合”)的一個或多個TALE-重復(fù)單元的DNA-結(jié)合蛋白以形成工程化轉(zhuǎn)錄因子、工程化核酸酶(“TALEN”)、重組酶、轉(zhuǎn)座酶、整合酶、甲基化酶、酶結(jié)構(gòu)域和報道基因。在一些方面中,多肽包括連接至另外的TALE蛋白序列的至少一個TALE重復(fù)單元,用于在內(nèi)源性靶DNA處有效和特異作用。連接TALE重復(fù)結(jié)構(gòu)域的N-末端和任選的C-末端的這些另外的序列也稱為“N帽”和“C帽”序列。因此,本發(fā)明提供包含一個或多個(例如,1、2、3、4、5、6、7、8、9、10、
11、12、13、14、15、20或更多)TALE重復(fù)和/或半重復(fù)單元的多肽。因此,在一方面中,本文提供包含至少一個TALE重復(fù)單元(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多重復(fù)單元)的DNA-結(jié)合多肽。多肽通常包括支持TALE重復(fù)單元的DNA-結(jié)合功能或者TALE融合蛋白的功能活性的任意長度的N帽序列(多肽)。任選地,多肽還可包括C帽序列(多肽),例如小于約250個氨基酸(C+230C帽;從殘基C-20至殘基C+230)的C帽序列。此外,在某些實施方案中,如本文所述的TALE多肽的TALE重復(fù)單元的至少一個包括非典型的重復(fù)可變二殘基(RVD)區(qū)域。TALE重復(fù)單元可以是從黃單胞菌屬、青枯菌屬(Ralstonia)或另外相關(guān)的細菌中分離的野生型結(jié)構(gòu)域和/或可以一些方式將其工程化(例如,可以為非天然存在的)。在某些實施方案中,至少一個TALE重復(fù)單元被工程化(例如,非天然存在的、非典型的、密碼子優(yōu)化的、其組合等)。在某些實施方案中,將在TALE重復(fù)結(jié)構(gòu)域(例如,在TALE重復(fù)單元之一內(nèi)RVD)中一個或多個氨基酸改變,使得結(jié)構(gòu)域結(jié)合選擇的靶序列(通常與通過天然存在的TALE DNA結(jié)合結(jié) 構(gòu)域結(jié)合的靶序列不同)。在其他實施方案中,將至少一個TALE重復(fù)單元在TALE重復(fù)單元內(nèi)在位置4、11、12、13或32處在一些或所有氨基酸處修飾。在一些實施方案中,將至少一個丁41^重復(fù)單元在一個了八1^重復(fù)單元內(nèi)在位置2、3、4、11、12、13、21、23、24、25、26、27、28、30、31、32、33、34或35處在I個或多個氨基酸處修飾。在其他實施方案中,將編碼TALE重復(fù)單元的核酸修飾,使得DNA序列改變,但是氨基酸序列未改變。在一些實施方案中,DNA修飾的目的是密碼子優(yōu)化。在進一步的實施方案中,通過聯(lián)合上述修飾來改變至少一個TALE重復(fù)單元。在一些實施方案中,提供包含多個修飾的TALE重復(fù)單元的TALE蛋白。也提供天然存在的和非天然存在的TALE重復(fù)單元的組合。在優(yōu)選的實施方案中,TALE蛋白(野生型或工程化)進一步包含N帽和任選的C帽序列,用于在內(nèi)源性靶DNA處有效和特異性作用。在一些實施方案中,N帽包含殘基N+1至N+136(參見

圖1B,用于描述殘基編號方案)或其任意片段。在其他實施方案中,C帽包含殘基C-20至C+28、C-20至C+39、C_20至C+55、或者C-20至C+63、或其全長型TALE C-末端的任意片段。在某些實施方案中,包含TALE重復(fù)結(jié)構(gòu)域、以及N帽和任選的C帽序列的多肽進一步包含調(diào)控或功能結(jié)構(gòu)域,例如,轉(zhuǎn)錄激活因子、轉(zhuǎn)錄抑制因子、核酸酶、重組酶、轉(zhuǎn)座酶、整合酶、甲基化酶等。編碼這些蛋白的多核苷酸也提供為藥物組合物。此外,本發(fā)明包括包含這些蛋白/多核苷酸和/或被這些蛋白修飾的(例如,傳遞至子代的基因組修飾)宿主細胞、細胞系和轉(zhuǎn)基因生物(例如,植物、真菌、動物)。示例性細胞和細胞系包括動物細胞(例如,包括人的哺乳動物;細胞,例如干細胞)、植物細胞、細菌細胞、原生動物細胞、魚細胞或真菌細胞。在另一實施方案中,細胞是哺乳動物細胞。也提供制備和使用這些蛋白和/或多核苷酸的方法。在一方面中,本文提供包含一個或多個工程化TALE重復(fù)單元、N帽、和任選的C帽序列的融合蛋白,該融合蛋白可操作連接至一個或多個異源性多肽結(jié)構(gòu)域,例如功能(調(diào)控)結(jié)構(gòu)域。包含TALE重復(fù)單元的組件的文庫提供為用于連接工程化TALE重復(fù)單元與目標功能蛋白結(jié)構(gòu)域的任選結(jié)構(gòu)的或柔性接頭。功能蛋白結(jié)構(gòu)域(例如,轉(zhuǎn)錄激活因子、抑制因子或核酸酶)可定位在融合蛋白的C-或N-末端處。也提供如本文所述的制備融合蛋白的方法。
本發(fā)明也提供用于鑒定工程化TALE融合蛋白的合適的靶序列(位點)的方法。在一些實施方案中,與天然TALE靶序列相比,經(jīng)鑒定的靶位點具有增加數(shù)量的鳥嘌呤核苷酸(“G”)。在其他實施方案中,靶無需旁側(cè)胸腺嘧啶核苷酸(“T”),如通常天然存在的TALE蛋白那樣。在一些實施方案中,在工程化TALE蛋白中選擇使用的RVD包含在靶序列中用于識別G核苷酸的一個或多個NK(天冬酰胺-賴氨酸)RVD。此外,在本發(fā)明中提供新型(非天然存在的)RVD,與天然存在的相區(qū)別,其能夠識別核苷酸堿基。提供非典型或非天然存在的RVD (在TALE重復(fù)單元的位置12和13處氨基酸序列)的非限制性例子包括如表30A所示出的RVD,例如,VG和IA用于識別T ;RG用于識別A和T ;以及AA用于識別A、C、和T。也提供與所有核苷酸堿基(例如A、C、T和G)同等相互作用的RVD。在組合物中使用的另外的RVD以及本文所述的方法示出在表27中。通過本發(fā)明也提供根據(jù)用戶選擇限制或不限制在通過TALE-核酸酶(“TALEN” )異源二聚體來修飾的核酸上兩個靶位點之間的距離或缺口間距(gap spacing)的方法。在一些實施方案中,將缺口間距限制至12-13個堿基對,而在其他實施方案中,工程化TALEN 經(jīng)設(shè)計以切割包含12至21個堿基對的缺口間距的DNA靶。在一些實施方案中,TALEN異源二聚體經(jīng)設(shè)計以切割包含在各單體結(jié)合位點之間I至34個核苷酸的缺口的序列。在另一實施方案中,將TALEN限制為利用包含+28C-末端截斷(C+28C帽)的TALEN結(jié)構(gòu)來切割具有12或13個堿基對缺口的靶。在其他實施方案中,使得設(shè)計的TALEN使用包含+63C-末端截斷的TALEN結(jié)構(gòu)來切割包含12至21個堿基對缺口間距的靶核酸,由于在缺口間距需求上的靈活性,其增加能夠鑒定合適的TALEN靶位點的可能性。在一些實施方案中,TALEN具有工程化R1/2重復(fù)單元,使得R1/2重復(fù)單元能夠靶向除T外的核苷酸堿基。在另一方面中,本發(fā)明提供了工程化TALE DNA結(jié)合結(jié)構(gòu)域融合的載體,其中載體包含TALE重復(fù)序列旁側(cè)的TALE N帽和C帽序列以及使得可克隆多個TALE重復(fù)單元、接頭序列、啟動子、可選擇標志物、多腺苷酸化信號位點、功能蛋白結(jié)構(gòu)域等的位置。通過本文中發(fā)明也提供構(gòu)建包括至少一個TALE-重復(fù)單元(例如,工程化)的組件檔案文庫的方法,用于快速組裝特異性TALE DNA結(jié)合結(jié)構(gòu)域結(jié)構(gòu)域和包含這些結(jié)構(gòu)域(例如,TALEN)的融合蛋白。在又一方面中,本發(fā)明提供調(diào)節(jié)在細胞中內(nèi)源性細胞基因的表達的方法,該方法包括以下步驟使在內(nèi)源性細胞基因中第一靶位點接觸融合至功能結(jié)構(gòu)域(例如,轉(zhuǎn)錄調(diào)節(jié)結(jié)構(gòu)域)的第一工程化TALE,從而調(diào)節(jié)內(nèi)源性細胞基因的表達。在另一方面中,本發(fā)明提供調(diào)節(jié)在細胞中內(nèi)源性細胞基因的表達的方法,該方法包括以下步驟使在內(nèi)源性細胞基因中靶位點接觸融合TALE蛋白,其中TALE包含工程化TALE重復(fù)結(jié)構(gòu)域,使得TALE具有對所需序列的特異性。在一些實施方案中,調(diào)節(jié)作用是用于激活內(nèi)源性基因的表達。在一些實施方案中,內(nèi)源性基因的表達被抑制。在又一實施方案中,通過結(jié)合TALE融合蛋白來調(diào)節(jié)內(nèi)源性基因的激活或抑制,使得內(nèi)源性激活因子或抑制因子不能結(jié)合目標基因的調(diào)節(jié)區(qū)域。在一個實施方案中,接觸步驟進一步包括使在內(nèi)源性細胞基因中第二靶位點接觸第二工程化TALE融合蛋白,從而調(diào)節(jié)第二內(nèi)源性細胞基因的表達。在另一實施方案中,第一和第二靶位點相鄰。在某些實施方案中,第一和第二靶位點在不同基因中以例如使用TALE-轉(zhuǎn)錄因子來調(diào)節(jié)兩個或更多個基因的表達。在其他實施方案中,例如當一對TALEN融合蛋白用于切割相同基因時,第一和第二靶位點在相同基因中。通過任意堿基對(“缺口大小”),例如,I至20(或之間任意數(shù)目)或甚至更多堿基對來分離第一和第二靶位點。在另一實施方案中,接觸步驟包括使接觸多于兩個靶位點。在某些實施方案中,通過兩對TALEN來使兩組靶位點接觸,并且該兩組靶位點用于在兩組靶處產(chǎn)生特異性缺失或插入。在另一實施方案中,第一 TALE蛋白是包含調(diào)控或功能結(jié)構(gòu)域的融合蛋白。在另一實施方案中,第
一TALE蛋白是包含至少兩個調(diào)控或功能結(jié)構(gòu)域的融合蛋白。在另一實施方案中,第一和第
二TALE蛋白是各自包含調(diào)控結(jié)構(gòu)預(yù)的融合蛋白。在另一實施方案中,第一和第二 TALE蛋白是各自包含兩個調(diào)控結(jié)構(gòu)域的融合蛋白??蓪⒁粋€或多個功能結(jié)構(gòu)域融合至TALE蛋白的各(或兩)端。任意TALE融合蛋白可提供為編碼這些蛋白的多核苷酸。在又一方面中,本發(fā)明提供連接核酸酶結(jié)構(gòu)域至TALE重復(fù)結(jié)構(gòu)域的如本文所述的C帽的組合物,其中所得融合蛋白展現(xiàn)出高活性核酸酶功能。在一些實施方案中,C帽包含來自天然TALE C-末端旁側(cè)序列的肽序列。在其他實施方案中,C帽包含來自TALE重復(fù) 結(jié)構(gòu)域的肽序列。在又一實施方案中,C帽包含不是源于TALE蛋白的序列。C帽還可展現(xiàn)出例如包含來自天然TALE C-末端旁側(cè)序列和/或TALE重復(fù)結(jié)構(gòu)域和/或非TALE多肽的肽序列的嵌合結(jié)構(gòu)。在本文所述的任意組合物或方法中,調(diào)控或功能結(jié)構(gòu)域選自轉(zhuǎn)錄抑制因子、轉(zhuǎn)錄激活因子、核酸酶結(jié)構(gòu)域、DNA轉(zhuǎn)甲基酶、蛋白乙酰轉(zhuǎn)移酶、蛋白脫乙?;浮⒌鞍准谆D(zhuǎn)移酶、蛋白脫氨基酶、蛋白激酶和蛋白磷酸酶。在一些方面中,功能結(jié)構(gòu)域是表觀遺傳性調(diào)節(jié)子。在植物中,通過使用標準技術(shù)的異交(out-crossing)可去除TALE融合。在這些實施方案中,融合蛋白包含表觀遺傳性調(diào)節(jié)子,例如限制性例子為組蛋白甲基轉(zhuǎn)移酶、DNA甲基轉(zhuǎn)移酶、或組蛋白脫乙?;浮⒁?,例如,共同擁有的美國專利7,785,792。因此,在一些方面中,TALE融合蛋白包含融合至核酸酶結(jié)構(gòu)域(“TALEN”)的TALE-重復(fù)結(jié)構(gòu)域。如上所示,在一些實施方案中,將TALE重復(fù)結(jié)構(gòu)域進一步融合至N帽序列,以及任選地C帽序列。在其他實施方案中,通過提供核酸酶結(jié)構(gòu)域的有效催化功能的接頭肽序列使核酸酶結(jié)構(gòu)域連接N帽的氨基末端或者C帽的羧基末端。核酸酶結(jié)構(gòu)域可以為天然存在的或者可以為工程化或非天然存在的。在一些實施方案中,核酸酶結(jié)構(gòu)域源于IIS型核酸酶(例如FokI)。在其他實施方案中,TALE DNA結(jié)合結(jié)構(gòu)域可操作連接至Bfi I核酸酶結(jié)構(gòu)域。在一些實施方案中,F(xiàn)okI結(jié)構(gòu)域是包含兩個切割半結(jié)構(gòu)域的單鏈核酸酶結(jié)構(gòu)域,并且在其他中,其是FokI切割半結(jié)構(gòu)域。在本發(fā)明的一些方面中,單個TALEN蛋白單獨使用以誘導(dǎo)在靶DNA中雙鏈斷裂,而在其他中,TALEN用作一對核酸酶的一部分。在一些實施方案中,該對核酸酶包含兩個TALEN,該TALEN包含F(xiàn)okI半結(jié)構(gòu)域,其中FokI半結(jié)構(gòu)域的對需要獲得DNA切割,而在其他情況下,將TALEN蛋白聯(lián)合鋅指核酸酶使用,其中兩個FokI切割結(jié)構(gòu)域的對需要達到DNA切割。在一些實施方案中,將TALE DNA結(jié)合結(jié)構(gòu)域融合至鋅指以制備鋅指/TALE雜交DNA結(jié)合結(jié)構(gòu)域。在一些例子中,雜交DNA結(jié)合結(jié)構(gòu)域能夠跳過在DNA靶結(jié)合位點內(nèi)與DNA堿基的相互作用。在一些實施方案中,F(xiàn)okI結(jié)構(gòu)域能夠形成同型二聚體,以及在其他例子中,對靶向切割活性需要來自TALEN對的各成員的兩不相同的FokI切割結(jié)構(gòu)域的雜二聚化。在這些雜二聚化的TALEN對中,相同類型的兩FokI結(jié)構(gòu)域不能產(chǎn)生同型二聚化。在其他實施方案中,使用TALEN對,其中一個FokI切割結(jié)構(gòu)域失活,使得可出現(xiàn)配對,但是將靶DNA切口以產(chǎn)生在DNA分子的一個鏈上的切口,而不是切割雙鏈。
在本文所述的任意組合物或方法中,通過TALE融合蛋白核酸可編碼TALE融合蛋白。在某些實施方案中,編碼TALE融合蛋白的序列可操作連接至啟動子。因此,在某些實施方案中,調(diào)節(jié)內(nèi)源性基因表達或基因組修飾的方法進一步包括將編碼TALE蛋白的核酸第一次施用至細胞的步驟。TALE-融合蛋白可以從表達載體中表達,例如逆轉(zhuǎn)錄病毒的表達載體、腺病毒表達載體、DNA質(zhì)粒表達載體或AAV表達載體。在一些實施方案中,表達載體是慢病毒載體,并且在這些實施方案的一些中,慢病毒載體是缺陷性整合酶。在本發(fā)明中也提供對在任意細胞類型中任意期望靶基因座(例如,內(nèi)源性基因)特異的TALEN(例如,TALEN對)。非限制性例子包括對NTF3、VEGF、CCR5、IL2R Y、BAX、BAK、FUT8、GR、DHFR、CXCR4、GS、Rosa26、AAVSl (PPP1R12C)、MHC 基因、PITX3、ben_l、Pou5Fl (0CT4)、Cl、RPDl 等特異的 TALEN。如本文所述的TALE-重復(fù)結(jié)構(gòu)域在內(nèi)源性細胞基因的轉(zhuǎn)錄起始位點的上游或鄰近處可結(jié)合靶位點??蛇x擇地,靶位點可鄰近在內(nèi)源性細胞基因的轉(zhuǎn)錄起始位點下游處的RNA聚合酶中斷位點。在又進一步的實施方案中,TALE融合蛋白(例如,TALEN)結(jié)合在諸 如前導(dǎo)序列、尾隨序列或內(nèi)含子的基因的編碼序列內(nèi)或者在基因內(nèi)或鄰近基因處的非編碼序列中的位點;或者在編碼區(qū)的上游或下游的非轉(zhuǎn)錄的區(qū)域內(nèi)。在另一方面中,本文描述用于切割在細胞中一個或多個目標基因的方法,該方法包括(a)將在使得將TALEN蛋白表達以及一個或多個基因被切割的條件下在一個或多個基因中結(jié)合靶位點的一個或多于一個、或者更多個TALEN蛋白(或者編碼TALEN的多核苷酸)引入細胞內(nèi)。在引入兩個或更多個TALEN蛋白的實施方案中,可將一個、一些或全部作為多核苷酸或作為多肽引入。在一些方面中,所述基因切割導(dǎo)致靶向基因的功能破壞。靶向DNA的切割可在NHEJ之后,其中將小插入或缺失(插入/缺失(indel))在切割的位點處插入。然后通過在切割位置處引入非特異性突變這些插入/缺失導(dǎo)致功能破壞。在又一方面中,本文描述引入外源性序列進入細胞的基因組的方法,該方法包括以下步驟(a)將在使得將TALEN蛋白表達以及在基因內(nèi)一個或多個靶位點被切割的條件下結(jié)合在靶基因中靶位點的一個或多個TALEN蛋白(或編碼TALEN蛋白的多核苷酸)引入細胞內(nèi);以及(b)使細胞接觸外源性多核苷酸;使得DNA靶位點的切割刺激外源性多核苷酸,從而通過同源重組整合至基因組內(nèi)。在某些實施方案中,可將外源性多核苷酸物理整合至基因組內(nèi)。在其他實施方案中,通過經(jīng)與雙鏈斷裂的同源重組修復(fù)(homology-directedrepair) (HDR)相關(guān)的專門的核酸復(fù)制過程來拷貝外源性序列至宿主細胞基因組內(nèi)將外源性多核苷酸整合至基因組內(nèi)。在又一其他實施方案中,通過非同源依賴性靶向性整合(例如“末端捕獲”)來整合至基因組內(nèi)。在一些實施方案中,外源性多核苷酸包含通過同源重組酶(例如分別Cre或FRT)識別的重組酶識別位點(例如IoxP或FLP)。在某些實施方案中,將外源性序列整合至小動物(例如兔或諸如小鼠、大鼠等的嚙齒動物)的基因組內(nèi)。在一個實施方案中,TALE-融合蛋白包含轉(zhuǎn)座酶、重組酶或整合酶,其中將TALE-重復(fù)結(jié)構(gòu)域工程化以識別特異性所需靶序列。在一些實施方案中,使用TALE多肽。在一些方面中,TALE-融合蛋白包含轉(zhuǎn)座酶或整合酶,并且用于開發(fā)CHO-細胞特異性轉(zhuǎn)座酶/整合酶體系。在一些實施方案中,TALE-融合蛋白包含甲基轉(zhuǎn)移酶,其中將TALE-重復(fù)結(jié)構(gòu)域工程化以識別特異性所需靶序列。在一些實施方案中,將TALE-重復(fù)結(jié)構(gòu)域融合至用于作用基因組或染色質(zhì)的表觀遺傳修飾的蛋白復(fù)合物的亞單位。
在又進一步的實施方案中,TALE-融合進一步包含報道基因或選擇標志物,其中TALE-重復(fù)結(jié)構(gòu)域被工程化以識別特異性所需靶序列。在一些方面中,報道基因是熒光標志物,而在其他方面中,報道基因是酶。在另一方面中,本文描述包含一種或多種TALE-融合蛋白的組合物。在某些實施方案中,組合物包含一種或多種TALE-融合蛋白與藥學(xué)上可接受的賦形劑的組合。在一些實施方案中,組合物包含編碼TALE融合蛋白的多核苷酸。一些實施方案包含組合物,該組合物包含編碼TALEN的DNA分子。在其他實施方案中,組合物包含編碼TALEN的RNA分子。一些組合物進一步包含核酸供體分子。在另一方面中,本文描述編碼本文所述的一種或多種TALE-融合蛋白的多核苷酸。多核苷酸可以是例如mRNA。在另一方面中,本文描述TALE-融合蛋白表達載體,該TALE-融合蛋白表達載體包含編碼本文所述的一種或多種TALE-融合蛋白的多核苷酸;所述多核苷酸可操作連接至啟 動子(例如,構(gòu)成型、誘導(dǎo)型、組織特異性等)。在另一方面中,本文描述宿主細胞,該宿主細胞包含一種或多種TALE-融合蛋白和/或一種或多種多核苷酸(例如,編碼如本文所述的TALE-融合蛋白的表達載體)。在某些實施方案中,宿主細胞進一步包含一種或多種鋅指蛋白和/或編碼載體的ZFP。使用一種或多種這些蛋白表達載體可將宿主細胞穩(wěn)定地轉(zhuǎn)化或暫時性轉(zhuǎn)染或其組合。在其他實施方案中,一種或多種蛋白表達載體在宿主細胞中表達一種或多種融合蛋白。在另一實施方案中,宿主細胞可進一步包含外源性多核苷酸供體序列??刹捎萌魏卧嘶蛘婧怂拗骷毎ǖ幌抻诩毦?、植物、魚、酵母、藻、昆蟲、蠕蟲或哺乳動物細胞。在一些實施方案中,宿主細胞是植物細胞。在其他方面中,宿主細胞是植物組織的一部分,例如植物的營養(yǎng)部分、貯藏器官、水果、花和/或種子組織。在進一步的實施方案中,宿主細胞是藻類細胞。在其他實施方案中,宿主細胞是成纖維細胞。在任一實施方案中,本文所述的宿主細胞可包含干細胞,例如胚胎干細胞。干細胞可以是哺乳動物干細胞,例如造血干細胞、間質(zhì)干細胞、胚胎干細胞、神經(jīng)元干細胞、肌肉干細胞、肝干細胞、皮膚干細胞、誘導(dǎo)多能干細胞和/或其組合。在某些實施方案中,干細胞是人誘導(dǎo)多能干細胞(hiPSC)或人胚胎干細胞(hESC)。在任一實施方案中,本文所述的宿主細胞可包含胚胎細胞,例如一種或多種小鼠、大鼠、兔或其他哺乳動物細胞胚胎。在一些方面中,干細胞或胚胎細胞在開發(fā)轉(zhuǎn)基因動物中使用,該轉(zhuǎn)基因動物包括具有TALE-介導(dǎo)的基因組修飾的動物,該TALE-介導(dǎo)的基因組修飾被整合至種系內(nèi),使得突變可遺傳。在進一步的方面中,這些轉(zhuǎn)基因動物用于研究目的,即小鼠、大鼠、兔;而在其他方面中,轉(zhuǎn)基因動物是家畜動物,即牛、雞、豬、氧等。在又進一步的方面中,轉(zhuǎn)基因動物是用于治療目的的那些,即,山羊、牛、雞、豬;以及在其他方面中,轉(zhuǎn)基因動物是同伴動物(companion animal),即貓、狗、馬、牛或魚。通過本發(fā)明提供的另一方面是用于鑒定TALE結(jié)合的合適的核酸靶的方法。在一些實施方案中,基于其與通過典型的、天然存在的TALE蛋白使用的靶位點的類似性來選擇靶。在其他實施方案中,因為工程化TALE蛋白已經(jīng)以使得它們能夠與非典型靶序列相互作用的方式改變,所以選擇未被典型的、天然存在的TALE蛋白利用的靶。在一些實施方案中,這種改變包括非典型(非天然存在的或稀少的)RVD序列的選擇。在進一步的實施方案中,使用的非典型RVD是在所需靶序列中用于識別G殘基的‘NK’RVD。在其他實施方案中,因為工程化TALE蛋白已經(jīng)以使得它們能夠與非天然比例的核酸堿基相互作用的方式改變,所以選擇包含非天然比例的核酸堿基的靶。在一些實施方案中,在所需靶序列中堿基比例包含異常數(shù)目的G殘基。在其他實施方案中,在所需靶序列中堿基比例包含異常數(shù)目的非典型二核苷酸、三核苷酸或四核苷酸。進一步提供用于鑒定TALE-DNA結(jié)合相互作用的最佳靶的設(shè)計規(guī)則。這些規(guī)則提供對選擇包含優(yōu)化二核苷酸和三核苷酸對的靶位點序列的指導(dǎo)。此外,這些規(guī)則也提供對更少二核苷酸和三核苷酸對的指導(dǎo),從而技術(shù)人員可根據(jù)需要避開這些序列。也提供能夠與所有核苷酸相互作用的RVD,從而提供用戶選擇靶序列的更大的靈活性。在一方面中,本發(fā)明提供用于體內(nèi)基因組操縱的組合物和方法。在某些實施方案中,可將編碼TALEN的mRNA注射至生殖腺、卵子或胚胎內(nèi)以用于引入如所述的特異性DSB。在一些實施方案中,將供體核苷酸與TALEN mRNA共同遞送以產(chǎn)生在生物中特異性靶向性整合。在又進一步的方面中,本文提供包含本發(fā)明的TALE-結(jié)構(gòu)域蛋白(以及包含這些TALE-重復(fù)蛋白的融合蛋白)的試劑盒。這些試劑盒可用于幫助用戶的基因組操縱以及可提供例如切割在基因組內(nèi)所需靶或者安全港基因座(safe harbor locus)的TALEN??蓪ALEN作為核酸(例如DNA或RNA)提供或者作為蛋白提供。在一些例子中,可配制蛋白以增加穩(wěn)定性,或者以干燥形式提供蛋白。在一些例子中,試劑盒用于診斷目的。在一些例子中,在試劑盒中包括的TALE-融合是轉(zhuǎn)錄調(diào)節(jié)因子。在一些例子中,TALE-融合包含報道基因。附圖簡述圖1,圖A和B示出TALE蛋白。圖1A示出TALE蛋白的結(jié)構(gòu)域結(jié)構(gòu)的示意圖(未按比例顯示)?!甆’和‘C’分別指示氨基和羧基末端。TALE重復(fù)結(jié)構(gòu)域、N帽和C帽被標記,并且示出在該蛋白中用于N帽和C帽的殘基編碼方案。“R0”表示在第一串聯(lián)TALE重復(fù)序列前面的34個氨基酸,該第一串聯(lián)TALE重復(fù)序列可與TALE重復(fù)單元具有一些結(jié)構(gòu)同源性以及可指定在DNA靶序列中胸腺嘧啶?!癛1/2”表示C-末端TALE “半重復(fù)序列”,其是與典型TALE重復(fù)序列的前20個殘基具有同源性的20個殘基肽序列(編號C-20至C-1的殘基)。NLS是核定位序列。AD是酸性激活結(jié)構(gòu)域。圖1B(SEQ ID NO 135)顯示使用克隆方案分離的克隆的天然TALE蛋白(下文稱為“TALE13”),設(shè)計該克隆方案以缺失N-末端1-152個氨基酸殘基。在序列下通過粗黑線來表示N帽和C帽;示出在N帽中位置N+1和N+136以及在C帽中C+1和C+278。半重復(fù)序列是C帽的前20個殘基以及表示為“C+1”的位置正前方的末端。在TALE重復(fù)序列和半重復(fù)序列中下劃線殘基表示氨基酸(RVD),該氨基酸(RVD)指定在靶結(jié)合中通過重復(fù)序列接觸的DNA核苷酸。圖2,圖A和B顯示使用TALE13 (TR13)的預(yù)測靶的報道基因構(gòu)建體。圖2A(SEQ IDNO 136)顯示指示將1-4TR13靶插入載體內(nèi)使用的克隆位點的報道基因載體的示意圖。斜體區(qū)域是熒光素酶基因的啟動子區(qū)域。圖2B(SEQ ID NO :137)顯示包含兩個TR13靶的使用的接頭序列。圖3,圖A和B顯示包含0-4TR13靶(圖3A)的報道基因構(gòu)建體以及在熒光素酶報道基因構(gòu)建體上通過TALE13-VP16融合蛋白(TR13-VP16,與來自VP16的激活結(jié)構(gòu)域連接的TALE13)協(xié)同報道基因激活的示意圖,該熒光素酶報道基因構(gòu)建體包含分別表示為R13xl至R13x4的I至4個多個TR13靶(圖3B)。pGL3是缺乏任意TR13靶元件的對照報道基因載體。圖4,圖A和B顯示通過TALE VP16融合蛋白的報道基因激活。圖4A是添加或沒有添加VP16結(jié)構(gòu)域的TALE蛋白以及在研究中使用的報道基因構(gòu)建體的示意圖。R13x2示出其中兩個TALE13(TR13)靶被插入的構(gòu)建體,而R15x2示出其中兩個TALE15 (TR15)靶被插入的構(gòu)建體。圖4B顯示通過具有VP16融合的TALE蛋白而不是通過TALE蛋白自身的報道基因激活。因此,在該測定中存在于TALE蛋白中天然轉(zhuǎn)錄激活結(jié)構(gòu)域在哺乳動物細胞中沒有功能。而且,觀察到的轉(zhuǎn)錄活性對報道基因激活具有特異性,該報道基因激活僅出現(xiàn)在當正確的靶與它們對應(yīng)的TALE VP16融合匹配時??寺〉腡ALE13和TALE15分別表示為TR13和TR15。TR13-VP16和TR15-VP16與具有稠合至它們的C-末端的另外的VP16激活結(jié)構(gòu)域的TR13和TR15類似。圖5,圖A和B不出相對啟動子的祀序列布置的位置作用。圖5A顯不報道基因構(gòu)建體的示意圖,其中祀序列位于SV40啟動子的近端(R13x4)或遠端(R13x4D)。圖5B顯示通 過指示的TALE的報道基因激活?!皀R13V-dl45C”是指含有SV40核定位序列、具有從C-末端缺失145個氨基酸殘基的TR13序列(產(chǎn)生C+133C帽)以及VP16激活結(jié)構(gòu)域的表達構(gòu)建體,而“R13-VP16”是指包含TALE13序列和VP16激活結(jié)構(gòu)域的表達構(gòu)建體。如所示,(i)報道基因激活無需全長TALE的C-末端145個氨基酸;以及(ii)當使靶序列位于啟動子序列的近端時,報道基因激活最大。圖6,圖A和B是示出使用TALE融合的報道基因(熒光素酶)激活的圖。圖6A示出使用包含工程化TALE 18蛋白(此處R23570,在此后圖中稱為NT-L)的融合蛋白的報道基因激活。報道基因構(gòu)建體包含在熒光素酶基因上游的工程化TALE18靶的2個拷貝。僅觀察到R23570V的該報道基因的激活,該R23570V包含17. 5個工程化重復(fù)序列(17個完整TALE重復(fù)序列以及一個半重復(fù)序列)、TR13旁側(cè)的串聯(lián)TALE重復(fù)序列的N-和C-末端序列(N帽和C帽)以及VP16激活結(jié)構(gòu)域。N-和C-末端旁側(cè)序列(N帽和C帽)的缺失破壞活性(比較 nR23570S-dNC 與模擬物(mock)。nR23570S_dNC 包含 SV40 NLS (η)、融合至單個 p65激活結(jié)構(gòu)域(S)的17. 5個工程化TALE重復(fù)序列,但是缺乏來自TALE (dNC)的N-和C-末端序列(N帽和C帽)。除了 nR23570SS-dNC具有兩個p65結(jié)構(gòu)域外,它與nR23570S_dNC相同。R0-VP16構(gòu)建體與R23570相同,但缺乏串聯(lián)TALE重復(fù)序列?!澳M物”顯示沒有表達構(gòu)建體的實驗結(jié)果。圖6B示出在染色體環(huán)境中通過包含工程化(非天然存在的)TALE18結(jié)構(gòu)域的融合蛋白的內(nèi)源性基因的激活。設(shè)計靶向NTF3基因的工程化TALE18(R23570V)可導(dǎo)致內(nèi)源性NTF3 mRNA水平的大量增加。在相同條件下,NTF3 mRNA的表達不受R0-VP16或GFP的影響。如上示出R23570V和RO-VP16 圖7,圖A至D示出另外的示例性NTF3-特異性TALE轉(zhuǎn)錄因子融合。圖7A示出在NTF3啟動子(SEQ ID NO :138)中示例性蛋白和它們的靶的圖。兩種TALE轉(zhuǎn)錄因子變體連接至VP16激活結(jié)構(gòu)域,并且表達在HEK293細胞中。在底部處序列顯示人NTF3的啟動子近端區(qū)域。劃下劃線的堿基示出NT-L TALE重復(fù)結(jié)構(gòu)域的靶位點。彎曲箭頭顯示NTF3轉(zhuǎn)錄的起始位點。圖7B顯示在圖7A中描繪的表達最多或最少蛋白的在HEK293細胞中NTF3 mRNA相對水平?!癳GFP”表示經(jīng)增加GFP表達的對照質(zhì)粒轉(zhuǎn)染的細胞。以一式四份進行測定,并且誤差條線示出標準偏差。圖7C示出從在7A中描繪的表達最多或最少蛋白的HEK293細胞分泌的NTF3蛋白的水平。使用ELISA測定以一式兩份進行測定,并且誤差條線示出標準偏差?!癗eg. ”表示經(jīng)空白載體對照轉(zhuǎn)染的細胞。圖7D顯示RVD(字母最上一行)、預(yù)期結(jié)合位點(字母第二行)和NT-L的由SELEX衍生的堿基頻率矩陣(在底部圖)。除了在矩陣中第一和第五位置處外,最常選擇的堿基匹配靶基因座序列。圖8,圖A和B是示出如通過ELISA測定的各種工程化TALEDNA結(jié)合結(jié)構(gòu)域的一系列N-和C-末端截斷的DNA結(jié)合能力的圖。圖8A示出包含9. 5個TALE重復(fù)序列的NT3-特異性TALE DNA結(jié)合結(jié)構(gòu)域的數(shù)據(jù);而圖8B示出包含9. 5個TALE重復(fù)序列的VEGF-特異性TALE DNA結(jié)合結(jié)構(gòu)域的數(shù)據(jù)。對于兩組數(shù)據(jù),當制備N-末端截斷時,在C+95位置處保留C-末端,而對于C-末端截斷,在N+137位置處保留N-末端(這些構(gòu)建體具有附接N+136N帽殘基的甲硫氨酸殘基)。如所示,當將蛋白在比N+134位置更遠的N-末端截斷時,在該測定的條件下兩種蛋白相對DNA親和力均顯示明顯降低。此外,當將C-末端截斷跨過氨基酸C+54時,在該測定的條件下兩種蛋白相對DNA親和力均顯示明顯降低。圖9,圖A和B示出如通過ELISA測定的如上所述一系列N-和C-末端截斷的DNA 結(jié)合活性。在圖9A中,顯示NTF3-特異性TALEDNA結(jié)合結(jié)構(gòu)域的數(shù)據(jù),但在該例子中,當待測試N-末端截斷時,在C+54位置處保持C-末端。對于C-末端截斷,N-末端氨基酸是N+134位置。在圖9B中,顯示VEGF-特異性TALE DNA結(jié)合結(jié)構(gòu)域的數(shù)據(jù)。如所示,如上圖9A所示保持N-和C-末端。圖10顯示包含活性的TALE功能結(jié)構(gòu)域的剖析。研究如表16中所圖示的指示構(gòu)建體的報道基因激活活性。結(jié)果顯示(i)在該測試中有效功能需要N-末端152個氨基酸和C-末端183個氨基酸;以及(ii)包括RO區(qū)域和富含亮氨酸的結(jié)構(gòu)域的串聯(lián)TALE重復(fù)序列旁側(cè)的序列恢復(fù)在該測試中細胞中功能活性。在第一 TALE重復(fù)序列之前的N-末端序列或者在最后重復(fù)序列的后面的C-末端序列的缺失均破壞該測試中功能。R13V-dl45C具有 C+133C 帽;R13V-dl82C 具有 C+95C 帽;R13V_dC 具有 C+22C 帽;nR13V-dN 具有 N+8N 帽;nR13V-d223N 具有 N+52N 帽以及 nR13V_d24 具有 N+34N 帽。圖11,圖A和B示出在K562細胞中連接FokI結(jié)構(gòu)域的兩個拷貝的TALE13的核酸酶活性。圖1lA示出在哺乳動物細胞中檢測核酸酶活性的基于單鏈退火的報道基因測定(SSA)的示意圖。在該測試中報道基因構(gòu)建體(SSA-R13)含有TALE13靶,該TALE13靶夾在GFP編碼序列的N-末端(GF)和C-末端部分(FP)之間。質(zhì)粒SSA-Rl3自身不能驅(qū)動GFP表達,但R13靶的切割促進GFP的N-末端(GF)和C-末端(FP)部分的同源重組,從而形成功能性GFP。因此,通過分析GFP陽性細胞的百分比例來評估TALEN蛋白的核酸酶活性。圖1IB通過TALEN蛋白證實核酸酶活性。與沒有核酸酶質(zhì)粒的對照實驗(模擬物)相比,使用TALEN(R13dl82C-scFokI ;C+95C帽)從SSA-R13報道基因構(gòu)建體產(chǎn)生的GFP陽性細胞顯著增加。除了通過FokI結(jié)構(gòu)域之間GGGGS序列的12個拷貝連接的FokI結(jié)構(gòu)域的兩個拷貝用于替代VP16激活結(jié)構(gòu)域之外,R13dl82C-scFokI與如上所述的R13V_dl82C相同。圖12示出顯示TALE-13效應(yīng)物結(jié)構(gòu)域-FokI切割半結(jié)構(gòu)域體外融合的核酸酶活性的溴化乙錠凝膠。列顯示四種TALE結(jié)構(gòu)域核酸酶切割蛋白的數(shù)據(jù)使用L2或L8接頭與N+137、C+28構(gòu)型的核酸酶融合(參見實施例7);使用L2接頭與N+137、C+39構(gòu)型的核酸酶融合;以及使用L2接頭的N+137、C+63融合。在兩個靶位點之間的缺口間距顯示在孔下方,其中數(shù)目表示在靶之間的bp數(shù)目?!癝”表示僅該對的一半的單個靶位點?!癙mll”表示使用標準限制性酶的切割以及空白表示沒有核酸酶編碼質(zhì)粒下進行的實驗結(jié)果。圖13是通過表示的TALE13_FokI切割半結(jié)構(gòu)域融合獲得的DNA切割的圖?!岸垠w缺口”表示兩個靶位點之間bp的數(shù)目,以及“DNA切割表示在反應(yīng)中有多少DNA被切害I]。結(jié)果表示在這些反應(yīng)條件下使用四種測試的核酸酶中三種幾乎可獲得100% DNA切割。圖14示出顯示TALE結(jié)構(gòu)域-FokI半切割結(jié)構(gòu)域融合的核酸酶活性的溴化乙錠染色凝膠。在該實驗中,N-末端不同,而C-末端保持C+63構(gòu)型。對于圖12,Pmll和Blank對照相同。在該實驗中測試的N-末端截斷是N+137、N+134、N+130和N+119。不同DNA靶位點示出在圖12中,除了標記是在同源泳道上而不是在其下面。當N-末端比約+134至+137更短時,核酸酶的活性減弱。承載在5bp缺口和8bp缺口靶的各泳道中DNA的量不均勻,所以由于在反轉(zhuǎn)重復(fù)序列中無效PCR而難于確定在這些泳道中較低帶是否存在DNA切割產(chǎn)物或者本底帶。圖15,圖A和B示出在K562細胞中TALEN活性。圖15A(SEQID NO :342)示出在報道基因質(zhì)粒中用于靶向TALE對的NTF3使用的靶序列,其也包括用于CCR5-特異性 ZFN(8267/8196)的對的結(jié)合位點。圖15B是示出SSA核酸酶測定的結(jié)果的圖,其中(-)NT3R18C28L8(淺灰色條;C+28C帽,L8接頭)示出當NTF3-特異性對的僅一個成員出現(xiàn)時觀察到的數(shù)據(jù),而(+)NT3R18C28L8(深灰色條)示出當該對的兩個成員均出現(xiàn)時的結(jié)果?!?267EL8196KK”示出使用CCR5-特異性ZFN對的結(jié)果。圖16示出在經(jīng)各對靶向TALEN的NTF3處理的細胞上Cel-1Surveyor 錯配測定(Transgenomics, “Cel-1測定”)的結(jié)果。編號為1-30的樣品如文本中所述。(+)表示添加Cel-1酶;(-)表示沒有添加酶的測定。在大部分樣品中約226bp的帶明顯,這表示由通過核酸酶的內(nèi)源性NTF3靶的切割誘導(dǎo)的錯配,隨后為引入具有野生型序列的錯配區(qū)域的非同源性末端接合。“gfp”表示對照,其中僅使用GFP編碼質(zhì)粒來轉(zhuǎn)染細胞。在凝膠上定量的NHEJ活性%表示在包含Cel-1酶的各樣品中。凝膠證實這些對誘導(dǎo)在這些樣品中在哺乳動物細胞中該內(nèi)源性基因座處至多8. 66%的總等位基因的靶向基因座破壞。圖17,圖A至C示出在K562細胞中NTF3-特異性TALEN的活性。圖17A顯示稱為NT-R的工程化TALEN蛋白的SELEX特異性數(shù)據(jù),該NT-R是用于NT-L TALEN融合制備的工程化配偶體(partner)。預(yù)期堿基和對應(yīng)的RVD顯示在繪圖上。+63C-末端旁側(cè)區(qū)用于該SELEX實驗。圖17B顯示在K562細胞中使用四個NTF3-特異性TALEN對的Cel-1測定的凝膠結(jié)果,其中培養(yǎng)條件為30°C或37°C。如從呈現(xiàn)數(shù)據(jù)可見,大多數(shù)活性對在37°C下顯示3%的基因修飾水平并且在冷激條件(30°C)下顯示9%的基因修飾水平。(Doyon等(2010)Nat Methods 8(1) :74-9. Epub 2010 年 12 月 5 日和美國申請 No. 12/800,599)。然后將冷激研究中來自PCR池的84擴增子測序,并且鑒定七種突變等位基因,其顯示在圖17C(SEQID NO =343-350)中。如所示出,觀察到插入/缺失。圖18,圖A和B示出在K562細胞中使用TALEN進行NTF3基因座的內(nèi)源性切割后所觀察到的測序結(jié)果。圖18A示出染色體序列(SEQ ID NO :139-140)以及方框描繪兩個TALEN的結(jié)合位點。圖18B示出來自經(jīng)在實施例8中所述的與野生型(“wt”)序列(SEQIDNO =141-175)比對的不同NTF3TALEN對處理的細胞的NTF3基因座的測序結(jié)果的編輯。圖19示出在內(nèi)源性基因處通過由NTF3-特異性TALEN誘導(dǎo)的DSB的靶向性整合事件(targeted Integration event)的結(jié)果。合成在DSB中捕獲用寡核苷酸,使其包含與在TALEN結(jié)合位點之間空間內(nèi)所有可能序列相對應(yīng)的突出端(overhang)。使用一組引物來進行PCR,該引物將插入的寡核苷酸和區(qū)引出設(shè)想切割位點處。測試八(8)個不同對的NTF3-特異性TALEN,其中這些對標記A-Η。圖例顯示凝膠部分,該凝膠部分示出如何讀出泳道。圖20,圖A至D顯示在該基因座處通過TALEN對誘導(dǎo)DSB之后在內(nèi)源性染色體基因座處通過NHEJ介導(dǎo)的寡核苷酸雙鏈體的捕獲。圖20A顯示NTF3靶基因座的一部分(雙鏈體頂部,SEQ ID NO :351)以及用于該研究的寡核苷酸雙鏈體之一(雙鏈體底部,SEQ IDNO 352)。在頂部序列中NT-L+28和NT-R+63的結(jié)合位點劃下劃線。也突出顯示最有效捕獲雙鏈體(5’ CTGG)的切割突出端。圖20B顯示NTF3靶基因座的一部分(頂部雙鏈體,SEQ IDNO :353)以及用于該研究的第二寡核苷酸雙鏈體(底部序列,SEQ ID NO :354)。在頂部序列中NT-L+28和NT-R+63的結(jié)合位點劃下劃線。也顯示最有效捕獲該第二雙鏈體(5’TGGT)的切割突出端。圖20C(SEQ ID NO :355-357)顯示在圖20A中所示寡核苷酸雙鏈體的存在下在K562細胞中進行NT-L+28和NT-R+63表達后的結(jié)果。然后使用在雙鏈體內(nèi)退火的一 種引物以及與天然NTF3基因座退火的一種引物將在成功整合的雙鏈體和基因組DNA之間的接點擴增。將所得擴增子克隆和測序。在頂部處“預(yù)期”序列表示由寡核苷酸雙鏈體完全連接至切割的基因座的序列。方框突出顯示在連接序列中雙鏈體突出端的位置。底部的兩根線提供由該研究獲得的連接序列。如所示,11種連接序列由雙鏈體完全連接至切割突出端而產(chǎn)生,而一個連接序列展現(xiàn)出與在通過NHEJ修復(fù)之前的切除一致的短缺失(12bp)。圖20D(SEQ IDNO :358-362)顯示除了使用在圖20B中所示寡核苷酸雙鏈體之外如在圖20C中所示的實驗結(jié)果,其具有被與在圖20A中所示的雙鏈體相關(guān)的一個堿基轉(zhuǎn)移的4bp突出端。最低處四根線提供從該研究中獲得的連接序列。如所示,鑒定四種不同序列,其分別展現(xiàn)出與在NHEJ-介導(dǎo)的修復(fù)之前的切除一致的短缺失。圖21示出在PCR擴增時在天然TALE重復(fù)結(jié)構(gòu)域中形成的多種預(yù)測的可能的二級DNA結(jié)構(gòu),該PCR擴增可破壞模板的有效擴增。使用Mfo Id來進行TALE-重復(fù)蛋白的DNA序列分析(M-Zuker NucleicAcids Res. 31(13) :3406_15,(2003))。在編碼第一完整 TALE 重復(fù)序列的核酸5’端處開始核酸序列的800個堿基對分析。分析的序列包含約7. 5個重復(fù)序列。分析揭示多種非常穩(wěn)定的二級結(jié)構(gòu)。圖22示出顯示在34個氨基酸重復(fù)單元中各位置處保守氨基酸的來自黃單胞菌屬細菌的1963個TALE重復(fù)序列的計算機模擬(in silico)分析的圖片結(jié)果(pictoralresult)。字母大小與在任意給定位置處觀察到的多樣性反相關(guān)字母越大,表示多樣性的公差越?。欢帜冈叫?,表示在給定位置處可觀察到的氨基酸可替換。不同顏色陰影表示不同氨基酸的化學(xué)分類。在1963個TALE重復(fù)序列的該樣品中,頻率最高的RVD是:28.8%HD,20. 6% N1、15. 1% NNU3. 2% NG,8. 5% NS,5. 5% HG 以及 5. 5% NG*(其中星號表示在33個殘基的TALE重復(fù)序列中而非更典型的34個殘基重復(fù)序列觀察到RVD)。在該樣品中觀察到15種其他RVD序列,但這些全部具有小于I %的頻率。圖23示出用于串聯(lián)連接選擇的TALE重復(fù)組件的PCR擴增子以及連接它們至載體主鏈內(nèi)以產(chǎn)生所需TALE融合蛋白的方法示意圖。特異性引物列出在實施例11中。也示出載體主鏈,組裝的TALE融合克隆至其內(nèi)。融合配偶體結(jié)構(gòu)域是FokI核酸酶催化結(jié)構(gòu)域以使得可制備TALEN對的一個成員。
圖24,圖A和B示出使用TALEN來驅(qū)動異源編碼RFLP的短片段至內(nèi)源性CCR5基因座內(nèi)的基于同源性轉(zhuǎn)移。圖24A顯示測試的示意圖以及示出使用的PCR引物和BglI位點的位置。圖24B示出顯示將46bp供體序列插入通過CCR5-特異性TALEN對引入的DSB內(nèi)的凝膠。供體序列包含獨特的BglI限制性位點,所以如圖所示,靶位點經(jīng)PCR擴增后,然后使用BglI消化PCR產(chǎn)物,通過TALEN對已經(jīng)切割以及已經(jīng)插入46bp供體序列的序列將具有兩種BglI切割產(chǎn)物。圖25,圖A和B是示出如與靶缺口間距相比較的TALEN的切割效率的圖。圖25A示出一組具有+28/+28配對(在兩TALEN上的C+28C帽)的CCR5-特異性TALEN對活性的圖,而圖25B示出一組包含+63/+63配對(在兩個TALEN上C+63C帽)的CCR5-特異性TALEN對活性的圖。如所示,+28/+28對的活性受到在兩個靶序列之間的12或13bp缺口間距的更嚴格限制,而+63/+63對在12-23bp的缺口間距范圍內(nèi)展現(xiàn)出活性。圖26是示出具有不同長度C帽序列(或者以另外方式表述,連接完整TALE重復(fù)序列的陣列至核酸酶結(jié)構(gòu)域的不同序列)的CCR5-特異性TALEN對的內(nèi)源性活性的圖。穿過C-末端序列來制備C末端截斷以產(chǎn)生由C-2至C+278的C帽。在K562細胞中測試這些構(gòu)建體對具有18bp缺口間距的內(nèi)源性靶的TALEN活性,其中將細胞在37°C (淺正方形)或者冷激條件(30°C,深菱形)下孵育。活性高度取決于用于連接完整TALE重復(fù)序列的陣列與FokI切割結(jié)構(gòu)域的序列的識別。注意,C帽符號不包括C+0,所以描繪在X = O處的C-1C帽值以及C-2描繪為X = -1。C+5、C+28等描繪為X = 5、X = 28等。觀察到C+63C帽序列的峰活性。圖27示出RVD分析選擇的示例性TALEN的特異性。TALEN經(jīng)設(shè)計結(jié)合11個堿基靶序列5’-TTGACAATCCT-3’ (SE Q ID NO :178)。當在位置6處改變該靶,使得在位置5-7處靶識別為CAA (設(shè)計的靶)、CGA、TCG或TTG時,顯示通過ELISA分析測定的DNA結(jié)合結(jié)果。圖28是經(jīng)測定的所有測試的RVD的ELISA親和力的圖形顯示。在20x20格子中顯示數(shù)據(jù),其中RVD的第一氨基酸(位置12)示出在格子的垂直左方以及RVD的第二氨基酸(位置13)示出格子的水平上方。在各格子中字母A、C、G、和T的大小與CAA位點、CCA位點、和CGA位點以及CTA位點各自的歸一化ELISA信號的平方根成比例。相對于天然存在的HD、N1、NG、NS、NN、IG、HG和NKRVD,許多RVD已經(jīng)改善DNA結(jié)合性能。在自然界中最常見的四種RVD(HD、NG、N1、和NN)框選作為參照。對于該四種RVD,通過ELISA的優(yōu)選堿基匹配預(yù)期優(yōu)選堿基。圖29是示出TALEN活性的測定結(jié)果的凝膠,其中C-末端半重復(fù)序列在RVD處改變以使得與核苷酸堿基而非T可相互作用。顯示如通過如上所述的Cel-1測定確定的TALEN活性。箭頭表示在插入/缺失處Cel-1切割的結(jié)果的帶。泳道分配列出在實施例16,表32中。這些結(jié)果證實可將TALEN C-末端半重復(fù)序列工程化以結(jié)合如所需的各核苷酸堿基。圖30是示出使用具有TALE重復(fù)單元的TALEN來測定TALEN活性的凝膠,該TALE重復(fù)單元包含完整非典型RVD (完全取代);重復(fù)結(jié)構(gòu)域,其中一種重復(fù)單元或特異性重復(fù)單元的全部被非典型RVD(類型取代)取代(例如具有指定為‘T’等的RVD的所有重復(fù)單元);或者TALEN,其中具有陣列的僅一個重復(fù)單元被包含非典型RVD的重復(fù)單元(單取代)取代?;钚詼y試時在37度或在冷激條件(30度)下進行,并且任意可測定NHEJ活性的量顯示在泳道上。
圖31是在新生大鼠中在進行大鼠胚胎的TALEN處理之后示出NHEJ事件的存在的一系列凝膠。將基因組DNA從幼鼠中分離,然后在核酸酶靶位點周圍的區(qū)域進行PCR。然后使用T7核酸內(nèi)切酶來檢測產(chǎn)物的由NHEJ誘導(dǎo)的錯配。箭頭表示在錯配的存在下生成的帶。檢測的66只幼鼠中7只(11% )為NHEJ事件陽性。發(fā)明詳述簡介本申請證實,可將TALE-重復(fù)結(jié)構(gòu)域工程化以識別所需內(nèi)源性DNA序列以及融合功能結(jié)構(gòu)域至這些工程化TALE-重復(fù)結(jié)構(gòu)域可用于修飾包括基因的內(nèi)源性細胞基因座的功能狀態(tài)或者實際基因組DNA序列,該內(nèi)源性細胞基因座存在于它的天然染色質(zhì)環(huán)境中。因此,本發(fā)明提供已經(jīng)工程化以特異性識別包括基因的高效、內(nèi)源性細胞基因座的TALE-融合DNA結(jié)合蛋白。因此,通過內(nèi)源性基因轉(zhuǎn)錄的激活和表達,本發(fā)明的TALE-融合可用于調(diào)控內(nèi)源性基因表達。TALE-融合也可連接諸如核酸酶、轉(zhuǎn)座酶或甲基化酶的其他調(diào) 控或功能結(jié)構(gòu)域以修飾內(nèi)源性染色體序列。本文所述的方法和組合物使得可用于人和哺乳動物的新型治療應(yīng)用中,例如治療遺傳疾??;癌癥;真菌、原生動物、細菌和病毒感染;局部缺血;血管疾??;關(guān)節(jié)炎;免疫失調(diào)等,以及可用于提供功能基因組測定,以及產(chǎn)生用于研究和藥物篩選的工程化細胞系,以及開發(fā)包括但不限于增加抗病性和改變水果成熟特征、糖和油組合物、產(chǎn)量和顏色的具有改變的表型的植物的方法。如本文所述的,可將兩種或多種TALE-融合施用至任何細胞,該兩種或多種TALE-融合識別相同靶內(nèi)源性細胞基因或不同靶內(nèi)源性細胞基因。在另一實施方案中,TALE-融合蛋白連接下述的至少一個或多個調(diào)節(jié)結(jié)構(gòu)域。調(diào)控或功能結(jié)構(gòu)域的非限制性例子包括轉(zhuǎn)錄因子抑制因子或激活因子結(jié)構(gòu)域例如KRAB和VP16、輔助抑制因子和輔助激活因子結(jié)構(gòu)域、DNA轉(zhuǎn)甲基酶、組蛋白乙酰轉(zhuǎn)移酶、組蛋白脫乙?;讣爸T如來自核酸內(nèi)切酶Fokl的切割結(jié)構(gòu)域的DNA切割結(jié)構(gòu)域。本文也描述包括融合蛋白的組合物和方法,該融合蛋白包含一個或多個TALE-重復(fù)單元、N帽以及任選地融合至核酸酶結(jié)構(gòu)域的C帽,該組合物和方法用于外源性序列的基因組編輯(例如,基因的切割;基因的改變,例如通過外源性序列的插入(物理插入或通過同源重組修復(fù)的插入)后切割和/或通過NHEJ后切割;一個或多個基因的部分或完全失活;具有內(nèi)源性基因的不同功能狀態(tài)的等位基因的產(chǎn)生;調(diào)控元件的插入等)以及在種系中進行的基因組改變。也公開制備和使用例如用于編輯(改變)在靶細胞中一個或多個基因的這些組合物(試劑)的方法。因此,本文所述的方法和組合物提供用于改變靶向基因(例如,敲入)和/或敲除(部分或完全)一個或多個基因和/或用于使任意靶等位基因隨機突變因而使得可生成人疾病的動物模型的高效方法。本文也公開用于連接核酸酶結(jié)構(gòu)域至提供高活性核酸酶功能的TALE重復(fù)陣列的組合物(C帽)。在一些實施方案中,C帽包含來自天然TALE C-末端旁側(cè)序列的肽序列。在其他實施方案中,C帽包含來自TALE重復(fù)結(jié)構(gòu)域的肽序列。在又一實施方案中,C帽包含非-TALE序列。C帽也可展現(xiàn)出包含來自天然TALE C-末端旁側(cè)序列和/或TALE重復(fù)結(jié)構(gòu)域和/或非這些來源的肽序列的嵌合結(jié)構(gòu)。也可將TALEN工程化以使得可將目標供體插入安全港基因座內(nèi),例如AAVSl (參見共同擁有的美國專利公開20080299580)或者CCR5 (參見共同擁有的美國專利公開20080159996)。供體可包含目標基因或者可編碼目標RNA,例如shRNA、RNAi或miRNA。通過作為典型的tet-調(diào)節(jié)體系和RU-486體系的體系也可控制工程化TALE-融合蛋白(例如,轉(zhuǎn)錄激活因子、轉(zhuǎn)錄抑制因子和核酸酶)的表達(參見,例如Gossen&Bujard,Proc Natl Acad Sci 89:5547(1992) ;01igino 等,Gene Ther. 5 :491-496 (1998) ;Wang等,Gene Ther. 4 :432-441(1997) ;Neering 等,Blood 88:1147-1155(1996);以及 Rendahl 等,Nat. Biotechnol. 16 =757-761 (1998))。這些賦予對TALE-融合激活因子和抑制因子表達的小分子控制,因而賦予對目標靶基因的小分子控制。該有益特征可用于細胞培養(yǎng)模型中、基因治療中以及轉(zhuǎn)基因動物和植物中。概述除非另有說明,本文所公開的方法的實施以及組合物的制備和使用采用在分子生物學(xué)、生物化學(xué)、染色質(zhì)結(jié)構(gòu)和分析、計算化學(xué)、細胞培養(yǎng)、重組DNA和相關(guān)領(lǐng)域中常規(guī)技術(shù),這些技術(shù)均在本領(lǐng)域的技術(shù)范圍內(nèi)。這些技術(shù)在文獻中完整地解釋。參見,例如,Sambrook 等 MOLECULAR CLONING A LABORATORY MANUAL,第二版,Cold Spring HarborLaboratory Press,1989 以及第三版,2001 ;Ausubel 等,CURRENT PROTOCOLS IN MOLECULARBIOLOGY, John ffiley&Sons,紐約,1987 以及定期更新;系列 METHODS INENZYM0L0GY,Academic Press, San Diego ;ffolffe, CHR0MATINSTRUCTURE AND FUNCTION,第三版,Academic Press, San Diego, 1998 ;METH0DS IN ENZYM0L0GY,304 卷,“CHROMATIN”(P.M. Wassarman 和 A. P. Wolffe 編輯),Academic Press, San Diego, 1999 ;以及 METHODS INMOLECULAR BIOLOGY, 119 卷,“ChromatinProtocols”(P. B. Becker 編輯)Humana Press,Totowa,1999。定義術(shù)語“核酸”、“多核苷酸”和“寡核苷酸”可交換使用并且是指直線或環(huán)狀構(gòu)象的單或雙鏈形式的脫氧核糖核苷酸或核糖核苷酸聚合物。為了本公開,這些術(shù)語不應(yīng)當解釋為對聚合物長度的限制。術(shù)語可涵蓋天然核苷酸以及堿基、糖和/或磷酸部分(例如,硫代磷酸主鏈)被修飾的核苷酸的已知類似物。通常,特定核苷酸的類似物具有相同堿基配對特異性,即,A的類似物將與T堿基配對。術(shù)語“多肽”、“肽”和“蛋白”可交換使用以表示氨基酸殘基的聚合物。術(shù)語也應(yīng)用于氨基酸聚合物,其中一種或多種氨基酸是對應(yīng)天然存在的氨基酸的化學(xué)類似物或修飾衍生物?!敖Y(jié)合”是指在大分子之間(例如,蛋白和核酸之間)序列特異性、非共價相互作用。并非所有組分的結(jié)合相互作用都需要序列特異性(例如,在DNA主鏈中與磷酸殘基作用),只要作為總體的相互作用為序列特異性的。這些相互作用特征通常在于10_6M或更低的離解常數(shù)(Kd)?!坝H和力”是指結(jié)合強度親和力增加與較低Kd相關(guān)?!敖Y(jié)合蛋白”是能夠非共價結(jié)合另一分子的蛋白。結(jié)合蛋白可結(jié)合例如DNA分子(DNA-結(jié)合蛋白)、RNA分子(RNA-結(jié)合蛋白)和/或蛋白分子(蛋白_結(jié)合蛋白)。在蛋白-結(jié)合蛋白的情況下,它可結(jié)合自身(以形成同型二聚體、同型三聚體等)和/或它可結(jié)合一種或多種不同蛋白的一種或多種分子。結(jié)合蛋白可具有多于一種結(jié)合活性。例如,鋅 指蛋白具有DNA-結(jié)合、RNA-結(jié)合和蛋白-結(jié)合活性。
“TALE-重復(fù)結(jié)構(gòu)域”(也稱為“重復(fù)陣列”)是牽涉TALE與其同源靶DNA序列結(jié)合的序列,以及該序列包含一個或多個TALE “重復(fù)單元”。單個“重復(fù)單元(也稱為“重復(fù)序列”)的長度通常為33-35個氨基酸以及與在天然存在的TALE蛋白內(nèi)其他TALE重復(fù)序列展現(xiàn)出至少一些序列同源性。如本文所述的TALE重復(fù)單元通常是形式(X)15H-(Xkvd)2-(X)20_22(SEQ ID NO :399),其中在天然存在的 TALE 蛋白中 Xkvd(位置 12 和 13)展現(xiàn)出高可變性。改變在位置12和13處的氨基酸同一性可改變與重復(fù)單元相互作用的DNA核苷酸(或者在雙鏈DNA中互補核苷酸對)的同一'丨生的優(yōu)選性。“非典型的”RVD是在自然中較稀少或不存在的RVD序列(位置12和13),例如,小于5%的天然存在的TALE蛋白,優(yōu)選小于2%的天然存在的TALE蛋白和甚至更優(yōu)選小于1%的天然存在的TALE蛋白。非典型RVD可以為非天然存在的。術(shù)語“N帽”多肽和“N-末端序列”用于指旁側(cè)連接TALE重復(fù)結(jié)構(gòu)域的N-末端部分的氨基酸序列(多肽)。N帽序列可以具有任意長 度(包括沒有氨基酸),只要TALE-重復(fù)結(jié)構(gòu)域用于結(jié)合DNA。因此,N帽序列可牽涉提供TALE重復(fù)結(jié)構(gòu)域的合適結(jié)構(gòu)穩(wěn)定性和/或與DNA的非特異性接觸。N帽序列可以為天然存在的或非天然存在的,例如它可由任意全長TALE蛋白的N-末端區(qū)衍生。N帽序列優(yōu)選為全長型TALE蛋白中存在的多肽片段(截斷),例如在足夠支撐TALE-重復(fù)結(jié)構(gòu)域的DNA-結(jié)合功能或者提供對TALE融合蛋白活性的支撐的天然存在的TALE蛋白中旁側(cè)連接TALE重復(fù)結(jié)構(gòu)域的N-末端區(qū)的任意截斷。當各TALE-重復(fù)單元包含典型RVD時和/或當C帽包含TALE蛋白的全長型天然存在的C-末端區(qū)時,N帽序列不包含天然存在的TALE蛋白的全長型N-末端區(qū)。因此,如上所述,該序列不必牽涉DNA識別,但可增強內(nèi)源性靶DNA處有效和特異性功能或者TALE融合蛋白的有效活性。最靠近TALE重復(fù)結(jié)構(gòu)域的N-末端部分的N帽序列部分可與TALE重復(fù)單元具有一些同源性并且稱為“R0重復(fù)序列”。通常,在靶位點的5'位置處的優(yōu)選核苷酸是胸腺嘧啶(T)。也可以是,N帽的RO重復(fù)部位優(yōu)選與通過TALE重復(fù)序列指定的靶序列相鄰的T(或者在雙鏈DNA中與T配對的A堿基)相互作用。以下示出RO序列的一個例子LDTGQLLKIAKRGGVTAVEAVHAffRNALTGAPLN(SEQ IDNO :1)術(shù)語“C帽”或“C-末端區(qū)”是指可旁側(cè)連接TALE重復(fù)結(jié)構(gòu)域的C-末端部分的任選存在的氨基酸序列(多肽)。C帽也可包含末端C-末端TALE重復(fù)序列的任意部分,包括O殘基、TALE重復(fù)序列的截斷或完整TALE重復(fù)序列。C-末端區(qū)的前20個殘基通常與TALE重復(fù)單元的前20個殘基同源以及可包含能夠指示通過TALE重復(fù)結(jié)構(gòu)域表示的DNA序列的核苷酸3'的優(yōu)選性的RVD序列。當存在時,與TALE重復(fù)序列的前20個殘基同源的C-末端區(qū)的該部分也稱為“半重復(fù)序列”。在C-末端區(qū)中殘基的編碼方案反映該典型部分同源性,其中編碼方案開始于C-20,朝向多肽的C-末端遞增至C-19、C-18、C-17、C-16、C-15、C-14、C-13、C-12、C-ll、C-10、C_9、C_8、C_7、C_6、C_5、C_4、C_3、C_2、C-1,遞增至 C+1,然后遞增至C+2、C+3等。C+28C帽是指來自殘基C-20至殘基C+28(包含在內(nèi))的序列,因而其具有48個殘基的長度。C帽序列可以為天然存在的(例如,天然存在的蛋白的片段)或非天然存在的(例如,包含一個或多個氨基酸缺失、取代和/或添加的天然存在的蛋白的片段),或者具有用作C帽能力的任意其他天然或非天然序列。對于TALE重復(fù)結(jié)構(gòu)域的DNA-結(jié)合功能,不是絕對需要C-末端區(qū);但是,在一些實施方案中,C帽可與DNA相互作用以及也可增強例如在包含核酸酶的融合蛋白中在C-末端至TALE重復(fù)結(jié)構(gòu)域處功能結(jié)構(gòu)域的活性。
“鋅指DNA結(jié)合蛋白”(或結(jié)合結(jié)構(gòu)域)是在通過一個或多個鋅指以序列特異性方式結(jié)合DNA的蛋白或較大蛋白內(nèi)的結(jié)構(gòu)域,其是在結(jié)合結(jié)構(gòu)域內(nèi)氨基酸序列的區(qū),該結(jié)合結(jié)構(gòu)域的結(jié)構(gòu)通過鋅離子的配位來穩(wěn)定。術(shù)語鋅指DNA結(jié)合蛋白通常簡稱為鋅指蛋白或ZFP。包含TALE-重復(fù)結(jié)構(gòu)域的“選擇的”鋅指蛋白或蛋白是主要由經(jīng)驗過程制備的蛋白,例如噬菌體展示、相互捕獲或雜交選擇。參見,例如,US 5, 789, 538 ;US 5,925, 523 ;US6,007,988 ;US 6,013,453 ;US 6,200,759 ;W0 95/19431 ;W0 96/06166 ;W0 98/53057 ;W098/54311 ;W0 00/27878 ;W0 01/60970 ;W0 01/88197 以及 WO 02/099084。術(shù)語“序列”是指任意長度的核苷酸序列,其可以為DNA或RNA ;可以為線性、環(huán)狀或分支以及可以為單鏈或雙鏈。術(shù)語“供體序列”是指被插入基因組內(nèi)的核苷酸序列。供體序列可以具有任意長度,例如長度為2至10,000個核苷酸(或者在其中或其上的任意整數(shù)),優(yōu)選長度為約100至1,000核苷酸(或其中的任意整數(shù)),更優(yōu)選長度為約200至500核苷酸。 “同源、不同的序列”是指與第二序列具有一定程度的序列同一性的第一序列,但這些序列與第二序列并不相同。例如,包含突變基因的野生型序列的多核苷酸與突變基因的序列同源但不相同。在某些實施方案中,兩種序列之間的同源程度足夠使得可利用常規(guī)細胞機制來在它們之間同源重組。兩種同源、不同的序列可以為任意長度以及它們非同源程度可以小到僅單個核苷酸(例如,通過靶向同源重組來校正基因組點突變)或者大到10或更多千堿基(例如,在染色體中在預(yù)定的異位位點處插入基因)。包含同源、不同的序列的兩種多核苷酸不需要長度相同。例如,可使用20至10,000個核苷酸或核苷酸對的外源性多核苷酸(即,供體多核苷酸)。測定核酸和氨基酸序列同一性的技術(shù)是本領(lǐng)域已知的。通常,這些技術(shù)包括測定基因的mRNA的核苷酸序列和/或測定由此編碼的氨基酸序列,以及比較這些序列與第二核苷酸或氨基酸序列。也可以這種方式來測定和比較基因組序列。通常,識別是指兩種多核苷酸或多肽序列分別的精確核苷酸至核苷酸或者氨基酸至氨基酸對應(yīng)。通過測定它們識別百分比同一性可比較兩個或更多個序列(多核苷酸或氨基酸)。無論核酸或氨基酸序列,兩種序列的百分比同一性是在兩個比對序列之間精確匹配數(shù)目除以較短序列的長度,然后乘以 100??蛇x擇地,通過在使得可在同源區(qū)之間形成穩(wěn)定雙鏈體的條件下雜交多核苷酸,然后使用單鏈特異性核酸酶來消化,以及測定消化的片段大小可測定多核苷酸之間的序列類似性程度。如使用以上方法測定,當在限定長度的分子上序列展現(xiàn)出至少約70% -75%,優(yōu)選80% -82%,更優(yōu)選85% -90%,甚至更優(yōu)選92%、又更優(yōu)選95%、以及最優(yōu)選98%序列同一性時,兩種核酸或兩個多肽序列基本上彼此同源。如本文所使用,基本上同源也是指顯示與指定的DNA或多肽序列完全同一性的序列。基本上同源的DNA序列可在例如特定體系所限定的嚴格的條件下的Southern雜交試驗中鑒定。所限定的合適雜交條件是在本領(lǐng)域技術(shù)范圍內(nèi)。參見,例如 Sambrook 等,同上NucleicAcid Hybridization A PracticalApproach, B. D. Hames 和 S. J. Higgins 編輯,(1985) Oxford !Washington, DC ;IRL Press)?!爸亟M”是指在兩種多核苷酸之間交換遺傳信息的過程。為了本公開,“同源重組(HR) ”是指例如在細胞中通過同源重組修復(fù)機制在雙鏈斷裂的修復(fù)時發(fā)生的這些交換的指定形式。該過程需要核苷酸序列同源性,使用“供體”分子以模板化“靶”分子(即,經(jīng)過雙鏈斷裂的一者)的修復(fù),并且因為它導(dǎo)致遺傳信息由供體轉(zhuǎn)移至靶,該過程分別稱為“非交叉基因轉(zhuǎn)換”或者“短段基因轉(zhuǎn)換(short tract geneconversion) ”。不希望受任何特定理論的約束,這些轉(zhuǎn)移可包括在破碎的靶和供體之間形成的異源雙鏈DNA的錯配校正;和/或“合成依賴性鏈退火(synthesis-dependent strand annealing) ”,其中供體用于再合成將成為靶的一部分的遺傳信息,和/或相關(guān)過程。這些指定的HR通常導(dǎo)致靶分子的序列改變,使得一部分或所有供體多核苷酸的序列被并入靶多核苷酸內(nèi)。在本公開的方法中,如本文所述的一種或多種靶向核酸酶在靶序列(例如,細胞染色質(zhì))中預(yù)定位點處產(chǎn)生雙鏈斷裂,以及可將與在斷裂區(qū)中核苷酸序列具有同源性的“供體”多核苷酸引入細胞內(nèi)。已經(jīng)顯示雙鏈斷裂(DSB)的存在有助于供體序列的整合??蓪⒐w序列物理整合;或者可選擇地,供體多核苷酸用作通過同源重組的斷裂修復(fù)的模板,導(dǎo)致所有或者一部分核苷酸序列作為供體被引入細胞染色質(zhì)內(nèi) 。因此,在細胞染色質(zhì)中第一序列可改變;以及在某些實施方案中,可將該第一序列轉(zhuǎn)化為存在于供體多核苷酸中序列。因此,術(shù)語“使置換”或“置換”的使用可理解為表示一個核苷酸序列被另一個置換(即,在信息意義上序列的置換);以及一個多核苷酸不一定需要被另一多核苷酸物理或化學(xué)置換。在一些實施方案中,通過本文所述的靶向核酸酶來弓I入兩個DSB,這導(dǎo)致在DSB之間的DNA缺失。在一些實施方案中,“供體”多核苷酸插入兩個DSB之間。因此,在某些實施方案中,與目標區(qū)中序列同源的供體序列部分與被置換的基因組序列展現(xiàn)出約80至99% (或之間的任意整數(shù))序列同一性。在其他實施方案中,例如如果在超過100個連續(xù)堿基對的供體和基因組序列之間僅有I個核苷酸不同,則在供體和基因組序列之間的同源性高于99%。在某些情況下,供體序列的非同源性部分可含有在目標區(qū)中不存在的序列,使得新序列被引入目標區(qū)中。在這些例子中,這些非同源序列通常旁側(cè)連接與目標區(qū)中序列同源或相同的50-1,000堿基對(或其中的任意整數(shù)值)或者大于1,000的任意數(shù)目的堿基對的序列。在其他實施方案中,供體序列與第一序列非同源,以及通過非同源重組機制插入基因組內(nèi)。在本文所述的任意方法中,融合至核酸酶結(jié)構(gòu)域的另外的TALE-融合蛋白以及TALE-(或鋅指)核酸酶的另外的對可用于在細胞內(nèi)另外的靶位點的另外的雙鏈切割。通過破壞目標基因的表達的供體序列的靶向性整合,本文所述的任意方法可用于在細胞中一個或多個靶序列的部分或完全失活。也提供具有部分或完全失活基因的細胞系O而且,如本文所述的靶向性整合方法也可用于整合一個或多個外源性序列。外源性核酸序列可包含例如一種或多種基因或者CDNA分子、或者任意類型的編碼或非編碼序列、以及一種或多種控制元件(例如,啟動子)。此外,外源性核酸序列可制備一種或多種RNA 分子(例如,發(fā)夾 RNA (shRNA)、抑制 RNA (RNAi)、微 RNA (miRNA)等)。“切割”是指DNA分子的共價主鏈斷裂??赏ㄟ^包括但不限于磷酸二酯鍵的酶或化學(xué)水解的各種方法來開始切割??赡転閱捂溓懈詈碗p鏈切割,并且雙鏈切割可由兩個不同單鏈切割事件所致。DNA切割可導(dǎo)致平端或交錯末端。在某些實施方案中,融合多肽用于靶向的雙鏈DNA切割?!扒懈畎虢Y(jié)構(gòu)域”是連同第二多肽(相同或不同)形成具有切割活性(優(yōu)選雙鏈切割活性)的復(fù)合物的多肽序列。術(shù)語“第一和第二切割半結(jié)構(gòu)域”、“+和-切割半結(jié)構(gòu)域”以及“左和右切割半結(jié)構(gòu)域”可交換使用以表示二聚化的切割半結(jié)構(gòu)域的對?!肮こ袒懈畎虢Y(jié)構(gòu)域”是經(jīng)修飾以形成具有另一切割半結(jié)構(gòu)域(例如,另一工程化的切割半結(jié)構(gòu)域)的專性異源二聚體的切割半結(jié)構(gòu)域。也參見,美國專利公開No. 2005/0064474 ;2007/0218528和2008/0131962,其以引用方式整體并入本文中?!叭旧|(zhì)”是包含細胞基因組的核蛋白結(jié)構(gòu)。細胞染色質(zhì)包含主要為DNA的核酸以及包括組蛋白和非組蛋白染色體蛋白的蛋白。大部分真核細胞染色質(zhì)以核小體形式存在,其中核小體核心包含與包含各組蛋白H2A、H2B、H3和H4中兩種的八聚合體相關(guān)的DNA的約150個堿基對;以及接頭DNA (取決于生物體具有各種長度)延伸在核小體核心之間。組蛋白Hl的分子通常與接頭DNA相關(guān)。為了本公開,術(shù)語“染色質(zhì)”意指涵蓋原核和真核的所有類型的細胞核蛋白。細胞染色質(zhì)包括染色體和附加體染色質(zhì)。
“染色體”是包含所有或者一部分細胞基因組的染色質(zhì)復(fù)合物。通常細胞的基因組的特征在于它的核型,其是包含細胞的基因組的所有染色體的集合。細胞的基因組可包含一種或多種染色體?!案郊芋w(episome)”是包含不是細胞的染色體核型的一部分的核酸的復(fù)制核酸、核蛋白復(fù)合物或其他結(jié)構(gòu)。附加體的例子包括質(zhì)粒和某些病毒基因組。“靶位點”或“靶序列”是定義為在結(jié)合充足條件存在下,結(jié)合分子結(jié)合至的核酸一部分的核酸序列。例如,序列5’ -GAATTC-3’是Eco RI限制性核酸內(nèi)切酶的靶位點。“植物”細胞包括但不限于單子葉(單子葉植物類)或雙子葉(雙子葉植物類)植物的細胞。單子葉植物類的非限制性例子包括谷類植物,例如玉米、水稻、大麥、燕麥、小麥、高粱、黑麥、蔗糖、鳳梨、洋蔥、香蕉和椰子。雙子葉植物類的非限制性例子包括香煙、西紅柿、向日葵、棉花、甜菜、馬鈴薯、生菜、甜瓜、大豆、油菜籽(canola)(油菜籽(rapeseed))和苜蓿。植物細胞可來自植物的任意部位和/或來自植物生長的任意階段?!巴庠葱浴狈肿邮峭ǔ2怀霈F(xiàn)在細胞中,但是可通過一種或多種遺傳、生化或其他方法引入細胞內(nèi)的分子。在細胞的特定發(fā)育階段和環(huán)境條件下測定“在細胞中正常存在”。因此,例如,僅在肌肉的胚胎發(fā)育中出現(xiàn)的分子對于成年人肌肉細胞來說為外源性分子。類似地,通過熱激引入的分子相對未進行熱激的細胞而言為外源性分子。外源性分子可包含例如功能失常性內(nèi)源性分子的功能版本或者正常功能內(nèi)源性分子的功能失常版本。外源性分子也可以是通常在另一物種中出現(xiàn)的分子,例如,被引入動物基因組的人序列。除這些之外,外源性分子可以為例如通過組合化學(xué)方法產(chǎn)生的小分子或者諸如蛋白、核酸、糖類、脂質(zhì)、糖蛋白、脂蛋白、多糖、以上分子的任意修飾的衍生物、或者包含以上分子的一種或多種的任意復(fù)合物的大分子。核酸包括DNA和RNA ;可以為單鏈或雙鏈;可以為直鏈、分支或環(huán)狀;以及可具有任意長度。核酸包括能夠形成雙鏈體的核酸,以及形成
三鏈體的核酸。參見,例如,美國專利No. 5,176,996和5,422,251。蛋白包括但不限于DNA-結(jié)合蛋白、轉(zhuǎn)錄因子、染色質(zhì)重塑因子、甲基化的DNA結(jié)合蛋白、聚合酶、甲基化酶、脫甲基化酶、乙酰基轉(zhuǎn)移酶、脫乙?;?、激酶、磷酸酶、整合酶、重組酶、連接酶、拓撲異構(gòu)酶、促旋酶和解旋酶。外源性分子可以為內(nèi)源性分子的相同類型的分子,例如外源性蛋白或核酸。例如,外源性核酸可包含在細胞中通常不存在的引入細胞或染色體的感染病毒基因組、質(zhì)?;蚋郊芋w。將外源性分子引入細胞內(nèi)的方法是本領(lǐng)域技術(shù)人員已知的,并且這些方法包括但不限于脂質(zhì)介導(dǎo)的轉(zhuǎn)移(即,脂質(zhì)體,包括中性和陽離子脂質(zhì))、電穿孔、直接注射、細胞融合、粒子轟擊、磷酸鈣共沉淀、DEAE-葡聚糖-介導(dǎo)的轉(zhuǎn)移以及病毒載體介導(dǎo)的轉(zhuǎn)移。相反,“內(nèi)源性”分子是在特定環(huán)境條件下在特定發(fā)育階段通常存在于特定細胞中的一種分子。例如,內(nèi)源性核酸可包含染色體、線粒體的基因組、葉綠體或其他細胞器、或者天然存在的附加體核酸。另外的內(nèi)源性分子可包括蛋白,例如轉(zhuǎn)錄因子和酶?!叭诤稀狈肿邮瞧渲袃蓚€或更多個亞單位分子連接(優(yōu)選共價)的分子。亞單位分子可以為相同化學(xué)類型的分子,或者可以為不同化學(xué)類型的分子。第一類融合分子的例子包括但不限于融合蛋白(例如,在TALE-重復(fù)結(jié)構(gòu)域和切割結(jié)構(gòu)域之間的融合)和融合核酸(例如,編碼以上所述的融合蛋白的核酸)。第二類融合分子的例子包括但不限于形成三鏈體的核酸和多肽之間的融合;以及小溝結(jié)合物(minorgroove binder)和核酸之間的融
口 ο 可由融合蛋白遞送至細胞或者通過遞送編碼融合蛋白的多核苷酸至細胞來導(dǎo)致在細胞中融合蛋白的表達,其中多核苷酸被轉(zhuǎn)錄,轉(zhuǎn)錄物被翻譯以生成融合蛋白。反式剪接、多肽切割和多肽連接也可牽涉在細胞中蛋白的表達。多核苷酸和多肽遞送至細胞的方法呈現(xiàn)在該公開的其他地方。為了本公開,無論這些調(diào)控序列是否與編碼和/或轉(zhuǎn)錄的序列相鄰,“基因”包括編碼基因產(chǎn)物的DNA區(qū)(見下)、以及調(diào)節(jié)基因產(chǎn)物的生成的所有DNA區(qū)。因此,基因包括但未必限于啟動子序列、終止子、諸如核糖體結(jié)合位點和內(nèi)部核糖體進入位點的翻譯調(diào)控序列、增強子、沉默子、絕緣子、邊界元件、復(fù)制起點、基質(zhì)附著位點和基因座控制區(qū)?!盎虮磉_”是指在基因中包含的信息轉(zhuǎn)化至基因產(chǎn)物內(nèi)?;虍a(chǎn)物可為基因的直接轉(zhuǎn)錄產(chǎn)物(例如,mRNA、tRNA、rRNA、反義RNA、核酶、結(jié)構(gòu)RNA、shRNA、RNA1、miRNA或任意其他類型的RNA)或者通過翻譯mRNA制備的蛋白?;虍a(chǎn)物也包括通過諸如加帽、多腺苷酸化、甲基化和編輯的方法來修飾的RNA以及通過諸如甲基化、乙酰化、磷酸化、遍在蛋白化、ADP-核糖基化、肉豆蘧基化(myristilation)和糖基化來修飾的蛋白?!叭笨诖笮 笔侵冈诤怂岚猩蟽蓚€TALE靶位點之間的核苷酸。缺口可以為任意大小,包括但不限于I至100個堿基對;或者5至30個堿基對;優(yōu)選10至25個堿基對;以及更優(yōu)選12至21個堿基對。因此,優(yōu)選的缺口大小可以為12、13、14、15、16、17、18、19、20或21個堿基對?;虮磉_的“調(diào)節(jié)”是指基因的活性改變。表達的調(diào)節(jié)可包括但不限于基因激活和基因抑制?;蚪M編輯(例如,切割、改變、失活、供體整合、隨機突變)可用于調(diào)節(jié)表達。基因失活是指與不包括如本文所述的修飾劑的細胞相比基因表達的任何減少。因此,基因失活可以為部分或全部的?!澳繕藚^(qū)”是細胞染色質(zhì)的任何區(qū),例如基因或在基因內(nèi)或鄰近基因處的非編碼序列,其中需要使其結(jié)合外源性分子。結(jié)合可以用于靶向DNA切割和/或靶向重組的目的。目標區(qū)可存在于例如染色體、附加體、細胞器的基因組(例如,線粒體、葉綠體)或者感染病毒基因組。目標區(qū)可以在基因的編碼區(qū)內(nèi);在轉(zhuǎn)錄的非編碼區(qū)內(nèi),例如引導(dǎo)序列、尾隨序列或內(nèi)含子;或者在非轉(zhuǎn)錄的區(qū)域內(nèi),在編碼區(qū)的上游或下游。目標區(qū)的長度可以小到為單個核苷酸對或者至多2,000個核苷酸對,或者核苷酸對的任意整數(shù)值。
術(shù)語“操作性連接”和“操作性連接的”(或者“可操作連接的”)在提及兩個或更多個組件(例如序列元件)的并列時可交換使用,其中布置組件使得兩組件正常運作以及使得組件中至少一個可介導(dǎo)在其他組件中至少一個上發(fā)揮的功能的可能性。以示意的方式,如果轉(zhuǎn)錄調(diào)控序列控制與存在或不存在一個或多個轉(zhuǎn)錄調(diào)控因子相對應(yīng)的編碼序列的轉(zhuǎn)錄水平,則諸如啟動子的轉(zhuǎn)錄調(diào)控序列操作性連接至編碼序列。轉(zhuǎn)錄調(diào)控序列通常順式操作性連接編碼序列,但不需要直接連接編碼序列。例如,盡管它們不是連續(xù)的,但增強子操作性連接至編碼序列的轉(zhuǎn)錄調(diào)控序列。關(guān)于融合多肽,術(shù)語“操作性連接的”可以指與其他組件連接的各組件進行與它們未如此連接時的相同功能的事實。例如,對于其中TALE-重復(fù)結(jié)構(gòu)域融合至切割結(jié)構(gòu)域的融合多肽,如果在融合多肽中,TALE-重復(fù)結(jié)構(gòu)域部分能夠結(jié)合它的靶位點和/或它的結(jié)合位點,而切割結(jié)構(gòu)域能夠切割在靶位點附件的DNA時,則TALE-重復(fù)結(jié)構(gòu)域和切割結(jié)構(gòu)域操作性連接。蛋白、多肽或核酸的“功能性片段”是其序列與全長型蛋白、多肽或核酸不同,但與全長型蛋白、多肽或核酸相比保持相同功能或具有增強功能的蛋白、多肽或核酸。此外,功能性片段可具有比全長型蛋白、多肽或核酸更弱的功能,但是還具有如通過用戶限定的足夠功能。功能性片段可具有如對應(yīng)的天然分子的更多、更少或相同數(shù)目的殘基;和/或可含有一種或多種氨基酸或核苷酸取代。測定核酸功能(例如,編碼功能、與另一核酸雜交的能力)的方法是本領(lǐng)域公知的。類似地,測定蛋白功能的方法是公知的。例如,通過諸如濾膜結(jié)合、電泳泳動移位或免疫沉淀法可測定多肽的DNA-結(jié)合功能。通過凝膠電泳可測定DNA切割。參見Ausubel等,同上。通過例如免疫共沉淀、雙雜交測定或者互補可遺傳和生化測定蛋白與另一蛋白相互作用的能力。參見,例如,F(xiàn)ields等(1989)Nature 340 =245-246 ;美國專利 No. 5,585,245 以及 PCT WO 98/44350。例如通過工程化諸如在TALE蛋白內(nèi)重復(fù)單元的位置12和/或13處的高變二殘基區(qū)(改變一種或多種氨基酸),可將TALE-重復(fù)結(jié)構(gòu)域“工程化”以結(jié)合預(yù)定核苷酸序列。在一些實施方案中,可工程化在位置4、11、和32處氨基酸。在其他實施方案中,可選擇非典型RVD用在工程化TALE蛋白中,使能指定更寬范圍的非天然靶位點。例如,可選擇NKRVD用于識別在靶序列中G核苷酸。在其他實施方案中,可改變在重復(fù)單元中氨基酸以改變重復(fù)單元的特征(即穩(wěn)定性或二級結(jié)構(gòu))。因此,工程化TALE蛋白是非天然存在的蛋白。在一些實施方案中,將編碼TALE重復(fù)結(jié)構(gòu)域的基因在DNA水平下工程化,使得指定TALE重復(fù)序列氨基酸的密碼子被改變,但指定的氨基酸未改變(例如,通過密碼子優(yōu)化的已知技術(shù))。工程化TALE蛋白的非限制性例子是通過設(shè)計和/或選擇獲得的那些。設(shè)計的TALE蛋白是自然界不存在的蛋白,其設(shè)計/組成主要源于合理標準。設(shè)計的合理標準包括應(yīng)用取代規(guī)則和計算機算法以用于處理在儲存存在的TALE設(shè)計和結(jié)合數(shù)據(jù)的信息的數(shù)據(jù)庫中的信息。“選擇的”TALE-重復(fù)結(jié)構(gòu)域是非天然存在的或者非典型的結(jié)構(gòu)域,其制備主要源于諸如噬菌體展示、相互捕獲或雜交選擇的經(jīng)驗方法?!岸嗑刍Y(jié)構(gòu)域”是在TALE-融合蛋白的氨基、羧基或者氨基和羧基末端區(qū)并入的結(jié)構(gòu)域。這些結(jié)構(gòu)域使得可多聚化多種TALE-融合蛋白單元。多聚化結(jié)構(gòu)域的例子包括亮氨酸拉鏈。也可通過小分子來調(diào)控多聚化結(jié)構(gòu)域,其中多聚化結(jié)構(gòu)域具有合適的構(gòu)象以使 得僅在小分子或外部配體的存在下可與另一多聚化結(jié)構(gòu)域相互作用。以這種方式,外源性配體可用于調(diào)控這些結(jié)構(gòu)域的活性。在以上方法中可使用的靶位點可經(jīng)其他標準來評估或者可將靶位點直接用于設(shè)計或選擇(如果需要)以及制備對該位點特異的TALE-融合蛋白。用于評估可能靶位點的進一步的標準是在基因內(nèi)鄰近特定區(qū)的那些??蛇x擇不必一定包括或者重疊使用靶基因可證實生物意義的片段的靶位點,例如調(diào)控序列。用于進一步評估靶片段的其他標準包括結(jié)合至這些片段或相關(guān)片段的TALE-融合蛋白的現(xiàn)有可用性,和/或易于設(shè)計新TALE-融合蛋白以結(jié)合給定靶片段。在選擇靶片段之后,可通過各種途徑來提供結(jié)合片段的TALE-融合蛋白。一旦已經(jīng)選擇、設(shè)計TALE-融合蛋白或者另外提供至給定靶片段,則合成TALE-融合蛋白或編碼其的DNA。用于合成和表達編碼包含TALE-重復(fù)結(jié)構(gòu)域的 蛋白的DNA的示例性方法示出如下。然后可將TALE-融合蛋白或者編碼它的多核苷酸用于調(diào)節(jié)表達或者分析TALE-融合蛋白結(jié)合的包含靶基因的靶位點。TALE DNA結(jié)合結(jié)構(gòu)域本文所述的多肽包含一個或多個(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或甚至更多)個TALE-重復(fù)單元。已經(jīng)研究包含多個TALE-重復(fù)單元的TALE DNA結(jié)合結(jié)構(gòu)域以測定負責(zé)特異性的序列。在一種生物體內(nèi),TALE重復(fù)序列通常被高度保守的(除了 RVD),但在不同物種可以為未較好保守的。本文所述多肽中發(fā)現(xiàn)的TALE-重復(fù)單元通常具有形式=X1-X2-X3-X4-X5-X6-X7-X8-X9-X10-Xn-(Xevd) 2-⑴2Q_22 (SEQ ID NO :399),其中X是牽涉DNA結(jié)合的任意氨基酸和X (位置12和13)。這些結(jié)構(gòu)域的非限制示例性實施方案包括其中X1包含亮氨酸(L)或甲硫氨酸(M)殘基的實施方案;其中Xltl包含丙氨酸㈧殘基或纈氨酸(V)殘基的實施方案;其中(X)2Q-22包含序列(Gly或Ser)-(X)19_21(SEQ IDNO :400)的實施方案;其中⑴關(guān)包含序列⑴3_4_(Ala或Thr)-(X)16_17(SEQ ID NO :401)的實施方案;其中(X)2(|_22包含序列(X)4_5-(Leu*Val)-(X)15_16(SEQ ID NO :402)的實施方案;以及以上實施方案的任意組合(例如,X1包含亮氨酸(L)或甲硫氨酸(M)殘基以及Xltl包含丙氨酸(A)殘基A1包含L或M以及(X) 20-22 包含序列 Gly/Ser- (X) 19_21 ; (X) 20_22 包含序列 Gly/Ser- (X) 2_3-Ala/Thr_ (X) 16_17 ;Xici包含丙氨酸(A)或纈氨酸(V)殘基以及(X)2ch22包含序列Gly/Ser-(X) 19_21等)。本文所述的組合物和方法的TALE-重復(fù)單元可由任意合適的TALE-蛋白衍生。TALE蛋白的非限制性例子包括由青枯菌屬或者黃單胞菌屬衍生的TALE蛋白。因此,在一些實施方案中,DNA-結(jié)合結(jié)構(gòu)域包含一種或多于一種、或者多種由植物病原體黃單胞菌屬衍生的天然存在的和/或工程化的TALE-重復(fù)單元(參見Boch等,(2009) Science 326 1509-1512 以及 Moscou 和 Bogdanove,(2009) Science326 :1501)。在其他實施方案中,DNA-結(jié)合結(jié)構(gòu)域包含一種或多種由植物病原體青枯雷爾氏菌衍生的天然存在的和/或工程化的TALE-重復(fù)單元、或者來自TALE蛋白家族的其他TALE DNA結(jié)合結(jié)構(gòu)域。如本文所述的TALE DNA結(jié)合結(jié)構(gòu)域(包含至少一個TALE重復(fù)單元)可包括(i) 一個或多個在自然界中未發(fā)現(xiàn)的TALE重復(fù)單元;(ii) 一個或多個天然存在的TALE重復(fù)單元;(iii)具有非典型RVD的一個或多個TALE重復(fù)單元;以及⑴、(ii)和/或(iii)的組合。在一些實施方案中,本發(fā)明的TALE DNA結(jié)合結(jié)構(gòu)域由完全非天然存在的或非典型的重復(fù)單元組成。而且,在包含兩個或更多個TALE-重復(fù)單元的如本文所述的多肽中,TALE-重復(fù)單元(天然存在的或工程化的)可由相同物種衍生或者可選擇地可由不同物種衍生。表I顯示在兩個TALE蛋白內(nèi)示例性重復(fù)單元的比對。各TALE重復(fù)序列顯示在各列中單獨行處,其表示重復(fù)序列類型、該重復(fù)序列的起始位置、重復(fù)序列的名稱、在高變位置處的殘基以及全部重復(fù)序列。表1:來自昔單朐菌屬的兩種TALE的TALE DNA結(jié)合結(jié)構(gòu)域比較TALE AAA27592.1 (6. O 個重復(fù)序列)
權(quán)利要求
1.一種分離的、非天然存在的DNA-結(jié)合多肽,包含至少一個TALE-重復(fù)單元;N帽多肽;以及C帽多肽,其中所述C帽多肽包含TALE蛋白的片段。
2.根據(jù)權(quán)利要求1所述的分離的多肽,其中至少一個TALE-重復(fù)單元包含非典型重復(fù)可變二殘基(RVD)。
3.根據(jù)權(quán)利要求2所述的多肽,其中所述蛋白質(zhì)包含如表27中所示的非典型RVD。
4.根據(jù)權(quán)利要求1至3中任一項所述的多肽,其中所述C帽多肽的長度小于約230個氨基酸。
5.根據(jù)權(quán)利要求1至5中任一項所述的多肽,其中所述C帽包含TALE重復(fù)結(jié)構(gòu)域。
6.一種融合蛋白,其包含根據(jù)權(quán)利要求1至5中任一項所述的多肽以及至少一個功能結(jié)構(gòu)域。
7.根據(jù)權(quán)利要求6所述的融合蛋白,其中所述功能結(jié)構(gòu)域是轉(zhuǎn)錄激活因子或轉(zhuǎn)錄抑制因子。
8.根據(jù)權(quán)利要求7所述的融合蛋白,其中所述功能結(jié)構(gòu)域包含核酸酶。
9.根據(jù)權(quán)利要求8所述的融合蛋白,其中所述核酸酶包含至少一個來自IIS型核酸內(nèi)切酶的切割結(jié)構(gòu)域或切割半結(jié)構(gòu)域。
10.一種多核苷酸,其編碼根據(jù)權(quán)利要求1至5中任一項所述的多肽或 者根據(jù)權(quán)利要求 6至9中任一項所述的融合蛋白。
11.一種宿主細胞,其包含根據(jù)權(quán)利要求1至5中任一項所述的多肽、根據(jù)權(quán)利要求6 至9中任一項所述的融合蛋白或者根據(jù)權(quán)利要求10所述的多核苷酸。
12.—種藥物組合物,其包含根據(jù)權(quán)利要求1至5中任一項所述的多肽、根據(jù)權(quán)利要求 6至9中任一項所述的融合蛋白或者根據(jù)權(quán)利要求10所述的多核苷酸。
13.—種調(diào)節(jié)內(nèi)源性基因在細胞中表達的方法,所述方法包括將根據(jù)權(quán)利要求6至9中任一項所述的融合蛋白或者編碼所述融合蛋白的多核苷酸引入細胞,其中所述融合蛋白包含TALE-重復(fù)結(jié)構(gòu)域,所述TALE-重復(fù)結(jié)構(gòu)域結(jié)合到所述內(nèi)源性基因中的靶位點,以及另外其中調(diào)節(jié)所述內(nèi)源性基因的表達。
14.根據(jù)權(quán)利要求13所述的方法,其中所述調(diào)節(jié)包括基因激活。
15.根據(jù)權(quán)利要求13所述的方法,其中所述調(diào)節(jié)包括基因抑制或失活。
16.根據(jù)權(quán)利要求15所述的方法,其中所述融合蛋白包含切割結(jié)構(gòu)域或切割半結(jié)構(gòu)域,以及所述內(nèi)源性基因通過切割而失活。
17.根據(jù)權(quán)利要求16所述的方法,其中所述失活通過非同源性末端接合(NHEJ)而發(fā)生。
18.—種在細胞的基因組中修飾目標區(qū)的方法,所述方法包括將根據(jù)權(quán)利要求8或9所述的至少一個融合蛋白、或者編碼所述融合蛋白的多核苷酸弓I入所述細胞,其中所述融合蛋白包含TALE-重復(fù)結(jié)構(gòu)域,所述TALE-重復(fù)結(jié)構(gòu)域結(jié)合在所述細胞的所述基因組中的靶位點,并且所述融合蛋白在所述目標區(qū)切割所述基因組。
19.根據(jù)權(quán)利要求18所述的方法,其中所述修飾包括在所述目標區(qū)引入缺失。
20.根據(jù)權(quán)利要求18所述的方法,其中所述修飾包括將外源性核酸引入所述目標區(qū)內(nèi),所述方法進一步包括將所述外源性核酸引入所述細胞內(nèi),其中通過同源重組或NHEJ介導(dǎo)的末端捕獲來將所述外源性核酸整合至所述目標區(qū)內(nèi)。
21.根據(jù)權(quán)利要求13至20中任一項所述的方法,其中所述細胞是選自植物細胞、動物細胞、魚細胞和酵母細胞的真核細胞。
全文摘要
本文公開了多肽、編碼多核苷酸、包含新型DNA-結(jié)合結(jié)構(gòu)域的細胞和生物,該新型DNA-結(jié)合結(jié)構(gòu)域包括TALE DNA-結(jié)合結(jié)構(gòu)域。也公開了使用這些新型DNA-結(jié)合結(jié)構(gòu)域用于調(diào)節(jié)內(nèi)源性細胞序列的基因表達和/或基因組編輯的方法。
文檔編號A61K38/16GK103025344SQ201180034243
公開日2013年4月3日 申請日期2011年5月17日 優(yōu)先權(quán)日2010年5月17日
發(fā)明者P·D·格雷戈里, J·C·米勒, D·帕斯喬恩, E·J·瑞巴, S·譚, F·諾弗, L·張 申請人:桑格摩生物科學(xué)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平谷区| 瓮安县| 古丈县| 荃湾区| 承德县| 准格尔旗| 清徐县| 玉树县| 喜德县| 昭平县| 晋城| 仁寿县| 永泰县| 潮安县| 梨树县| 临夏市| 大石桥市| 太保市| 阜宁县| 罗源县| 东丰县| 大宁县| 广元市| 搜索| 松滋市| 泸定县| 黑山县| 韶关市| 合川市| 河西区| 东辽县| 墨竹工卡县| 丰县| 安平县| 鸡西市| 大安市| 五河县| 北安市| 图木舒克市| 兰溪市| 府谷县|