本發(fā)明屬于dna存儲(chǔ)領(lǐng)域,具體地說,涉及一種用于構(gòu)建dna活字存儲(chǔ)單元的方法、連接接頭庫和試劑盒。
背景技術(shù):
1、全球數(shù)據(jù)呈爆炸增長(zhǎng)態(tài)勢(shì),現(xiàn)有存儲(chǔ)介質(zhì)已無法滿足海量數(shù)據(jù)應(yīng)存盡存、愿存盡存的存儲(chǔ)需求,而dna存儲(chǔ)技術(shù)有望突破這一瓶頸。dna存儲(chǔ)技術(shù)利用dna天然信息編碼存儲(chǔ)能力,可將0-1二進(jìn)制編碼轉(zhuǎn)換為dna的a/t/c/g四進(jìn)制核苷酸編碼,然后通過人工合成特定核酸序列存儲(chǔ)文本、圖片、聲音文件等數(shù)據(jù),再利用測(cè)序等解碼手段讀取數(shù)據(jù)。該技術(shù)相較于現(xiàn)有的硅基數(shù)據(jù)信息存儲(chǔ)方式,具有數(shù)據(jù)密度高、保存時(shí)間長(zhǎng)、配套設(shè)備能耗低、便于攜帶、運(yùn)輸隱蔽性高和便于多重加密等優(yōu)點(diǎn),適用于大規(guī)模冷數(shù)據(jù)存儲(chǔ)以及數(shù)據(jù)加密傳輸?shù)榷喾N應(yīng)用場(chǎng)景。
2、目前主流的高通量dna存儲(chǔ)在數(shù)據(jù)寫入階段,大多采用化學(xué)合成方法,成本高昂,效率欠佳,與實(shí)際應(yīng)用仍存在差距。發(fā)明人曾首次提出“dna活字”概念?;诖烁拍?,將目標(biāo)文件中的待儲(chǔ)存數(shù)據(jù)拆分為多個(gè)數(shù)據(jù)元素,并針對(duì)各數(shù)據(jù)元素標(biāo)注索引/內(nèi)容信息,對(duì)應(yīng)至相應(yīng)活字實(shí)物庫中的特定雙鏈核酸片段。隨后將多個(gè)內(nèi)容/索引核酸片段連接構(gòu)成dna活字單元,由多個(gè)dna活字單元構(gòu)成保存有全部待儲(chǔ)存數(shù)據(jù)元素的dna存儲(chǔ)文件。
3、背景技術(shù)中的信息僅僅在于說明本發(fā)明的總體背景,不應(yīng)視為承認(rèn)或以任何形式暗示這些信息構(gòu)成本領(lǐng)域一般技術(shù)人員所公知的現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明基于dna活字存儲(chǔ)概念,提供一種用于構(gòu)建dna活字存儲(chǔ)單元的方法、連接接頭庫和試劑盒。本發(fā)明的構(gòu)建方法主要包括以下關(guān)鍵步驟:連接接頭庫生成及其組合篩選、dna活字庫生成及其篩選、dna活字存儲(chǔ)載體設(shè)計(jì)、dna活字存儲(chǔ)單元各關(guān)鍵元素的連接。具體地,本發(fā)明包括以下內(nèi)容。
2、本發(fā)明的第一方面,提供一種用于構(gòu)建dna活字存儲(chǔ)單元的方法,其包括以下步驟:
3、設(shè)計(jì)并篩選得到連接接頭庫;
4、提供dna活字庫,所述dna活字庫包含存儲(chǔ)索引、內(nèi)容和校驗(yàn)信息的dna活字;
5、將計(jì)算機(jī)目標(biāo)存儲(chǔ)文件的數(shù)字信息(如0-1二進(jìn)制)轉(zhuǎn)換為四進(jìn)制dna堿基信息,從所述dna活字庫中調(diào)取對(duì)應(yīng)的多個(gè)dna活字;和
6、經(jīng)由必要反應(yīng)連接所述多個(gè)活字,從而完成dna活字存儲(chǔ)單元集構(gòu)建,實(shí)現(xiàn)目標(biāo)文件的存儲(chǔ)。
7、根據(jù)本發(fā)明第一方面所述的方法,其中,包括以下關(guān)鍵步驟:連接接頭庫生成及其組合篩選、dna活字庫生成及其篩選、dna活字存儲(chǔ)載體設(shè)計(jì)、dna活字存儲(chǔ)單元各關(guān)鍵元素的連接。
8、根據(jù)本發(fā)明第一方面所述的方法,其中,所述連接接頭庫包含能夠定向連接的多個(gè)連接接頭,所述連接接頭為dna活字雙鏈核苷酸序列5’或3’端的粘性或平末端的核酸序列。
9、根據(jù)本發(fā)明第一方面所述的方法,其中,所述連接接頭庫中連接接頭各自分別由a、t、c、g四種堿基中至少一種組成,其長(zhǎng)度至少包括1個(gè)堿基。
10、根據(jù)本發(fā)明第一方面所述的方法,其中,所述連接接頭庫的篩選原則包括連續(xù)堿基數(shù)小于3個(gè),gc含量為20-80%,堿基種類為1以上,自身二聚體小于3個(gè)堿基對(duì)。
11、根據(jù)本發(fā)明第一方面所述的方法,其中,dna活字為單鏈寡核苷酸經(jīng)退火形成的雙鏈核苷酸片段。
12、根據(jù)本發(fā)明第一方面所述的方法,其中,dna活字主要包括接頭序列和活字主體序列兩部分,其中,所述活字主體序列的長(zhǎng)度根據(jù)存儲(chǔ)需求定制選擇,且所述dna活字按其功能分為索引活字、內(nèi)容活字和/或校驗(yàn)活字,其數(shù)目依據(jù)dna活字存儲(chǔ)方案設(shè)計(jì)決定。
13、根據(jù)本發(fā)明第一方面所述的方法,其中,提供dna活字庫的步驟包括生成并篩選dna活字,在篩選時(shí)活字主體序列的篩選原則包括gc含量為20-80%,堿基種類為3以上。
14、根據(jù)本發(fā)明第一方面所述的方法,其中,dna活字庫的生成步驟主要包括,活字主體序列在基礎(chǔ)篩選原則(gc含量為20-80%,堿基種類為3以上)基礎(chǔ)上,依據(jù)x級(jí)定向連接需求(x≥2,整數(shù))擇優(yōu)篩選的接頭組合及dna活字單元兩端的連入位點(diǎn),定制dna活字篩選原則,生成dna活字庫。
15、根據(jù)本發(fā)明第一方面所述的方法,其中,進(jìn)一步包括設(shè)計(jì)dna活字存儲(chǔ)載體。
16、根據(jù)本發(fā)明第一方面所述的方法,其中,dna活字存儲(chǔ)載體含有工程菌活體存儲(chǔ)所需的必要元件,如dna活字單元連入位點(diǎn)、抗性篩選基因、多克隆酶切位點(diǎn);且能夠經(jīng)由化學(xué)合成、存儲(chǔ)質(zhì)粒酶切消化回收等方法獲得。
17、根據(jù)本發(fā)明第一方面所述的方法,其中,dna活字存儲(chǔ)載體通過優(yōu)化設(shè)計(jì)增加高通量測(cè)序用錨定序列(adaptor)、index序列和測(cè)序引物序列中的至少一種,從而用于一步構(gòu)建高通量測(cè)序自建庫樣本。
18、根據(jù)本發(fā)明第一方面所述的方法,其中,所述必要反應(yīng)包括通過生物酶制劑和/或化學(xué)試劑將不同功能的活字經(jīng)由一步或多步連接,完成dna活字單元的構(gòu)建,進(jìn)而實(shí)現(xiàn)目標(biāo)文件的存儲(chǔ)。
19、本發(fā)明的第二方面,提供一種用于構(gòu)建dna活字存儲(chǔ)單元的連接接頭庫,其包括能夠定向連接的眾多連接接頭,所述連接接頭能夠連接到dna活字雙鏈核苷酸序列5’或3’端的粘性/平末端。
20、本發(fā)明的第三方面,提供一種dna活字庫,其包含多個(gè)作為dna活字的雙鏈核苷酸,各所述dna活字分別包含活字主體序列和可選的連接接頭序列;
21、其中,所述活字主體序列包含對(duì)應(yīng)于目標(biāo)文件的特定數(shù)字信息的序列,所述連接接頭序列包含用于不同存儲(chǔ)活字之間連接的序列。
22、本發(fā)明的第四方面,提供一種用于存儲(chǔ)目標(biāo)文件的試劑盒,其包括用于實(shí)施根據(jù)本發(fā)明第一方面所述的構(gòu)建方法的試劑。
23、根據(jù)本發(fā)明第四方面所述的試劑盒,其中,所述試劑盒包含存儲(chǔ)活字、存儲(chǔ)載體、連接試劑及緩沖溶液中的至少一種。
24、根據(jù)本發(fā)明第四方面所述的試劑盒,其中,所述試劑盒的連接試劑包含dna連接酶或其它相似功能的生物酶類,所述緩沖溶液包含tris-hcl、mgcl2、dtt、atp中的至少一種化學(xué)成分。
25、本發(fā)明通過對(duì)dna活字單元的連接接頭庫的組合優(yōu)化,提高dna活字單元構(gòu)建(即數(shù)據(jù)寫入)的效率。同時(shí),本發(fā)明提供的不同級(jí)別的多片段一步定向連接組合,可根據(jù)不同目標(biāo)文件(或待存儲(chǔ)文件)的需求及成本(物料/人工)擇優(yōu)選擇。
26、本發(fā)明的dna活字存儲(chǔ)單元的構(gòu)建方法具有如下優(yōu)點(diǎn):
27、1.節(jié)約成本,提高信息單次寫入效率:dna活字存儲(chǔ)單元構(gòu)建所需的dna活字片段可一次合成、重復(fù)多次使用,節(jié)約成本;
28、2.構(gòu)建方案靈活多變:研究者/需求用戶可根據(jù)存儲(chǔ)文件的類型、大小、存儲(chǔ)成本等個(gè)性化需求,擇優(yōu)選擇dna活字片段連接級(jí)別個(gè)數(shù),匹配最優(yōu)內(nèi)容/索引/校驗(yàn)活字片段數(shù)目。
1.一種用于構(gòu)建dna活字存儲(chǔ)單元的方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,包括以下關(guān)鍵步驟:連接接頭庫生成及其組合篩選、dna活字庫生成及其篩選、dna活字存儲(chǔ)載體設(shè)計(jì)、dna活字存儲(chǔ)單元各關(guān)鍵元素的連接。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述連接接頭庫包含能夠定向連接的多個(gè)連接接頭,所述連接接頭為dna活字雙鏈核苷酸序列5’或3’端的粘性或平末端的核酸序列。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述連接接頭庫中連接接頭各自分別由a、t、c、g四種堿基中至少一種組成,其長(zhǎng)度至少包括1個(gè)堿基。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述連接接頭庫的篩選原則包括連續(xù)同類堿基小于3個(gè),gc含量為20-80%,堿基種類為1以上,自身二聚體小于3個(gè)堿基對(duì)。
6.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,dna活字為單鏈寡核苷酸經(jīng)退火形成的雙鏈核苷酸片段。
7.根據(jù)權(quán)利要求1、2或6任一項(xiàng)所述的方法,其特征在于,dna活字主要包括接頭序列和活字主體序列兩部分,其中,所述活字主體序列的長(zhǎng)度根據(jù)存儲(chǔ)需求定制選擇,且所述dna活字按其功能分為索引活字、內(nèi)容活字和/或校驗(yàn)活字,其數(shù)目依據(jù)dna活字存儲(chǔ)方案設(shè)計(jì)決定。
8.根據(jù)權(quán)利要求1、2、6或7任一項(xiàng)所述的方法,提供dna活字庫的步驟包括生成并篩選dna活字,在篩選時(shí)活字主體序列的篩選原則包括gc含量為20-80%,堿基種類為3以上。
9.根據(jù)權(quán)利要求1、2、6-8任一項(xiàng)所述的方法,dna活字庫的生成步驟主要包括:活字主體序列在基礎(chǔ)篩選原則(gc含量為20-80%,堿基種類為3以上)基礎(chǔ)上,依據(jù)x級(jí)定向連接需求(x≥2,整數(shù))擇優(yōu)篩選的接頭組合及dna活字單元兩端的連入位點(diǎn),定制dna活字篩選原則,生成dna活字庫。
10.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,進(jìn)一步包括設(shè)計(jì)dna活字存儲(chǔ)載體。
11.根據(jù)權(quán)利要求1、2、10所述的方法,其特征在于:dna活字存儲(chǔ)載體含有工程菌活體存儲(chǔ)所需的必要元件,如dna活字單元連入位點(diǎn)、抗性篩選基因、多克隆酶切位點(diǎn);且能夠經(jīng)由化學(xué)合成、存儲(chǔ)質(zhì)粒酶切消化回收等方法獲得。
12.根據(jù)權(quán)利要求1、2、10或11所述的方法,其特征在于,dna活字存儲(chǔ)載體通過優(yōu)化設(shè)計(jì)增加高通量測(cè)序用錨定序列、index序列和測(cè)序引物序列中的至少一種,從而用于構(gòu)建高通量測(cè)序自建庫樣本。
13.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述必要反應(yīng)包括通過生物酶制劑和/或化學(xué)試劑將不同功能的活字經(jīng)由一步或多步連接,完成dna活字單元的構(gòu)建,進(jìn)而實(shí)現(xiàn)目標(biāo)文件的存儲(chǔ)。
14.一種用于構(gòu)建dna活字存儲(chǔ)單元的連接接頭庫,其特征在于,包括能夠定向連接的眾多連接接頭,所述連接接頭能夠連接到dna活字雙鏈核苷酸序列5’或3’端的粘性/平末端。
15.一種dna活字庫,其特征在于,包含多個(gè)作為dna活字的雙鏈核苷酸,各所述dna活字分別包含活字主體序列和可選的連接接頭序列;
16.一種用于存儲(chǔ)目標(biāo)文件的試劑盒,其特征在于,包括用于實(shí)施根據(jù)權(quán)利要求1-13任一項(xiàng)所述的構(gòu)建方法的試劑。
17.根據(jù)權(quán)利要求16所述的試劑盒,其特征在于,所述試劑盒包含存儲(chǔ)活字、存儲(chǔ)載體、連接試劑及緩沖溶液中的至少一種。
18.根據(jù)權(quán)利要求16或17所述試劑盒,其特征在于,所述試劑盒的連接試劑包含dna連接酶或其它相似功能的生物酶類,所述緩沖溶液包含tris-hcl、mgcl2、dtt、atp中的至少一種化學(xué)成分。