《1. 引言》

1. 引言

合成生物学旨在通过改变生物行为或创造新的生命形式以实现全新的生物功能[1]。这门学科以DNA和蛋白质等生物分子为基础,遵循从生物反应、代谢途径、个体细胞到最终种群的层级发展规律[1,2]。然而,向更复杂的生物系统前行时面临两大挑战:首先是人工生物组件的多样性问题[3],目前建库时可用于自由组装的基因片段数目(10 3 ~10 5 个)低于理想水平[4,5];第二个挑战是多个遗传模块的整合[6],目前仍难以对10个以上的生物模块进行组装[7]。DNA组装技术为应对这些挑战提供了更加简单高效的途径[8]

组装效率(AE)反映了DNA片段发生组装的概率,是评估组装方法的关键参数,通常由转入连接产物后平板上形成的菌落数表征[9,10]。组装效率的测定开始于转化,该步骤需要1~1.5 h,然后过夜培养至少8 h以形成菌落。最后,还需烦琐的计数及验证过程。除去感受态细胞的准备时间,以上过程总计消耗约10 h。因此,组装效率的快速测定方法将大大加速组装技术的检验与优化过程。

DNA分子的组装技术已从依赖于特定位点的双片段组装发展到不依赖于位点特异性的多片段组装[11]。现有的组装方法如体内组装(IVA)[12]、双引物组装(TPA)[13]、不依赖基因序列的连接反应克隆(SLIC)[10]以及环状聚合酶延伸克隆(CPEC)[9]都具有较高的效率,每单位DNA可形成400~56 000个菌落。然而,这些数据可能具有误导性。一方面,各研究的组装效率计算方式有所不同。一些研究用总DNA量作为标准,即以每纳克DNA所产生的菌落形成单位(CFU)的数量来表示组装效率[14],有些研究用载体或插入片段的DNA量来计算[9,15]。此外,还有一些研究则基于每个平板上的菌落数[12,16],或者阳性菌落数的比例[17]来表征组装效率。因此,不同方法的组装效率无法直接比较。另一方面,由CFU数目所表征的组装效率受到转化过程的影响。任何影响转化效率的因素,如感受态细胞的基因型、转化方法或组装片段的大小[18,19],都可能导致菌落数量的大幅变化。因此,基于CFU的测定可能并不能准确代表组装效率,这种情况下,即使采用相同的计算方法,不同技术之间进行的比较也并不可信。因而,亟需建立一个标准化、无偏差、不依赖于转化的评估DNA组装效率的方法。

大多数组装技术,如SLIC、IVA、In-Fusion [20],以及Gibson组装[21],都需要在片段两端的组装处设计重叠序列。片段的组装依赖于末端单链快速而稳定的退火。因此,重叠序列的设计是实现高效组装的关键。重叠区长度对组装效率的影响已受到广泛关注,各类组装技术均对重叠区长度进行了优化[10,12,14],而二级结构对组装效率的影响并未受到广泛关注。由于重叠区需要在组装前先形成单链,在单链内部或不同单链之间形成的二级结构会阻碍序列之间的互补。一些在线实验流程(例如,来自Addgene的Gibson组装克隆;来自Integrated DNA Technologies公司的gBlocks基因片段设计流程)指出了该因素的潜在影响,但仍然缺乏可信的实验证据。

本研究用定量聚合酶链反应(qPCR)建立了一种不依赖于转化的组装效率测定方法[图1(a)~(c)]。简言之,首先对DNA片段进行组装,组装体系内会同时存在成功组装的环状DNA与未组装的游离DNA。通过T5外切核酸酶将游离的线性插入片段和载体片段彻底消化,使体系中只保留成功组装的环状DNA。用qPCR测定环状DNA上的插入片段与初始线性插入片段的相对比值,以此表征组装效率。用该方法对酶切连接、Golden Gate组装以及Gibson组装这三类广泛使用的组装技术进行了评价,并与基于CFU的组装效率测定方法进行了比较。为了验证qPCR测定方法的适用性,本研究探索了重叠区二级结构对Gibson组装效率的影响。研究结果表明,相较于传统依赖于CFU的方法,基于qPCR的测定方法对于组装效率的评估更准确、更快速,可以用于DNA组装技术的开发与优化。

《图1》

图1.(a)复杂代谢途径及基因库的构建依赖于DNA片段的有效组装,该技术可分为依赖于基因序列的组装和不依赖于序列的组装两类;(b)组装效率通常是由转化及后续的菌落计数所表征;(c)基于qPCR的组装效率测定方法,用已连接上的片段占初始加入片段的比例表征组装效率;(d)在线性载体片段pUC19及1 kb的插入片段两端分别引入一系列具有不同二级结构的重叠序列,用来研究末端二级结构对Gibson组装效率的影响。ΔG:自由能差。1 kcal = 4186 J。

《2. 材料与方法》

2. 材料与方法

《2.1. 酶切连接》

2.1. 酶切连接

本研究共测定了7组酶切片段(RL1~RL7)的组装效率。用BamHI和SalI,或者PacI和FseI进行双酶切。通过聚合酶链反应(PCR),将引物上的酶切位点引入DNA片段的末端,PCR结束后用DpnI消除模板质粒。在50 μL的反应体系中,加入1 U的两种内切酶,切割1 μg插入片段及1 μg载体片段。此处1 U的定义为,在37 ℃50 μL反应体系中,消化1 μg λDNA所需的限制性内切酶的量。反应体系在37 ℃温浴2 h,然后用胶回收试剂盒(Thermo Fisher Scientific Inc.)对片段进行纯化。在20 μL反应体系中加入400 CEU(黏性末端单位)的T4DNA连接酶及60~350 ng的DNA片段(插入片段与载体片段的物质的量之比为1:1或5:1),22 ℃下反应1 h。所用酶均来自NEB。

《2.2. Golden Gate 组装》

2.2. Golden Gate 组装

本实验一共测定了8组Golden Gate样品的组装效率。通过PCR扩增将BbsI限制性酶切位点添加到待组装DNA片段末端。在总体积为20 μL的反应体系中加入2 μL 10×T4连接酶缓冲液、200 CEU T4 DNA连接酶、5 U BbsI酶以及200~500 ng插入片段与载体片段(物质的量之比分别为1:1、3:1或5:1)。反应进行30个循环,每个循环的程序为37 ℃ 5 min及22 ℃ 5 min。循环结束后55 ℃ 15 min失活限制酶,并在85 ℃反应15 min失活T4连接酶。所用酶和缓冲液均来自NEB(New England Biolabs, Inc.)。

《2.3. Gibson 组装》

2.3. Gibson 组装

用PCR扩增将引物上的重叠序列添加至待组装片段的末端。一般两个DNA片段的组装需引入20个碱基对(bp)的重叠序列,多片段组装需将重叠区域扩展到40 bp。将各50 fmol的载体片段和插入片段加入到实验室自制的11.25 μL Gibson混合体系,其中,含0.06 U T5外切核酸酶、0.375 U Phusion® 高保真DNA聚合酶、60 CEU Taq DNA连接酶、13.3 mmol·L−1 MgCl2 、13.3 mmol·L−1 1,4-二硫苏糖醇(DTT)和5×等温反应缓冲液。每1×等温缓冲液含pH为7.5的0.1 mol·L−1 三羟甲基氨基甲烷-盐酸盐(Tris-HCl)、0.2 mmol·L−1 脱氧核糖核苷三磷酸(dNTP)、1 mmol·L−1 烟酰胺腺嘌呤二核苷酸(NAD)、50 g·L−1 聚乙二醇(PEG)8000。总体积为15 μL的反应体系在50 ℃温育1 h(双片段组装)或2.5 h(多片段组装)。所用酶均来自NEB。本次实验共测定了6组样品。

《2.4. 转化》

2.4. 转化

转化所用的感受态细胞是实验室制备的转化效率为每微克pUC19 DNA 7×106 CFU(CFU·μg−1 )的大肠杆菌菌株XL10-Gold(Integrated Science & Technology, Inc.)。将1~6 μL组装产物加入50 μL感受态细胞中,在950 μL SOC培养液中复苏培养1 h后涂板。如果插入片段为紫色蛋白(iGEM号:BBa_K1033906)编码基因,则平板上紫色菌落为阳性菌。对于没有指示基因的组装产物,随机挑选10个单菌落,用菌落PCR进行验证。组装效率由每微克DNA所得的阳性CFU表征。

《2.5. 定量 PCR》

2.5. 定量 PCR

在定量PCR之前,用0.5 μL(5 U)T5外切核酸酶消化组装体系中残余的线性片段,步骤如下:37 ℃消化15 min,然后85 ℃温育15 min失活该酶。定量反应的总体积为20 μL,其中含1.5 μL组装产物(Supplementary data, Table S1)。所用定量试剂来自于TaKaRa(SYBR® Premix DimerEraser™)。将等量DNA片段作为定量反应的参比,该参比DNA无需T5外切核酸酶处理。将T5消化后的线性载体片段与插入片段的混合物用作空白对照试验的模板。用具有SYBR Green I检测通道的RocheLightCycler ®  96系统进行定量。反应步骤依次为:95 ℃预变性30 s,然后循环以下3步:95 ℃ 5 s、56 ℃ 30 s、72 ℃ 30 s,循环40次。以0.1 ℃·s−1 的升温速率从60 ℃升至95 ℃,每升高1 ℃进行5次信号采集,用于熔解曲线分析。每个样品设置两个技术重复。组装效率的计算参考 (目标基因与参比基因循环阈值的差值)定量法[22]。对于目标DNA和参比DNA循环阈值的详细描述如下:

式中,分别代表目标DNA与参比DNA;代表目标DNA的扩增效率,代表参比DNA的扩增效率; 代表目标DNA的循环阈值,代表参比DNA的循环阈值。相应的,的比值表示如下:

本方法同时对组装产物及线性片段中的目标序列进行测定。因此,可以认为的比值是一个接近于1的常数。此外, 计算方式假定目标DNA和参比DNA扩增效率相同。而本方法所靶向的目标DNA和参比DNA一致,故本假设更加可信。理想状况下,PCR每循环一次产物加倍,即扩增效率为2。因此,式(3)可以转变为:

式中,代表已组装的片段与初始片段含量的比值;即目标DNA与参比DNA循环阈值之差, 即本实验中已组装片段与初始线性片段之间 的差值。

《2.6. 数据分析》

2.6. 数据分析

采用皮尔逊双尾相关系数来研究基于qPCR与CFU方法所测得的组装效率间的相关性。组装效率之间的差异用独立样本t 检验分析。用增强树法分析重叠区DNA性质与Gibson组装效率之间的关系,该分析采用R(2.7.2)与gbmplus(1.5-17)软件包完成[23]

《3. 实验结果》

3. 实验结果

《3.1. 不同方法测定的酶切连接效率》

3.1. 不同方法测定的酶切连接效率

基于CFU的测定结果显示,7组样品的组装效率从0.5×103 CFU·μg−1 到1.6×104 CFU·μg−1 不等[图2(a)]。第6组和第7组连接产物的大小为2.1 kb,平均组装效率比其他组(连接产物的大小在5.5~8.7 kb之间)高11倍。该结果与用qPCR测定的结果非常类似,基于qPCR得到的比例在0.021~0.209之间[图2(a)]。但是,组装效率最高的组(RL7)和最低的组(RL1)之间的差异从基于CFU数所得的35倍下降到由qPCR计算的10倍。CFU数之间的显著差异可能是由转化效率导致的,从RL7至RL1,组装产物的大小增加了4倍,这会降低转化效率。因此,对于RL1等大分子组装,由CFU数所表征的组装效率可能会低于由qPCR比率所表征的实际值。整体而言,两种测定方法所得出的组装效率呈正相关[图2(d)]。

《图2》

图2. 用CFU数及qPCR比率测定各组装技术的组装效率。(a)酶切连接;(b)Golden Gate组装;(c)Gibson组装;(d)两种测定方法之间的相关性。CK 表示经T5外切酶消化后残留的线性片段。基于qPCR法及CFU法得到的测定结果用各自的平均值表示,误差线代表标准偏差 (n = 3)。rp :皮尔逊相关系数。

《3.2. 不同方法测定的 Golden Gate 组装效率》

3.2. 不同方法测定的 Golden Gate 组装效率

两种方法测得的8组样品的组装效率从GG1到GG8逐渐增大[图2(b)]。用CFU法测得的效率从4×103 CFU·μg−1 增加到2.6×104 CFU·μg−1 ,增幅为6.5倍,而用qPCR得到的比率从0.013增加到0.072,增幅为5.5倍。基于qPCR的测定结果显示,GG3~GG5的连接效率相比于GG1或GG2提高了4倍,这种显著增加的趋势持续到GG6,而GG7和GG8则趋于稳定。相比之下,用CFU方法测得的组装效率从GG7到GG8显著增加,而从GG1到GG6则增幅不明显。后者可能是由于转化过程中存在较大偏差。即使严格控制DNA分子的大小及转化条件,转化的误差也不可避免。尽管存在以上差异,基于qPCR的测定结果与CFU方法所得的结果也呈正相关[图2(d)]。

《3.3. 不同方法测定的 Gibson 组装效率》

3.3. 不同方法测定的 Gibson 组装效率

根据CFU测定的结果可知,6组DNA片段(GA1~GA6)的组装效率从0到2.9×104 CFU·μg−1 不等[图2(c)]。组装产物的片段越大,组装效率越低。6组样品的组装效率用qPCR所得比率与CFU测得的结果排序一致,两组数据呈正相关[图2(d)]。值得注意的是,在以上几组样品中组装产物的基因片段最大的GA1没有形成单克隆,但是用qPCR得到的值为0.002,远高于用T5消化的空白对照。以上结果可能是由于DNA片段太大对转化不利而导致的。

此方法也被用于测定多个DNA片段的组装效率。当组装片段的数目从两个(M2)增加到三个(M3)时,基于qPCR得到的值从0.028大幅下降到0.015,下降了48%(图3)。当组装四个片段时,用qPCR比值表征的组装效率持续下降到0.007,下降了55%。CFU数量的变化与基于qPCR所得比值的变化趋势一致。相较于两个片段的组装,三个片段组装的CFU数下降了54%。而当组装四个片段时,CFU数则继续减少84%(1.6×104 ~3×103 CFU·μg−1 )。总之,以上结果均证实了当组装多个片段时,组装效率会下降。

《图3》

图3. 用CFU数和qPCR比率测定的双片段和多片段的组装效率。以上两种方法对每个样品的测定结果用各自的平均值表示,误差线代表标准偏差(n = 3)。

《3.4. 重叠区域二级结构对 Gibson 组装效率的影响》

3.4. 重叠区域二级结构对 Gibson 组装效率的影响

为了研究重叠区二级结构对Gibson组装效率的影响,本研究设计了11组会生成二级结构的20 bp短序列。二级结构的稳定性由自由能(ΔG)表征[24,25],ΔG越低代表二级结构稳定性更高[26]。11组序列中,会形成发夹结构的序列的ΔG从–1.2 kcal·mol–1 到–9.2 kcal·mol–1(1 kcal=4186 J)不等,而相同序列间生成二聚体的ΔG从–3.3 kcal·mol–1 到–11.6 kcal·mol–1 。此外,本实验还设计了两组没有二级结构(ΔG =0)的序列,并将这些短序列引入线性pUC19载体及紫色蛋白编码基因的插入片段(长约1 kb)末端(Supplementary data, Table S2),如图1(d)所示,总共有12对基因片段。其中,一对片段(OL1,作为对照)在重叠区域不含二级结构,9对(OL2~OL10)只在一个重叠区域有二级结构,其余两对(OL11和OL12)在两个重叠区域都有二级结构。同一管组装产物同时用于两种方法的测定。

结果显示,从OL1到OL6,组装效率基本呈增加趋势,而从OL7到OL12,则急剧下降(图4)。CFU数从OL1(没有二级结构)的4×103  CFU·μg–1 增加到OL6(发夹结构的ΔG为–5.3 kcal·mol–1 )的1.1×104 CFU·μg–1 。当发夹结构的ΔG下降至–6.9 kcal·mol–1 (OL7)时,CFU数显著下降了89%。样品(OL10)在重叠区域的发夹结构的ΔG最低,CFU数也最少,为2×102  CFU·μg–1 ,只有OL1的5%。而基于qPCR的数据显示,OL6比OL1有更高的AE,OL3最高(比率为0.156)。从OL6到OL7因二级结构更加稳定,其比率从0.136下降到0.052,降幅达到62%,到OL10下降至最低水平。虽然从ΔG(从–4.5 kcal·mol–1 到–6.4 kcal·mol–1 )来看,两个重叠区域都有二级结构的两组样品(OL11和OL12)在所有样品中的结构稳定性处于中等水平,但相比于OL1(0.032),组装效率显著下降。

《图4》

图4. 用CFU数及qPCR比率测定重叠区含有二级结构的DNA片段的组装效率。以上两种方法对每个样品的测定结果用各自的平均值表示,误差线代表标准偏差(n = 3)。

由ΔG表征的末端二级结构并不是影响Gibson组装的唯一因素。重叠序列的整体性质比二级结构的稳定性对组装效率有更大的影响(图5)。从12组Gibson组装产物的组装效率数据生成的模型可得,重叠区域中退火温度(Tm )和鸟嘌呤与胞嘧啶(GC)的含量是影响组装效率的主要因素(占总差异的56%)。组装效率随GC含量(50%~70%)的增加而升高[图5(c)],且当Tm 值高于60 ℃时,组装效率将显著提高[图5(b)]。相比于二聚体结构,重叠区域内部形成的发夹结构对组装效率的影响更大。详细来讲,序列自身形成发夹结构的Tm 、ΔG及GC含量对组装效率的影响占31%,而序列之间形成二聚体的以上参数对组装效率的影响仅占13%。一旦发夹结构的ΔG降至–4 kcal·mol–1 时,组装效率会大幅度下降[图5(d)]。当发夹结构的Tm 为22~30 ℃时,组装效率与Tm 之间呈负相关[图5(e)]。

《图5》

图5.(a)末端二级结构及重叠区域的整体和局部性状对组装效率的相对影响;(b)整体Tm 的影响;(c)整体GC含量的影响;(d)发夹结构ΔG的影响;(e)发夹结构Tm 的影响;(f)二聚体GC含量的影响;(g)发夹结构GC含量的影响;(h)二聚体ΔG的影响;(i)二聚体Tm 的影响。

《4. 讨论》

4. 讨论

本研究采用qPCR方法,建立了一种不依赖于转化的快速测定组装效率的方法。用该方法测定了酶切连接、Golden Gate组装以及Gibson组装的组装效率,与用传统的基于CFU数得到的结果具有可比性,有助于探究组装效率的决定因素。

使用基于qPCR方法进行组装效率测定可以排除转化过程中各种因素的干扰,从而比传统的基于CFU的方法更加可靠。在这项研究中,由qPCR比率所表征的组装效率的平均标准偏差如下:酶切连接为14%,Golden Gate组装为13%,Gibson组装为17%(图2)。相比之下,即使采用同一批次的感受态细胞,且严格控制转化条件,由CFU数得到的组装效率的平均偏差仍高达31%~48%,比对应的qPCR比率的测量偏差超出2.2~3.7倍。转化法重复性较差,这可能掩盖了GG6和GG5等样品之间的差异,而用qPCR检测的结果显示GG6的组装效率明显高于GG5。此外,qPCR方法也可以避免片段大小带来的测定偏差。已有一些研究报道,转入片段越大,转化的成功率越低[27,28],从而会低估组装效率。这为两种方法测得GA1的组装效率不一致提供了可能的解释[图2(c)]。由于GA1得到的10 kb组装产物无法成功转化,组装效率只能由其他不依赖于转化的方式检测。对于RL7和RL1,基于CFU得到的组装效率之间的差异相较于qPCR方法更显著,这种偏差可能也是由片段大小导致的。因此,qPCR的方法比传统基于CFU的方法具有更高的灵敏度和可靠性。

在比较不同样品间的组装效率时,应尽可能降低随机误差。用依赖于转化的CFU方法耗时耗力。首先,为排除在DNA富集和稳定性方面的差异,应该用同一基因型的感受态细胞;其次,转化效率必须保持稳定;为了确保这一点,感受态细胞应该来源于同一批次,并且转化必须遵循相同的步骤,例如,保持感受态细胞解冻时间一致等,这些步骤的偏差可能会导致转化效率高达10 000倍的差异[29]。即使严格控制以上条件,组装效率仍然会受胞内干扰因素的影响,例如,含有重复序列DNA分子的重组[30,31]。相比之下,基于qPCR的检测方法可以通过遵循qPCR的基本规则,从而更容易地控制检测条件。而且对于目标DNA和参比DNA,定量相同的序列可进一步简化工作流程。因此,定量检测只需要一对引物,从而降低了目标DNA和参比DNA之间扩增效率的差异。需要注意的是,组装产物及参比基因的浓度应保持一致。此外,组装产物混合体系中剩余的线性片段必须彻底消化,外切核酸酶需彻底灭活,以避免其继续消化定量引物。遵循以上规则,即可实现快速测定组装效率。通常需要用30 min消化残留片段,15 min失活外切核酸酶,2 h准备和运行qPCR。仅需不足3 h即可快速测定组装效率,占CFU方法所需时长的四分之一。

本研究建立的基于qPCR的测定方法并不是为了取代转化,而是提供一种可靠、快速地测定组装效率的方法。因此,这种方法尤其适用于DNA组装技术的开发。当对测试通量和数据可靠性要求较高时,可以评估低效组装的真正原因。通过一次3 h的qPCR即可同时检测如重叠区域长度、片段之间的比例、DNA分子的数量和组装时间等因素对组装效率的影响,从而确定转化的最佳条件。体外测试只针对组装效率,而非转化步骤和组装过程的综合效率,有助于解析转化子数量偏低的多种原因。例如,如果用qPCR得到的组装效率的值高于CFU测得的结果,很可能由低效的转化效率导致的。如果提升转化效率仍不能得到更多的转化子,可能表明插入的基因片段表达的蛋白是有毒的[32,33],此问题可以通过换用一个严紧型表达载体以防止毒性基因的泄漏表达得以解决。此外,DNA组装的阳性率可以通过定量法来确定。qPCR的定量引物靶向组装产物的接合处,而非单个待组装片段,因此,只有当片段按照正确的顺序进行组装时才能被检测到。基于这种假设,用已组装片段与待组装游离片段之间的比值来表征组装产物的阳性率[Fig. S1(a)]。本实验用以上方法成功表征了五组Gibson组装阳性率的差异[Supplementary data, Fig. S1(b)]。

基于qPCR的测定方法揭示了末端二级结构对Gibson组装效率的影响。一般而言,在重叠区域内部形成稳定的发夹结构时,组装效率会显著降低。但是,应该注意到,重叠区域的整体性质,如碱基组成和热稳定性,可能比局部的二级结构对DNA组装有更大的影响。具体而言,Tm 较高或GC丰富的重叠序列可能更有助于同源末端结合,组装效率更高。在本研究中,重叠区域的Tm 值范围为48~62 ℃,总GC含量为40%~70%,基本覆盖了通常DNA组装所涉及的范围[9,12,13,15]。因此,为提高Gibson组装的成功率,除了确保GC含量和Tm 在正常的范围,还应尽可能引入更多的鸟嘌呤和胞嘧啶。重叠区域内部形成的二级结构对于DNA组装影响较弱,但应避免高GC回文序列等可以形成稳定发夹结构的序列。这些规则也适用于SLIC、TPA、IVA,以及其他依赖于同源末端互补的DNA组装技术。

《5. 结论》

5. 结论

综上所述,本研究建立了一种基于qPCR测定DNA片段组装效率的方法。该结果与常用的CFU法测得的组装效率具有可比性。qPCR法降低了转化法测量过程中出现的系统和随机误差,因而优于转化法。这种快速检测的流程可用于DNA组装技术的开发以及对组装效率影响因素的快速评估。

《致谢》

致谢

本研究得到了国家重点研发计划(2017YFD0201400)、国家自然科学基金(21676026),以及中央高校基本科研业务费的支持。

《Compliance with ethics guidelines》

Compliance with ethics guidelines

Xiaoyan Ma, Xinxin Liang, and Yi-Xin Huo declare that they have no conflicts of interest or financial conflicts to disclose.

《Appendix A. Supplementary data》

Appendix A. Supplementary data

Supplementary data to this article can be found online at https://doi.org/10.1016/j.eng.2019.06.002.