《1、 引言》

1、 引言

鉴定表型相关的遗传变异是现代遗传学研究的核心。遗传多态性,特别是单核苷酸多态性(SNP),已被广泛应用于生态、农业、医学等领域[13]。近年来,随着高通量测序平台的发展,全基因组SNP位点的筛查和分型得以实现,为基因组学研究提供了前所未有的契机[4]。全基因组重测序,虽能获取最全面的基因组变异信息,但若应用于具有较大基因组的物种或上百乃至上千样本量的大规模分析时,成本仍然过高[5]。近年来,基于限制性内切酶的简化基因组测序方法被广泛应用[6],这一类技术(如RAD [7]、GBS [8]、2b-RAD [910])通过酶切手段降低基因组的复杂度,能够以较低成本获得全基因组范围内的部分SNP位点。因其只能针对酶切位点附近的SNP进行测序和分型,使得这些方法更适用于大规模标记的开发。随着基因组学研究的深入,丰富的“功能性”标记资源得以深度挖掘和积累,大量与表型性状相关的标记定位于基因或基因附近区域,对这类遗传标记的开发和研究在生态、农业和医学等领域具有重要的意义[1112],因此靶向基因分型是后基因组时代的必然需求[1314]。基因芯片技术(如Illumina Infinium和Axiom Affymetrix平台)是一种高效的靶位点分型技术,已广泛应用于人和模式生物[1518]。但非模式生物仍缺乏成熟的标准化商业芯片 [17,19],若要应用芯片技术,通常需要进行额外定制。然而,固相芯片在定制后难以更新位点,若在有限的群体资源中开发固定阵列易使芯片存在固有偏差[20]。

近年来,基于测序平台的液相杂交捕获技术逐渐兴起,有望克服上述芯片平台的局限性。迄今为止,已发展出多种基于测序平台的靶向分型技术,主要包括基于聚合酶链反应(PCR)的方法和液相杂交捕获的方法[2122]。 其中,基于PCR的方法,如微滴PCR [23]和Ion AmpliSeq [24]等易于自动化处理大量样品,但依赖于专业仪器的检测(如RainStorm 或者 Ion Proton systems),且体系内可能存在引物间的竞争,导致非特异性扩增产物的产生[21]。多重PCR中复杂的引物互作也给通量的进一步提升带来难度[21,25]。液相分子杂交方法(如NimbleGen和SureSelect)可以捕获较长(250 kb~5 Mb)的目标区域,是一类有效的捕获分型技术[2628]。通量可超过50 000个靶向位点[21,27,29],并且可以应用于痕量DNA(小于10 ng)甚至是降解的DNA样品,这一特性使液相捕获技术优于固相芯片平台[3031]。通常这类方法更适合用于检测较长基因组区域内的变异,并不只针对单位点的靶向检测[2122,30]。这类技术的靶向特异性为40%~60% [26],较低的靶向特异性往往需要更高的测序深度来实现目标位点的均匀覆盖;这也使得测序成本较高[15,27,3235]。

目前,对于非模式生物,仍迫切需要开发以高效、低成本和灵活的方式对全基因库位点靶向分型的技术。本文作者团队在前期研究中开发了一种基于液相分子杂交的方法HD-Marker,可以在单管内对12 472个位点同时进行靶向基因分型,在通量级和标记类型[36]的选择上具有很高的灵活性。该方法的原理是基于位点特异性探针(LSP)与目标位点的侧翼序列进行杂交,通过延伸、连接和扩增步骤,完成高通量文库的构建。HD-Marker技术有效结合了GoldenGate技术的高特异性、灵活性和测序平台的成本优势,可检测数百到12 472个位点,具有较高的捕获率(超过98%)和分型准确率(超过97%),对于非模式生物的大规模靶向基因分型是一种有前景和有吸引力的工具。然而,HD-Marker的检测性能还没有被充分挖掘,以往的12 000通量还不能满足全转录组基因覆盖的需求。因此在本研究中,进一步提升了单管内容纳的检测位点通量,使之超过86 000个位点,并且综合评估了三种通量级别(30 k、56 k和86 k)的检测性能,结果表明各通量级别下均具有较高的捕获率(约96%)和基因分型准确率(约96%),且单位点的分型成本可低至0.0006美元。鉴于超高通量级、高灵活性和高稳定性的检测性能,超高通量的HD-Marker技术有望成为非模式生物大规模靶向基因分型的理想工具。

《2、 方法》

2、 方法

《2.1 探针设计与制备》

2.1 探针设计与制备

首先对取自辽宁省不同地理位置的30只虾夷扇贝(Patinopecten yessoensis)样本进行全基因组重测序,这些个体来自东港、庄河和大长山三个群体,以及海大金贝和獐子红两个选育品种,每个群体选取6只个体。在获得的高质量SNP位点中,选取最小等位基因频率为0.2~0.5的SNP用于HD-Marker探针设计。针对每个SNP位点分别设计特异性探针LSP1和LSP2,探针包含SNP位点的侧翼序列和通用引物。LSP1的侧翼序列来自SNP位点的上游-22 ~ -1位置,LSP2序列来自SNP位点的下游+5 ~ +26位置(SNP坐标为0)[36]。探针序列需满足GC含量为40%~60%,退火温度为55~65 ℃,并且探针序列在基因组中无冗余的条件。附录A中的表S1提供了所有位点的LSP1和LSP2序列。合成探针前需将LSP1和LSP2与通用序列以及Nt.AlwI、Nb.BsrDI、Nt.BsmAI的特异性酶切位点序列进行组合,形成长度为126 bp的寡核苷酸序列。寡核苷酸池由美国CustomArray公司合成。随后,通过阵列合成的寡核苷酸池,经过扩增、酶切和链霉亲和素磁珠分离,得到LSP1和LSP2探针。详细步骤如下。

《2.1.1. PCR扩增》

2.1.1. PCR扩增

将原始寡核苷酸池稀释200倍,然后扩增,反应体积为60 µL:包含1.8 µmol∙L-1的生物素引物(Oligo_F和Oligo_R)、0.6 mmol∙L-1脱氧核苷酸(dNTP)混合溶液、1 × Phusion HF缓冲液和0.8 units Phusion高保真DNA聚合酶(美国NEB公司)。PCR反应条件为:98 ℃ 30 s;98 ℃ 15 s、60 ℃ 10 s、72 ℃ 15 s、24个循环;72 ℃、5 min。两管PCR产物混合后使用QIAquick PCR纯化试剂盒(德国Qiagen公司)纯化,并用32 µL纯水洗脱。

《2.1.2. 酶切消化》

2.1.2. 酶切消化

纯化后的产物经限制性内切酶酶切后分离得到LSP1和LSP2。约2 µg的产物(约20 µL)在60 µL体系内进行酶切。首先加入3 µL的Nt.AlwI(美国NEB公司)在37 ℃下消化3 h,然后80 ℃热灭活20 min;随后加入3 µL BsrDI(美国NEB公司),65 ℃孵育3 h,80 ℃热灭活20 min。最后在体系中加入4 µL Nt.BsmAI(美国NEB公司),65 ℃孵育3 h,80 ℃热灭活20 min。

《2.1.3. 磁珠分离探针》

2.1.3. 磁珠分离探针

链霉亲和素磁珠用于分离有生物素标记的探针互补链。首先,用缓冲液(0.5 mol∙L-1 NaCl、20 mmol∙L-1 Tris-Cl、1 mmol∙L-1 EDTA)洗涤50 µL的链霉亲和素磁珠(美国NEB公司)。随后,将上一步的酶切产物(67 μL)加入单管中,与磁珠混合20 min。将混合物置于95 °C变性5 min,迅速放置在冰上,保持5 min。用磁铁吸附磁珠,吸取上清液并将上清液转移至新管中,利用Nucleotide Removal Kit(美国Qiagen公司)纯化,使用30 µL的洗脱缓冲液(10 mmol∙L-1 Tris-Cl, pH = 8.5)洗脱分离的探针池,用于下一步杂交。

《2.2 文库制备和测序》

2.2 文库制备和测序

《2.2.1. 生物素标记基因组DNA的制备》

2.2.1. 生物素标记基因组DNA的制备

采用苯酚/氯仿提取法[37]从虾夷扇贝的闭壳肌组织抽提基因组DNA。取3 µg基因组DNA样本,按照PHOTOPROBE生物素标记试剂盒(美国Vector Labs公司)的操作说明,通过热偶联作用进行生物素标记。

《2.2.2. 杂交》

2.2.2. 杂交

为保证超高通量的探针进行有效的杂交反应,本研究对杂交步骤进行了优化。首先将5~10 μL生物素标记基因组DNA加入含有10 μL磁珠的体系中,用50 μL的UltraHybOligo杂交缓冲液(美国Ambion公司)洗涤两次。室温放置5 min后,用磁铁吸附,弃掉上清液。随后,在体系内加入15~30 μL的制备探针以及UltraHybOligo杂交缓冲液(美国Ambion公司),杂交总体积为100 μL。将杂交反应体系置于PCR仪(美国Bio-Rad公司)中,设置70~30 ºC的梯度降温条件,进行杂交,杂交时间约为8 h。

《2.2.3. 延伸和连接》

2.2.3. 延伸和连接

杂交完毕后,分别用缓冲液1 [2 ×盐水柠檬酸钠(SSC)缓冲液、0.5%十二烷基硫酸钠(SDS)缓冲液]和缓冲液2(2 × SSC)洗涤两次,去除非特异性以及未结合的探针。然后制备延伸连接体系(总体积为25 μL),该体系包含:0.4 ~ 0.8 units Phusion高保真DNA聚合酶(美国NEB公司)、40 ~ 80 units Taq DNA连接酶(美国NEB公司)、1 mmol∙L-1 NAD(β-烟酰胺腺嘌呤二核苷酸)(美国NEB公司)、0.1 mmol∙L-1 dNTP和1 × Phusion HF缓冲液。将延伸连接反应液加入洗涤好的磁珠中,45 ºC孵育20 min,然后用洗脱缓冲液(10 mmol∙L-1 Tris-Cl, pH = 8.5)洗涤磁珠,最后用洗脱缓冲液35 µL重悬磁珠,在95 ºC下加热1 min后,磁分离吸取上清液作为模板。

《2.2.4. 文库制备和测序》

2.2.4. 文库制备和测序

参照HD-Marker测序文库的制备方法[36],50 μL的扩增体系包括:上一步的连接产物(约30 μL)、0.8 units Phusion高保真DNA聚合酶(美国NEB公司)、0.1 μmol∙L-1通用PCR引物、dNTP和1 × Phusion HF缓冲液。PCR条件为:98 °C 10 s、60 °C 20 s、72 °C 10 s扩增26个循环,最后72 °C延伸5 min。用8%聚丙烯酰胺凝胶电泳检测目标产物并切胶,产物大小为116 bp。切胶产物回收后进行PCR扩增,程序与上一步相同,PCR循环数为7个。用QIAquick PCR产物纯化试剂盒(美国Qiagen公司)纯化扩增产物,最后使用32 μL纯水洗脱。纯化后的产物利用Qubit进行定量,利用Bioanalyzer(美国Agilent公司)检查文库质量。文库质量合格后,在Illumina HiSeq平台上用PE150模式测序。

《2.3 数据处理与分析》

2.3 数据处理与分析

对所有样品的reads 1(R1)进行预处理,每条序列截取第一个碱基到第50个碱基进行后续分析。去除低质量的序列,即包含N的序列、有10个以上的相同连续碱基以及超过20%的碱基质量值小于10的序列。提取目标位点所在的50 bp的基因组区域作为参考序列,使用BWA软件(Burrows-Wheeler Alignment tool)[38]将高质量reads与参考序列进行比对。随后使用SAMtools [39]将输出文件转换为bam文件并排序。使用Varscan软件[40]对位点进行分型,要求位点的测序深度大于或等于8条reads,参数为“-- min-coverage 8 --min-reads2 2 --min-var-freq 0.01 --min-freq-for-hom 0.99‒p-value 99e-2”。

为评估HD-Marker的分型准确性,对同一个个体进行基因组重测序。使用Next-Ultra DNA Library Prep Kit for Illumina(美国NEB公司)构建技术重复文库。文库在Illumina HiSeq X-Ten平台进行测序,测序深度约21 ×。使用BWA软件将测序reads与虾夷扇贝参考基因组(GenBank登录号:GCA_002113885.2)进行比对[38]。利用Varscan软件[40]做位点分型,参数为“--min-coverage 3 --min-reads2 1 --min-var-freq 0.01 --min-freq-for-hom 0.99 --p-value 99e-2”。将两个重测序文库中分型一致的位点用于验证HD-Marker位点分型的准确性。测序数据已提交美国国家生物技术信息中心(NCBI)Sequence Read Archive(https://www.‍ncbi.‍nlm.‍nih.‍gov/sra),登录号为PRJNA669118和PRJNA669126。

《3、 结果》

3、 结果

《3.1 位点通量及文库的设置》

3.1 位点通量及文库的设置

虾夷扇贝具有高质量的参考基因组和丰富的SNP资源[4145],因此以虾夷扇贝为实验对象,对超高通量HD-Marker进行技术验证。从30个扇贝个体的重测序数据中,获得满足探针设计标准的SNP位点共2 044 646个。基于这些高质量的SNP,设计的位点均匀分布于基因组中的三个通量探针池(30 k-plex、56 k-plex、86 k-plex)(图1)。大部分SNP来源于基因区域,在30 k-plex、56 k-plex和86 k-plex中的占比分别为65.78%、71.81%和70.08% [见附录A中的图S1(a)]。所设计的位点覆盖了20 100个基因,覆盖了虾夷扇贝基因组[45]中87%的Swissprot注释基因和90%的GO注释基因。在30 k-plex、56 k-plex和86 k-plex量级中每个基因对应的SNP数量为1~3个(图1)。在位于基因区的SNP位点中,有52.30%~56.12%来自外显子区域,有8.17%~12.24%来自3´-/5´-UTR区域,其他32.06%~39.53%的位点来自内含子区[见附录A中的图S1(b)和表1]。为了比较不同通量级之间的捕获分型结果,更高通量级的位点池需覆盖低通量池的所有位点。即86 k-plex包含30 k-plex和56k-plex的所有位点,56 k-plex包含30 k-plex中的所有位点。利用三个通量级探针池分别制备两个技术重复文库,总共有6个HD-Marker文库用于Illumina测序。

《图1》

图1 三个通量级的SNP位点的基因组分布。(a)30 k-plex;(b)56 k-plex;(c)86 k-plex。

《表1》

表1 靶位点的基因区分布

Genic regionsHD-Marker SNP genotypes
30 k-plex56 k-plex86 k-plex
No. of target SNPsPercentage (%)No. of target SNPsPercentage (%)No. of target SNPsPercentage (%)
Exon11 07555.7022 74856.1231 63652.30
Intron637532.0613 80634.0623 91539.53
5´_UTR13396.7322035.4326244.34
3´_UTR10955.5117784.3923173.83
Total19 88410040 53510060 492100

No.: number.

原先12 k-plex量级的HD-Marker文库制备方案[36]并不适用于超高通量的位点杂交(如86 k plex)。本研究通过在杂交前使用磁珠去除未标记的基因组DNA,以及调整探针和生物素标记的基因组DNA配比等方式,优化了杂交反应条件。凝胶电泳结果表明,经体系优化后制备的文库质量显著提升(见附录A中的图S2)。

《3.2 特异性、捕获率和均匀性》

3.2 特异性、捕获率和均匀性

首先,分析HD-Marker的靶向特异性,统计比对到目标区域的reads占比(这一指标将直接影响测序的成本)。分别在30 k-plex、56 k-plex和86 k-plex的文库中获得了超过20 M、30 M和49 M的reads,其中高质量reads占比为98.53%~99.80%(表2)。30 k-plex、56 k-plex和86 k-plex中分别有81.24%、79.98%和79.72%的高质量reads可以比对到目标区域(表2)。尽管与30 k-plex相比,56 k-plex和86 k-plex的特异性略低(约1%),但总体三个通量级别均具有较高的特异性。其次,对HD-Marker的捕获率进行分析,绝大多数目标位点(96.65% ~ 96.94%)在三个量级文库中都被检出(表3和图2),并且在两个技术重复文库中检测到的位点重复性较高,均超过97.57%和97.64%(表3)。此外,位点在不同量级之间的重现性也很高,在30 k-plex和56 k-plex中有99.65% ~ 99.71%(表4)的位点都能在更高的通量中被检出。最后,评估了位点测序深度的均匀性,位点在不同量级之间的测序深度具有较高的一致性(技术重复之间的Pearson相关系数为0.92,通量级之间为0.91~0.92)。目标位点的测序深度倍数变化为2~4个数量级,三个量级下分别有94.63%、93.49%和93.24%的位点位于100倍深度变化范围内(图4),并且捕获位点的均匀度不受GC含量的影响,Pearson r的范围为0.060~0.098(见附录A中的图S3)。

《3.3 基因分型率和分型准确率》

3.3 基因分型率和分型准确率

本文进一步评估了位点的覆盖深度,发现超过98%的检出位点的测序深度大于8(30 k-plex、56 k-plex和86 k-plex分别为98.44%、98.43%和98.44%)(表3)。所有量级下都有较高的分型率(97.94%~98.94%)(表3)。从三个方面对分型的准确率进行评价。首先,技术重复之间的分型结果比较显示,在三个量级中,有95.57%~95.73%的位点具有一致的分型结果(表3)。其次,在不同量级之间的比较中,基因型的一致性为95.87%~96.31%(表4)。最后,与重测序结果相比较,三个量级中的分型准确率均大于96%(表5),表明HD-Marker在所有量级水平都具有较高的基因分型准确率。通常杂合位点要比纯合位点的检测分析更困难,进一步将两类位点分开统计,发现在所有量级下杂合位点的一致性均超过96.29%(表5),并且在不同量级的重复样品中杂合子位点的等位基因深度比例趋近于0.5,纯合位点的等位基因深度比例趋近于1(图5)。

《表2》

表2 测序reads与目标区域的比对情况

Multiplex levelTechnical replicateRead processingAligned to target regions
Raw reads (M)HQ reads (M)Efficiency (%)Ave. efficiency (%)Aligned reads (M)Efficiency a (%)Ave. efficiency (%)
30 230Replicate 120,3120.0198.5398.5816.0580.2481.24
Replicate 220,5720.2898.6316.6882.24
56 445Replicate 133.5833.3699.3498.9426.8980.6279.98
Replicate 233.4032.9198.5326.1179.34
86 025Replicate 149.9349.8399.8099.7939.9380.1379.72
Replicate 249.5249.4099.7739.1879.31

a Mapping efficiency was calculated by the number of aligned reads divided by the total number of HQ reads.

Ave.: average; M: millions; Rep: replicate.

《图2》

图2 三个量级下SNP位点的测序深度分布图。在所有量级下都具有较高的捕获率(96%~98%)和均匀的测序覆盖度。(a)30 k-plex、(b)56 k-plex、(c)86 k-plex。

《表3》

表3 位点检出率、分型率以及技术重复性

Multiplex levelReplicateLoci detectionGenotype callingConcordance between replicates
No. of lociRate (%)Ave. rate (%)No. of lociRate (%)Ave. rate (%)

Common

detected

Common callingConsistent genotypingConsistent rate (%)
30 230Rep128 95095.7796.8128 35497.9498.4428 86428 17226 92395.57
Rep229 58297.8629 26998.94
56 445Rep154 69496.9096.6553 87998.5198.4353 71252 43450 19595.73
Rep254 41196.4053 51798.36
86 025Rep184 26097.9596.9483 35498.9298.4482 27280 34776 89495.70
Rep282 52395.9380 84197.96

《表4》

表4 不同量级之间共有SNP的基因分型评价

For 30k common lociFor 56k common loci
30 k-plex56 k-plex86 k-plex

Common

(percentage a)

Consistent

(percentage b)

56 k-plex86 k-plex

Common

(percentage a)

Consistent

(percentage b)

Detected29 58229 07229 53328 970 (99.65%)54 69455 43954 537 (99.71%)
Calling29 26928 59729 15928 396 (99.30%)27 222 (95.87%)53 87954 82553 549 (99.39%)51 574 (96.31%)

a Percentage was calculated by dividing the number of loci that were commonly detected or called across multiplex levels by the number of loci that were detected or called in the lowest multiplex levels (30 230 or 56 445).

b Percentage was calculated by dividing the number of consistently genotyped loci by the number of commonly called loci across multiplex levels.

《图3》

图3 Pearson相关性热图。在技术重复和多量级水平之间检出位点的测序深度一致性较高(技术重复之间的r为0.92,多量级之间的r为0.91或0.92)。

《表5》

表5 基于基因组重测序的基因分型结果验证

Resequencing-based genotypeHD-Marker SNP genotypes
30 k-plex56 k-plex86 k-plex
SameDifferentValidation rate (%)SameDifferentValidation rate (%)SameDifferentValidation rate (%)
Homozygote13 65251096.4024 735102196.0436 413175595.40
Heterozygote11 37940696.5522 03484996.2934 926103997.11
Total25 03191696.4746 769187096.1671 339279496.23

《图4》

图4 不同量级下的捕获均匀性。30 k-plex、56 k-plex和86 k-plex的捕获均匀度在2~4个数量级之间变化,且93.24%~94.63%的位点深度在100倍范围内变化。

《图5》

图5 三个量级水平等位基因深度抽样分析。等位基因抽样分布对于杂合位点[(b)、(d)、(f)]基本收敛于0.5,纯合位点[(a)、(c)、(e)]收敛于1。(a)、(b)30 k-plex;(c)、(d)56 k-plex;(e)、(f)86 k-plex。

《图6》

图6 不同测序量下的检出率、分型率及准确率的饱和度曲线。对于30 k-plex(a)、56 k-plex(b)、86 k-plex(c),位点检出率分别在5 M、10 M和13.5 M reads时达到饱和,最优测序深度下基因分型准确率分别为96.40%、96.01%和96.15%。

《3.4 成本分析》

3.4 成本分析

为获得具有成本效益的最佳测序量,本研究合并了每个量级水平的技术重复数据,然后进行抽样分析。三个量级水平下,随着测序数据量的增加,位点检出率、分型率以及分型准确性最开始急剧上升,随后进入平台期。在平台期随着测序数据的增加,各个指标提升的幅度均较低(图6)。当30 k-plex、56 k-plex和86 k-plex的测序reads分别达到5 M(M代表million,下同)、10 M和13.5 M时,位点检出率达到饱和,有95.8% ~ 96.5%的位点可以被检出(图6)。在最佳测序量下,30 k-plex、56 k-plex和86 k-plex的基因分型准确率分别可达到96.40%、96.01%和96.15%。通过抽样分析可以计算在既定测序量下位点的检出率和分型准确性等,从而估算出对目标位点进行基因分型所需的最小测序深度,进而平衡位点检出率、准确性以及检测成本。进一步估算各量级下不同样本规模的基因分型成本(包括探针合成、文库制备和测序成本)。在基于饱和度曲线估算的最适宜测序量下,30 k-plex、56 k-plex和86 k-plex的每个样本的成本分别为29.4~92.1美元、44.1~106.7美元和58.5~121.2美元(表6)。此外,由于较大的样本量可以分担每个样本使用的探针成本,因此随着样本数量的增加,单样本和单位点的成本随之降低。如在86 k-plex下,对于100个样本规模,单样本的成本为121.20美元,当样本量扩大到1000个样本规模时,单样本的成本为64.23美元(表6),而在10 000个样本规模时,86 000量级下单位点的基因分型成本可以低至0.0006美元。

《4、 讨论》

4、 讨论

靶向基因分型技术是检测目标遗传变异的有效工具。然而对于非模式生物,以较低的成本实现大规模靶位点(如数万到数十万个位点)的分型仍然具有挑战性。目前已有的靶向基因分型技术存在一定局限性,例如,基于PCR的方法(如微滴PCR和AmpliSeq)只能对数千个位点进行分型[21,25];基于固相芯片的分型方法(如Affymetrix阵列)需要较高的定制成本[5,46];还有一类区域捕获技术(如Agilent SureSelect)针对较大的基因组区域捕获而不针对单个位点[2122]。Illumina的GoldenGate技术由于具备多重通量级以及较高的灵活性,被认为是一种具有潜力的靶位点分型工具[4750]。但最初的GoldenGate检测技术需要使用荧光标记引物以及特殊的仪器检测荧光。在前期研究中,将该技术与高通量测序平台相结合,可以实现单管内超过12 000个位点的同时靶向分型[36]。

《表6》

表6 各量级下不同样本规模的基因分型成本

No. of samplesNo. of targeted loci
30 k-plex56 k-plex86 k-plex

per sample

(USD)

per genotype (USD)

per sample

(USD)

per genotype (USD)

per sample

(USD)

per genotype (USD)
100

92.07

(81.28/10.79)

0.0031

(0.0027/0.0004)

106.74

(85.16/21.58)

0.0019

(0.0015/0.0004)

121.20

(92.07/29.13)

0.0014 (0.0011/0.0003)
1000

35.10

(24.31/10.79)

0.0012

(0.0008/0.0004)

49.78

(28.20/21.58)

0.0009

(0.0005/0.0004)

64.23

(35.10/29.13)

0.0007

(0.0004/0.0003)

10 000

29.40

(18.61/10.79)

0.0010

(0.0006/0.0004)

44.08

(22.50/21.58)

0.0008

(0.0004/0.0004)

58.53

(29.40/29.13)

0.0006

(0.0003/0.0003)

The estimated costs (USD) include both library preparation and NGS sequencing (optimal sequencing determined by rarefaction analysis; see Fig.6; separate costs are shown in brackets (library preparation/Illumina sequencing); probe costs are calculated based on array-synthesized probes).

本研究提出了一种超高通量的HD-Marker方法,通过在杂交前使用磁珠去除未标记的基因组DNA,以及调整探针和生物素标记的基因组DNA配比等方式,优化了杂交反应条件,实现单管内86 000个位点的靶向分型,进而实现全基因库的覆盖。通量较Illumina GoldenGate技术和原有的HD-Marker技术分别提升了27倍和6倍。本研究从特异性、捕获率、均一性、基因型重现性以及准确性等方面充分验证了HD-Marker在不同量级水平(30 k-plex、56 k-plex和86 k-plex)下的稳健性和检测性能。与目前主流的捕获分析技术的特异性(约52%~57%)相比,HD-Marker表现出更高的靶标特异性(79.72%~81.24%)[26]。成本方面,30 k-plex到86 k-plex的每个样本为29~121美元,与传统的靶向基因分型方法相比,成本降低了40%~60% [53]。此外,与基因组重测序的金标准相比,HD-Marker表现出较高的基因分型准确率(所有量级的基因分型一致性均大于96%)。全基因组关联分析表明,高密度的SNP将有助于覆盖群体范围的连锁不平衡[51],也可提高基因组选择的预测准确性[52],因此更高的通量以及对稀有变异的有效检测是未来技术发展的重要需求。后续检测通量的提升可以考虑通过混合多个86 k-plex探针组来实现,使之达到与固相芯片相当的检测通量。本研究中,86 000个SNP位点的探针设计主要针对群体中的常见遗传变异进行检测(即基于具有不同地理位置背景的30个个体重测序数据),而若要实现对常见变异和稀有变异位点的同时靶向分析,则需对大量个体进行重测序以获取可靠的稀有变异位点。

HD-Marker技术提供了一种高通量、灵活可扩展的多量级的靶向分析方法。HD-Marker的建库涉及常规分子生物学实验操作,无需任何昂贵的专业仪器,而且易于开展。该技术在标记数量和标记类型方面提供了较大的灵活性,研究人员可以根据需要选择不同量级的探针池以满足不同的研究需求。通常,中低通量的芯片是家系鉴定等育种应用中的首选,在构建高密度连锁图谱、估计性状遗传力、全基因组关联分析以及基因组选择应用时,研究人员倾向于选择更高通量的位点[54],以提高标记分析的精度。此外,可以考虑将液相芯片技术与基因型填充技术结合[5556],这样可以在不增加成本的情况下显著提高位点数目,更具成本效益。近期也有研究表明,当使用500~2000个与性状显著关联的SNP位点做基因组预测时,预测准确性与使用全部位点相当,甚至具有更好的预测准确性[57]。在这个量级水平,HD-Marker方法的单样本成本低于10美元。作为一种高效、经济的靶位点分型技术,超高通量的HD-Marker技术有望成为非模式生物遗传、生态和进化研究的重要支撑工具。