【Nature综述】NGS的这10年

【Nature综述】NGS的这10年

 

摘要:导读:近日,美国冷泉港实验室联合加州大学戴维斯分校的研究人员在国际著名评论型综述杂志Nature Reviews Genetics(影响因子41)上发表了一篇评论型综述。该综述对高通量测序的技术原理以及各平台的优势比较和实践 ……

导读:近日,美国冷泉港实验室联合加州大学戴维斯分校的研究人员在国际著名评论型综述杂志Nature Reviews Genetics(影响因子41)上发表了一篇评论型综述。该综述对高通量测序的技术原理以及各平台的优势比较和实践应用进行了深入浅出的分析。

随着人类基因组计划(human genome project )在2003年顺利完成,基因组测序技术取得了长足的进步,这直接导致了每兆基因组成本的大幅下降以及检测的基因组数量越来越多。人们对基因组的复杂性深感震惊,这也引导着测序技术的进一步发展。最近的一些突破性技术使得测序技术在更短的时间内可以获得更多的数据量。与之对应的是,还有一些技术的进步使得单条序列的测序读长变得更长——这对解析结构性的复合区段是极其必要的。这些进展给科研人员以及医疗诊断人员提供了一个绝佳的平台使得人们对基因组变异导致的表型变化以及疾病发生有了进一步的了解。

近日,美国冷泉港实验室联合加州大学戴维斯分校的研究人员在国际著名评论型综述杂志Nature Reviews Genetics(影响因子41)上发表了一篇评论型综述。该综述对高通量测序的技术原理以及各平台的优势比较和实践应用进行了深入浅出的分析。

介绍

自从DNA的双螺旋结构被人们解析开始1,人们在探究健康与疾病的基因组的复杂性与差异性上做出了巨大的努力。为了支持人类基因组计划的顺利进行2,人们在仪器和试剂上做出了巨大的改进。该计划的完成使得人们强烈的意识到人们需要更多更好的技术与数据分析能力来回答随之而来的一系列生物学问题。然而,通量的限制以及居高不下的测序成本成为了人们进一步了解基因组的一道坎。2000年之后推出的高通量测序平台很好地解决了这个问题,人类基因组测序的成本直接因此下降50000倍,并且由此产生了一个新的名词:下一代测序(next-generation sequencing,NGS)3。在过去的十年中,NGS技术不停的在进步——测序的数据量增加了100-1000倍4。这些技术上的进展使得人们甚至可以在一条read上读出整条基因组序列。根据Veritas Genomics的数据5,人类基因组测序的成本也已经下降到1000美元/人。不仅如此,该技术已经广泛在临床诊断上得到应用3,6。

但是,尽管NGS技术非常重要,却并非完美。与NGS技术一道出现的是该技术带来的一系列问题。NGS可以提供海量的数据量,但是其质量却有待提高(有报道,NGS在序列拼接过程中,错误率在0.1-15%范围内),并且NGS的序列读长普遍较低(每条read的长度在35-700bp之内7,这比普通的Sanger测序要短),这意味着需要更严格复杂的序列拼接。尽管长读长测序可以克服NGS的这一大弱点,但相对而言,成本较高并且通量较低,这也限制了该技术的进一步应用。最后,NGS同时还和其他的技术之间存在着竞争的关系。

短读长(read)的NGS测序

测序模版克隆法生成综述

短读长测序方法包含两种:边连接边测序(sequencing by ligation, SBL)以及边合成边测序(sequencing by synthesis, SBS)。在SBL方法中,带有荧光基团的探针与DNA片段杂交并且与临近的寡核糖核酸连接从而得以成像。人们通过荧光基团的发射波长来判断碱基或者其互补碱基的序列。SBS方法通常使用聚合酶,而且,诸如荧光基团在链的延伸过程中被插入其中。绝大多数的SBL和SBS方法,DNA都是在一个固体的表面上被克隆。一个特定区域内成千上万个拷贝的DNA分子可以增加信号和背景信号的区分度。大量的平行同样对上百万的reads的读取大有帮助,每个平行只有唯一的DNA模板。一个测序平台可以同时从上百万的类似反应中读取数据,因此可以同时对上百万的DNA分子进行测序。

产生模板的克隆有几个方法:基于磁珠(bead-based),固相介质(solid-state)以及DNA微球技术(DNA nanoball)(图1)。DNA模板产生的第一步就是样本DNA的片段化,接着是连接到一个为了克隆和测序而设计的接头上。在磁珠法的准备过程中,一个接头和寡核糖核酸片段互补并且固定在珠子上(图1a)。DNA模板通过使用油包水PCR(emulsion PCR,emPCR)8得以扩增。单个珠子上被克隆得到的DNA片段可以达到上百万个9。这些珠子可以被分为glass surface10或者PicoTiterPlate(罗氏诊断)11。固相介质扩增12避免了油包水PCR,取而代之的是在固相介质上直接进行PCR13(图1b,c)。该方法中,正向和反向引物结合在芯片的表面,这些引物给单链DNA(single-stranded DNA,ssDNA)提供了末端的互补序列供其结合。最近,几个NGS的平台都是用了模块化的flow cells。

BGI使用的Complete Genomics technology测序技术是唯一一个在溶液中完成模板富集的技术。在这种情况下,DNA被多次连接,成环以及剪切从而为了产生一个包含4个不同接头的环状的模板。通过旋转环状扩增(rolling circle amplification,RCA),可以最多产生超过200亿的DNA微球(图1d)。微球混合物随后被分配到芯片表面上,使得每个微球可以占据芯片的一个位点14。

图1:模板扩增策略。

边连接边测序(SOLiD和Complete Genomics

从根本上来说,SBL法包含了杂交和对标记的探针的连接15。探针包含了一到两个特定碱基序列和一系列通用序列,这可以使得探针与模板之间进行互补配对。锚定的片段则包含一段已知的和接头互补的序列用于提供连接位点。连接之后,模板被系统进行测序反应16。在锚和探针复合物或者荧光基团被完全移除之后,也或者连接位点重新生成之后,新的循环又重新开始了。

SOLiD平台使用的是双碱基编码的探针,每个荧光基团信号代表了一个二核糖核酸17。因此,原始输出的数据并非直接和已知的核糖核酸相连。因为有16种可能的二核糖核酸组合并不能单独结合荧光基团。每四种组合使用一种荧光信号,共有四种荧光信号。所以,每种连接信号代表了几种可能的二核糖核酸组合。SOLiD测序过程由一系列的探针-锚的结合,连接,图像获取以及切割的循环组成。

Complete Genomics使用探针-锚的连接方式(cPAL)或者探针-锚的合成方式(cPAS)来进行测序14。在cPAL中(图2b),锚的序列(与四种接头序列其中之一的互补)以及探针杂交到DNA微球的不同位置。每个循环中,杂交探针是一组特定位置已知碱基序列的探针的一员。每个探针包涵一段已知序列的碱基以及对应的荧光基团。获取图像之后,全部的探针-锚复合物被移除,新的探针-锚复合物被杂交。cPAS方法是cPAL的修改版,增加了read的长度;然而,目前来说,该方法还是有局限性的。

图2: SBL测序原理。

边合成边测序(Sequencing-by-synthesis

SBS的方法是指那些依赖于大量的DNA聚合酶来进行测序的方法。但是,SBS中依然包括了各种不同的测序原理。本文中,SBS方法被分为循环可逆终止(Cyclic reversible termination, CRT)以及单核糖核酸增加(single-nucleotide addition, SNA)18。

边合成边测序:CRT(Illumina,Qiagen

CRT方法是根据类似于Sanger测序的终止反应来界定的,其3′-OH基团被屏蔽而被阻止继续延伸19,20。在反应开始时,DNA模板被一段和探针序列互补的接头结合,DNA聚合酶也是从这段序列开始结合。每个循环过程中,四种单独标记的复合物和3’屏蔽的脱氧核糖核酸被添加进反应中。在延伸过程中每结合一个dNTP,其他没有被结合的dNTPs被移除,并且获取图像来确定是那个碱基在某个簇中被结合。荧光基团以及屏蔽基团随后被移除并且开始一轮新的反应。

Illumina的CRT和其他平台相比,代表了最大的测序平台市场。Illumina短读长测序的设备可以从台式的低通量单位到大型的超高通量,如应用于全基因组关联分析(whole-genome sequencing,WGS)。dNTPs是通过两个或者四个激光通道来对荧光进行分析的。在绝大多数Illumina平台上,每种dNTP结合一种荧光基团,因此需要四种不同的激光通道。而NextSeq和Mini-Seq则使用的是双荧光基团系统。

图3: SBS测序原理。

2012年,Qiagen获得了Intelligent BioSystems CRT平台,并且在2015年将该平台命名为GeneReader重新推出并且使之商业化22(图3b)。与其他平台不同的是,该平台打算做一站式的NGS平台,从样本制备到数据分析,全部一站式解决。为此,GeneReader系统整合了QIAcube样本制备系统和Qiagen Clinical Insight平台用于不同的数据分析。GeneReader平台的技术原理与Illumina平台基本一致。然而,该平台并非让每个DNA模板都去结合带有荧光基团的dNTPs23,而是只要足够的dNTPs结合到模板上就可以完成鉴定。