高通量测序的推出背景:
2004年全球多个国家共计预算30亿美金的人类基因组测序完成以后,发现单单完成一个人的基因组序列还远远不足以理解人类自身及疾病的机理。由于有了已经完成的人类基因组当做参考基因组,采用廉价、快速的方法对多个样本、群体、病种基因组的比对测序就能提供大量有价值的科研和临床信息。这就要求测序价格足够低、速度足够快,然而对测序结果是否易于拼接、组装基因组则没有明确需求。于是,美国国家基因组研究院(NHGRI)提出了把全基因组测序降至1000美金的研究规划,从而引领科学界、企业界大力发展测序技术。
高通量测序的十年:
2005年,454公司首先推出了二代测序仪;2006年,Solexa推出了Genome Analyzer,2007年年初Illumina收购了Solexa公司,在随后的几年陆续推出了Hiseq2000、MiSeq、Hiseq2500、MiseqDx、NextSeq 500测序仪,占据了高通量测序的大部分市场。ABI也在2007年推出的是SOLiD测序平台,随后收购了454测序仪发明者创立的Ion Torrent,转而大力推广PGM和Ion Proton平台。2014年,也就是高通量测序技术发展的第十年,illumina公司的Hiseq X平台已经实现了1000美金一个人类基因组测序的目标。虽然这个价格的实现,需要在保证未来数年充足机时的情况下才能完成,但也比十年前的30亿美金降低了300万倍。除此以外,还有好多公司开发了第三代测序仪,比如Pacific Biosciences的PacBio RS测序仪,DNA模板无需二代测序常用的PCR扩增的方法,就可以实现长读长、实时的测序;Oxford Nanopore MinION测序仪只有USB存储器那么大等等。
2013年9月,illumina公司的MiseqDx平台,首次通过了美国FDA的技术认证,作为开放平台和囊纤维化的试剂产品准许进入临床,标志着经过10年的发展,高通量测序技术已从纯科学研究的平台进入临床诊断领域。
各代测序的应用范围:
一代测序(Sanger)适合单一片段,长度小于800bp的精准测序;二代适合快速、低价测量海量数据,每次测序能产生数百、数千万条序列,但读长不超过500bp;而以PacBio为代表的三代测序更适合单分子测序,最长可以到几十K的读长,但测序质量略低。所以目前还没有哪一代测序技术可以完全取代同类技术,并不能简单的通过名字来判断技术先进性,重要的还是各个平台都有各自最适合的应用领域。
高通量测序应用范围:
无需BAC文库构建就可以进行全基因组鸟枪法冲测序;数以千万计的序列同时测序;测序结果无需通过毛细管电泳获得等等特点决定了高通量测序仪具有广阔的应用范围:基因组从头测序、基因组重测序、目标片段测序、数字化基因表达谱、小RNA测序、甲基化测序、蛋白质DNA相互作用测序等等。本文主要就高通量测序的几个应用在临床诊断领域的开展做一个简单介绍。
高通量测序的临床应用:
1.染色体疾病检测
2008年香港中文大学的卢煜明和斯坦福的Stephen Quake先后发表文章提出通过检测母体外周血中的游离DNA,可以准确的判断该孕妇胎儿的染色体非整倍体,该技术无需常规的羊膜腔穿刺、绒毛膜穿刺等创伤性染色体疾病检测技术,故常被简称为无创产前检测。
无创染色体检测的技术核心为拷贝数变异的原理。测序所得的序列通过生物信息算法,把所有序列比对到人类参考基因组。通过计数每一个染色体的唯一对应的序列条数来获取全染色体拷贝数变异情况。如果其中有一个染色体增加一条或缺少一条,则该染色体的拷贝数会显著增加或减少。
在当前常见的无创染色体非整倍体检测中,主要针对T21、T18、T13这三个染色体三体综合征。从国内外各家公司公布的数字来看,准确率、阳性预测值都可以达到99%。相对血清唐氏筛查技术,无创技术大大提高了准确率,降低了假阳性率。从而推动产前检测技术极大的发展,也帮助高通量测序真正的进入了临床转化应用阶段。在染色体非整倍体疾病中,性染色体异常(XXX、XO、XXY)等也颇为常见,由于X染色体(155mb)相对Y染色体(60mb)要大很多,血浆游离DNA中母体的DNA含量占50~90%,从而造成无创检测性染色体异常 具有一定的难度,准确率基本在90%左右。
除了染色体非整倍体以外,染色体病还有微缺失微重复,是指染色体上有局部片段缺失或出现重复片段。常见的表现为染色体上的部分三体、部分单体,比如猫叫综合征、迪格奥尔格综合征(Digeorge) 、Wolf-Hirschhorn syndrome、Prader-Willi syndrome等等。自从高通量测序技术应用于无创产前检测,业界也开始使用该技术来检测微缺失微重复。由于微缺失微重复染色体改变相对较小,需要较深的测序深度,才能较准确的判断染色体变异情况。
以上提到的都是无创的方式去检测染色体非整倍及微缺失微重复。对于诊断筛查成年人、婴幼儿、流产组织等染色体变异情况,利用高通量测序也是一种很好的选择,相对于传统的Array CGH,高通量测序技术更准确、速度更快、检测分辨率更高,需要的起始样本量更低,只要几纳克。
产前检测领域具有很大的特殊性,每一个结果都会影响一个还未出生的小生命,对于检测的准确率相对其他检测技术要求要高很多。不管是假阴性还是假阳性,都要求尽可能的低,否则会引起很多临床纠纷。而且由于要给后续的产前诊断技术正确尽可能多的时间,所以就要求检测周期尽可能短。无创染色体检测需要每一个样本有一定的测序量,但并不是简单的说测序越深结果就一定越好,需要保证每批测序的稳定性,就对实验室流程控制、试剂盒本身的质量控制、数据分析的校正都提出了很高的要求。如果没有很好的控制,哪怕一台测序仪就跑一个样本,几十倍于常规的测序通量,也不一定就能准确判断结果阴阳性。
2.基因突变检测
不同于一代测序针对单一片段的测序检测基因突变,高通量测序往往可以针对一个基因多个位点、多个基因或全外显子突变的快速检测。在这类检测中,首先通过PCR或者探针捕获的方式富集待检区域的DNA,然后通过高通量测序仪进行测序。高通量测序的准确率不如一代测序,所以为了得到准确的结果,每一个碱基位置都需要至少100条以上的序列结果。由于一个或多个基因位点组合、哪怕是全基因组外显子组合,也就70mb左右的DNA区域,实际工作中很容易实现100X以上的测序深度,往往都可以达到1000X以上。
表皮生长因子受体(EGFR)基因突变检测为当前最常用的单基因突变检测,检测结果可用于辅助临床医生筛选可受益于易瑞沙、特罗凯和凯美纳等靶向药物的非小细胞肺癌患者。目前常用的方法为荧光定量技术,需要做多个反应。根据Ensembl的数据库,EGFR最长的编码形式有28个外显子,编码区共有9821个碱基,不管是一代测序还是荧光定量都很难一次把EGFR全部位点都检测到。而针对10K的区域,对于高通量测序来说只需完成10mb测序量(1000X)就可以精确检测所有位点的信息。目前市场上主流的高通量测序仪一次测序都可以完成10G~1.8T,也就说可以一次开机至少可以完成1000个以上病人的样本。
对于单基因的检测,除非这个基因很长,或者具有大片段的缺失、重复,否则用高通量测序来做单基因检测有点大材小用,现实临床检验工作中要短时间聚齐1000个病人的样本也颇有难度,样本太少的话单个样本的平摊成本就会剧增。因此对于基因突变检测,高通量测序技术更适合多基因组合、甚至全外显子捕获等测序方式。
3.微生物、病毒、细菌鉴定
采用PCR方式来鉴定微生物、病毒、细菌非常快捷、廉价,但是需要利用已知物种的DNA序列设计PCR引物探针,对于未知物种则一筹莫展;一代测序的方法是可以鉴定未知物种,但是样本要求是经过分离培养,DNA背景单一,混合多个物种的DNA样本,一代测序会产生大量杂峰而无法正常得出测序结果。而高通量测序无需做任何培养、分离、也无需事先知晓物种,只要把待测样本的基因组DNA构建测序文库,测序产生数十万~数千万条不同的DNA序列,即可以轻易知道待测样本中有何种微生物、病毒、细菌、每一个物种的比例、碱基是否有突变、是否为新物种。
2009年H1N1病毒爆发感染时,有一名病人死于呼吸系统引起的多器官衰竭,然而并不知道具体的死因。科学家把病人的肺部穿刺组织的DNA拿来做高通量测序。最终在950万条序列中,含有0.85%的序列来自于H1N1病毒基因组,从而帮助科学家发现了该病人的真正死因。在这样高人类基因组干扰的背景下,目前其他技术都难以快速发现致病病毒序列、以及分子分型。
结核杆菌感染现在越来越严重,由于结核杆菌生长缓慢,发现结核杆菌感染及分子分型往往需要数月的时间。而结核杆菌的基因组只有4.4mb,利用高通量测序仪可以非常早期发现结核杆菌感染,同时还可轻易测得结核杆菌基因组的大部分区域,便于选择合适的敏感药物,以及确定是否为全新分子分型。
肠道微生态为目前热门的研究领域,在肠道内微生物种类众多,各菌群的种类和比例会影响人体的建库、代谢情况。高通量测序仪也是该领域的唯一选择。
4.肿瘤相关检测
除了前述的肿瘤基因突变检测以外,在血浆中寻找肿瘤组织脱落的DNA片段,对早期发现肿瘤、监控术后复发等领域被寄予厚望。血浆中大部分为正常组织的脱落细胞DNA,如果有肿瘤发生,异常增生的细胞脱落外周血循环,降解成低丰度DNA片段,由于含量低、碎片化DNA,基因芯片和PCR都不能正常检测。在无创产前检测的技术流程上做分析优化,高通量测序技术可精确检测游离DNA的每一个碱基,从而发现是否有肿瘤突变基因存在。美国霍普金斯大学也曾提出,首先对手术肿瘤组织进行全基因组深度测序,发现个体化的肿瘤基因组融合片段,随后在外周血中利用实时荧光PCR方法检测该个体化基因组融合片段的丰度,如果丰度提高则提示肿瘤有转移、复发的可能。
总结
十年来,高通量测序慢慢从实验室进入了临床检验,展现了蓬勃的生机及想象空间,未来肯定还有很多新的检测项目有待开发。10年来,高通量测序的单碱基成本已经降低了数百倍,也许在不久的将来,每一个新生儿都会有自己的基因组序列。海量数据的产生,也会反过来帮助近几年遭遇瓶颈的药物研发机构,研发更多的个体化药物。
高通量测序本身还有很多局限性,一次测序需要多个样本混合、成本还是相对昂贵、数据分析具有挑战性、操作环节多。企业界、科学界都在解决测序仪的稳定性、样本处理的便捷性、一体化数据分析等等问题。就像二代测序技术无法取代一代测序一样,高通量测序技术也无法取代PCR、FISH等其他类型的分子诊断技术。高通量测序技术会成为未来分子诊断领域的重要组成部分,大大推动技术前进。