测序相关知识总结
高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。
Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。
de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。
外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。
转录组学(transcriptomics)是在基因组学后新兴的一门学科,即研究特定细胞在某一功能状态下所能转录出来的所有RNA(包括mRNA和非编码RNA)的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计,可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。
Small RNA(micro RNAs、siRNAs和 pi RNAs)是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后,利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析,可以从中获得物种全基因组水平的miRNA图谱,实现包括新miRNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。
成熟的microRNA(miRNA)是17~24nt的单链非编码RNA分子,通过与mRNA相互作用影响目标mRNA的稳定性及翻译,最终诱导基因沉默,调控着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序,可以一次性获得数百万条microRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异,为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。
染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。
ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。
CHIRP-Seq( Chromatin Isolation by RNA Purification )是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针,把目标RNA拉下来以后,与其共同作用的DNA染色体片段就会附在到磁珠上,最后把染色体片段做高通量测序,这样会得到该RNA能够结合到在基因组的哪些区域,但由于蛋白测序技术不够成熟,无法知道与该RNA结合的蛋白。
RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术,是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。
RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。
CLIP-seq,又称为HITS-CLIP,即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitation and high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段,经添加接头、RT-PCR等步骤,对这些分子进行高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。
什么是metagenomic(宏基因组):
Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:(1)微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;(2) Metagenomics研究无需分离单个细菌,可以研究那些不能被实验室分离培养的微生物。
宏基因组是基因组学一个新兴的科学研究方向。宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中,DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。
10 .什么是SNP、SNV(单核苷酸位点变异)
单核苷酸多态性singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。
基因组上小片段(50bp)的插入或缺失,形同SNP/SNV。
基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。
染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosome trans-location)等。一般SV的展示利用Circos 软件。
15.什么是Segment duplication
一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上,有很大的SD序列。
既基因型与表型;一般指某些单核苷酸位点变异与表现形式间的关系。
17.什么是soft-clipped reads
当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。
由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。
21.什么是Contig N50?
Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度 1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。值越大,contig越长组装效果越好,测序效率也就越好了.
给定一组具有其自身长度的重叠群,L50计数被定义为长度总和占基因组大小一半的重叠群的最小数量。
21.1 什么是Scaffold N50?
Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度 1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。
22.什么是测序深度和覆盖度?
测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]: 每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。 假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。
如果对应特定基因的话,那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read Total exon reads:This is the number in the column with header Total exonreads in the row for the gene. This is the number of reads that have beenmapped to a region in which an exon is annotated for the gene or across theboundaries of two exons or an intron and an exon for an annotated transcript ofthe gene. For eukaryotes, exons and their internal relationships are defined byannotations of type mRNA.映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。
Exonlength: This is the number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping exons will count with their full length, even though theyshare the same region.外显子的长度。计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。 Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places (below the limit set in thedialog in figure18.110) that have been allocated tothis gene's region. A gene's region is that comprised of the flanking regions(if it was specified in figure 18.110), the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample (you can find the number in the RNA-Seq report).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。
举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM为:10 9*1000(reads个数)/10 6(总reads个数) 5000(外显子长度)=200或者:1000(reads个数)/1(百万) 5(K)=200这个值反映基因的表达水平。
FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是reads。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。
什么是转录本重构
用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。
什么是genefusion
将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。
什么是表达谱
基因表达谱(geneexpression profile):指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱
什么是功能基因组学
功能基因组学(Functuionalgenomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的
分析,新的技术应运而生,包括基因表达的系统分析(serial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragmentsdisplay。
什么是比较基因组学
比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。
什么是表观遗传学
表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。
什么是计算生物学
计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。
什么是基因组印记
基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。
什么是基因组学
基因组学(英文genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。
什么是DNA甲基化
DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。
什么是基因组注释?
基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。
什么是Q30?
Q30是指一个碱基的识别可靠性等于99.9%,或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。
Q30数据量是指一批数据中,质量高于等于Q30的数据的量的总和。
测序数据的PF data/PF reads是什么意思?
PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。
对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6,是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中,如果低质量的数据有2个或更多,则这条read被判定为不合格,PF就不通过。反之,则质检通过。
PF是国际公认的质检标准。
你们给的数据是什么质量的?
对于哺乳动物基因组重测序、外显子测序,我们保证数据质量是Q30的比例高于80%。对于mRNA测序,smRNA测序,我们保证对照Lane的数据质是Q30的比例高于80%。
一般情况下:
哺乳动物基因组重测序、外显子测序,GC比例在40%左右,Q30的比例是80~95%
RNA-seq,GC比例在50%左右,Q30的比例是~80%。如果Poly(A)特别多的情况下,Q30会更低一些
SmRNA-seq,因为有许多的read读通之后,只剩下一串的A,质量会更低,我们的实验结果%Q30在70~75%
测序中的Duplication是什么,如何避免,一般会有多少Duplication?
所谓Duplication是指起始与终止位置完全一致的片段。
引起Duplication的主要原因是因为在测序中有PCR过程,来源于同一个DNA片段PCR的产物被重复测序,就会是Duplication。次要原因是正巧两个片段的头和尾的位置完全一致。
一般通过控制PCR的循环数来控制Duplication。我们一般控制PCR的循环次数在10~12个循环。
在药明康德外显子测序中,如果用illumina的捕获试剂盒Duplication的比例约为10%,如果用Nimblegen的捕获试剂盒Duplication的比例波动较大,在5~50%范围 ,平均为30%。
在RNA-seq中,Duplication的比例约为40%。RNA-seq中,因为高丰度的mRNA集中在几个基因上,集中度很高,所以Duplication的比例也就高。
测序的插入片段一般是多长?
测序的插入片段一般是100bp到600bp.
因为Hiseq测序过程中有一个桥式PCR的过程。如果插入片段过长,测桥式PCR产生的Cluster就会太大,而且光强也会减弱。所以插入片段的长度是有限制的。
PhiX文库有什么用?
PhiX文库是一种用病毒基因组做的文库。其基因序列已精确知晓,GC比例约为40%,与人类、哺乳类的基因组的GC比例接近。其基因序列又与人类的基因序列相去甚远,在与哺乳类基因组一些测序时,可以轻松地通过基因序列比对而将之去除。
在测四种碱基不平衡(A、G、C、T四种碱基的含量远远偏离25%)的样本时,可以加入大量的PhiX文库,以部分抵消样本的不平衡性。例如ChIPed DNA测序,或者亚硫酸氢盐处理过的DNA文库,或者扩增子测序(PCR样测序),都可以加入PhiX,以部分弥补碱基不平衡性。
也可以少量地加入样本,以作为control library来验证测序质量。
Day7--测序基础知识
[TOC]
site1上
此时为桥式,扩增成双链,变性成单链,分别结合在tile上的P5‘ 和P7。出去Forward Strand。测Reverse Strand之后的流程与第一轮类似。
全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。
de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。
外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。
染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。
单核苷酸多态性 singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。
测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
小白的生信笔记(1)——高通量测序的一些基础知识
1977年,英国化学家桑格(Frederick Sanger)发明了双脱氧链终止法,这个技术以及吉尔伯特(W.Gilbert)发明的化学降解法被称为一代测序技术。 Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
不同于一代测序,NGS采用的是边合成边测序的策略,主要的技术路线以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为代表。为了增强测序准确性,需要对同一模板通过PCR扩增多个拷贝来矫正偏差值。因此整个测序分为PCR扩增(一种可以快速复制大量产生相同DNA片段的技术)和测序两个步骤。但是PCR过程会一定程度增加系统的错误率,并且带来的错误具有偏向性,这也是二代技术存在的问题之一。
illumina公司主打产品MiSeq测序仪、HiSeq X Ten测序仪、Miseq FGx测序仪、NextSeq 500/550桌上型测序仪、MiniSeq台式测序仪等,涵盖了不同的应用场景的不同需求。
第二代测序技术测序平台和测序成本,测序费用,花费时间,建库等实验技术难度,错误率以及读长(150-400bp),分析工作的体量,对于满足更高的科研需求和在医疗诊断中的普及都是不小的阻碍。其PCR过程带来的误差和偏好或成为其在医疗诊断大规模运用的阻碍。三代技术主要解决二代测长较短的问题。
PacBio 的SMRT 技术,LifeTechnologies 的 IonTorrent 半导体测序技术和 Oxford NanoporeTechnologies 纳米孔单分子测序技术是三代测序技术的代表。
PacBio SMR
PacBio的SMRT仍然运用边合成边测序的策略,但是其超强活性的DNA聚合酶是实现超长读长(~1000bp)的关键。反应在纳米管中进行,方便达到超高通量的目的。利用的是ZMW(零模波导孔)原理在超小的纳米孔中区别荧光信号的背景。其测序速度很快,每秒约10个dNTP。目前的问题在于测序的错误率太高(81-83%),这也是大多数三代技术需要解决的共同问题。不过错误随机,几乎没有偏向性,为其通过矫正来减少错误率提供了可能。目前这个技术已经投入市场。
Oxford Nanopre MinlON
而Nanopore的MinlON测序仪应用纳米孔单分子技术,这是一种基于电信号的测序技术,比起其他的光信号测序技术来说是一个革新。技术核心是一种特殊的内有分子接头的纳米孔,由蛋白质小孔嵌在人造膜上形成。膜两侧加上电压,使电流通过小孔。当不同的DNA碱基通过纳米孔时,其对电流的阻碍作用短暂地影响流过纳米孔的电流强度,不同碱基影响的程度不同,这种差异被灵敏的电子设备捕捉从而鉴定所通过的碱基种类。这种技术的优点很多,读长长(大约在几十kb,甚至100 kb),错误随机,而不是聚集在读取的两端,通量较高,该公司也在努力简化样品制备流程。理论上运用这个技术RNA也可以直接测序,还能检测到甲基化的胞嘧啶。不过不能实现理想的错误率控制,或成为其投入市场的阻碍。
LifeTechnologies IonTorrent
IonTorrent 使用半导体芯片,在芯片的微孔中固定DNA链。依次加入AGCT的碱基,DNA合成时如果碱基可以结合到模板链则会释放一个氢离子。这个氢离子导致局部HP值发生变化。离子传感器检测到PH 变化后,便将化学信号转变为序列信息。而如果DNA 链有两个连续的相同碱基,则记录到的信号翻倍,从而将其识别。如果不匹配,则记录不到变化。这种技术由于不涉及荧光激发和拍照,则运行时间被大大缩减(仅数小时),无需激光光源,光学系统和照相系统,也不需要荧光标记,规避了这些环节带来的误差。但是其读长不算太长(200bp),并且当遭遇多个连续的相同碱基时,强烈的PH变化会带来误差。
de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。
外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。
Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:(1)微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;(2) Metagenomics研究无需分离单个细菌,可以研究那些不能被实验室分离培养的微生物。
单核苷酸多态性singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变,称做SNV。
基因组上小片段(50bp)的插入或缺失,形同SNP/SNV。
当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。
由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。
基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...…Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。
Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...……Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。
测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read回贴到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。
比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构
Q30是指一个碱基的识别可靠性等于99.9%,或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。Q30数据量是指一批数据中,质量高于等于Q30的数据的量的总和。
PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6,是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中,如果低质量的数据有2个或更多,则这条read被判定为不合格,PF就不通过。反之,则质检通过。
PF是国际公认的质检标准。对于哺乳动物基因组重测序、外显子测序,我们保证数据质量是Q30的比例高于80%。对于mRNA测序,smRNA测序,我们保证对照Lane的数据质量是Q30的比例高于80%。
一般情况下:
哺乳动物基因组重测序、外显子测序,GC比例在40%左右,Q30的比例是80~95%;
RNA-seq,GC比例在50%左右,Q30的比例是~80%。如果Poly(A)特别多的情况下,Q30会更低一些;
SmRNA-seq,因为有许多的read读通之后,只剩下一串的A,质量会更低,我们的实验结果%Q30在70~75%。
Illumina的测序仪的数据产量高,数据质量也是最高的。因为采用带终止基团的荧光dNTP,所以在测Homopolyer(碱基同聚物,例如一串4个T:TTTT)等的时候,不会产生移码错读。
Roche 454采用的是pyrosequencing的测序原理,通过水解DNA全成过程中所产生的焦磷,放出光,通过测这光来读出序列。优点是读长最长。但是数据产量是最低的。
Ion Torrent,包括PGM和Proton,采用测量DNA合成过程中所释放的氢离子引起的PH值的变化,来得到序列。优点是速度最快,上机前约3~4天的时间,上机只要2~4个小时。
SOLID采用的是杂交,连接反应,再测荧光的方法。因为杂交,所以速度慢,测长较短。现在事实上已被淘汰。
PacBio是三代测序,也就是单分子测序。目前的情况是测序长度可以在1个KB以上,而且可以测出DNA序列的修饰情况。但是其缺点在于测序的准确度很低,目前的测序准确度只有每个碱基80~90%。另一方面通量较小,一次读7万条reads.
部分参考:
1977年,英国化学家桑格(Frederick Sanger)发明了双脱氧链终止法,这个技术以及吉尔伯特(W.Gilbert)发明的化学降解法被称为一代测序技术。Sanger曾经在1958年及1980年两度获得诺贝尔化学奖,是第四位两度获得诺贝尔奖,以及唯一获得两次化学奖的人。其第一次获奖是凭借定序胰岛素的氨基酸序列,证明蛋白质具有明确构造,而第二次获奖就是因为其双脱氧链终止法——Sanger法的发明。利用这个技术他成功测定了Φ-X174噬菌体(Phage Φ-X174)的基因组序列。Sanger也是一个传奇的大科学家,现在基因组研究中举足轻重的桑格研究院(Sanger Institute)便是这位大牛一手建立的。
第一代测序技术的特点是测序读长可达1000bp,准确性高达99.999%,但测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。但由于高精度,现今一代测序仍然是基因检测的金标准,也是对新一代测序结果进行评估验证的主要手段。而在当时,正是一代测序技术使得基因组的研究在当时成为了可能,浩浩荡荡的人类基因组计划即将轰轰烈烈的展开。1977年,英国化学家桑格(Frederick Sanger)发明了双脱氧链终止法,这个技术以及吉尔伯特(W.Gilbert)发明的化学降解法被称为一代测序技术。Sanger曾经在1958年及1980年两度获得诺贝尔化学奖,是第四位两度获得诺贝尔奖,以及唯一获得两次化学奖的人。其第一次获奖是凭借定序胰岛素的氨基酸序列,证明蛋白质具有明确构造,而第二次获奖就是因为其双脱氧链终止法——Sanger法的发明。利用这个技术他成功测定了Φ-X174噬菌体(Phage Φ-X174)的基因组序列。Sanger也是一个传奇的大科学家,现在基因组研究中举足轻重的桑格研究院(Sanger Institute)便是这位大牛一手建立的。
第一代测序技术的特点是测序读长可达1000bp,准确性高达99.999%,但测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。但由于高精度,现今一代测序仍然是基因检测的金标准,也是对新一代测序结果进行评估验证的主要手段。而在当时,正是一代测序技术使得基因组的研究在当时成为了可能,浩浩荡荡的人类基因组计划即将轰轰烈烈的展开。
2020-10-23 检材DNA的提取 & 测序知识
原理:
由于双脱氧核苷酸(ddNTP)的3’位置脱氧,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应。
在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(ddATP、ddCTP、ddGTP和ddTTP),通过凝胶电泳和放射自显影,根据电泳带的位置确定待测分子的DNA序列。
二代测序以Illumina平台为代表,其在Sanger基础上加上了桥式PCR,克服了Sanger低通量的缺点。Illumina市场规模占到75%以上,主打Hiseq。
Illumina循环SBS法(cycle SBS),即SBRT(Sequencing By Reversible Termination,可逆终止),概括来讲就是基于可逆终止的、荧光标记dNTP来做边合成边测序的工作。其核心技术是DNA合成的可逆性末端循环,即3'-OH可逆性的修饰和去修饰。
1. Flowcell(流动池)
一个flowcell含有8条lane,lane的内表面做了专门的化学修饰(主要是把2种DNA引物“种”在玻璃表面,这两种DNA引物序列和接下来需要测序的DNA文库两端的接头序列是互补的,而且这两种DNA引物是通过共价键连到flowcell上的)
2. DNA Library(DNA文库)
所谓的DNA文库,实际上是许多个DNA片段,在两头接上了特定的DNA接头序列,形成的DNA混合物。
3. 桥式PCR
这一步实际上就是把DNA文库“种”到芯片上然后进行扩增的过程。
4. 测序
在测序过程中加入的最主要的是两种东西:①带有荧光标记的dNTP,其3’末端要被叠氮基团堵住,所以一个循环只能延长一个碱基,然后就会停止;②聚合酶。
合成完之后,冲掉多余的dNTP和酶,然后放到显微镜下,进行光扫描。通过荧光素的不同颜色,根据红黄蓝绿颜色倒推新合成的碱基是哪种碱基,然后推出模板上的碱基是什么碱基。
循环完成之后,加入化学试剂将叠氮钠基团和旁边标记的荧光基团切掉,使3‘端的羟基暴露出来,接下来再加入新的dNTP和新的酶,再延长一个碱基,如此循环重复。
5. 读取Index(Barcode)
每一个样本有一个特定的接头,每种接头里面有一段特定的序列,即Index(也叫Barcode),它标记了样本的来源。
读取Index序列的步骤:
6. 双端测序
正向测一遍,负向再测一遍,使测序的有效长度加了一倍。
3. DNA和RNA的结构
从本次课到第8次课,均是讲述DNA相关的知识。核酸的结构开始,到DNA如何组装为染色体,基因组学(5-6),DNA复制(7-8)。
学习该部分,希望同学们掌握描述DNA或是RNA时,常用的理化参数或者名词有哪些;还有就是关于核酸的常识。
当我们谈到核酸时,一般会关注GC含量、Tm值、大小(长度)。
1). GC含量。 一个核酸分子中,鸟嘌呤和胞嘧啶所占的比率称为GC含量。在DNA中,GC含量愈高,DNA的密度也愈高;形成的双链愈稳定,因此热及碱不易使之变性。根据这一特性,可进行DNA的分离或测定。此外,对生物的基因组DNA来说,GC含量是一个固定值。
2). Tm值。
与此相关的是核酸的变性和复性。
DNA在物理或化学因素作用下(如加热、酸碱或紫外线照射),可以导致两条DNA链之间的氢键断裂,而核酸分子中的所有共价键(如磷酸二酯键、糖苷键等)则不受影响,称为DNA变性 (DNA denaturation or DNA melting)。凡能破坏双螺旋稳定的因素(如加热、极端的pH、有机试剂如甲醇、乙醇、尿素及甲酰胺等)均可引起核酸分子变性。比如,PCR中,会使用90度以上的高温让DNA变性;分析RNA时,会用65度进行RNA的变性;Southern blotting中,会用0.4N的NaOH对凝胶中电泳分离的DNA进行变性。
Tm值,就是让一半的DNA分子发生变性时的温度。DNA的Tm值由以下几个因素决定:(1)GC含量,在一定条件下Tm高低与DNA分子中的GC含量成正比,G-C含量高时,Tm值比较高,反之则低。这是因为G-C之间的氢键较A-T多,解链时需要较多的能量之故。(2)DNA长度。DNA所处的溶液条件,影响因素包括离子浓度、pH值和有机溶剂。
DNA复性。复性(renaturation),也称退火(annealing),就是两条单链DNA分子之间依据Waston-crick碱基互补配对的规则,变成双链的过程。复性的最佳温度一般在比Tm低25度左右。此外,如果将DNA高温变性后,立刻放在冰上降温,DNA会保持变性的单链状态,(称为淬火,quelling)。同DNA变性一样,影响DNA复性的因素包括:DNA浓度、复性的时间、DNA序列的复杂度等。鉴于DNA的复性的时间与DNA复杂度有关,因此可以通过用C0t值来描述DNA序列的复杂度。序列复杂度低,重复序列多,复性就快,C0t值低;复杂度高,复性慢,C0t就高。
DNA的变性和复性是许多实验的基础,比如PCR和分子杂交实验。例如我们在PCR中遇到高GC含量的模板时,DNA变性可能不完全,会利用一些添加剂来降低Tm值,提高PCR效率。这次课的作业就是与此有关。
另外就是经典的分子杂交实验。分子杂交:指两条单链核酸分子间复性变为为双链的过程。分子杂交技术,利用DNA变性、复性来检测核酸的技术。分子杂交可以发生在DNA单链之间,也可以是DNA单链和RNA之间,或者RNA之间都可以进行分子杂交。2)复性的两个DNA或RNA单链之间,序列可以不完全一致。比如DNA引物与模板之间有一个错配,实际上也能结合为部分双链(如DNA二级结构中的R型环突,R-loop)。
3). DNA大小 。
核酸的大小主要用碱基对(base pair,bp)来表示。常用的单位有Kb (kilo base pairs),Mb (mega base pairs),Gb (giga base pairs) 等。在这部分中,需要了解C-值悖论。
不同生物,基因组DNA的大小差异非常大,从只有几千bp的病毒到十亿以上碱基对的植物、动物。一般将单倍体基因组总DNA的含量可作为一个物种的特征,称为C值。按照常理推断,DNA的碱基多,携带的信息就多,基因的数目就多,能够完成的生命活动也会更复杂。在低等生物中的确存在这样的规律,一个物种的DNA多,往往编码的基因就多,能够适应更复杂的自然环境。但在真核生物中,DNA含量的和它编码基因的数目是没有严格的关联,和生物进化的复杂性也没有严格的对应关系。比如,青蛙的基因组是人的7倍;在植物种,拟南芥基因组只有100多Mb,水稻是400Mb左右,玉米和小麦是Gb以上,但这几种植物的复杂性、进化的程度,其实是等同的。这就引出了C值悖论(C-value paradox),即一个物种的C-值与它的进化没有严格的对应关系。
要完整的回答C-value paradox,可能等大家学完基因组学以及后面的课程,才能系统地解释出现C-值悖论地原因。简单的说,C-值大地物种中可能有大量的非编码DNA,还有就是大量的重复序列(如转座子),因此C值虽大,但并没有包含更多地基因(或是编码更多的蛋白)。那是不是这些非编码DNA和重复区域就是不需要的,是基因组上的“垃圾DNA”,这个问题不容易回答。我们在研究中确实发现有些DNA区域,或者一些有些不表达的重复基因,去掉以后对植物没什么影响。但大家回忆一下第一次课的小幽默。遗传学家将“安全带”去掉,正常情况对汽车的行驶不会由任何影响,只有在撞车时才会发现它是必要的。我们现在将某个基因或某段DNA去掉,并不能完全确定对植物没有影响,也许是在特定条件下才会出现;当然,有一些DNA的确就是“进化”的遗迹,是可以抛弃的。
DNA的一级结构是指各个核苷酸结构单元或碱基的排列顺序,存储了生物的遗传信息。此部分的重点是学习DNA测序的原理。
1)Sanger测序
最经典的是Sanger测序,也称链终止测序(chain termination method)。它利用DNA合成反应过程中,双脱氧核苷酸的加入使DNA链的合成终止,将终止的DNA链电泳后,来读取DNA序列。
我们一般使用的是自动化sanger测序仪,用四种不同的荧光分子,分别标记ddATP、ddCTP,ddTTP和ddGTP。测序反应后,利用激光扫描仪直接读取荧光分子的颜色,获得碱基信息。(视频: )
2). 二代测序方法
即使自动化的Sanger测序,在前期需要大量的准备工作,并且测序通量有限,一次电泳也只能进行384个片段的测序反应。2005 年 Roche 公司发布的 454 测序系统标志着测序技术跨人高通量并行测序的时代。第二代 DNA 测序(next generation sequencing,NGS)技术又称大量并行测序技术(massive parallel sequencing,MPS)、高通量测序技术(high—throughputsequencing,HTS)。
NGS其特点是一个反应能同时测定成千上万的DNA片段的序列,但读取序列的长度有限。最早只能读取几十个碱基对长度的小片段,到现在能够并行读取300-500bp的DNA片段的序列 。对于不同的测序技术,需要同学可以去查阅资料,到各个测序公司的官网了解这些测序方法的原理和性能。这里这是点到为止。
焦磷酸测序(pyrosequencing), 454测序仪 。 加入某一核苷酸时,检测DNA合成时是否产生PPi(焦磷酸)来判断碱基序列。
Illumina/Solexa测序:荧光标记和分子阵列。即在一张芯片上同时进行大量的类似Sanger的测序反应。由于使用的末端终止世纪时可逆的,在完成一个碱基的读取后,可持续进行DNA链的延伸和测序。
Ion Torrent测序(半导体测序):利用半导体芯片捕获DNA合成过程中产生pH值的变化。
3). 三代测序
即单分子测序技术,在测序过程中不需要涉及PCR扩增,实现了对每一条DNA分子的单独测序。三代测序技术具有超长读长,还拥有不需要模板扩增、运行时间较短、直接检测表观修饰位点、较高的随机测序错误等特点。它弥补了第二代测序读长短、受GC含量影响大等局限性,已在小型基因组从头测序和组装中有较多应用。包括以下几个公司的技术。
Helicos (最早,2012年破产)
OxfordNanopore 纳米孔测序(Nanopore)
Pacific Biosciences的SMART测序,PacBio测序
DNA的二级结构主要是各种形式的双螺旋,除了最常见的B-型双螺旋,此外还有A-型双螺旋、Z-型双螺旋。B-型双螺旋也就是Watson和Crick提出的DNA结构模型,是生物体内DNA的主要形态。DNA还存在三链螺旋和四链螺旋。由于DNA的特殊性质,DNA可以组装成各种二级结构的纳米材料(DNA Origami)。我们感兴趣是有生物学意义的核酸结构。
在DNA复制, 转录,重组等阶段,双螺旋DNA还能形成多样的二级结构,比如分支型的DNA(在DNA修复中会出现),DNA复制时形成Y性的复制叉等
部分特殊的DNA序列哈能形成三螺旋DNA和四股螺旋DNA。
三股螺旋DNA
四螺旋DNA ,也称G-quadruplex,在GGG重复序列组成的DNA链中容易形成的四螺旋DNA,发现于端粒、启动子等区域。近年研究发现G-quadruplex可能具有非常广泛的生物学功能,参与转录、翻译等环节的调控。
在细菌、病毒、真核细胞线粒体、叶绿体中,DNA多呈现双链环状分子,是没有自由末端的闭合双链结构(covalently closed circle DNA, cccDNA)。DNA分子可以在双螺旋的基础上,进一步绕同一中心轴扭转,造成额外的螺旋。形成超螺旋的结构。超螺旋本身具有方向性,因此当旋转方向不同时,可产生正超螺旋和负超螺旋两种形式的拓扑结构。右手超螺旋(顺时针),称为负超螺旋(与DNA双螺旋的旋转方向相反的扭转);反之形成的左手超螺旋(逆时针)称为正超螺旋(与DNA双螺旋的旋转方向相同的扭转)。
在生物体内,DNA主要以负超螺旋的形式存在,并通过拓扑异构酶来调整DNA的超螺旋结构。DNA超螺旋与DNA复制和转录都有关(可见DNA复制部分)。
真核生物染色体虽然是线性分子,但其DNA与蛋白质相互结合,以许多大环的形式存在,许多个环的基部聚合在一起形成类似环的结构。此外,真核生物DNA在细胞中高度压缩成染色体结构,在后面的章节中会介绍。
3.5 RNA的二级结构
RNA为单链,非常容易分子内或是分子间形成双链,进而形成各类二级结构。RNA的二级结构跟它的功能有密切联系,比如核糖体RNA、snoRNA、tRNA的二级结构,siRNA来源于双链RNA,miRNA来源于同一个RNA分子形成的stem-loop结构等。这节的另外一部分内容就是希望大家熟悉各类RNA相关的名词。