DNA的质量监测通常有两个方法

来源：纷纭教育

2）DNA的质量监测通常有两个方法：首先OD260/OD280比值应该在1.8左右（1.7-1.9），否则意味着DNA样品中存在大量的蛋白质或RNA污染。其次，琼脂糖电泳分析时应主要以超螺旋条带为主。最多不超过三条带（分别为超螺旋DNA，线性化DNA和环状DNA）。否则意味质粒DNA的质量不高，应该重新制备。

2.性内切酶的活性

3.1）性内切酶一般需要低温保存，而且反复的升降温过程对酶活性的损害很明显。因而为了确保在有效期内的性内切酶不会失活，性内切酶的日常保存和使用应当很小。

4.2）建议购买具有保温功能的冻存盒保存性内切酶（-20度），而且取用性内切酶时，也应该使用具有保温功能的冻存盒，尽量防止酶的温度反复出现大的波动。

5.3.性内切酶的用量

6.1）性内切酶的单位定义通常为：在合适的温度下，完全消化1ugDNA底物所需的酶量定义为一个单位。

7.2）在这个单位定义中，有几个不确定因素：首先是底物，不同的酶单位定义是选择的底物可能不同（常用的几个底物DNA包括：Lambda DNA ,AD2 DNA 和一些质粒DNA）；第二个不确定因素是性内切酶在底物DNA上的酶切位点的个数。由于单位定义中要求完全消化，因而底物上某个酶的酶切位点的个数的多少，就直接影响了该酶的单位定义。

8.3）因而，在进行酶切时，用1ul酶（一般10IU/ul）消化1ugDNA的通常做法是很不科学的，这也导致在实际工作中，大家要进行多次预实验才能确定最合适酶切条件。

9.4）以前，我推荐了一个在线的双酶切设计软件，double digestion designer, 可以精确地计算酶切时的性内切酶的用量。使用中，能够注意到，用来进行双酶切的两个酶的用量有时竟然相差近20倍（EcoRI + NheI)，而且发现，小片段PCR产物（100-500bp）进行酶切时，需要的酶量比质粒DNA酶切时用量多10倍以上。

5）该软件目前可以免费使用，用户名和密码都是test。http://www.bioinfomatics.cn/enzyme/login.php

全基因组甲基化测序：DNA 甲基化是指在 DNA 甲基化转移酶的作用下，在基因组 CpG 二核苷酸的胞嘧啶5\\'碳位共价键结合一个甲基基团。DNA 甲基化已经成为表观遗传学和表观基因组学的重要研究内容。甲基化是基因表达的主要方式之一，研究染色体DNA甲基化情况是了解基因的重要手段。对已经有参考基因组的物种的基因组DNA用标准亚硫酸氢盐（Bisulfite）处理后，未甲基化的胞嘧啶C会脱氨基形成尿嘧啶U，经PCR扩增，U替换为胸腺嘧啶T，而发生甲基化的胞嘧啶C保持不变。将处理组与参考基因组序列进行比对，可发现甲基化位点并对甲基化情况进行定量分析的方法叫做全基因组甲基化测序。

在甲基转移酶的催化下，DNA的CG两个核苷酸的胞嘧啶被选择性地添加甲基，形成5－甲基胞嘧啶，这常见于基因的5'-CG-3'序列。大多数脊椎动物基因组DNA都有少量的甲基化胞嘧啶，主要集中在基因5'端的非编码区，并成簇存在。甲基化位点可随DNA的复制而遗传，因为DNA复制后，甲基化酶可将新合成的未甲基化的位点进行甲基化。DNA的甲基化可引起基因的失活，DNA甲基化导致某些区域DNA构象变化，从而影响了蛋白

质与DNA的相互作用，甲基化达到一定程度时会发生从常规的B-DNA向Z-DNA的过渡，由于Z-DNA结构收缩，螺旋加深，使许多蛋白质因子赖以结合的原件缩入大沟而不利于转录的起始，导致基因失活。

一代测序技术：即传统的Sanger测序法，Sanger法是根据核苷酸在待定序列模板上的引物点开始，随机在某一个特定的碱基处终止，并且在每个碱基后面进行荧光标记，产生以A、T、C、G结束的四组不同长度的一系列核苷酸，每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH 基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，通过检测得到DNA碱基序列。

二代测序技术：next generation sequencing（NGS）又称为高通量测序技术，与传统测序相比，二代测序技术可以一次对几十万到几百万条核酸分子同时进行序列测定，从而使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序（Deep sequencing）。NGS主要的平台有Roche（454 & 454+），Illumina（HiSeq 2000/2500、GA IIx、MiSeq），ABI SOLiD等。

基因：Gene，是遗传的物质基础，是DNA或RNA分子上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代，使后代出现与亲代相似的性状。

DNA：Deoxyribonucleic acid，脱氧核糖核酸，一个脱氧核苷酸分子由三部分组成：含氮碱基、脱氧核糖、磷酸。脱氧核糖核酸通过3\\',5\\'-磷酸二酯键按一定的顺序彼此相连构成长链，即DNA链，DNA链上特定的核苷酸序列包含有生物的遗传信息，是绝大部分

生物遗传信息的载体。

RNA：Ribonucleic Acid，，核糖核酸，一个核糖核苷酸分子由碱基，核糖和磷酸构成。核糖核苷酸经磷酯键缩合而成长链状分子称之为RNA链。RNA是存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。不同种类的RNA链长不同，行使各式各样的生物功能，如参与蛋白质生物合成的RNA有信使RNA、转移RNA和核糖体RNA等。

16S rDNA：\"S\"是沉降系数，是反映生物大分子在离心场中向下沉降速度的一个指标，值越高，说明分子越大。rDNA（ribosome DNA）指的是原核生物基因组中编码核糖体RNA（rRNA）分子对应的DNA序列，16S rDNA 是原核生物编码核糖体小亚基16S rRNA的基因。细菌rRNA（核糖体RNA）按沉降系数分为3种，分别为5S、16S和23S rRNA。16S rDNA是细菌染色体上编码16S rRNA相对应的DNA序列，存在于所有细菌染色体基因中。16S rRNA 普遍存在于原核生物中。16S rRNA 分子，其大小约1540bp，既含有高度保守的序列区域，又有中度保守和高度变化的序列区域，其可变区序列因细菌不同而异，恒定区序列基本保守，所以可利用恒定区序列设计引物，将16S rDNA片段扩增出来，通过高通量测序利用可变区序列的差异来对不同菌属、菌种的细菌进行分类鉴定。

cDNA：complementary DNA，互补脱氧核糖核酸，与RNA链互补的单链DNA，以RNA为模板，在反转录酶的作用下所合成的DNA。

Small RNA：生物体内一类高度保守的重要的功能分子，其大小在18-30nt，包括microRNA、siRNA、snRNA、snoRNA和piRNA（piwi-interacting RNA）等，它的主要功能是诱导基因沉默，细胞生长、发育、基因转录和翻译等生物学过程。以miRNA为例介绍它们的功能：miRNA与RNA诱导沉默复合体（RNA induced silencing complex, RISC）结合，并将此复合体与其互补的mRNA序列结合，根据靶序列与miRNA的互补

程度，从而导致靶序列降解或干扰靶序列蛋白质的翻译过程。

SD 区域：Segment duplication，串联重复是由序列相近的一些 DNA 片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。

Genotype and phenotype：基因型与表型，基因型是指某一生物个体全部基因组合的总称；表型，又称性状，是基因型和环境共同作用的结果。

基因组：Genome，单倍体细胞核、细胞器（线粒体、叶绿体）或病毒粒子所含的全部DNA分子或RNA分子。

全基因组de novo测序：又称从头测序，它不依赖于任何现有的序列资料，而直接对某个物种的基因组进行测序，然后利用生物信息学分析手段对序列进行拼接、组装，从而获得该物种的基因组序列图谱。

全基因组重测序：对已有参考序列（Reference Sequence）物种的不同个体进行基因组测序，并以此为基础进行个体或群体水平的遗传差异性分析。全基因组重测序能够发现大量的单核苷酸多态性位点（SNP）、拷贝数变异（Copy Number Variation，CNV）、插入缺失（InDel，Insertion/Deletion）、结构变异（Structure Variation，SV）等变异类型，以准确快速的方法将单个参考基因组信息上升为群体遗传特征。

转录组：Transcriptome，是指特定生长阶段某组织或细胞内所有转录产物的集合；狭义上指所有mRNA的集合。

转录组测序：对某组织在某一功能状态下所能转录出来的所有RNA进行测序，获得

特定状态下的该物种的几乎所有转录本序列信息。通常转录组测序是指对mRNA进行测序获得相关序列的过程。其根据所研究物种是否有参考基因组序列分为转录组de novo测序（无参考基因组序列）和转录组重测序（有参考基因组序列）。

外显子组：Exome，人类基因组全部外显子区域的集合称为外显子组，是基因中重要的编码蛋白的部分，并涵盖了与个体表型相关的大部分的功能性变异。

外显子组测序：是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、InDel 等具有较大的优势。

目标区域测序：应用相关试剂盒对基因组上感兴趣的目标区域进行捕获富集后进行大规模测序，一般需要根据目标区域专门定制捕获芯片。

宏基因组：Metagenome，指特定生活环境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因。目前主要指环境样品中的细菌和真菌的基因组总和。

宏基因组16S rRNA测序：可以对特定环境下的细菌和古细菌群体的微生物种类和风度进行有效的鉴定。对不同地点、不同条件下的多个样本16S rRNA的PCR产物平行测序，可以比较不同样本间的微生物组成及成分差异，进而阐明物种丰度、种群结果等生态学信息。

表观遗传学：Epigenetics，是指在基因组DNA序列没有改变的情况下，基因的表达和性状发生了可遗传的变化。表观遗传的现象很多，已知的有DNA甲基化（DNA

methylation），基因组印记（genomic impriting），母体效应（maternal effects），基因沉默（gene silencing），核仁显性，休眠转座子激活和RNA编辑（RNA editing）等。

ChIp-Seq：Chromatin Immunoprecipitation sequencing，即染色质免疫共沉淀-测序技术，即通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段。对富集得到的DNA片段进行纯化与文库构建，然后进行高通量测序，从而得到全基因组范围内可以与目的蛋白相互作用的DNA片段的方法叫做ChIP-Seq。

数字表达谱：Digital Gene Expression Profile，利用新一代高通量测序技术和高性能计算分析技术，能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况，即运用特定的酶对mRNA距polyA tail 21-25nt的位置进行酶切，所获得的带polyA尾的序列(Tag)通过高通量测序，该tag被测得的次数即是对应基因的表达值。数字基因表达谱已被广泛应用于基础科学研究、医学研究和药物研发等领域。特点是经济，但获得的数据量有限。若想获得转录本的更多信息的话，一般都采用转录组测序的方法来测序。

SBS：sequencing by synthesis，边合成边测序反应，是指在DNA聚合酶的作用下延伸碱基所进行的测序。

Run：指高通量测序平台单次上机测序反应。

图1. Flow Cell结构示意图

Lane：也叫channel，单泳道，每条泳道包含2列（column），每列分布有多个小区（tile），如图1。不同的测序平台Flow Cell中所含的Lane不一样，如HiSeq 2000是2个flow cell，每个flow cell中含有8个lane；HiSeq 2500是包含2个mini flow cell（快速运行模式）和2个high output flow cell，两个模式不能同时运行，其中每个mini flow cell包含2个lane，每个high output flow cell中包含8个lane；Miseq系统的flow cell仅含有1个lane。

Tile：小区，每条Lane中有2列tile，合计120个小区。每个小区上分布数目繁多的簇结合位点，如图1。

Cluster：簇，在Illumina测序平台中会采用桥式PCR方式生产DNA簇，每个DNA簇才能产生亮度达到CCD可以分辨的荧光点。

Index：标签，在Illumina平台的多重测序（Multiplexed Sequencing）过程中会使用Index来区分样品，并在常规测序完成后，针对Index部分额外进行7个循环的测序，通过Index的识别，可以在1条Lane中区分12种不同的样品。

Barcode：与Index同义，多指在Roche GS FLX 454测序平台的16S PCR产物的测

序过程中接头序列所包含的的用来区分不同样本的序列。

PF%：PF%是指符合测序质量标准的簇的百分比，与测序的通量相关联。

Fasta：一种序列存储格式。一个序列文件若以FASTA格式存储，则每一条序列的第一行以“>”开头，而跟随“>”的是序列的ID号（即唯一的标识符）及对该序列的描述信息；第二行开始是序列内容，序列短于61nt的，则一行排列完；序列长于61nt的，则每行存储61nt，最后剩下小于61nt的，在最后一行排列完；第二条序列另起一行，仍然由“>”和序列的ID号开始，以此类推。

Fastq：Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文件格式。第一行以“@”符号开头，后面紧跟一个序列的描述信息；第二行是该序列的内容；第三行以“+”符号开头，后面可以是该序列的描述信息，也可省略；而第四行是第二行中的序列内容每个碱基所对应的测序质量值。

Read：高通量测序平台产生的序列标签就称为 reads。

基因组组装：进行基因组或转录组de novo测序时，物种基因组经构建不同的文库测序所得的片段需经过生物信息学手段对其进行整理拼接，并通过一定的标准（如N50）对后续组装结果进行质量评估等，最终获得高准确度的基因组序列的过程。

基因组测序深度：测序得到的总碱基数与待测基因组大小的比值。如测一个物种的全基因组的重测序，基因组大小约为5G，测序获得100G的数据量，则测序深度为20×。

基因组覆盖率：指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复

序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖率是98%，那么还有2%的序列区域是没有通过测序获得的。

Contig：在de novo测序中拼接软件基于 reads 之间的 overlap 区，拼接获得的中间没有gap的序列称为Contig（重叠群）。

Scaffold：基因组 de novo 测序，通过 reads 拼接获得 Contigs 后，往往还需要构建 454 Paired-end 库或Illumina Mate-pair 库，以获得一定大小片段（如 3Kb、8Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些 Contig 之间的顺序关系，这些先后顺序已知的 Contigs 组成 Scaffold。

Contig N50：Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3……Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时，Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

Scaffold N50：Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2，Scaffold 3……Scaffold 25。将Scaffold按照这个顺序依次相加，当相加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为Scaffold N50。举例：Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时，Scaffold 5的长度即

为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

Isotig：指在转录组de novo测序时，用454平台测序完成后组装出的结果，一个isotig可视为一个转录本。

Isogroup：指转录组de novo测序中，用454平台测序完成后组装出的结果获得的可聚类到同一个基因的转录本群。

GC%：GC含量，全基因组范围内或在特定基因组序列内的4种碱基中，鸟嘌呤和胞嘧啶所占的比率。

SNP：single nucleotide polymorphism，单核苷酸多态性，个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性；不同物种个体基因组 DNA 序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。SNP 在CG序列上出现最为频繁，而且多是C转换为T，原因是CG中的C 常为甲基化的，自发地脱氨后即成为胸腺嘧啶。一般而言，SNP 是指变异频率大于1 %的单核苷酸变异，主要用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。

InDel：Insertion/Deletion，插入/缺失，在基因组重测序进行mapping时，进行容Gap的比对并检测可信的Short InDel，如基因组上小片段>50bp的插入或缺失。在检测过程中，Gap的长度为1~5个碱基。

CNV：copy number variation，基因组拷贝数变异，是基因组变异的一种形式，通常使基因组中大片段的DNA形成非正常的拷贝数量。如人类正常染色体拷贝数是2，有些

染色体区域拷贝数变成1或3，这样，该区域发生拷贝数缺失或增加，位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域，则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分别发生了C区域的扩增及缺失，扩增的位置可以是连续扩增如 A-B-C-C-D也可以是在其他位置的扩增，如A-C-B-C-D。

SV：structure variation，基因组结构变异，染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失（引起 CNV 的变化），染色体内部的某块区域发生重复复制、翻转颠换、易位、两条染色体之间发生重组（inter-chromosome trans-location）等。

基因表达差异：是指某一物种或特定细胞在特定时期/功能状态下，多样本间不同基因在mRNA水平上表达量的差异，可通过RPKM/FPKM值来体现。

RPKM：Reads Per Kilobase per Million mapped reads [Mortazavi etal., 2008]，是指每 1 百万个map 上的reads 中 map 到外显子的每1K 个碱基上的reads 个数。计算公式四RPKM=106C/NL/103，其中C为唯一比对到目的基因的reads数；N为唯一比对到参考基因的总reads数，L是目的基因编码区的碱基数。RPKM法可以消除基因长度、数据量之间的差异进行计算基因表达量。

可变剪切：alternative splicing大多数真核基因转录产生的mRNA前体是按一种方式剪接产生出一种mRNA，因而只产生一种蛋白质。但有些基因产生的mRNA前体可按不同的方式剪接，产生出两种或更多种mRNA，即可变剪接。

基因融合：Gene fusion，将基因组位置不同的两个或多个基因中的一部分或全部整合到一起，形成新的基因，称作融合基因或嵌合体基因，该基因有可能翻译出融合或嵌合

体蛋白。

基因家族分析：通过进行BLASTN/ HMM比对等查找基因归属的基因家族并添加相关功能注释。

基因组注释：Genome annotation是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。常见的基因组注释有GO注释、pathway分析。

GO注释：gene ontology是指对基因功能的注解。GO强调基因产物在细胞中的功能。GO不能反映此基因的表达情况，即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关，但GO支持其他的OBO(open biology ontologies)成员成立其他类型的本体论数据库（如发育本体学、蛋白组本体学、基因芯片本体学等）

Pathway注释：是指对功能基因参与的信号通路等进行分析注释。

甲基化率：是指在甲基化测序中，发生甲基化的胞嘧啶占所有胞嘧啶的比率。

CpG岛：CpG island 是指DNA上一个区域，此区域含有大量相联的胞嘧啶（C）、鸟嘌呤（G），以及使两者相连的磷酸酯键（p）。基因组中长度为300～3000 bp的富含CpG二核苷酸的一些区域，主要存在于基因的5’区域。启动子区中CpG岛的未甲基化状态是基因转录所必需的，而CpG序列中的C的甲基化可导致基因转录被抑制。

什么是高通量测序？

高通量测序技术（High-throughput sequencing，HTS）是对传统Sanger测序（称为一代测序技术）性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing，NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

什么是Sanger法测序（一代测序）

Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

什么是基因组重测序（Genome Re-sequencing）

全基因组重测序是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低，人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序，实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点，以及结构变异等，具有重大的科研和产业价值。

什么是de novo测序

de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展，基因组测序所需的成本和时间较传统技术都大大降低，大规模基因组测序渐入佳境，基因组学研究也迎来新的发展契机和性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力，可以高效、低成本地测定并分析所有生物的基因组序列。

什么是外显子测序（whole exon sequencing）

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

什么是mRNA测序（RNA-seq）

转录组学（transcriptomics）是在基因组学后新兴的一门学科，即研究特定细胞在某一功能状态下所能转录出来的所有RNA（包括mRNA和非编码RNA）的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计，可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息，并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。

什么是small RNA测序

Small RNA（micro RNAs、siRNAs和 pi RNAs）是生命活动重要的因子，在基因表达、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来，两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后，利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析，可以从中获得物种全基因组水平的miRNA图谱，实现包括新miRNA分子的挖掘，其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。

什么是miRNA测序

成熟的microRNA（miRNA）是17~24nt的单链非编码RNA分子，通过与mRNA相互作用影响目标mRNA的稳定性及翻译，最终诱导基因沉默，着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序，可以一次性获得数百万条microRNA序列，能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异，为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。

什么是Chip-seq

染色质免疫共沉淀技术（ChromatinImmunoprecipitation，ChIP）也称结合位点分析法，是研究体内蛋白质与DNA相互作用的有力工具，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术，能够高

效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

ChIP-Seq的原理是：首先通过染色质免疫共沉淀技术（ChIP）特异性地富集目的蛋白结合的DNA片段，并对其进行纯化与文库构建；然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上，从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

什么是CHIRP-Seq

CHIRP-Seq( Chromatin Isolation by RNA Purification )是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针，把目标RNA拉下来以后，与其共同作用的DNA染色体片段就会附在到磁珠上，最后把染色体片段做高通量测序，这样会得到该RNA能够结合到在基因组的哪些区域，但由于蛋白测序技术不够成熟，无法知道与该RNA结合的蛋白。

什么是RIP-seq

RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术，是了解转录后网络动态过程的有力工具，能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来，然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。

RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用，但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物，RIP实验的优化条件与ChIP实验不太相同（如复合物不需要固定，RIP反应体系中的试剂和抗体绝对不能含有RNA酶，抗体需经RIP实

验验证等等）。RIP技术下游结合microarray技术被称为RIP-Chip，帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

什么是CLIP-seq

CLIP-seq,又称为HITS-CLIP，即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitation and high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联，以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后，回收其中的RNA片段，经添加接头、RT-PCR等步骤，对这些分子进行高通量测序，再经生物信息学的分析和处理、总结，挖掘出其特定规律，从而深入揭示RNA结合蛋白与RNA分子的作用及其对生命的意义。

什么是metagenomic（宏基因组）

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说，它具有众多优势，其中很重要的两点：(1) 微生物通常是以群落方式共生于某一小生境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此做Metagenomics研究比做单个个体的研究更能发现其特性；(2) Metagenomics研究无需分离单个细菌，可以研究那些不能被实验室分离培养的微生物。

宏基因组是基因组学一个新兴的科学研究方向。宏基因组学（又称元基因组学，环境基因组学，生态基因组学等），是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养，元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中，DNA测序技术的进步以及测序通量和分析方法的改进使

得人们得以一窥这一未知的基因组科学领域。

什么是SNP、SNV（单核苷酸位点变异）

单核苷酸多态性singlenucleotide polymorphism，SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化，其中有些单核苷酸多态性可能与疾病有关，但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时，相对于正常组织，癌症中特异的单核苷酸变异是一种体细胞突变（somatic mutation），称做SNV。

什么是INDEL (基因组小片段插入）

基因组上小片段（>50bp）的插入或缺失，形同SNP/SNV。

什么是copy number variation （CNV）：基因组拷贝数变异

基因组拷贝数变异是基因组变异的一种形式，通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2，有些染色体区域拷贝数变成1或3，这样，该区域发生拷贝数缺失或增加，位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域，则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失，扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增，如A-C-B-C-D。

什么是structure variation （SV）：基因组结构变异

染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失（引起CNV的变化），染色体内部的某块区域发生翻转颠换，两条染色体之间发生重组（inter-chromosome trans-location）等。一般SV的展示利用Circos 软件。

什么是Segment duplication

一般称为SD区域，串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上，有很大的SD序列。

什么是genotype and phenotype

既基因型与表型；一般指某些单核苷酸位点变异与表现形式间的关系。

什么是Read

高通量测序平台产生的序列标签就称为reads。

什么是soft-clipped reads

当基因组发生某一段的缺失，或转录组的剪接，在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，这样的reads叫做soft-clipped reads，这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

什么是multi-hits reads

由于大部分测序得到的reads较短，一个reads能够匹配到基因组多个位置，无法区分其真实来源的位置。一些工具根据统计模型，如将这类reads分配给reads较多的区域。

什么是Contig

拼接软件基于reads之间的overlap区，拼接获得的序列称为Contig（重叠群）。

什么是Scaffold

基因组de novo测序，通过reads拼接获得Contigs后，往往还需要构建454 Paired-end库或Illumina Mate-pair库，以获得一定大小片段（如3Kb、6Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold。

什么是Contig N50

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3...………Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时，Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

什么是Scaffold N50

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2，Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加，当相加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为Scaffold N50。举例：Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时，Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

什么是测序深度和覆盖度

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

什么是RPKM、FPKM

RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:

每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。

假如有1百万个reads映射到了人的基因组上，那么具体到每个外显子呢，有多少映

射上了呢，而外显子的长度不一，那么每1K个碱基上又有多少reads映射上了呢，这大概就是这个RPKM的直观解释。

如果对应特定基因的话，那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read

Total exon reads:This is the number in the column with header Total exonreads in the row for the gene. This is the number of reads that have beenmapped to a region in which an exon is annotated for the gene or across theboundaries of two exons or an intron and an exon for an annotated transcript ofthe gene. For eukaryotes, exons and their internal relationships are defined byannotations of type mRNA.映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数，这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说，外显子和它们自己内部的关系由某类型的mRNA来注释。

Exonlength: This is the number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping exons will count with their full length, even though theyshare the same region.外显子的长度。计算时，计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现，这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域，重叠的外显子以其总长来计算。

Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places (below the limit set in thedialog in figure 18.110) that have been allocated tothis gene's region. A gene's region is that comprised of the flanking regions(if it was specified in figure 18.110), the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample (you can find the number in the RNA-Seq report).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。

举例：比如对应到该基因的read有1000个，总reads个数有100万，而该基因的外显子总长为5kb，那么它的RPKM为：10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200或者：1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。

FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments，而RPKM计算的是reads。Fragment比read的含义更广，因此FPKM包含的意义也更广，可以是pair-end的一个fragment，也可以是一个read。

什么是转录本重构

用测序的数据组装成转录本。有两种组装方式：1，de-novo构建； 2，有参考基因

组重构。其中de-novo组装是指在不依赖参考基因组的情况下，将有overlap的reads连接成一个更长的序列，经过不断的延伸，拼成一个个的contig及scaffold。常用工具包括velvet，trans-ABYSS，Trinity等。有参考基因组重构，是指先将read贴回到基因组上，然后在基因组通过reads覆盖度，junction位点的信息等得到转录本，常用工具包括scripture、cufflinks。

什么是genefusion

将基因组位置不同的两个基因中的一部分或全部整合到一起，形成新的基因，称作融合基因，或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。

什么是表达谱

基因表达谱(geneexpression profile)：指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱

什么是功能基因组学

功能基因组学（Functuionalgenomics）又往往被称为后基因组学（Postgenomics），它利用结构基因组所提供的信息和产物，发展和应用新的实验手段，通过在基因组或系统水平上全面分析基因的功能，使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的

功能包括：生物学功能，如作为蛋白质激酶对特异蛋白质进行磷酸化修饰；细胞学功能，如参与细胞间和细胞内信号传递途径；发育上功能，如参与形态建成等。采用的手段包括经典的减法杂交，差示筛选，cDNA代表差异分析以及mRNA差异显示等，但这些技术不能对基因进行全面系统的分析，新的技术应运而生，包括基因表达的系统分析（serial analysis of gene expression,SAGE），cDNA微阵列（cDNA microarray），DNA 芯片（DNA chip）和序列标志片段显示（sequence tagged fragmentsdisplay。

什么是比较基因组学

比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上，对已知的基因和基因组结构进行比较，来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性，克隆人类疾病基因，揭示基因功能和疾病分子机制，阐明物种进化关系，及基因组的内在结构。

什么是表观遗传学

表观遗传学是研究基因的核苷酸序列不发生改变的情况下，基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多，已知的有DNA甲基化（DNAmethylation），基因组印记（genomicimpriting），母体效应（maternaleffects），基因沉默（genesilencing），核仁显性，休眠转座子激活和RNA编辑（RNA editing）等。

什么是计算生物学

计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前，生物学数据量和复杂性不断增长，每14个月基因研究产生的数据就会翻一番，单

单依靠观察和实验已难以应付。因此，必须依靠大规模计算模拟技术，从海量信息中提取最有用的数据。

什么是基因组印记

基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程，此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数，可能不超过5%，但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。

什么是基因组学

基因组学（英文genomics），研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用，试图解决生物，医学，和工业领域的重大问题。

什么是DNA甲基化

DNA甲基化是指在DNA甲基化转移酶的作用下，在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下，人类基因组“垃圾”序列的CpG二核苷酸相对稀少，并且总是处于甲基化状态，与之相反，人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态，并且与56％的人类基因组编码基因相关。人类基因组序列草图分析结果表明，人类基因组CpG岛约为280个，大

部分染色体每1 Mb就有5—15个CpG岛，平均值为每Mb含10．5个CpG岛，CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系，特别是CpG岛甲基化所致抑癌基因转录失活问题，DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。

什么是基因组注释

基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文