生物信息学复习题及答案陶士珩 本文关键词:复习题,信息学,答案,生物,陶士珩
生物信息学复习题及答案陶士珩 本文简介:生物信息学复习题一、名词解释生物信息学,二级数据库,FASTA序列格式,genbank序列格式,Entrez,BLAST,查询序列(query),打分矩阵(scoringmatrix),空位(gap),空位罚分,E值,低复杂度区域,点矩阵(dotmatrix),多序列比对,分子钟,系统发育(phyl
生物信息学复习题及答案陶士珩 本文内容:
生物信息学复习题
一、
名词解释
生物信息学,二级数据库,FASTA序列格式,genbank序列格式,Entrez,BLAST,查询序列(query),打分矩阵(scoring
matrix),空位(gap),空位罚分,E值,低复杂度区域,点矩阵(dot
matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus
tree),bootstrap,开放阅读框(ORF),密码子偏性(codon
bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene
Ontology
Consortium,表谱(profile)
。
二、
问答题
1)生物信息学与计算生物学有什么区别与联系?
2)试述生物信息学研究的基本方法。
3)试述生物学与生物信息学的相互关系。
4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI维护的数据库。
5)序列的相似性与同源性有什么区别与联系?
6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?
7)简述BLAST搜索的算法。
8)什么是物种的标记序列?
9)什么是多序列比对过程的三个步骤?
10)简述构建进化树的步骤。
11)简述除权配对法(UPGMA)的算法思想。
12)简述邻接法(NJ)的算法思想。
13)简述最大简约法(MP)的算法思想。
14)简述最大似然法(ML)的算法思想。
15)UPGMA构树法不精确的原因是什么?
16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。
17)试述DNA序列分析的流程及代表性分析工具。
18)如何用BLAST发现新基因?
19)试述SCOP蛋白质分类方案。
20)试述SWISS-PROT中的数据来源。
1)
21)TrEMBL哪两个部分?
22)试述PSI-BLAST
搜索的5个步骤。
2)
三、
操作与计算题
1)
如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息:
LOCUS
SCU49845
5028
bp
DNA
linear
PLN
21-JUN-1999
2)
利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什么结果:
AF114696:AF114714[ACCN]。
3)
相比使用BLAST套件搜索数据库,BLAST2工具在结果呈现上有什么优点?
4)
MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件?
5)
什么简约信息位点Pi?
6)
以下软件的主要用途是什么?
RepeatMasker,CpGPlot,Splice
View,Genscan,ORF
finder,neural
network
promoter
prediction.
7)
为下面的序列比对确定比对得分:匹配得分=
+1,失配得分=
0,空位得分=
-1。
TGTACGGCTATA
TC
-
-CGCCT
–TA
8)
用UPGMA重建系统发生树,距离矩阵如下:
物种
A
B
C
D
B
9
C
8
11
D
12
15
10
E
15
18
13
5
9)画出4个物种的3棵不同的无根树.这4个物种在某位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸,3棵可能的无根树中有几棵是一样简约的(因为他们有最小替换数)?有几棵树的替换树是2?有大于2个替换的树吗?
10)如何将所研究的蛋白质与其他相关蛋白质做结构比对。
答案部分
一、名词解释:
生物信息学:
研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型;
利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。P11,第2段。
FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
genbank序列格式:是GenBank
数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。P13,第2段。
Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。P83-85。
BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94
查询序列(query
sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98,第1段。
打分矩阵(scoring
matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29,第2段。
空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29,第2段。
空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37,倒数第2段。
E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95
低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。P100,第一段。
点矩阵(dot
matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。P39-41。
多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。P48,需要概括。
分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。P112-113
系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。P112,第一段。
进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。P113,最后一段。
系统发育图:P114
直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。P28,P146
旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上的可能发生了改变。P28,P147
外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。P120
有根树:能够确定所有分析物种的共同祖先的进化树。P113
除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。P119
邻接法(neighbor-joining
method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。P118。
最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。P120
最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。P122
一致树(consensus
tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。P121
自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。P122
开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。P131
密码子偏好性(codon
bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。P133
基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。P134-145
简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。P121,第2行
结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。P158
模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。P161,最后一行
PAM矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。P30-31
BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。P34
折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。P162
TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。P21
PDB(Protein
Data
Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。P22
MMDB(Molecular
Modeling
Database):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等
,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。?
SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super
family)、家族(family)、单个PDB蛋白结构记录。P23
PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。
PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。
P22
RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。
?
PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring
matrix)探测远缘相关的蛋白。P97
Gene
Ontology
协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。
从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。
表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。
P97
比较基因组学:P148
二、问答题
1.绪论
1)
生物信息学的发展经历了那几个阶段
2)
生物信息学步入后基因组时代后,其发展方向有哪几个方面。
1)请列举3个以上Entrez系统可以检索的数据库。
答:P83
2)序列的相似性与同源性有什么区别与联系?
答:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。P147
3)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?
答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。P97
4)简述BLAST搜索的算法思想。
答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的
序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持了比对的精度。P95
5)什么是物种的标记序列?
答:指物种特有的一段核苷酸序列。可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。
6)什么是多序列全局比对的累进算法?
答:第一,所有的序列之间逐一比对(双重比对);第二,生成一个系统树图,将序列按相似性大致分组;第三,使用系统树图作为引导,产生出最终的多序列比对结果。P52
7)简述构建进化树的步骤,每一步列举1-2种使用的软件或统计学方法。
答:(1)多序列比对:Clustal
W
(2)校对比对结果:BIOEDIT
(3)建树:MEGA
(4)评估系统发育信号和进化树的牢固度:自举法(Bootstrap)P114
8)简述除权配对法(UPGMA)的算法思想。
答:通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。P119
9)简述邻接法(NJ)构树的算法思想。
答:邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。P117
10)简述最大简约法(MP)的算法思想。P68
答:是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。P120
11)简述最大似然法(ML)的算法思想。P69
答:是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。P122
12)UPGMA构树法不精确的原因是什么?P69
答:由个于UPGMA假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟;这种算法当所构建的进化树的序列进化速率明显不一致时,得到的进化树相对来说不准确的。P119,倒数第2段,前4行。
13)
在MEGA2软件中,提供了哪些碱基替换距离模型,试列举其中3种,解释其含义。
答:碱基替换模型包括,No.of
differences
、p-distance、Jukes-Cantor
distance、T
ajima-Nei
distance、Kimur
2-parameter
distance、Tamura
3-parameter
distance、Tamura-Nei
distance
p-distance:
表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸位点数除已经比对的总位点数就可以得到
Jukes-Cantor:模型假设
A
T
C
G
的替换速率是一致的,然后给出两个序列核苷酸替换数的最大似然估计
Kimura
2-parameter:模型考虑到了转换很颠换队多重击中的影响,但假设整个序列中4钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的
14)列举5项DNA序列分析的内容及代表性分析工具。
答:
(1)寻找重复元件:RepeatMasker
(2)同源性检索确定是否存在已知基因:BLASTn
(3)从头开始方法预测基因:Genscan
(4)分析各种调控序列:TRES/DRAGON
PROMOTOR
FINDER
(5)
CpG岛:CpGPlot
P130,表格
15)如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息:
LOCUS
SCU49845
5028
bp
DNA
linear
PLN
21-JUN-1999
答:(1)访问NCBI的Entrez检索系统,(2)选择核酸数据库,(3)输入U49845序列访问号开始检索。
第一项是LOCUS名称,前三个字母代表物种名
第二项是序列长度
第三项是序列分子类型
第四项是分子为线性的
第五项是GenBank分类码
第六项是最后修订日期
P13
16)利用Entrez检索系统对核酸数据搜索,输入如下信息,将获得什么结果:
AF114696:AF114714[ACCN]。P35
答:获得序列访问号AF114696到AF114714之间的连续编号的序列。
17)MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件?
答:(1)选择菜单file,(2)选择Text
File
Editor
and
Format
Coverter
工具,(3)调入需要转换的序列和相应的格式,(4)获得转换后的MEGA格式的文件并保存。
18)为下面的序列比对确定比对得分:匹配得分=
+1,失配得分=
0,空位得分=
-1。
TGTACGGCTATA
TC
-
-CGCCT
-TA
答:
TT
1
GC
0
T-
-1
A-
-1
CC
1
GG
1
GC
0
CC
1
TT
1
A-
-1
TT
1
AA
1
最后得分1+0+(-1)+(-1)+1+1+0+1+1+(-1)+1+1=4
19)
用UPGMA重建系统发生树,距离矩阵如下:
物种
A
B
C
D
B
9
C
8
11
D
12
15
10
E
15
18
13
5
答:用Newick格式表示的树图:(((AC)B)(DE))。
分析过程:
(1)两条序列间的最小距离是dDE,所以物种D和E聚到一组,如下图。
E
D
DE
(2)
计算新的距离矩阵,其中复合物种(DE)替换D和E,如下表。其他物种与新物种组之间的距离由它们与组中两个物种(D和E)之间距离的平均值决定,如,
d(DE)A=1/2(dAD+dAE)=1/2(12+15)=13.5
物种
A
B
C
B
9
C
8
11
DE
13.5
16.5
11.5
第二次聚类在A和C之间,组成AC类。如下图,
C
A
E
D
(AC)(DE)
(3)
将A和C合并,计算新的矩阵,如下表,最后一次聚类((AC)B)将物种B的分支点放在(AC)和(DE)的共同祖先之间。
物种
B
AC
AC
10
DE
16.5
12.5
B
C
A
E
D
((AC)B)(DE)
20)
画出4个物种的3棵不同的无根树.这4个物种在某位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列,标出最可能的候选核苷酸.
3棵可能的无根树中有几棵是一样简约的(因为他们有最小替换数)?有几棵树的替换树是2?,有大于2个替换的树吗?
答:
2棵一样简约,替换树为2;2棵;没有。
21)
以下软件的主要用途是什么?
RepeatMasker,CpGPlot,Splice
View,Genscan,ORF
finder,neural
network
promoter
prediction.
答:
RepeatMasker:是对重复序列进行分析的软件
GpGPlot:用来查找一条DNA序列中CpG岛,使用Gardine-Garden和Frommer描述的方法
Splice
View:是对一段序列进行剪接位点的分析即其中的受体和供体位点
Genscan:是一种从头分析工具
ORF
finder:是用来分析序列ORF的工具
neural
networkpromoter
prediction:神经网络启动子预测是另外一种分析启动子的方法
22)试述SWISS-PROT中的数据来源。
答:
(1)从核酸数据库经过翻译推导而来;
(2)从蛋白质数据库PIR挑选出合适的数据;
(3)从科学文献中摘录;
(4)研究人员直接提交的蛋白质序列数据。
23)TrEMBL哪两个部分?
答:
(1)SP-TrEMBL(SWISS-PROT
TrEMBL)
包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。
(2)REM-TrEMBL(REMaining
TrEMBL)
包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。
24)试述PSI-BLAST
搜索的5个步骤。
答:
[1]
选择待查序列(query)和蛋白质数据库;
[2]
PSI-BLAST
构建一个多序列比对,然后创建一个序列表谱(profile)又称特定位置打分矩阵(PSSM);
[3]
PSSM被用作
query搜索数据库
[4]
PSI-BLAST
估计统计学意义
(E
values)
[5]
重复
[3]
和
[4],直到没有新的序列发现。
25)试述蛋白质三维结构预测的三类方法
(1)同源建模,(1)
同源建模方法:对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型,序列相似性低于30%的蛋白质难以得到理想的结构模型;
(2)在已知结模板的序列一致率小于25%时,使用折叠识别方法进行预测;
(3)在找不到已知结构的蛋白质模板时使用从头预测的方法。
P178-181
26)列举5种常用的系统发育分析软件
P115