生物信息学.docx

上传人:b****3 文档编号:10263773 上传时间:2023-05-24 格式:DOCX 页数:18 大小:134.32KB
下载 相关 举报
生物信息学.docx_第1页
第1页 / 共18页
生物信息学.docx_第2页
第2页 / 共18页
生物信息学.docx_第3页
第3页 / 共18页
生物信息学.docx_第4页
第4页 / 共18页
生物信息学.docx_第5页
第5页 / 共18页
生物信息学.docx_第6页
第6页 / 共18页
生物信息学.docx_第7页
第7页 / 共18页
生物信息学.docx_第8页
第8页 / 共18页
生物信息学.docx_第9页
第9页 / 共18页
生物信息学.docx_第10页
第10页 / 共18页
生物信息学.docx_第11页
第11页 / 共18页
生物信息学.docx_第12页
第12页 / 共18页
生物信息学.docx_第13页
第13页 / 共18页
生物信息学.docx_第14页
第14页 / 共18页
生物信息学.docx_第15页
第15页 / 共18页
生物信息学.docx_第16页
第16页 / 共18页
生物信息学.docx_第17页
第17页 / 共18页
生物信息学.docx_第18页
第18页 / 共18页
亲,该文档总共18页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

生物信息学.docx

《生物信息学.docx》由会员分享,可在线阅读,更多相关《生物信息学.docx(18页珍藏版)》请在冰点文库上搜索。

生物信息学.docx

生物信息学

中国科学技术大学

2007--2008学年第1学期考试试卷

考试科目:

生物信息学得分:

__________

学生所在系:

___________姓名:

__________学号:

___________

一、单项选择题(每题3分,共30分)

1、下面哪个数据库不属于核酸的三大数据库之一?

()

A.GenBankB、EBIC、UniProtD、DDBJ

2、下面哪种算法为双序列比对全局优化算法?

()

A、Smith-Waterman算法B、GibbsSampler

C、HiddenMarkovModel算法D、Needleman-Wunsch算法

3、下面哪种工具为多序列比对工具?

()

A、MegaBlastB、MEGA4、0C、GPSD、POA

4、双序列比对中,全局与局部的优化算法,其核心思想就是()

A.利用已知数据作为训练集,利用迭代的算法进行反复计算,使得结果收敛;

B.根据已知数据,构建PSSM矩阵,再计算Log-oddratio;

C.采用动态规划算法,计算最优路径,并以此得到比对结果;

D.采用邻接法构建进化树,在进化树的指导下进行双序列比对。

5、下面何种描述适合Baum-Welch算法?

()

A、双序列比对的局部优化算法;B、Motif发现的方法之一

C、对已知的训练数据,采用Viterbi算法计算最佳路径,并重新计算转移概率矩阵,反复计算直至结果收敛,得到优化的HMM模型;

D、对已知的训练数据,采用Smith-Waterman算法计算最佳路径,并重新计算转移概率矩阵,反复计算直至结果收敛,得到优化的HMM模型;

6、实验学家在大肠杆菌中发现某种基因A,具有重要的转录调控功能,通过ReciprocalBestHits的方法,实验学家用BLAST发现在人中基因B为基因A的高度相似基因。

那么,人中基因A与基因B的关系为()

A.旁系同源物B、趋同进化C、直系同源物D、异同源物

7、下面不属于多序列比对的算法有()

A、最大简约法B、渐进方法C、迭代方法D、部分有向图法

8、下面基于氨基酸的替代模型并进行距离修整的模型有()

A、Jukes-Cantor法B、Kimura两参数法

C、泊松校正D、Nei-Gojobori法

9、下面不属于构建进化树的方法有()

A、最大似然性法B、最大简约法

C.距离法D、点阵法

10、已知密码子CCT,CCC,CCA,CCG都编码Pro(脯氨酸),并且仅该四个密码子都编码Pro。

对于密码子CCC,其潜在的同义位点数目s与非同义位点数目n为

()

A.s=1/3,n=8/3B、s=1,n=2

C、s=1/4,n=11/4D、s=1,n=8/3

二、判断题(每题2分,共20分)

1.PAM250矩阵的构建,其基本假设为当序列变化发生期望上的250%的变化时,氨基酸之间替代的关系,因此,Dayhoff等人选择序列相似性极低的序列,以此构建了通用的PAM250矩阵()

2.我们通常使用UniProt数据库来查找基因的DNA序列,并得到序列的FASTA格式()

3.BLAST采用了一种称为“k-tup”的算法,搜索两条序列的对角线两边有限的空间,因此大大节省了计算时间()

4、MUSCLE就是目前被广泛应用的多序列比对工具,其优越性为采用部分有向图的算法,从而使得运算的时间复杂度大为降低()

5、Ka/Ks为表征编码区DNA序列就是否受到选择压力的主要手段,对于某对基因A与B,我们通过计算发现Ka/Ks=3、6,并且通过Fisher’sExactText检验后,为统计显著,因此我们可以推测A与B在分化之后受到达尔文的阳性进化选择的压力()

6、隐马尔科夫算法中的“隐”,指的就是状态之间的转移概率已知,而状态内的发散概率未知,因此,隐马科夫并不表示所有的概率未知。

()

7、蛋白质上的模体/motif,一般指长度为几个到几十个氨基酸,并且不具有独立的三级结构的氨基酸片段。

例如SUMO化位点的motif,一般可表示为:

ψ-K-X-E、

()

8、估算鸟枪法的覆盖率,使用超几何分布的方法能够相当简便的结算出结果。

()

9、DNA突变的模式有四种:

替代、插入、缺失与倒位。

而DNA替代又分为转换与颠换两种。

()

10、中性进化就是由Kimura最早提出,认为绝大多数的突变不好也不坏,并不决定物种的分化。

受达尔文进化所调控的基因约为~1%,这些基因数量虽然很少,却对物种的分化起到了决定性的作用。

()

三、综合题(每题10分,共50分)

1.表观遗传学的研究内容主要包括DNA的甲基化,组蛋白的乙酰化、甲基化及其它修饰,染色体重塑以及SiRNA与MiRNA调控四个方面。

其中DNA的甲基化发生在基因组的特定位置,通常就是-CG-序列中的C上,C被化学修饰,引入一个甲基,并很快突变为T。

编码区DNA上游启动子区域的DNA甲基化水平的高低,对基因表达量的高低有着重要的影响,一般低甲基化对应基因的高表达,高甲基化则对应基因的低表达。

实验学家通过实验鉴定了30条平均长度为1000bp的DNA序列,总共鉴定了60个甲基化位点。

生物信息学家基于这些实验数据,构建了预测工具,对于新的两条序列M与N,长度分别为2000bp与1500bp,并预测A与B上分别有3个与9个位点。

那么,对于预测出来的位点,若全部就是随机产生的概率为多少?

已知泊松分布的公式为:

 

A

R

D

Q

E

L

K

P

A

4

-1

-2

-1

-1

-1

-1

-1

R

-1

5

-2

1

0

-2

2

-2

D

-2

-2

6

0

2

-4

-1

-1

Q

-1

1

0

5

2

-2

1

-1

E

-1

0

2

2

5

-3

1

-1

L

-1

-2

-4

-2

-3

4

-2

-3

K

-1

2

-1

1

1

-2

5

-1

P

-1

-2

-1

-1

-1

-3

-1

7

2.对于两条蛋白质序列:

AQPPKKE与LEPKRD,请分别用

(1)Needleman-Wunsch算法;

(2)Smith-Waterman算法对两条序列作比对;对于Gap的罚分为8,线性罚分规则;用图示法表明比对过程,并写出比对结果、得分,对于Smith-Waterman算法,结果表示为单一的比对结果。

打分矩阵采用BLOSUM62矩阵,部分矩阵如下:

3、请用图示法并辅以必要的文字,描述Gibbs采样抽取序列motif的过程。

这里,假设有n条序列,长度k,待抽取的motif长度为m、

4.给定一组DNA序列如下:

CGACCTA

CGACGAT

CGTCGAA

TCTCGAG

(1)根据上述DNA序列,请写出一种PSSM矩阵;

(2)给定一条新的序列CGTCGAG,计算log-oddratio,该例中,四种碱基的背景值都为0、25;

(3)请计算模体中,第三位与第五位所包含的信息量。

5、直系同源物(Ortholog)与旁系同源物(Paralog)之间有什么区别?

请用图示法并辅以必要文字进行描述。

中国科学技术大学

2008--2009学年第1学期考试试卷

考试科目:

生物信息学得分:

__________

学生所在系:

___________姓名:

__________学号:

___________

一、单项选择题(每题3分,共30分)

1、下面哪种方法不就是基因共表达相关性的分析方法?

()

A.PearsoncorrelationcoefficientB、Kendall'stau

C、T-TestD、Euclideandistance

2、针对DNA序列的同义与非同义的核苷酸替代,若Ka/Ks=1、2,则可能发生了何种进化过程?

()

A、阳性进化B、达尔文进化

C、阴性进化D、中性进化

3、下面哪种工具不就是分子进化树构建工具?

()

A、T-CoffeeB、MEGA4、0C、PAMLD、PHYLIP

4、隐马尔科夫算法中的Baum-Welch算法,其核心思想就是()

E.采用邻接法构建进化树,在进化树的指导下进行双序列比对;

F.利用已知数据作为训练集,利用迭代的算法进行反复计算,使得结果收敛;

G.根据已知数据,构建PSSM矩阵,再计算Log-oddratio;

H.采用动态规划算法,计算最优路径,并以此得到比对结果。

5、不属于DNA突变的模式有?

()

A、倒位;B、颠换;

C、插入;D、替代。

6、利用点阵法不能够做到或发现()

A.反向回文序列B、自身比对C、重复序列D、序列模体识别

7、下面哪个数据库就是蛋白质数据库()

A、RefSeqB、EBIC、DDBJD、GenBank

8、近年,我校学者与复旦大学研究者合作,在芽殖酵母发现了泛素家族的一个分子化石Urm1,稍后有研究者利用BLAST发现了人类的Urm1,那么人类的泛素蛋白质与人类Urm1的关系就是()

A.直系同源物B、趋同进化C、旁系同源物D、异同源物

9、下面不属于双序列比对的方法有()

A、Smith-Waterman算法B、距离法

C、Needleman-Wunsch算法D、点阵法

10、已知密码子ATT,ATC,与ATA编码Ile(异亮氨酸),而ATG编码Met(甲硫氨酸)。

则对于密码子ATC,其潜在的同义位点数目s与非同义位点数目n为

()

A、s=2/3,n=7/3B、s=1,n=2

C、s=1/4,n=11/4D、s=1/3,n=8/3

二、填空题(每空2分,共20分)

1、使用多序列工具比对两条序列,发现71%的区域相同,若这两条序列为蛋白质序列,则这两条序列的泊松距离为();若两条序列为核酸序列,则Jukes-Cantor距离为()。

2、给定一组DNA序列如下(碱基的背景值为0、25):

CTACTAGC

CGACATGG

CTACATGG

CTTGAAGC

给定一条新的序列CGACAAGC,其log-oddratio(以2为底计算数值)为();该组DNA序列,其第二位的信息量为(),第八位的信息量为()。

3、实验学家从1000个4bp的DNA序列中鉴定了200个X-box序列,其中第一位T的出现概率为0、97,第二位A出现的概率为0、91,第三位C出现的概率为0、85,第四位A出现的概率为0、80,C出现的概率为0、14。

其她位点出现的概率各自相同。

则序列TACA可能就是X-box的概率为(),序列TACC可能就是X-box的概率为()。

4、蛋白质磷酸化位点的预测就是一个重要的生物信息学问题。

实验学家以405个磷酸化蛋白质为训练数据,包含800个实验验证的磷酸化位点与16000个非磷酸化位点,开发了P工具。

利用P工具做Self-consistency检验,总共预测出1470个阳性结果,则该工具的灵敏度Sn为(),特异性Sp为(),准确性ACC为()。

三、综合题(每题10分,共50分)

3.请用图示法并辅以必要的文字,描述基因表达数据聚类算法K-meansclustering算法的计算流程,假设有N个基因,拟分成M类。

4.基因的5’UTR区域通常包含调控该基因表达的顺式元件,这些元件主要有启动子或称转录因子结合位点、增强子、沉默子以及辅助元件等。

一般实验学家抽取基因的5’UTR区域1000~3000bp的序列,构建到报告基因的5’端,通过分子生物学的方法进行定点突变,从而发现功能性的顺式元件。

某实验室构建了80条平均长度为1500bp的基因5’UTR的DNA序列,总共鉴定了360个顺式元件。

针对两条新的DNA序列A与B,长度分别为1000bp与2000bp,若通过生物信息学的方法预测出A与B上分别有7个与2个位点。

对预测出的位点,若全部就是随机产生的概率为多少?

已知泊松分布的公式为:

5.对于两条蛋白质序列:

SQYYRKD与LEYKRK,请分别用

(1)Needleman-Wunsch算法;

(2)Smith-Waterman算法对两条序列作比对;对于Gap的罚分为8,线性罚分规则;用图示法表明比对过程,并写出比对结果、得分,对于Smith-Waterman算法,结果表示为单一的比对结果。

打分矩阵采用BLOSUM62矩阵,部分矩阵如下:

 

S

R

D

Q

E

L

K

Y

S

3

-1

-3

-1

-1

-1

-1

-1

R

-1

7

-2

1

0

-2

2

-2

D

-3

-2

6

0

2

-4

-1

-1

Q

-1

1

0

5

2

-2

1

-1

E

-1

0

2

2

6

-3

1

-1

L

-1

-2

-4

-2

-3

4

-2

-3

K

-1

2

-1

1

1

-2

5

-1

Y

-1

-2

-1

-1

-1

-3

-1

9

6.

某实验室拟研究正常细胞与癌症细胞的不同,将正常细胞与癌症细胞的样品分别点样到包含23,000个人类基因的芯片上,并发现在癌症细胞中表达显著上调的基因有1,132个。

进一步做功能分析,发现人类基因中总共有1,521个基因具有某种功能GO,而在表达量上调的基因中,有49个基因具有该功能。

问:

该功能GO在表达量显著升高的基因中就是显著出现,显著不出现,还就是随机出现?

要求:

写出相关的计算公式,并填入实际数据,不计算最终结果。

已知超几何分布的公式:

5、请列举至少两种多序列比对算法,并简要列出算法的计算过程。

一、参考答案

一、单项选择题(每题3分,共30分)

CDDCCCACDB

二、判断题(每题2分,共20分)

××√×√×√×√√

三、综合题(每题10分,共50分)

1.PA≈0、2,PB≈0、0027

2.

(1)Needleman-Wunsch算法

比对结果:

AQPPKKE

LEP-KRD

(2)Smith-Waterman算法

PKKE

PKRD

3.

(1)从每条序列上随即抽取一段序列模体,长度为m;

(2)构建PSSM矩阵;

(3)随机挑选一条序列;

(4)用构建好的PSSM对该序列上所有可能的模体进行打分;

(5)根据似然性的公式进行计算,得到似然性最大的模体,为新的模体;

(6)将新的模体替换原有的序列,更新PSSM矩阵;

(7)反复迭代计算,直至似然性结果与PSSM不再发生变化。

4、

(1)

 

1

2

3

4

5

6

7

A

0

0

0、5

0

0

0、75

0、5

T

0、25

0

0、5

0

0

0、25

0、25

C

0、75

0、25

0

1

0、25

0

0

G

0

0、75

0

0

0、75

0

0、25

(2)log-oddratio=log2(648)=9、34

(3)H3=1bit

H5=1、19bit

5.直系同源物:

两个基因通过物种形成的时间而产生;

旁系同源物:

两个基因在同一物种中,通过至少一次基因复制时间而产生。

二、参考答案

三、单项选择题(每题3分,共30分)

CDABBDACBA

四、填空题(每题2分,共20分)

1.0、34,0、37

2.7、45,1、19,1

3.0、97,0、87

4.87、50%,95、19%,94、82%

三、综合题(每题10分,共50分)

1、

(1)随机选取M个点,作为每一个类的中心点

(2)计算其她点与这M个中心点的距离,将每个点按照离哪个中心点近,归在哪个类中

(3)针对每一类中的每一个点,计算其与其她点的距离,加与,除以该类点的数目,找到新的中心点,即改点到该类中其她点的平均值最小,从而确定新的M个中心点

(4)重复步骤2,3,直到结果收敛

(5)最终结果:

N个基因表达数据被聚成M类

2、P(A)=0、0216,P(B)=0、0446

3.

(1)Needleman-Wunsch算法

比对结果:

SQYYRKD

LEYKRK-

得分:

13

(2)Smith-Waterman算法

QYYRK

EYKRK

得分:

22

4、

5、

(1)渐进算法:

a、将所有序列两两比对,计算距离矩阵

b、构建邻接进化树(neighbor-joiningtree)/指导树(guidetree)

c、将距离最近的两条序列用动态规划的算法进行比对

d、“渐进”的加上其她的序列

(2)T-coffee算法:

a、采用Clustal程序计算两两序列之间的全局最优比对结果

b、采用LALIGN程序计算两两序列之间的局部最优比对的结果

c、设计加权系统,综合考虑以上两类结果的因素,构建指导库

d、最后,采用渐进式比对算法,得到最终的结果

生物信息学课堂测验

1.蛋白质的磷酸化就是最重要的一种翻译后修饰,实验学家最近鉴定了某个激酶X的底物,总共20个底物蛋白质,序列平均长度500aa。

在这些蛋白质上,总共鉴定了50个位点。

基于这些实验数据,生物信息学家构建了相关的计算预测工具。

对于给定的两个蛋白质序列A与B,长度分别为500aa与800aa,计算工具预测这两个蛋白质上分别有10与4个潜在的位点。

考虑到计算工具本身具有一定的错误率,对于A与B,预测出来的位点,若全部就是随机产生的概率为多少?

(泊松分布)

2.

发现细胞有丝分裂过程中参与重要功能的基因,可以通过基因芯片的方法进行研究。

某实验室开展了一项工作,对细胞有丝分裂期不加nocodazole以及加nocodazole两种条件下,对人的21,000基因做表达谱分析。

其中发现表达量显著升高的基因为1,532个。

进一步做功能分析,发现总共1,236个基因具有某种功能F,而在表达量显著升高的基因中,有32个基因具有该功能F。

问:

该功能F在表达量显著升高的基因中就是显著出现,显著不出现,还就是随机出现?

要求:

写出相关的计算公式,并填入实际数据,不计算最终结果。

已知超几何分布的公式:

(超几何分布)

3.实验学家从1500个4bp的DNA序列中鉴定了300个某种X-box序列,其中第一位A的出现概率为0、91,第二位T出现的概率为0、85,第三位A出现的概率为0、97,第四位C出现的概率为0、51,G出现的概率为0、47。

其她位点出现的概率各自相同。

现有两条序列,ATAC与ATAA,两条序列可能就是X-box的概率为多少?

(贝叶斯公式)

4.对于两条蛋白质序列:

IDRRPAE与LDRPAW,请分别用

(1)Needleman-Wunsch算法;

(2)Smith-Waterman算法对两条序列作比对;对于Gap的罚分为8,线性罚分规则;用图示法表明比对过程,并写出比对结果、得分。

打分矩阵采用BLOSUM62矩阵,部分矩阵如下:

 

A

R

D

E

I

L

P

W

A

4

-1

-2

-1

-1

-1

-1

-3

R

-1

5

-2

0

-3

-2

-2

-3

D

-2

-2

6

2

-3

-4

-1

-4

E

-1

0

2

5

-3

-3

-1

-3

I

-1

-3

-3

-3

4

2

-3

-3

L

-1

-2

-4

-3

2

4

-3

-2

P

-1

-2

-1

-1

-3

-3

7

-4

W

-3

-3

-4

-3

-3

-2

-4

11

(全局比对与局部比对)

5.给定一组DNA序列如下:

ACTTCCCA

AGTTCCCA

ACTCGGCA

CCTTCGCA

(1)请根据上述DNA序列,写出两种PSSM;

(2)再给一条新的序列AGTCGCA,计算log-oddratio,该例中,碱基的背景值都为0、25;(3)请分别计算第一位与第六位所包含的信息量

6.请用图示法并辅以必要的文字,描述Gibbs采样抽取序列motif的过程。

这里,假设有n条序列,长度k,待抽取的motif长度为m、

7.请列举至少两种多序列比对算法,并简要列出算法的计算过程。

ClustalX

PRRP

8.请用图示法并辅以必要的文字,描述基因表达数据聚类算法K-meansclustering算法的计算流程,假设有N个基因,拟分成M类。

9.使用多序列工具比对两条序列,发现60%的区域相同,

(1)若这两条序列为蛋白质序列,请计算泊松距离;

(2)若两条序列为核酸序列,请计算Jukes-Cantor距离。

泊松距离:

-ln(0、6)=0、51

Jukes-Cantor距离:

d=-3/4ln(1-4/3p)=0、57

10.给定一组DNA序列如下:

CGACCTC

CACCCTA

CCACCTG

GTACAAC

(1)请根据上述DNA序列,写出两种PSSM;

(2)再给一条新的序列CCACCTC,计算log-oddratio,该例中,碱基的背景值都为0、25;(3)请计算第二位与第三位所包含的信息量。

11.假设基因组上有一种调控信号S,长度与位置不确定。

信号S与基因组序列G的碱基分布频率分别为:

C

G

A

T

S

0、4

0、4

0、1

0、1

G

0、1

0、1

0、4

0、4

S与G之间的转移概率矩阵如下:

S

G

S

0、6

0、4

G

0、6

0、4

请用Viterbi算法计算序列AATCCGTA,预测就是否存在该调控信号S,并标出相应的位置。

(马尔科夫模型)

12.如果题目三中,假设转移矩阵并不就是最终的优化结果,采用Baum-Welch算法,您如何进行优化?

这里,假设已经给您若干条实验数据作为训练样本。

13.直系同源物(Ortholog)与旁系同源物(Paralog)之间有什么区别?

请用图示法并辅以必要文字进行描述。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2