您的当前位置：首页基因预测和蛋白质结构预测

基因预测和蛋白质结构预测

来源：华佗小知识

实习五基因预测和蛋白质结构预测

一、实习目的

掌握对给定核酸/蛋白质序列的基因和结果的预测方法

二、实习内容

1、基因预测

基因预测，一般是指预测DNA 序列中编码蛋白质的部分，即外显子部分。目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号（如TATA BOX等）的认识，预测出可能的完整基因。

 GENSCAN

GENSCAN是一个使用HMM模型的基因识别程序。GENSCAN有几个明显的特点：它能在基因组DNA序列中找出一个完整的外显子—内含子结构，具有在给定的DNA序列中识别多个基因的能力，还可以同时处理正、反两条链。 http://genes.mit.edu

 GENEMARK

http://exon.gatech.edu/genemark/

GENEMARK是一个免费的基因识别软件，它由多个软件组成，分别适用于细菌和原核生物（GeneMark-P）、真核生物（GeneMark-E）以及病毒和噬菌体（GeneMark-S）等。根据自己的序列所属的物种，选用合适的软件进行分析。

 其它基因预测相关网站

基因预测专业网站：

http://www.genefinding.org/software.html GRAIL-利用人工神经网络进行预测 http://grail.lsd.ornl.gov/grailexp/ geneid

http://genome.imim.es/software/geneid/ GLIMMER 利用HMM模型进行基因识别 http://www.cbcb.umd.edu/software/glimmer/ FGENESH

http://linux1.softberry.com/berry.phtml?topic=index&group=programs&subgroup=gfind

2、蛋白质结构预测

SWISS-PROT曾是最重要的蛋白质数据库之一，现在它已经与trEMBL合并，组成一个新的蛋白质数据库UniProt。在SWISS-PROT网站上有大量的蛋白质分析工具的链接，http://www.expasy.org/tools/，在这个页面上包括Protein identification and characterization，DNA -> Protein，Similarity searches，Pattern and profile searches，secondary structure prediction，Tertiary structure, Sequence alignment等14类蛋白质分析工具。

蛋白质的二级结构预测就是预测蛋白质序列的哪些部位会形成α-helix,哪些形成β-sheets，哪里形成coil或turn。也就是判断序列中的每个氨基酸处于H（α-helix），E（β-sheets），C（coil or turn）三态中的哪一态。  GOR：利用GOR方法进行预测

http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html  HNN：利用神经网络进行二级结构预测

http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_nn.html

三、作业：

1．搜索一段基因组DNA序列，分别用GENSCAN和GENEMARK进行基因预测，解释预

测结果，并分析两个软件结果是相同，如果不同，该如何判定哪个结果更可靠。

答：在NCBI数据库里查找到人类Human DNA sequence from clone RP11-14O9 on chromosome X，将其复制。（一）GENSCAN基因预测

1. 将复制得到的序列输入到http://genes.mit.edu/GENSCAN界面的文本框中，设置次外显子正确概率阈值（Suboptimal exon cutoff），这里的cutoff指的是这个次优外显子预测正确的概率，一般选择0.1以上就可以，如果不需要预测次优外显子，选择1即可。然后点击

，可得到预测结果如下图，下图1结果为不预测次优外显子，通过设置

Suboptimal exon cutoff为0.1，得到预测次优外显子的结果如图2。

图1 GENSCAN结果不预测次优外显子

图2 预测次优外显子

2. 结果解释

图1显示这段长度为158379 bp的序列中包含4个基因（图1上的为截取前2个基因）。4个基因中，有的由输入链编码，有的由输入链的互补链编码，第一个基因有4个外显子，位置分别是从142—14929bp、20777—201bp、38297—38382和40478—40561bp（由输入链编码）。第二个基因有3个外显子，位置是在51067—51252bp、560—746bp和67844—67983bp（这里的位置是与输入链相对应的，由于该基因由互补链编码，所以起始位置大于终止位置）。第一个基因的第一个和第二个外显子的预测正确的概率较高，分别为0.765和0.924，而第三个和最后一个外显子，正确的概率较低，只有0.436和0.288。第二个基因的三个外显子预测正确的概率为都比较低，分别只有0.376、0.024和0.021 （二）GENEMARK

1. 将所选序列粘贴到此网址界面中的文本框中http://exon.gatech.edu/genemark/，设置参数，如下图3

图3

图4

2. 结果分析

输出结果显示这条158379bp的序列中包含5个基因，如图4。从图中看第一个基因有6个外显子，编码序列是从第10776个碱基开始的，外显子的位置分别是：1077—10949bp、10976—11061bp、142—14929bp、20777—201bp、33028—33050bp和35981—36049bp。第二个基因中有4个外显子，从第51067个碱基到67983个碱基。第三、四、五个基因外显子编码区域如上图4所示，不再赘述。

（三）、综合分析

可以看出用GENEMARK预测得到的结果与GENSCAN有差异，如上图图所示，用GENSCAN预测出4个基因，但是用GENEMARK基因只预测出5个基因，而且基因的起始位点不一样， GENSCAN给出了预测的准确概率，但是GENEMARK却没有给出。GENEMARK预测出来了5个基因，都由输入链编码，没有单外显子，这个与GENSCAN相同。两者相比GENSCAN没有预测出第142个碱基之前的两个外显子，GENEMARK没有预测出第40000bp到50000bp之间的外显子，而GENSCAN遗漏了80000bp—100000bp之间的外显子。总体来说两种方法预测的基因外显子位置有差异。

人类的基因只有很小一部分时编码蛋白质的外显子，很大一部分是内含子，而且外显子所在区域较集中，构成阅读框，外显子的碱基数目都比较小。

到底哪个软件预测的结果正确，就需要根据多方面信息进行判断，可以再选择其它预测软件，与这两个软件的结果进行比较；也可以查文献，看看该基因的同源基因的结构；还可以将预测出来的基因或其产物（蛋白质）进行BLAST搜索，看是否存在同源序列。

2．搜索一条蛋白质序列，分别用GOR和HNN进行二级结构预测，解释预测结果，两个方

法结果有何异同。答：（一）、首先在NCBI数据库中搜索到人的SOD（superoxide dismutase，超氧化物歧化酶）的蛋白质序列，选择此蛋白质的FASTA格式输出。（二）、二级结构预测 1. GOR：将SOD蛋白序列输入到以下网址的文本框中，点击5

。http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html

即可得到结果，如图

图5

结果解释：SOD蛋白二级结构中无规则卷曲(Random coil) 结构占到.29%，35.71%是延伸带(extended strand)结构，不存在其他的结构。

不同颜色的曲线表示不同的二级结构，蓝线、红线和紫线分别表示α螺旋，β折叠和无规则卷曲。

2. HNN：利用神经网络进行二级结构预测

将SOD的蛋白质序列输入到以下网站的文本框中，点击 http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_nn.html

，得到如图6的结果

图6

结果解释：用HNN法得到的分析结果可以看出，SOD蛋白二级结构中有33.12%是延伸带(extended strand)结构、63.%是无规则卷曲(Random coil)结构，而 a螺旋(Alpha helix)结构占到3.25%。

不同颜色的曲线表示不同的二级结构，蓝线、红线和紫线分别表示α螺旋，β折叠和无规则卷曲

HNN和GOR两种方法各有优缺点，要判断哪一种方法得到的结果更好怎需要用不同的方法和软件进行对比分析。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文