吴乃虎 黄美娟
(中国科学院遗传发育所)(北京大学生命科学学院)
(2011年3月修订)
一.若干概念
1. 5'—末端和3'—末端
5'—末端:系指具有一个自由的或加帽的 5'—磷酸基团( 5'-P)之核苷酸链的末端。 3'—末端:系指具有一个自由的或是磷酸化的3'—羟基(3'-OH)之核苷酸链的末端。
2. 上游与下游
这是用来描述多核苷酸链或蛋白质多肽链分子中相反取向或相对位置关系的一对术语。上游(upstream)和下游(downstream)在不同的场合代表不同的含义: (1) 基因的DNA或mRNA分子:
上游:位于5'-末端的序列叫上游序列。 下游:位于3'-末端的序列叫下游序列。
(2) 在基因的转录反应中:
上游:位于转录起点5'-方向的DNA序列叫上游。 下游:位于转录起点3'-方向的DNA序列叫下游。 (3 )蛋白质多肽链:
上游:处于N-端的氨基酸序列为上游。 下游:处于C-端的氨基酸序列为下游。
(4) 在基因工程研究中:
上游:基因的克隆、分离、转化、表达和调节等研究工作统称上游。
下游:转基因之后的细菌培养与发酵以及转基因动植物的培育、表达产物的分离纯化
及鉴定等研究工作统称下游。
3.上游序列与下游序列
在基因的DNA序列中,头一个被转录的核苷酸碱基叫做转录起点,通常是A或G,其坐标定为+1。.
1
(1)上游序列
位于转录起点5'一侧的DNA叫做上游序列。其核苷酸碱基的坐标定为负。例如-1
-5,-10.......。 (2) 下游序列
位于转录起点3'-侧的DNA叫做下游序列。其核苷酸碱基的坐标定为正。例如+3,+5,
+10.......。
4. 5'-侧翼序列区和3'-侧翼序列区
(1) 5'-侧翼序列区(5'-flanking sequence region)
位于mRNA转录起点之前的一段长度有限的DNA序列区,叫做5'-侧翼序列区,或者泛
称为启动子区。在该区存在着数种控制基因转录的信号: a. 确定mRNA起点的信号 b. 决定最大转录起始速率的信号 c. 对环境刺激作出反应的信号 d. 对发育程序作出反应的信号 e. 增强子序列区
(2) 3'-侧翼序列区(3'-flanking sequence region)
位于mRNA转录终点之后的一段长度有限的DNA序列区,叫做3'-侧翼序列区,也叫
做3'-下游序列区。在该区存在着数种控制基因转录的信号:
a. 终止转录作用的信号 b. mRNA3'-末端的加工信号
c. 大多数真核基因的3'-末端还有一段poly(A)加尾信号,即多聚腺苷酸化信号 (3) 旁侧DNA(flanking DNA)
这个术语与上述所说的侧翼序列区的概念不同。指的是与目的基因之核苷酸序列两端紧密相邻的,但是位于基因核苷酸序列外侧的DNA序列或基因。
5. 前导序列区和尾随序列区
(1) 前导序列区(leader sequence region)
指位于mRNA 5'-末端,起始密码子之前的一段长达数百个核苷酸的不转译的RNA区段, 叫做前导序列区,也叫前导序列或5'-非转译区,简称5'-UTR。它含有如下
2
两种元件:a. 核糖体结合位点(Ribosome-binding site ,RBS) b. 转译起始信号
(2)尾随序列区(trailer sequence region)
指位于mRNA 3'-末端,终止密码子之后的一段非转译的核苷酸序列,叫做尾随序列
区,也叫做尾随序列或3'-非转译区,简称3'-UTR,其长度约为100个核苷酸左右,它含有一个转录终止信号。
6. 核苷酸序列的同源性和相似性
(1) 同源性(homology)
定义:一指蛋白质的同源性—即两种或数种蛋白质多肽链之间氨基酸序列的相似性。 二指核酸的同源性—即两种或数种核酸分子之间核苷酸序列的相似性。
要点:无论何种情况,序列的同源性均是起因于它们的编码基因之间有着共同的祖先。
显而易见,就基因的进化而言,它们之间只有\"有关\"或\"无关\"两种情况,介于二者之间的情况是不存在的。因此,说不同序列或不同基因之间具有\"百分之几的同源性\",抑或是说具有\"很高的同源性\"或\"很低的同源性\",都是不科学的,没有意义的。
什么叫同源基因 (homologous gene) 呢?
它是指来自不同的物种,但编码着同样的蛋白质产物,具有共同的进化祖先的基因。同源基因的核苷酸序列往往具有很高的相似性,因此可以作为DNA杂交的探针使用。 (2) 相似性(similarity)
这是用来描述不同的核酸分子之间或不同的蛋白质多肽链之间,核苷酸序列或氨基
酸序列一致性程度的一种术语。
不同序列之间的相似性或说是相关性的程度,是用序列的一致性(identity)或保
守性(conservation)来衡量的。
很显然,不同序列之间的相似性程度是不一样的,有高有低,可以用“百分比”或
“高度相似性”、“低水平相似性”等带有度量性含意的语言来表述。
需要指出的是,核苷酸序列具有高度的相似性的基因或者蛋白质,往往是同源的。 (3)一致性(identity)
定义:“identity”有时也译作“同一性”,系指被比对的两种甚至数种的核苷酸序列
或氨基酸序列之间,在相同的位置具有同样的核苷酸单元或同样的氨基酸单元的水
3
平。
序列一致性的程度,通常用被比对的两种核苷酸序列或氨基酸序列,在同一位置具有同样的核苷酸或同样的氨基酸数目占总数的百分比来表示。 (4)保守性(conservation)
在分子生物学和基因工程学中所用的保守性(conservation)或保守的(conserved)
这个词,在不同的情况下有不同的含义,基本上可分为如下三个不同的层次: a. 保守基因(conserved gene)
是一类在不同的物种中均存在的基因。例如,在人类基因组中已发现的基因中,约有25%在植物基因组中也存在。再如人、猪等的胰岛素基因,亦是属于保守基因。 b. 保守序列(conserved sequence)
也译作一致序列或共有序列。是指在大量相关的,但并非完全相同的核苷酸序列中,
共同存在的一段核苷酸类型与数目都极少变化的特定的序列区段。
在保守序列中,每一个位置的核苷酸都是一系列可比较的相关序列,在相同的位
置上最经常用的代表性的核苷酸。
例如,大肠杆菌基因启动子中的-35元件(5'-TTGACA-3')和-10元件
(5'-TATAAT-3'),便是两种典型的保守序列。在众多的大肠杆菌基因启动子中,这两个元件的核苷酸 类型和长度均极少变化。 c. 保守区(conserved region)或结构域(domain)
指在不同的蛋白质多肽链分子中,共同存在的一段氨基酸类型及数目均极少变化的特定的区域或区段。
例如,转录因子的DNA结合域之一的亮氨酸结构域便属于一种有代表性的蛋白质保守区。
二 基因的主要组成部分
真核基因和原核基因
真核基因:真核细胞核基因组DNA编码的基因,以及感染真核细胞的DNA病毒和反转录
病毒基因组编码基因,统称真核基因。
原核基因:由原核生物染色体基因组DNA以及高等生物线粒体基因组DNA和叶绿体基因
组DNA编码的基因,都属于原核基因。
基因的共有组成部分:
4
无论真核基因还是原核基因,其结构都有如下4个部分: a. 编码区(coding region) b. 非编码区(noncoding region) c. 启动区 (promoter region ) d. 终止区 (terminator region)
1. 编码区
(1)编码区的含义:在原核蛋白质编码基因的mRNA分子中,以及在真核蛋白质编码
基因的成熟mRNA分子中,从起始密码子(通常是AUG)开始至终止密码子(UAA,UAG,UGA)为止的一段编码氨基酸的核苷酸序列,叫做编码区,或称编码序列区。
(2)不连续的编码序列区:真核基因结构的主要特征是,许多真核蛋白质编码基因以
及某些tRNA基因,它们的转录序列区都是被一种叫做间隔子(intron)的非编码序列所间断,形成不连续的编码序列区。 (3)编码区段与读码框:
编码区与开放读码框(open reading fram)在概念上是有差别的。开放读码框(ORF)
也有的叫可读框,是指由一系列氨基酸密码子组成的不具有终止密码子的 DNA序列区,或者说是可以转译成蛋白质多肽链的一段DNA序列区。
它与编码区的差别在于它不包括终止密码子,而编码区则包括终止密码子。
2. 非编码区
(1)非编码区的定义:基因中转录而不转译的核苷酸序列区。尽管这些非编码序列区
不转译成蛋白质多肽链产物,但对基因的表达与却是必不可少的。
(2)非编码区的类型
a. 5'-末端非转译区(5'-UTR) b. 3'-末端非转译区(3'-UTR)
c. 间隔子序列区(真核蛋白质编码基因中存在)
3. 启动区(启动子)
(1)启动区的定义:相应于原核的启动区(promoter)在真核基因中则往往译作启动
子,特指位于基因5'-末端上游紧邻转录起点外侧,一段具有特殊功能的非编码的核苷酸序列区。在有关的文献中,启动区的定义似乎不那么严格,有时人们也把5'-侧翼序列区泛称为启动区。从广义的角度讲,控制基因转录的各种信号的任何组
5
合都可以称之为启动区。例如有人也把增强子(enhancer)归为真核基因启动子的一个组成元件(element). (2) 启动区的结构
原核基因启动区的结构:
a. -10元件,亦叫-10box或Pribnow box,也可称之为TATAAT box; b. -35元件,也叫做-35box,或TTGACAbox。 真核基因启动子的结构:
a. -25元件,亦叫TATA盒;
b. 上游激活元件:GCbox和CAAT box。
图1.原核基因启动区主要元件
图2.真核基因启动子主要元件
(3) 启动区的类型:根据识别启动子的RNA聚合酶的类别,可将真核启动子分成三种不同的类型:
a. I型启动子 b. Ⅱ型启动子 c. Ⅲ型启动子
4.终止区
(1)终止区的定义:(terminator region)也叫做终止序列,一般特指位于原核生物操
纵子3'-末端,也是转录单位3'-末端转录终止位点之后的一段DNA序列,其功能是为RNA聚合酶提供转录终止信号。
终止子(terminator),也叫做转录终止子或终止序列,是指位于真核基因3'-末端
下游外侧与转录终止位点相连的一段非编码的核苷酸序列区。它具有使RNA转录反应终止的转录终止信号的功能。 (2)终止区的意义:
6
a. 保证基因的转录反应在正确的位置终止; b. 产生正确长度的mRNA分子; c. 产生正确的蛋白质多肽链; d. 避免产生通读现象。
三 原核基因的结构 1.原核基因组的结构
(1)大肠杆菌基因组的组成:
*1. 组成:染色体基因组;
质粒基因组; 噬菌体基因组。
*2. 大肠杆菌染色体基因组,实质上是指大肠杆菌拟核DNA的染色体基因组DN
A。由于质粒基因组和噬菌体基因组都比较小,一般只有几个kb,所以有时文献中只将大肠杆菌染色体基因组看作是E.coli的基因组。而不涉及质粒和噬菌体的基因组。 *3. 大肠杆菌基因组大小
小的只有4.6Mb左右 最大可达5.5Mb左右 实验菌株则介于二者之间
(2) 大肠杆菌基因组的结构特点: *1.高效的遗传信息利用率
a. 既没有不必要的额外重复序列,也极少存在无功能的冗余序列; b. 基因组98%以上的核苷酸序列都是编码基因
c. 基因排列紧凑,同一个操纵子不同基因之间的间隔距离一般不超过 20bp,而且其中还存在着转录起始信号和终止信号; d. 存在着编码序列彼此重叠、编码不同蛋白质的重叠基因
*2. 双链DNA的编码功能
关于正义链和反义链的划分,文献中有两种不同的意见: 早期文献:
a. 转录RNA转录本的模板链,叫做正义链,也叫做有义链或编码链,简称
7
(+)链。
b. 与正义链互补的DNA链,叫做反义链,也叫无义链或非编码链,简称(-)链。 现在的文献:
a. 双链DNA分子中转录RNA转录本的模板链,叫做反义链或非编码链,简称(-)链。
b. 双链DNA分子中模板链的互补链,叫做编码链,又叫正义链,简称(+)链。除了以U取代T之外,它与RNA转录本具有同样的核苷酸序列结构。
E.coli基因的编码序列,并非都是位于基因组DNA中某一条固定的单链
上。也就是说基因组DNA的两条链,并没有规定哪一条是正义链,哪一条是反义链。而是在双链DNA(基因组)的任何一条单链中,都同时存在着正义链和反义链。对基因组是如此,但对单个基因则不然。
*3. 多基因聚集排列的操纵子结构形式
大肠杆菌基因组结构的另一个特点是,若干功能相关的基因往往聚集在一起形成的操纵子结构。 操纵子的一般结构:
a. 一个或数个调节基因
b. 若干个结构基因,小的操纵子只有三个基因。大的操纵子有11个结构基因。
c. 上游控制单元,包括操纵单元和启动区
*4. 染色体基因组的拷贝数
大肠杆菌染色体基因组的拷贝数,也就是说究竟一个细胞同时能拥有几条染色体。这是依细菌的生长条件而定:
a. 在营养富裕的培养基中,每个细胞可同时拥有3~4条染色体分子。 b. 在碳源供应不足的培养基中,平均每个细胞只拥有1.1条染色体
2. 原核基因的结构 (1) 原核基因的组成
*1. 原核基因DNA序列的结构:
a. 启动区序列;
8
b. 转录序列区:(5’-UTR;cDNA序列区-编码区;3’-UTR); c. :终止序列区
*2. 原核基因mRNA的结构;
图 3.一种典型的原核蛋白质编码基因的结构示意图
基因的编码区是连续不断的序列,包括一个起始密码子ATG和一个终止 密码子TAA。编码区的两侧是转录而不转译的侧翼序列区,其中5'非转译区 简称5’UTR,含有一个核糖体结合位点及一个转译起始信号;3’非转译区简称
3’UTR含有一个转译终止信号。
(a) 启动区 位于转录起点上游长度约20~200bp的一段非编码的控制基因
表达的调节序列,系RNA聚合酶的结合部位。 大肠杆菌启动区具有两个主要的特征性的结构元件:
第一个元件叫普里比诺盒(Pribnow box),又叫-10元件,它的保守序列为T-A-T-A-T-G,其功能为RNA聚合酶定向按5’→3'方向转录。 第二个元件叫做-35元件,亦叫RNA聚合酶识别序列。它的保守序列为T-T-G-A-C-A.
(b)转录序列区 也叫做转录单位或转录区(transcriptional region ),是一段包
括转录起点和转录终点及位于两者之间的DNA区段。
蛋白质基因的转录区可以被RNA聚合酶转录成一条连续的mRNA分子,它不必经
9
过加工便可以指导蛋白质的合成。这种mRNA分子包括: ① 5’-UTR;
② 编码区,包括起始密码子和终止密码子; ③ 3’-UTR。 5’-UTR(5’-非转译区)
① 定义 也叫前导序列区,系指位于基因5’-上游的一段转录而不转译的核苷酸序列区。也就是位于mRNA5'-末端起始密码子之前的一段不转译的核苷酸序列。它含有:
一个核糖体结合位点; 一个转译起始信号。
② SD序列 因核糖体结合位点是1974年由J.Shine和L.Dalgarno发现的,故称为SD序列(AGGAGGU)。它位于转译起始密码子上游3~12个碱基处,可同大肠杆菌16S rRNA 3'-末端碱基配对,故可以促使mRNA分子同核糖体之间的结合作用。所以说SD序列是E.coli mRNA分子同核糖体的结合位点。 ③ 转译起始元件,也叫做转译起始信号或转译起始序列,简称TIS,或者也叫做转译起始区(TIR)。它是位于5’-UTR中的除了SD序列之外的另一个控制转译起始效率的元件。
核糖体结合位点的最小范围包括SD序列和起始密码子以及位于两者之间的短序列。而在通常情况下,TIR的范围要超过核糖体的结合位点。 编码区
① 定义:包括起始密码子和终止密码子在内的位于两者之间的一段连续 的mRNA序列。
② 起始密码子:通常是AUG,使用频率超过90%。只有少数情况下才是GUG或者UUG.
在原核生物中AUG编码甲酰甲硫氨酸(fMet)。在真核生物中AUG编码甲硫氨酸(Met)。
③ 终止密码子:不编码任何氨基酸,因此也叫做无义密码子。但它是编码区的组成部分。已知有三种终止密码子UAA,UAG和UGA。其中E.coli偏爱使用的是UAA. 3’-UTR(3’-非转译区)
10
定义:亦称尾随序列区,系指位于基因3’- 下游的一段转录而不转译的核苷酸序列。亦即是位于mRNA 3’-末端终止密码子之后的一段不转译的核苷酸序列。
3’-UTR序列的结构保守,含有一个转译终止信号。
(c)终止区
终止区的定义:原核蛋白质基因终止区也叫做终止序列,相当于真核基因的终止子。这是一段专指位于操纵子(或说是转录单位)3’-末端转录终止位点之后的一段核苷酸序列。
终止区的功能:是为RNA聚合酶提供转录终止信号,促使其停止对操纵子编码基因的转录作用,并从其结合的DNA分子上解离下来。 终止区的结构特点
①中间有一段非重复区的反向重复序列,可转录成茎-环结构。 ②临近环端的茎区段的核苷酸富含G+C碱基对
③富含A+T碱基对,由此转录形成的RNA的3’-末端具有一段polyU。
四. 真核生物基因的结构 1. 真核基因组
(1) 真核基因组的组成
*1. 定义 生命有机体拥有的全部DNA序列,叫做基因组。真核生物的基因组包括
核染色体基因组和细胞器染色体基因组两大部分。 *2. 细胞核染色体基因组
也叫做核基因组(Nuclear genome).是包装成物种特异的一组染色体结构的线性DNA分子。
不同物种的基因大小相组差悬殊:
酵母 1.2Mb 人类 3300Mb 小麦 16000Mb 贝母 120000Mb
*3. 线粒体基因组
存在于线粒体颗粒内部的环状或线性的双链DNA,叫做线粒体基因组。
11
线粒体基因组与核染色体基因组相比,不仅分子量小,而且编码的基因数量也少,通常只有几十个左右。
小鼠 16kb 人类 17kb 拟南芥 367kb 玉米 570kb
*4. 叶绿体基因组
存在于叶绿体颗粒内部的环状双链DNA分子,叫做叶绿体基因组。高等植物每个叶肉细胞中大约有数百个拷贝的叶绿体基因组。其大小范围约120-150Kb,编码着200个左右的基因。
(2)真核基因组的结构特点:
*1.包装成特定的染色体结构;
真核基因组DNA不是裸露的,而是被包装成若干条甚至数十条不同的染色体,这是真核基因组的一大特点。 *2.基因组的多倍性;
大多数真核生物都是二倍体,具有两套分别来自双亲的完整的基因组。而且有些高等植物还是多倍体,拥有多拷贝的基因组。 *3.具有大量的重复序列;
重复序列的类型:
① 低度重复DNA序列……拷贝数少于10个 ② 中度重复DNA序列……拷贝数10至10甚至10③ 高度重复DNA序列……拷贝数为10~10
重复序列的排列方式:
① 串联重复排列(tandem repeated DNA) ② 分散重复排列(dispersed repetitive DNA)
在人类基因组中存在三种不同的分散重复序列:
① 长末端重复DNA序列(LTR) ② 长散在重复DNA序列(LINE) ③ 短散在重复DNA序列(SINE)
*4. 高比例的非编码的DNA序列
4
62
3
12
在真核生物基因组DNA中含有大量的非编码的DNA序列,包括基因与基因之间的非编码的DNA序列,以及基因内部的非编码的DNA序列。
以人为例,非编码序列占基因组总长的98%以上,而蛋白质编码基因的序列还不到基因组总长的2%。 隐蔽基因(Hidden gene)长期以来遗传学家忽视了占基因组绝大部分的非编码序列,甚至还有人武断地称之为“垃圾”。
现在研究表明,在基因组的广阔的DNA非编码序列中,存在着大量的hidden
gene,它们能够通过RNA而非蛋白质的形式发挥其生物学的功能作用。由于隐蔽基因只编码RNA,故又称之为RNA基因。目前已受到科学工作者的高度重视。
隐蔽基因定义:位于基因组蛋白质编码基因之间的非编码的DNA序列中,只编
码RNA不编码蛋白质的一类RNA基因,叫做隐蔽基因。这类基因的序列通常比较短,因此比较难确定。隐蔽基因是通过RNA而不是蛋白质发挥其功能作用的,它同时对位于染色体内部、DNA之外的表观遗传信息层,亦具有作用。
*5. 庞大的基因数量。
大肠杆菌 5,000个左右 拟南芥 25,000个左右 水稻 40,000个左右 小鼠 30,000个左右 人类 24,000个左右
2. 真核基因的特征:
(1)与原核基因不同,真核基因往往含有内含子(intron),它是被包围在编码区
之中的非编码序列;
(2)真核基因是单顺反子,编码单基因产物,而原核基因则往往组成大的转录单位
多顺反子,即单一的mRNA分子可编码多种基因产物;
(3.) 成熟的蛋白质基因的mRNA分子的5’-端有一个帽的结构,3’-端有一个Poly
(A)尾巴。
3. 真核基因的类型: (1) pol I 基因
原核生物只有一种RNA聚合酶,而真核生物则有3种RNA聚合酶,叫做:
a. RNA聚合酶Ⅰ(RNAP Ⅰ) b. RNA聚合酶Ⅱ(RNAP Ⅱ) c. RNA聚合酶Ⅲ(RNAP Ⅲ)
核糖体RNA(rRNA)
a. 原核生物的rRNA:
5S rRNA 16S rRNA 23S rRNA
13
a. 真核生物的rRNA:
5S rRNA 5.8S rRNA 18S rRNA 28S rRNA(酵母为25S)
所有的这些真核rRNA基因,除了5S rRNA基因之外,都是由RNA聚合酶Ⅰ负责转录的,故特称之为polⅠ基因。
(2)pol Ⅱ 基因 mRNA的编码基因以及编码核内小RNA(snRNA或叫uRNA),的
基因,都是由RNA聚合酶Ⅱ负责转录的,故此类基因叫做polⅡ基因。
(3)pol Ⅲ 基因 编码tRNA和5S rRNA基因是由RNA聚合酶Ⅲ转录的,故此类
基因称为pol Ⅲ 基因。
但需指出,不可把polⅠ、pol Ⅱ 和pol Ⅲ这三种不同类型的基因,同编码
RNA聚合酶的三种基因PolⅠ、Pol Ⅱ 和Pol Ⅲ基因相混淆。因为后者分别编码:
a. Pol Ⅰ基因——RNA聚合酶Ⅰ基因 b. Pol Ⅱ基因——RNA聚合酶Ⅱ基因 c. Pol Ⅲ基因——RNA聚合酶Ⅲ基因
4. 真核基因的结构
(1)真核基因DNA序列水平的结构(三大部分): a. 启动子序列区 b. 转录序列区 c. 终止子序列去
(2)真核基因pre-mRNA的结构(四大部分): a. 5’-UTR
b. 表达子(外显子)
c. 间隔子(内含子)
d. 3’-UTR序列
(3)真核基因成熟mRNA的结构(五部分):
真核蛋白质mRNA前体(pre-mRNA)经过剪辑加工(去掉间隔子、加帽和加尾)成熟
后,被输送到细胞质。
a. 5’-帽的结构 b. 5’-UTR序列 c. 编码序列 d. 3’-UTR序列
e. 3’-端poly(A)尾巴
14
基因 启动子 转录区 终止子 转录 RNA起点 初级RNA转录本 ATG 多聚腺苷酸化位点 TAA 5’UTR 3’UTR
图 3 一种典型的真核蛋白质编码基因的结构示意图
与原核的蛋白质编码基因相比,最主要的特点是其转录区的编码序列是间断
的不连续的,其中编码氨基酸的序列叫做表达子(exon),非编码序列叫做间 隔子(intron),转录产物产生的初级RNA转录本,经过剪辑加工(即去掉间 隔子)后形成功能的mRNA分子。
5. 真核蛋白质编码基因的结构
真核蛋白质编码基因在DNA水平上的结构成分:启动子、转录序列区和终止子三个组成部分。 (1)启动子
*1.定义:位于基因核苷酸序列5’末端上游外侧,紧邻转录起点的一段具有特殊功能
的、长度有限的DNA非编码序列,叫做启动子,也叫做5’-上游序列或5’-侧翼序列。
*2.信号:启动子中存在着多种的控制基因转录活性的信号:
a.确定mRNA分子转录起点的信号; b.决定最大转录起始速率的信号: c.对环境因素刺激作出反应的信号: d.对生物体发育程序作出反应的信号: e.能够提高转录效率的增强子序列。
*3.类型:根据识别启动子的RNA聚合酶的差别,真核基因的启动子分成如下三种不同的类型:
a.Ⅰ型启动子 RNA聚合酶Ⅰ识别的启动子 b.Ⅱ型启动子 RNA聚合酶Ⅱ识别的启动子 c.Ⅲ型启动子 RNA聚合酶Ⅲ识别的启动子 注意:原核基因的启动子不分型
15
*4启动子的.结构:从总体上讲,II型启动子包含有起始元件、下游元件、TATA box、
上游元件、增强子。 a.起始元件
位于转录起点及其两侧-3至+5位核苷酸之间的一段短小的核苷酸序列区,称为起始原件,简称Inr(Initiator的缩略语)。
起始元件(initiator)亦译为起始区或起始子。其通式 为:Py2CAPy5(Py =pyrimidine 嘧啶)(Pu =pucrine 嘌呤)。
仅含有Inr原件的启动子,叫做无TATA的启动子。它是可被RNA聚合酶识别的最简单形式的通用启动子。
Inr元件和TATA box两者都是转录起始的重要元件。
+1 转录起点 上游元件
TATA box 起始元件 下游元件
图3 真核基因II型启动子的结构元件 b.TATA box
是大多数真核基因II型启动子均具有的,位于转录起点上游约-25bp处的一个富含A+T的区段。故称之为TATA盒或戈德堡-霍格内斯(Goldberg-Hogness)盒。 A A
TATA盒的保守序列为5’-TATATAT-3’,或表示为5’-TATA(A/T)A(A/T)-3’。 TATA box的功能是使RNA聚合酶正确定位,启动转录作用。 c.上游元件(upstream element)
也叫做上游控制元件,系指位于转录起点上游的一些特定的转录序列。主要的包括GC box、CAAT box和Oct 元件(八聚体元件)。 这些上游元件的功能都是增进启动子的活性。 d.增强子(enhancer)
也叫做增强子元件或增强子序列。一般是位于真核基因5’-侧翼序列区,但也有的是位于转录区和3’-侧翼序列区. 增强子增强基因转录活性的特点:
① 超远距离(50kb以上)作用。 ② 与位置无关。
③ 与方向无关。 增强子的功能作用:
位于启动子的任何一侧,任意距离的增强子究竟是如何起作用的呢?在增强子刚发现时,人们根据增强子和启动子在结构元件上的差别,曾考虑了(设想了)如下几种作用方式: ① 成环作用;
增强子可影响模板附近的DNA超螺旋的密度(结构),诸如导致DNA超螺旋弯曲,或是在反式作用因子参与下,以蛋白质之间的相互作用为媒介,使增强子和启动子之间的DNA“成环”的连接模式起始转录。
16
② 固定作用
将模板固定在细胞内特定位置,如连接在核基质上,有利于拓扑异构酶改变DNA双螺旋结构张力,有利于促进RNA聚合酶在DNA链上的结合与滑动。 ③引导作用
可以为反式因子或RNA聚合酶II提供进入染色体结构的“进入位点”。
(2)转录序列区
*1. 定义:也叫做转录区或转录单位,是一段位于转录起点和转录终点之间,并包括起点和终点在内的DNA核苷酸序列区。
转录生成只编码一个基因的单顺反子mRNA分子。 *2. 断裂基因:
在转录区的核苷酸序列区中,插入有与氨基酸编码无关的DNA间隔序列区,使一个基因的编码序列分隔成若干个不连续区段的基因,叫做断裂基因,包括间隔子(intron) 和表达子(exon)。 *3. 前体mRNA:
断裂基因转录生成的既含有表达子也含有间隔子的全序列的初级转录本,叫做前体mRNA(pre-mRNA),也叫做核内不均匀RNA(hn-RNA)。 pre-mRNA组成成分:
5’UTR、间隔子序列区、表达子序列区、3’-UTR *4. 成熟mRNA:
前体mRNA经过剪辑、带帽和加尾等加工过程,产生出成熟的mRNA分子,然后穿过核膜进入细胞质,指导蛋白质的合成。 成熟mRNA分子的结构:
a. 5’-末端帽结构; b. 5’-UTR; c. 编码序列区; d. 3’-UTR;
e. 3’-末端多聚核苷酸尾巴(polyA)。
(3)终止子
*1. 定义:位于mRNA转录终止位点下游的一段DNA序列区,叫做终止子,亦叫做3’-下游序列区,或3’-侧翼序列。
*2. 信号:在终止子中存在着如下数种控制基因转录作用的信号:
a.转录终止作用信号。
b.mRNA 3’-末端加工信号。
c.大多数真核基因3’-末端还具有poly(A)加尾信号,即多聚腺苷酸化
信号。
17
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务