四、比较基因组学(Comparative genomics)
尿殖道支原体是已知最小的基因组,由此可能确定能自我复制的细胞必需的一套最少的核心基因。流感嗜血杆菌的基因组为1.83Mb,而尿殖道支原体的基因组只有0.58Mb,二者相差3倍多,那么,基因组大小影响了基因数目还是基因尺度?
流感嗜血杆菌基因大小平均900bp,尿殖道支原体的基因为1040bp,基因大小差不多;流感嗜血杆菌中平均1042bp 有1个基因,尿殖道支原体中平均1235bp 有1个基因。 可见基因组尺度减小并不引起基因密度的增加和基因本身尺寸的减小。二者差别在于基因数量上,流感嗜血杆菌基因组有1743个ORF,而尿殖道支原体只有470个ORF。
通过对尿殖道支原体与流感嗜血杆菌这两个亲缘关系较远的生物基因组的比较, 选取其共同的基因(共240个),再加上一些其他基因,最后组成一套含256个基因的最小基因组。
古细菌产甲烷球菌与原核生物有着共同的染色体组织与结构,如环状基因组、基因的操纵子结构等,其能量产生和固氮基因与原核生物也有很高的同源性。该基因组中与细胞分裂有关的蛋白质及20多个编码无机离子运输蛋白的ORF与细菌基因同源,而且其调控模式也类似于原核生物。然而, 产甲烷球菌在细胞遗传信息传递,尤其是转录和翻译系统,以及分泌系统方面与真核生物同源,说明该细菌与真核生物亲缘关系较近。
比较基因组学提供的结果表明,在进化系统树上,古细菌与真核生物亲缘关系比原核生物更近。在自养生物的三个分支,细菌、古细菌和真核生物中,细菌的分化发生较早。
| 表6.6 E.coli, Haemophilus influenzae和Mycoplasma genitalium基因组中的基因分类 | |||
| 分 类 | 基 因 数 | ||
| E. coli | H. influenzae | M. genitalium | |
| 总ORF数 | 4288 | 1727 | 470 |
| 氨基酸合成 | 131 | 68 | 1 |
| 辅基等的合成 | 103 | 54 | 5 |
| 核苷酸合成 | 58 | 53 | 19 |
| 细胞膜合成与装配 | 237 | 84 | 17 |
| 能量代谢 | 243 | 112 | 31 |
| 中合物代谢 | 188 | 30 | 6 |
| 脂肪代谢 | 48 | 25 | 6 |
| DNA复制、重组和修复 | 115 | 87 | 32 |
| 蛋白质结构 | 9 | 6 | 7 |
| 调控蛋白 | 178 | 64 | 7 |
| 转录 | 55 | 27 | 12 |
| 翻译 | 182 | 141 | 101 |
| 吸收与转运 | 427 | 123 | 34 |
最简单的真核生物--酿酒酵母基因组
单细胞真核生物酿酒酵母基因组为12,068kb,比单细胞的原核生物和古细菌大一个数量级。酿酒酵母基因组共有5887个ORF,这比原核生物和古细菌要多很多。酿酒酵母的基因密度为1个基因/2kb,密度小于原核生物流感嗜血杆菌和尿殖道支原体等。
酿酒酵母是最小的真核基因组,裂殖酵母其次,其密度是1/2.3kb,简单多细胞生物线虫的基因密度为1/30kb。第二、酿酒酵母只有4%的编码基因有内含子,而裂殖酵母则有40%编码基因有内含子。
人类基因组中有多少基因5-15万,大约80000左右。
推测依据有三条:
1. 根据已测定大片段DNA中ORF的比例;
2. CpG island的个数(56%的已知基因5'都与CpG相连,而人基因组中有45000个Islands)
3. ESTs。
已经报道的是第22染色体和第21染色体。第21染色体全长33.65Mb,长臂上有33.546Mb,仍有7个缺口,长约3kb,99.7%。
The DNA sequence of human chromosome 22, Nature 402, 489-495(1999) .
The DNA sequence of human chromosome 21, Nature 405, 311-319(2000) .
21q上有127个已知基因,98个推测的基因59个pseudo genes。Chromosome22中有545个编码基因
第21+22染色体共占2%的人类总DNA,共有770%基因
Nature,406,151-157
苏格兰爱丁堡罗斯林研究所用来自乳腺的细胞,使它们饥饿,迫使大多数基因进入非活化状态,与受体细胞周期相匹配。将这些乳腺细胞核转移到去核的卵细胞内,某些未知因子使6岁细胞的非活化DNA重返过去,指导卵细胞发育成羊。在227个这样的卵细胞中,只有一个形成了健康的活体:多利羊。
果蝇基因组全长180mb,2/3 euchromatio, 1/3是hetrochromatin. WGS定位3114.8mb, Blast Search确定有14113个转录产物(功能基因)。
Science, 287:2185-2195 (2000)

拟南芥基因组
Nature 408:796-815 (2000)
全长125mb,5条染色体,25,498个转录产物。X-inactivation:
Clerc & Avner, Science (2000) 290: 1518-1519; Eggan et al. Science (2000) 290: 1578-1581
Acetylation:
Schlissel, Science (2000) 287: 438-440; Strahl & Allis. Nature (2000) 403: 41-45.
Gene Targetting
Rong & Golic. Science (2000) 288: 2013-2018