友情提示：如果本网页打开太慢或显示不完整，请尝试鼠标右键“刷新”本网页！阅读过程发现任何错误请告诉我们，谢谢！！报告错误

6月16日人类基因组计划陈竺-第2章

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

学家把问题想得太简单了，以为肿瘤就是一两个基因的问题。但实际上绝大多数的肿瘤，都是多基因的问题。它涉及的面是整个基因组的问题，是遗传信息的整体上面紊乱的这样一些问题。就是刚才讲的，我们不要以为好像一个融合基因打到小鼠里面去，就足以引起一个白血病，不是那么简单的。因为如果那样的话，你一打进去就要产生白血病，事实上我们PML罗拉白血病，在受精卵里面注射进这个融合基因以后，需要等待一年的时间才会出现白血病而且不是每一个小时都会发生白血病。所以就提示有其他的决定因素在里面。我们现在知道有时候几个基因一起传染的时候，它发生白血病的速率就会大大加快。

　　　　Dulbecco这个文章它就说，如果我们想更多地了解肿瘤，我们从现在开始必须关注细胞的基因组。从哪那个物种着手努力？如果我们想理解人类肿瘤，那就应该从人类开始。人类肿瘤研究将因对DNA的详细知识而得到巨大的推动。实际上绝大多数的人类疾病都是多基因的。人类基因组计划正式起动，现在一般的说法是1990年。那么1990年因为是美国国会通过了正式启动这样一个计划。这个计划雄心勃勃就是要用15年的时间，到2005年完成DNA的全序列的测定。这个投资量是多少呢？30亿美元。当时计算的依据是测一个碱基对大概需要一美元。整个计划在这个地方实际上是一个比较狭义的一个计划，这个计划实际上就是一个测序计划。实际上我们讲测序，读出天书只是理解人类自身的第一步，最重要的是读懂天书。但是即使是这样读出天书一个计划的话，它也要经历很多的磨难，很多的困难。也就是说，到今天为止，我们还没有这样的技术说，拿来一条染色体，我们就能够直接测序，从一头测到另外一头我们没有办法这样做。所以整个人类基因组计划，实际上可以简单地说就是由复杂到简单再由简单又回归复杂，最后大概还是回归到简单。也就是说把不能直接测序的一条染色体拿来给它进行分解，分解成比较小的可以操作的这样的单位。那么怎么分解呢？那就是作图，你可以用遗传学的方法去作图，也可以用物理学的方法来作图。我们知道遗传学作图，就是利用遗传学的标志来确定DNA标志间相对的距离。另外一个概念就是说要构成一些所谓的DNA连续的克隆系，那么这些片断，它互相之间重叠，它可以覆盖整个的染色体，从一端覆盖到另外一端。这样就把一个不能直接拿来测序的单位，就给它解析成比较小的、可以操作的这样一个单位。最后给它重新组合成忠实于原来染色体里面生命信息这个排列的，这样一个状况在这里面，识别全部的人类基因。所以人类基因组就是作图，或者狭义的人类基因组计划，就是作图的计划，遗传图、物理图、序列图，然后基因图。

　　　　在人类基因组计划进行大规模测序的策略有两种，一种就是我刚才说的那种思路，实际上叫逐个克隆。我刚才说了，你把DNA克隆的连续克隆系建起来了，覆盖整条染色体了，然后你就把一个一个的克隆，用得最多的就是叫BAC——细菌的人工染色体，大概100多个KB这样的长度。那么把这个克隆一个一个挑出来，挑出来以后再进行亚克隆。这种亚克隆就是这样的，就可以测序了，测序以后再给它组装起来、还原起来。这样一个策略，是国际上公共领域的测序计划所采取的策略。实际上它是历史的沿革，就是说从作图，遗传、物理作图演化过来的。我们都知道美国的瑟拉尔公司，也知道奎克曼特。那么它搞了一个叫全基因组鸟枪法，在一定作图信息基础上，绕过大片段连续克隆系统的构建而直接将基因组分解成小片段随机测序，然后利用超级计算机来进行组装。能够使得人类基因组，在初步完成作图以后，很快地迈入到测序，尤其是大规模测序。并且使得整个进度朝向人们的预期。这里面有两个重大因素的贡献，不得不承认这里面，工业界的贡献是非常大的。比如说在人类基因组起步的时候，当时用的这个DNA序列的分析方法，还是凝胶电泳仪为主的方法，基本上还是手工运作的。但是在20世纪90年代上半段的时间里面，新的一个测序技术出现了，毛细管电泳仪。另外把自动化的运作和包括工业界的管理这种系统，都引进来。所以使得测序的速度大大加快。你像这样一个测试仪，它的名字就叫做Megabace。什么意思？就是毛细管电泳，它差不多两小时就可以进行读出一个序列，大概能够读到几百个碱基，那么它一天可以做十班，那么它是96道，所以一天可以做960道。每一道按照他们的宣传，都可以达到一个KB的话，实际上是很难做到的，这是最理想的状态下。所以一天就可以有100万个碱基对的产出。但是曾经使学术界感觉比较困惑的另外一个问题，就是说如果我们现在处于一个知识爆炸的这样一个时代，可以说生物信息的爆炸，是最最给人印象深刻的。

　　　　我们看在基因组计划起步之前，在公共数据库里边DNA序列增长非常缓慢。然后1990年以后，就是指数增长期。而且这个东西我是统计到去年、2000年两家世界的公共领域，测序计划和瑟拉尔分别宣布完成了所谓的工作草图。这个时候是这样一个情况，现在大概是这样的情况。1999年当时面对着瑟拉尔的强行挑战，它是1998年成立的，号称三年要拿下人类基因组，国际人类基因组计划决定迎接挑战。就由国际上16个组，分担了人类基因组测序的任务，中国也加入这样一个测序计划。当然我们承担的是1％的任务，1％还是很重要的。因为对于一个发展中的国家来说，能够挤入到这种属于发达国家的俱乐部里面，应该说还是很不容易的。有些事情我们想挤也不一定挤得进去的，像空间站的计划，人家还防范你。

　　　　在这里我想介绍一下什么叫工作框架图？因为都在说工作框架图，什么叫工作框架图？其实就是一个工作草图。那么它的意思呢？就是说通过对染色体位置明确的BAC（细菌人工染色体）连续克隆系4—5倍覆盖率的测序，获得基因组90％以上的基因序列，其错误率应该低于1％。也就是说你的覆盖面要达到基因组的90％以上。第二个呢，错误率应该低于1％。100个碱基对立面允许你有一个以下的碱基对的错误。虽然这只是一张草图，但是它已经有用途，就是对基因组结构的基本认识，基因的识别和解析、疾病基因的定位克隆、单个核苷酸的多态性的发现等。

　　　　那么讲到草图就一定有一个最终完成图了，所以这张图的定义，要求测序所用的克隆能忠实地代表常染色质的基因组结构，覆盖率要达到99。9％以上，然后序列的错误率应该低于万分之一。与工作框架图的关系呢，实际上就是在工作框架图的基础上再加大测序的覆盖率，填补空隙，使得序列的精度增加，能够达到这样一个标准。也就是说，它是草图的下一步。2000年6月25号，当时的测序的情况是怎么样的呢？我们看当时在公共领域就是说各国政府支持的六各国家，美国、英国、德国、日本、法国、中国，六国政府支持的公共领域的计划，当时是覆盖了大概人类基因组的86。8％。其中包含一部分已经完成，就是我们刚才说的最终序列图这样标准的序列大概是20％多一点点，然后66％左右的序列处于所谓的工作草图这样的阶段。那么也可以说，还没有完成。因为我们说要达到90％以上，但是同时瑟拉尔他号称他的覆盖率已经超过了95％。当然他的覆盖率其实包括了所有的公共领域的这个贡献，再加上他的贡献，所以两者相加起来。我想我们应该相信大概90％以上的序列，都是被工作草图以上的这样一个序列的质量所覆盖着。我们看看公共领域测序计划当时的情况，在24条染色体上分布的情况。我们知道，实际上1999年12月份，22号染色体作为人类最小的染色体之一，它的全序列被测定，或者说是它的常染色体，指部分的全序列。我们注意到它的短臂这个地方，就是易染色体区域，实际上非常难测。因为都是大量的空序列，又没有多少基因。2000年4月份21号染色体全序列完成了，也是同样的定义，就是说常染色体的这个部分。我们看这里是用深红的颜色来表示，差不多就是最终完成的。而这种黄颜色表示的是我们刚才说的工作草图，在大部分染色体区域，是工作草图部分。实际上现在我们讲的，完成人类基因组全序列的测定，都是指的常染色体部分，所以有的人说也许人类基因组序列永远也不能被结束。

　　　　2001年2月15日，我们知道公共领域在《自然》上，都是有一种分庭抗礼的，兵对兵、将对将的感觉。2月16号就登了瑟拉尔序列，显然，经过新的一轮角逐，比2000年6月份的时候，完成序列的质量又要高得很多。所以这样的话，应该认为，两家加在一起的信息，应该说比我刚才说的一般的定义又要进一步了。所以就产生了一个在工作草图和最终完成图之间的一个中间状态，这个中间状态就叫做高质量的草图。但是就是这样一个高质量的草图，让我们已经基本上知道我人体生命信息的家当到底有多大。弄到最后我们发现我们的家当好像还是比较可怜的，比我们原来的想像，因为我们的基因数量大概只有线虫，只有900多个细胞的一个生命体的大概一倍左右，我们就比那么一个小虫多一倍。从低等生物到高等生物它的基因组的复杂度，与其说是由基因的数量来决定的，还不如说更主要的是由基因的长度来决定的。我们最近完成了一个细菌的测序，叫钩端螺旋体，可以引起传染病的。它平均一个KB就有一个基因，这么小的一个东西，500万个碱基对的一个基因组，有5000个基因。我们人30亿个碱基对

返回目录上一页下一页回到顶部赞（4）踩（4）

未阅读完？加入书签已便下次继续阅读！

温馨提示：温看小说的同时发表评论，说出自己的看法和其它小伙伴们分享也不错哦！发表书评还可以获得积分和经验奖励，认真写原创书评被采纳为精评可以获得大量金币、积分和经验奖励哦！

6月16日 人类基因组计划 陈竺-第2章

6月16日人类基因组计划陈竺-第2章