基因到底是什么(基因到底是什么)

iCarbonX的CEO王俊以前在华大基因作报告时常说

我不知道基因是什么……

〇当你对微博上火热的基因检测怀有一丁点儿好奇时,当你准备投奔火热的生物信息行业时,可能会先试着理解:基因到底是什么?

●当你着手查阅,甚至构建所研究物种的生物信息资源时,可能会疑问:比如说蛋白质、RNA、domain啊,都是怎么对应到基因上去的?

  很多人会给出五花八门的答案,其实这牵涉一个稍大的问题——人类对基因的认知史。在此我想,可以从认知过程,来梳理下现有基因的三种发现途径:

  • 遗传筛选——genetic screen and positional cloning

  • 编码产物——coding product according to central dogma

  • 序列分析——putative gene from sequence analysis

  先回顾一下孟德尔当年的豌豆试验与分析。

  孟德尔的豌豆种子性状光圆/皱缩,对应的基因座称为rugosus,拉丁语意思:皱缩的,简记为r locus。遗传筛查确认了它在5号染色体上。

基因到底是什么(基因到底是什么)(1)

孟德尔的豌豆杂交试验

  豌豆的基因座r是否不包含一段叫做Ips-r的800 bp插入序列,就决定了豌豆种子是否光圆。无Ips-r序列时,基因座r上的sbe1基因表达出淀粉分支酶I(记为SBEI),产生光圆种子。有Ips-r时,它插入在sbe1基因的一个外显子上,导致其不能表达出正常的SBEI酶,纯合Ips-r就产生了皱缩种子。

  下面我们会跟踪这个例子。

基因概念的诞生

┠遗传因子(孟德尔,1866)

┠基因(gene,约翰逊,1909)

  此时基因概念为:基因是遗传的单位。

例说

这时只能说:控制豌豆种子圆皱性状的,是一个显性为光滑、隐性为皱缩的遗传因子。


基因的首个定义

┠染色体是基因的载体(Suton与Boveri,1900)

┠基因在染色体上线性排列(摩尔根,1910)

┠一种化学物质(Hermann Joseph Muller,1912)

┠一种有机分子(摩尔根,1915)

┠《基因论》(摩尔根,1925)

  这时的认识是:每个基因占据特定位置,基因以几种备选形式即allele而存在。基因是一个功能、突变、交换的单位(三位一体),基因是不可分割的最小遗传单位。

  这一阶段的主要进展是将孟德尔概念性的东西锁定到了染色体上,并认为它是一种有机分子。而后还要历经数十年,人们才逐渐知道并最终确认:DNA就是要找的有机分子。

例说

这时知道了:豌豆圆皱基因是细胞中的有机分子,它位于染色体座位 r 上。

  在形式遗传学阶段,基因的存在与刻画完全靠杂交试验和逻辑推断,基因是用性状来命名的;而进展到摩尔根时代的细胞遗传学阶段,基因被确定位于染色体上,进而认识到多效基因和数量性状等复杂的性状-基因关系。

  接下来就是对基因本体(gene ontology)的疯狂探索之路了。


基因的物质本质

┠一个基因一个酶(Beadle and Tatum,1941)

┠基因是DNA构成的(艾弗里,1944)

┠基因的分子结构:DNA结构的双螺旋模型(Waston & Crick,1953)

┠基因的遗传结构:顺反子cistron、突变子muton和重组子recon(Benzer,1957)

┠基因的功能分类:编码基因、操纵基因(J·L·Monod & F·Jacob,1961),启动基因

一个顺反子是一个遗传功能单位,一个顺反子决定一条多肽链。

这也就实现了摩尔根的基因定义中功能单位的物质对应。从而形成了遗传学中“一个基因一个酶”这个流传甚广的说法。

例说

这时可以说:圆皱基因是豌豆5号染色体上的一段DNA。

在这一阶段的核心进展是:搞清楚了,基因的载体不是染色体上的蛋白质,而是染色体上的DNA;进而在解析基因的物质实体DNA过程中,提出了双螺旋结构模型。前者的辨析过程当时就教育了一众人等,后者成为了此后学校教育中的基础知识。


非孟德尔基因与可移动基因

┠核外基因、转座子(Barbara McClintock,1938)

┠水平基因转移(病毒基因转移,1951;细菌基因转移,1959)

  对摩尔根来说,简直毁三观啊! 这些不安分的基因,不老老实实待在染色体座上,竟然玩起了跳跃和转移!!

  这还不算完,科学家们后来陆续发现了细胞器基因与细胞核基因、真核生物与原核生物之间、不同真核生物间等水平基因转移事件。也就是说远在人类诞生前,生物自发的转基因就无所不在!!

例说

这时没啥可说的,豌豆的圆皱基因还是比较安分守己的那种。但可以知道:

人类诞生前转基因就无所不在

  诞生前转基因就无所不在

    前转基因就无所不在

      基因就无所不在

        就无所不在

          所不在

            在


基因的信息法则

┠最重要的蛋白编码基因:遗传密码(理论:伽莫夫,1954;实验:克里克,1961。遗传密码表编制,1969)

┠加上操纵基因、启动基因和rRNA与tRNA基因等,还有蛋白质:中心法则(克里克,1957)

  这个阶段的核心进展是确定了遗传现象背后信息流中基本单元的对应法则 f:核苷酸→氨基酸。

  物理学出身的伽莫夫率先做了理论推导,而后3年生物学界无人能懂,还是物理出身的克里克意识到其重要性,由此提出中心法则并做了实验验证。

例说

这时借用数学函数语言就说:圆皱基因是在遗传密码函数f下,豌豆的支链淀粉酶I在5号染色体上的DNA原象:f-1(SBEI氨基酸序列)。


基因结构的转录与翻译模型

  本节标题中的基因局限于编码蛋白质的基因。

┠断裂基因:基因的断裂与可变剪接(Richard J. Roberts & Phillip A. Sharp,1977)

┠重叠基因(F.Sanger,1977)

┠内含子与外显子(Gilbert,1978)

┠非翻译区(UTR)

  这里有一个重要的技术背景是DNA测序方法的诞生与发展。

  作为基因的物质实体,DNA分子可以用测序技术大量地解析出来了。

一个基因一个酶 →

         → 一个酶一个基因

“一个基因一个酶” 转变为 “一个酶一个基因”。

前者是说:物质关系上是基因序列决定蛋白序列;而后者是说,认知过程上是基因由蛋白质来定义。

这个转变实际上有逻辑和历史两个层面的意义:

逻辑上,往回翻一下遗传密码函数f和函数定义,很容易理解这个转变:可变剪接造成原来的基因定义不再适应按遗传密码跟氨基酸序列的对应函数关系,转变后可维持这种函数性。

历史上,基因先是用性状来定义,而后用染色体座位来定义;这都是用原先已认知的事物来定义新事物。相比于长链DNA包含着连绵的基因序列来说,蛋白质分子之间是自然分离的,从而氨基酸序列是确定的;那么用“蛋白质序列”来定义“基因”概念,便是自然而然的了。

例说

这时建立准确的DNA-蛋白质函数对应关系:豌豆sbe1基因作为模板转录出sbe1 mRNA、进而按遗传密码函数翻译表达为SBE1酶。

Ips-r的插入会导致翻译出少了最后61个氨基酸的SBE1残缺体。

这样就精确揭示了孟德尔的显性与隐性概念的实质:正常sbe1基因形成有功能的淀粉分支酶I,是为显性,sbe1基因随着插入Ips-r的序列突变而失活,是为隐性。

这样看来,功能单位是SBEI基因,而突变单位是插入在SBEI基因内的800 bp Ips-r序列,而重组单位是包含SBEI基因在内的更大一段染色体DNA。

啊哈~ 貌似,摩尔根的“三位一体”基因论,就此破产了!


进化的基因

┠自私的复制基因

┠同源基因

  前面都是作为静态概念的基因,而进化意义的基因概念也一直在发展,特别是“作为自然选择的单位”(George C. Williams,1942)和“自私的基因”(Richard Dawkins,1976)这两个观点。

维演化之光,明生物之道!  ——杜布赞斯基

  事实上,基因概念最终成为分子层面上进化研究的中心。

  在进化保守性的指导下,人们得以用序列相似性来直接预测长DNA序列中是否包含基因以及所含基因的结构。特别是在基因组de novo测序项目中,为了全面预测新组装出的全基因组序列中所含的蛋白编码基因,发展出了蔚为壮观的同源预测方法和相应软件工具。

基因到底是什么(基因到底是什么)(2)

基因结构的特征模型

通过研究转录与翻译过程的基因模型,就了解到基因的一些序列特征,如碱基组成、位置特异性、频率等,从而发展出了基于特征的从头预测基因的方法。

这两类方法得出的众多推测性基因(putative gene),为进一步的功能研究和进化分析提供了资源。

这一步骤的最重要意义在于通过进化之光照亮了基因的同源性在时间长河中所表现的序列相似度,从而在不同物种间、同一物种的不同基因座之间建立起基因的对应关系与基因家族,进而将突变太多而死去的基因——假基因序列也联系起来。

例说

这时有一个格局上的飞升:豌豆的sbe1基因是从祖先基因而来,越古老的祖先就形成了越大的基因家族。并且自然而然地将插入了Ips-r的sbe1假基因包含进来。

豌豆sbe1基因跟比如玉米等物种相应基因的差异就反映出历史上不同的进化压力和适应过程。

在基因概念的分子遗传学阶段,人们终于认识到:基因才是进化的主角!在某个性状、某个物种都是基因的生存手段。

基因本体与其逻辑定义开始迈向最终的统一,但先要经历一段战国时代~~


基因边疆战争

地理大发现后,西方殖民者在地图(map)上划了一些线来作为彼此殖民地的边界;而随后具体占领(occupy)时才发现,之前在map上的划线把一些原住民城镇、自然村落甚至一家人的房子切分给了不同的殖民国家。随后殖民者之间为边界大打出手;殖民地独立后,这些边界纠纷仍深刻影响着当代的国际关系。

基因到底是什么(基因到底是什么)(3)

殖民者地图上瓜分世界留下的整齐边界

  测序技术出现前,遗传作图技术已经为不少物种做出了遗传图谱(genetic map);它们由连锁群构成,每个群由许多基因座线性排列而成。这些map至今仍是育种家进行作物家畜等品种改良的基础。测定(或称occupy)DNA序列之后,人们发现遗传性状在DNA序列上存在无尽的边界纠纷。

  前面已经知道,转录与翻译模型确定了清晰的内含子-外显子边界、翻译区-非翻译区边界,但是启动子等DNA调控元件是否应该包含在一个基因的完整定义中呢?还有转录出rRNA、tRNA等分子的DNA呢?基于遗传学方法也都测定到一些对应的宏观性状变异,因而可视为摩尔根意义的基因。

  这一步骤的关键是焦点从基因的图位克隆(positional cloning)与序列测定重新回到表型-基因关系的研究上,不过,现在的表型概念远远超越了最初的形态学表型,而是向微观发展到DNA、RNA、蛋白质及各类代谢物分子等类型与数量的广义表型,向宏观发展到个体全生活史的定性定量刻画、群体结构乃至生态行为等动力学的广义表型。

  农业育种、基因工程和遗传医学中对基因概念的需求是实用方便,而不是抽象思辨和纷争。因此,这一阶段中,基因在不同语境下有若干可能的含义:

  1. 蛋白编码基因;

  2. 各种RNA定义的基因(mRNA、tRNA、rRNA、sRNA及其他ncRNA);

  3. 所有表现出特定生物功能的DNA片段(各类RNA基因及启动子、增强子,还有转座子、SSR等);

  4. 分子进化与组学意义的基因(功能、突变、交换的最小单位是碱基。看吧~三位一体还是对的,英明远见的摩尔根万岁!)。

因此,难免常有一些说法让人不知道它在说什么……

基因到底是什么(基因到底是什么)(4)

老男孩之猛龙过江:美人鱼,你说的是什么?

学术研究中常用的基因概念仍以上述意义②为主,而且因为编码基因数量上和重要性上占优,所以在多数学术论文中基因概念的含义又局限为①;

在涉及生物学以外学科与科学普及的交叉与综合性领域,实际上在使用上述意义③或④。

这种表面的混乱牵涉着很多问题,如转基因的社会舆论争议,生物学的数学化与科学化等等。


基因界的哈里谢顿计划

为了度过文明进程中不可避免的蛮荒时空,科学界计划将所有基因编目,目前已形成了一些或芜杂或零散的数据库。

通过上述基因概念演变简史,就容易理解目前在各类基因数据库中的基因,它们来源于形式遗传学、细胞遗传学、分子遗传学三个阶段的方法学手段。

如今遗传筛选结合高通量测序技术,就诞生了方兴未艾的全基因组QTL mapping技术。

而基于转录及翻译产物,根据中心法则和遗传密码表,推导出基因模型; RNA-seq得到转录本算是基因模型的金标准了。

同时每个新测的物种基因组都会用同源预测和从头预测方法得到大量putative genes。


围绕基因科学家们都在做些什么事?

1.得到一个物种的基因集

要建立一个物种的基因集,最好是先拿到其全基因组序列,通过相对廉价的序列分析得到putative gene集,然后结合RNA-seq乃至最新PacBio测序的ISOseq技术建立gene model,即基因组注释;当然准确滴说,这需要牵涉出转座子等重复序列的注释。

2.做成一个基因数据库网站

我们撇开IT上如何实现数据的访问。

把这些做成一个基因数据库,一般需要沿中心法则把对应的蛋白质、转录本及其子部件如功能域等map到基因组序列坐标上去。

3.资源挖掘与利用

再深入一点的工作是:

┠基于分子进化观点,用同源性衍生的序列相似度和其他物种的同源基因一起分类为一些基因范畴(比如GO database);

┠基于系统生物学观点,用代谢通路与调控网络把基因在生物体内的互作关系表示出来(比如KEGG database)。

上述两种思路可以用在更特定的生物体集合(如物种、类群、南方汉族人群等),或特定的基因组元件(如转座酶、启动子、植物转录因子等)上。


理解一个概念的演进,会更深刻地把握其中的精髓。

人们对基因概念的认知,实际上是动态变化着的,所以必然会听到不同甚至矛盾的说法。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页