物种内,检测不同个体的遗传标记或者序列信息可以很容易判断个体之间的亲缘关系。物种间,要选择同源基因的序列信息,也能判断物种之间的遗传距离或者某个同源基因的遗传距离。要确定物种起源,应该很难吧。多久之前算起源,祖先样本如何获得。还有,同源和旁源从分子角度怎么鉴定,分子钟吗,突变或者回复突变怎么识别,突变概率怎么办,模型用哪个等等等。从最简单地开始,只考虑一个同源基因A,构建基因A的分子进化树。试着用MEGA软件做一次就可以了解大概。大概是,先获得多个物种的A基因DNA序列进行多序列比对,或者A基因的蛋白质序列,进行蛋白质序列比对。参考某一个比对打分模型(碱基替换模型,Blosum之类的)得到比对结果,然后用极大似然法,最小距离法等等各种算法建树,再计算一下此进化树可靠性,比如bootstrap自举法好像中文叫这个名字。基本上可以明确该基因的进化关系,但是不能确定哪个是祖先,只能说明遗传距离远近。获得物种间的遗传距离和进化树,则需要更多的同源基因序列信息。这里只是说个大概过程,丢了好多细节,至于具体计算方法,文献好多好复杂,不介意不求甚解的话,还是从MEGA软件入手,看一下说明文档,常用的模型和算法名字都列在上面了。至于研究物种进化的方法,如果只从分子信息进行计算推导的话,这么多年,还是哪些吧。主要还是前提假设模型算法是否合理。然后非常能容忍误差,计算出来两个物种在几百万年前分化,然后计算误差是几百万年。非常推荐新手从MEGA入手。进化中的概念多又杂,各种假设从不同角度出发都很有道理。建个进化树本身不难,可以如何判断其合理性非常非常难
基于基因序列和基于蛋白质结构推断进化和物种起源的原理是一样的,序列信息啊结构啊,都是可以拿来算法计算然后画树叉(不一定是二叉,也有多叉;不一定标示了祖先源头的位置,也可以画无起源的)。然后其实中心法则相关的所有的东西都有生物信息,也都是可以拿来研究进化的。比如(我忘记了)好像是mRNA?但是这种方法也有缺陷,因为它有两个假设,一是假设多样性开始出现的事件就是物种开始形成的时间,二是假设每发生一次基因序列或者蛋白质序列或蛋白质结构改变,彼此所间隔的时间是一样的。还有一个缺陷在于光知道相似性的信息,我们无法知道每次突变发生的平均间隔时间,这个是需要通过化石证据和形态学证据来校准的。这里面有一个概念叫"分子钟"。选择合适的"分子钟"很重要。保守的基因序列在近缘种当中几乎没有改变,就可以拿来算远缘物种分化的时间。受选择压力影响较大变化快的基因序列,则可以更精细地反映近缘种的进化历史。生物信息确定物种起源,有形态学所不具备的优势。比如形态学形态比较的"像"在很多近缘种里是说不清楚的,在远缘种,比如动物分类里面phylum出现的顺序,太不像了还是说不清楚。此时生物信息基于分子差异的赋值比对,就可以更决定性地判定物种起源时的关系(phylum的分子进化,这个是science年度十大科学发现)因为如上的原因,学术界有人类的多起源假说和单起源假说。但是由于分子进化的证据说服力太强,这些假说已经修订成了assimilation model。
实际上我认为在讨论生物演化上,分子永远不能成为主流。归根到底是因为遗传分子的保存年限太短,大部分都不能超过一百万年。而在地球十亿年量级的生命演化历史中,我们要认清楚,实际上大部分曾经繁盛的类群,都是完全绝灭掉了。没有现生后代,遗传分子又完全丧失了,所以没办法采用基因测序的研究。打个比方的话,基于现代分子生物学的分子演化理论是生命演化树上枝稍上新开的花朵,精巧而美丽。但生命之树上,树干是不开花的,只能研究树干的走向来研究生命的发展。在人类能发明时光机回到一亿年前抽恐龙血之前,分子演化的方法应该只适用于讨论现生类群的演化关系,和近百万年来灭绝类群的演化关系。
仅凭基因序列不能确定物种起源,通过基因序列只能确定物种的“亲缘”关系,要想弄清楚一个物种的起源,还必须借助不同时期的化石来确定年代,即确定该物种的进化顺序。






