星期六, 五月 17, 2014

如何定位一个功能基因的变异

【按】每次我写类似的东西,好多看的人都一头雾水,大约我把背后好多东西都当作读者默认已知了。这次俺又不负责任一回:-)。

遗传学家们长久以来都想找出各种功能基因或者功能 DNA 片段。其中那些负责多基因的数量性状的片段,我们一般称之为 QTL,即数量性状座位 (quantitative trait loci)。然而即使是一个单基因的质量性状的功能基因定位,其定位在十几年前还是很困难的。如果通过座位之间,比如能均匀覆盖基因组的标记和 QTL 之间,的交叉互换所产生的配子相不平衡来定位,人们最多能够把基因定位在几个 cM 的区域。对人而言,这相当于几百万碱基的区域。人类基因组的第一张草图花了 30 多亿美元,大约每个碱基一美元,十几年前几百万碱基规模的测序在一般实验室很难完成,更何况为了对比还需要对照很多人的序列,最终测序的总长度远远超过几百万碱基。倘若是 QTL,那么其置信区间通常大到十几到几十 cM,其定位通常更困难了。人们一般把利用连锁图进行的基因定位称作连锁分析。

后来的情况我不说大家也能猜到,那就是标记的密度越来越高,测序的成本越来越低。利用高密度的标记,我们就可以进行所谓的关联分析。由于标记的密度高到 1cM 好几个,这时候去计算连锁和互换几乎没什么意义。高密度标记使得定位的精度大大提高。

即使如此,从定位区域到功能突变仍然有很长的距离。最终找到功能基因还是需要测序。如果测序成本足够低,我们甚至可以之用十几个个体就可以找到功能基因。

从现有结果看,QTL 的突变在非外显子区的居多,而质量性状的基因通常是功能基因的突变,这为定位质量性状基因提供了极大的便利。我们已知人类基因组中外显子的比例只有 1% 左右,这样虽然目标区域从几百万碱基立即缩少为几十万碱基。这样还不够,因为这些序列中还有很多突变,其中有很多可以与质量性状的表达对上号。但我们可以进一步筛选。一个功能突变无外乎非同义突变,拼接变异,插入删除等。这样我们可以把目标范围缩小至1/3。现代生物学研究几乎离不开一些很著名的基础工作,比如 HapMap。参考 HapMap,我们可以发现我们研究的样本中罕见的变异,或者说一般人没有或者不常有的变异。这样目标的变异范围又可以去除 98%。最后,我们再参考自己的数据库,比较多个病人共享的纯合子。至此单基因的功能突变基本就可以确定了。

没有评论: