Xijiang's Thoughts: 如何定位一个功能基因的变异

【按】每次我写类似的东西，好多看的人都一头雾水，大约我把背后好多东西都当作读者默认已知了。这次俺又不负责任一回:-)。

遗传学家们长久以来都想找出各种功能基因或者功能 DNA 片段。其中那些负责多基因的数量性状的片段，我们一般称之为 QTL，即数量性状座位（quantitative trait loci)。然而即使是一个单基因的质量性状的功能基因定位，其定位在十几年前还是很困难的。如果通过座位之间，比如能均匀覆盖基因组的标记和 QTL 之间，的交叉互换所产生的配子相不平衡来定位，人们最多能够把基因定位在几个 cM 的区域。对人而言，这相当于几百万碱基的区域。人类基因组的第一张草图花了 30 多亿美元，大约每个碱基一美元，十几年前几百万碱基规模的测序在一般实验室很难完成，更何况为了对比还需要对照很多人的序列，最终测序的总长度远远超过几百万碱基。倘若是 QTL，那么其置信区间通常大到十几到几十 cM，其定位通常更困难了。人们一般把利用连锁图进行的基因定位称作连锁分析。

后来的情况我不说大家也能猜到，那就是标记的密度越来越高，测序的成本越来越低。利用高密度的标记，我们就可以进行所谓的关联分析。由于标记的密度高到 1cM 好几个，这时候去计算连锁和互换几乎没什么意义。高密度标记使得定位的精度大大提高。

即使如此，从定位区域到功能突变仍然有很长的距离。最终找到功能基因还是需要测序。如果测序成本足够低，我们甚至可以之用十几个个体就可以找到功能基因。

从现有结果看，QTL 的突变在非外显子区的居多，而质量性状的基因通常是功能基因的突变，这为定位质量性状基因提供了极大的便利。我们已知人类基因组中外显子的比例只有 1% 左右，这样虽然目标区域从几百万碱基立即缩少为几十万碱基。这样还不够，因为这些序列中还有很多突变，其中有很多可以与质量性状的表达对上号。但我们可以进一步筛选。一个功能突变无外乎非同义突变，拼接变异，插入删除等。这样我们可以把目标范围缩小至1/3。现代生物学研究几乎离不开一些很著名的基础工作，比如 HapMap。参考 HapMap，我们可以发现我们研究的样本中罕见的变异，或者说一般人没有或者不常有的变异。这样目标的变异范围又可以去除 98%。最后，我们再参考自己的数据库，比较多个病人共享的纯合子。至此单基因的功能突变基本就可以确定了。

Xijiang's Thoughts

星期六, 五月 17, 2014

如何定位一个功能基因的变异

没有评论:

我的简介