来源:BioArt
撰文 | 咸姐
遗传分析(genetic analysis)亦称基因分析,是测定有关某一遗传性状的基因数目、基因性质、属于哪一连锁群及其在染色体上的座位等的过程。遗传分析是在涉及遗传学和分子生物学的科学领域中进行研究的整体过程,在遗传分析的发展过程中,涌现了许多应用方法,成为推动遗传分析发展的重要部分。
现代遗传分析始于19世纪中期孟德尔的发现。孟德尔在观察了各种各样的生物体后,发现很多性状是从亲代遗传给子代,并且这些性状在子代之间可能有所不同。后来发现,每个细胞内都有负责这些特征的单元——基因,每个基因最终编码成由氨基酸组成的负责相关遗传特性的蛋白质。那个时候,在没有遗传数据的情况下,是利用家系的性状(表型)进行遗传分析的。易测量的基因组标记的发现使得通过连锁分析鉴定疾病基因成为可能,而无需事先了解其潜在的机制【1】。
随后的重要进展是高通量单核苷酸多态性(SNP)阵列,它允许同时对数十万个SNP进行基因分型,从而产生了全基因组关联分析(Genome-wide association study ,GWAS)【2】。GWAS可以检测出每个SNP与表型的相关性,而不需要家族数据。GWAS识别影响SNP的性状的能力取决于SNP相关的性状变异的比例,该比例随着效应大小的平方和杂合度的增加而增加,由于更常见的变异的杂合度更高,最初GWAS的成功主要是针对少数等位基因频率高于5%的易感变异。长久以来的研究表明,GAWS的数据受到多方面的影响,尽管涌现出越来越多的校正方法,但是这并不意味着偏差被消除了,也不意味着基因型与表型的关系的性质得到了恰当的描述。要解释人类基因变异与表型相关性并更可靠地利用它们——尤其是应用于表型预测,仍旧需要科研人员更好地理解基因型-表型相关性的各方面知识。
2019年9月27日,来自英国牛津大学的Augustine Kong教授等人在Science上在线发表题为Deconstructing the sources of genotype-phenotype associations in humans的文章,详细总结了基因型-表型相关性研究方面的进展,特别是在分析直接和间接遗传效应以及人群结构混杂方面的进展,并且进一步讨论了数据收集和方法学的发展,从而帮助我们更全面细致的了解了基因型-表型相关性研究的重要方面,为相关研究指明了方向。
首先,本文的作者列出了以下几方面造成基因型-表型相关性的影响因素,并阐释了它们同时带来的困难,提出可能的解决方法。
1. 直接影响和间接影响
基因变异和表型之间的相关性来源可以分为变异的直接影响、间接影响以及混合影响。
直接影响包含了广泛的因果途径,而实际上这里面有些既不简单也不“直接”,例如,基因CHRNA5的变异通过与吸烟数量的相关性来影响肺癌发病风险。此外,这些直接影响也可能包括局部连锁不平衡(LD)中其他变异的影响。值得注意的是,在没有家系数据的情况进行的典型GWAS只能估计直接和间接影响(联合影响)的总效应,而不能单独估计两者的影响。
对于复杂的性状,识别所有的因果变异并阐明它们的潜在机制仍然是一个遥远的目标。然而,GWAS数据仍旧可以用于预测基因型,特别是利用多基因评分(PGS)。遗传效应可以通过多效性促进性状间的联系,在变异联合效应的附加模型下,将遗传组分定义为所有因果变异的基因型的线性组合,其权重与真实(直接、间接或联合)效应成正比(图1)。由于从一个典型的GWAS构造出来的PGS利用了对联合影响的评估,所以它的预测能力有时会比直接效应强很多。但是,不容忽视的一点是,完整的模型并不能用标准的GWAS来评估,因此目前对直接和间接遗传效应对多效性的影响程度知之甚少。
图1具有直接和间接效应的双性状遗传模型的合并(上)或分离(下)
2. 混淆影响(Confounding effects)
GWAS中的混淆影响至少有三种来源:1)环境混淆,即等位基因频率和环境影响在不同的地理区域或亚群中以一种相关的方式变化;2)基因混淆,当亚群之间的等位基因频率差异与其他等位基因频率差异有因果关系时发生;3)选择性配对混淆,发生在对性状(或相关性状)进行选择性配对时,某一性状中具有因果效应的一个变异体与其他具有因果效应的变异体相关联,而该变异体与性状的相关性随即捕获了自身外加其他变异体的一小部分的因果效应。这些混淆的形式在概念上虽然不同,但是在实践中它们通常是交织在一起的。
主要成分(PC)调整是用于消除人群结构相关的混淆效应的一种常用技术,理想的用于调整的主要成分应该与环境混淆成分密切相关,而与直接遗传影响成分无关。但是对于第三类选择性配对混淆而言,其几乎与直接和间接成分的总和相关,因此PC调整后也依旧可能导致GWAS的混杂。
拟合线性混合模型 (LMMs) 可以作为PC调整的替代方法,其对一组SNP进行一种类型的回归,其中每个SNP的影响被建模为一个从正态分布中抽取的“随机效应”,从而能够改进人群分层和样本关联性的建模。然而,目前的LMM GWAS方法并没有消除间接遗传效应的影响。
3. 家族基因型数据的利用
最初的GWAS是不需要家系数据的,因此也便于收集大样本数据,但是,近些年来,家系数据的独特性质正重新引起人们的注意。一方面,一些具有强烈影响的罕见变异只存在于大家系中,最重要的是,对于更深入和更微妙的问题,可能需要诸如亲子关系和同胞关系等家族数据来区分直接影响和间接影响以及其他混淆因素。因此,结合标准GWAS资料和家系分析数据的方法是有必要的。
4. 遗传可能性
GWAS发现的大多数影响疾病风险的常见变异都具有低到中等的影响,GWAS在全外显子组和全基因组测序中的应用,以及通过SNP阵列对基因分型样本进行序列水平变异的统计推断,已经发现了一些影响较大的罕见变异。虽然全基因组显著性(genome-wide significant ,GWS)位点相关的性状变异正在增加,但是对于大多数复杂性状,GWS位点相关的变异只是评估遗传可能性的一小部分,这之间的差距即为“遗传可能性缺失”。而一种一个被广泛使用的方法,GREML,可以通过测量表型相似性和全基因组遗传相似性之间关系的强度来估计SNP遗传可能性。
接着,本文作者介绍了方法学上的一些最新进展。随着GWAS的爆炸式发展,研究人员开发出了更好地使用和解释其结果的方法:
1. 连锁不平衡评分回归(LDSC)
LDSC的开发,是为了将群体分层引起的混淆效应与因果遗传效应对GWAS检测统计的影响区分开来。通过评估群体分层引起的混杂对平均检验统计量的影响,LDSC截距可用于调整GWAS检验统计量。LDSC还可以用来估计SNP对不同性状的影响之间的相关性,用来从不同的变异功能类别中划分SNP遗传力的贡献,以及促进多性状的meta分析。但是,不容否认,LDSC群体分层偏差测量的可靠性仍然存在问题。
2. 孟德尔随机化(MR)
MR利用遗传数据来改善流行病学中的因果推理,MR通常依赖于来自无家系的GWAS的SNP效应估计值,而这种估计值可能因群体分层、亲属的间接遗传效应和选择性配对而产生偏差。
3. 基因-环境(GxE)相互作用
GxE相互作用发生在不同环境中基因变异对性状的影响不同的时候。在GWAS中检测GxE相互作用的能力可能由于效应大小较小以及多次测试压力而变低,而提高GxE检测能力的一种方法是寻找环境因素与PGS之间的相互作用,但是,由于相互作用和遗传效应对表型变化的影响对检测规模很敏感,而群体分层对GxE评估的影响缺乏很好的描述等等原因,使得GxE相互作用检测的方法学上仍然存在困难。
最后,本文作者分析了GWAS表型预测的可行性。文章指出,基于PGS预测的准确性取决于性状的遗传可能性以及现有GWAS的检测能力(特别是在样本量和遗传结构上),但是,由于等位基因频率和LD差异,PGS在预测个体与GWAS中包含的个体之间不同的表型方面表现不佳。此外,还有其他一些原因可能导致PGS预测能力降低,例如环境差异的程度可能因不同的祖先群体或不同的标准而不同,而表型测量可能因群体而不同;此外,由于基因-基因(GxG)相互作用和GxE相互作用,变异的效应大小可能不同。因此,分析GWAS中识别的信号的本质变得尤为重要,以便识别能够提供更容易普遍化预测的成分(例如直接和间接影响)。
综上所述,对于许多复杂的性状,GWAS改变了遗传研究的面貌和我们对遗传结构的理解,让我们从基因型和表型之间的没有一个可以可靠复制的关联的曾经,逐渐变成有成千上万个具有可靠关联的变异体的如今。虽然GWAS仍然存在着很多困难与缺点,但是,相信在本文作者的详细解说之下,我们对基因型-表型相关性研究有了更全面深入的了解,这无疑将推动未来相关研究的改进与前进。
原文链接:
https://science.sciencemag.org/content/365/6460
参考文献
1. Botstein D, White RL, Skolnick M et al. Construction of a genetic linkage map in man using restriction fragment length polymorphisms. Am J Hum Genet. 1980, 32(3):314-31.
2. Risch N, Merikangas K. The future of genetic studies of complex human diseases. Science. 1996, 13;273(5281):1516-7.
来源:BioGossip BioArt
原文链接:http://mp.weixin.qq.com/s?__biz=MzA3MzQyNjY1MQ==&mid=2652479492&idx=1&sn=a10ddee924186095ac36fe3c2ada36bc&chksm=84e233b0b395baa64e9874c51b5d599cab64dcac24d04258f83345275dfcc8931c0b9da12ad4&scene=27#wechat_redirect
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn