西湖大学团队揭示人类基因组被忽视的13%
4月1日,西湖大学生命科学学院杨剑教授团队联合多家机构,在《自然》杂志上发表了一项重大研究成果。该研究引入了一种名为PIGA(基于泛基因组的联合组装)的新方法,并利用该方法成功构建了包含1116个高质量二倍体基因组的人类泛基因组。这是目前全球规模最大的泛基因组数据集之一,为深入理解人类遗传多样性以及复杂疾病的遗传基础提供了关键参考。
从“单一参考”迈向“群体代表”:方法创新推动规模化应用
传统的人类遗传学研究多依赖于一个线性参考基因组,该基因组基于少数个体构建,虽在过去二十多年中发挥了重要作用,但其在人口代表性方面存在明显局限。大量仅在特定人群中出现或个体间差异显著的序列无法被完整描述,限制了研究的广度与深度。
为解决这一问题,构建涵盖更广泛个体的“泛基因组”成为研究热点。泛基因组通过整合物种内所有个体的基因组信息,可更全面地反映群体遗传特征。然而,传统方法依赖高成本的长读长测序技术,难以在大规模人群中推广。
杨剑团队提出的PIGA方法旨在突破这一瓶颈。该方法结合二代测序(高精度但读长短)和三代测序(读长优势但误差率较高),在保障组装质量的同时大幅降低成本。基于此方法,研究团队对1116名中国个体的基因组进行了从头组装,最终构建的泛基因组错误率控制在五万分之一左右,展现出极高的准确性。
被忽略的4亿碱基:传统参考基因组的盲区
研究人员将新构建的泛基因组与当前广泛采用的GRCh38参考基因组进行比对,发现后者遗漏了超过4亿个碱基对,约占人类基因组总长度的13%。
这些未被收录的序列并非生物学上的“空白”地带。进一步分析表明,其中有约2620万个碱基对具有明确的功能属性,包括编码蛋白质的区域以及调控基因表达的关键元件。这表明,传统参考基因组在功能基因区域的覆盖上存在系统性缺失。
覆盖多种变异类型:揭示基因组复杂性
依托高质量泛基因组数据,研究团队构建了一张涵盖多种变异类型的遗传图谱,共识别出3540万个单核苷酸变异和小片段插入缺失。
同时,研究人员还系统检测到大量传统短读长测序难以捕捉的复杂结构变异,包括:
- 超过11万个结构变异(如大片段缺失、重复、倒位等);
- 48.5万个串联重复序列;
- 约86万个嵌套变异(即多个变异在基因组上重叠共存)。
这些复杂的变异在基因表达和调控中可能发挥关键作用,但由于技术限制,过去在大规模人群中研究时常被忽略。
功能变异定位:为疾病诊断提供新视角
研究团队进一步将上述变异与基因表达数据关联分析,首次在千人规模上实现了“全变异”表达数量性状位点(eQTL)的定位。结果表明,有3256个由复杂变异驱动的调控信号可显著影响基因表达水平。
这一发现对疾病遗传机制研究具有重要价值。许多疾病的致病因素涉及非编码区域的复杂变异,而传统方法常难以识别此类信号。该研究提供的数据资源,有助于更精准地识别与疾病相关的潜在功能变异。
此外,研究团队还对高度多态性的HLA基因区域进行了高分辨率分型,识别出1348个高分辨率等位基因。HLA区域与自身免疫疾病、器官移植排斥等密切相关,更精细的分型信息有望提升相关医学决策的准确性。
研究价值与未来方向
这项研究展示了大规模泛基因组分析在揭示人类遗传多样性方面的巨大潜力。与基于单一参考基因组的研究方法相比,泛基因组策略能更全面地捕捉群体内部的遗传差异,尤其在识别频率较低但功能影响显著的变异方面具有明显优势。
不过,研究也存在一定的局限。当前1116个样本主要来自中国人群,尽管样本规模庞大,但仍不足以全面代表全球人群的遗传多样性。研究团队表示,未来将拓展样本来源,并探索该方法在其他物种泛基因组研究中的适用性。
该研究获得了西湖大学、温州医科大学等机构的大力支持,相关数据已向科研界开放使用。