搜索 海报新闻 媒体矩阵

大众网
全媒体
矩   阵

扫描有惊喜!

  • 海报新闻

  • 大众网官方微信

  • 大众网官方微博

  • 时政公众号爆三样

  • 大众海蓝

  • 大众网论坛

  • 山东手机报

山东手机报订阅方式:

移动用户发送短信SD到10658000

联通用户发送短信SD到106558000678

电信用户发送短信SD到106597009

首页 >健康新闻 >产业

深入全基因组测序研究 解读人类“生命图纸”密码

2025

/ 02/19
来源:

大众网

作者:

手机查看

  ——东北师范大学数学与统计学院李子林教授团队

  人类基因组由约 30 亿个碱基对构成,是人类遗传学研究的核心。全基因组测序能够揭示生物体内蕴含的遗传信息,为认识生命的分子基础、了解遗传信息与生理功能的内在联系提供了关键途径。近年来,以二代测序技术为代表的高通量测序技术的发展为精准医疗科研工作者提供了海量的基因组学数据。但是,当前的基因组大数据分析面临着 3 个挑战:一是非编码基因组缺乏有效的分析方法;二是罕见变异分析统计功效低;三是面对海量数据,缺乏高效的分析工具。

  东北师范大学数学与统计学院李子林教授团队长期致力于大规模群体遗传与健康大数据的统计分析方法研究与软件开发应用,针对全基因组测序研究中大容量数据分析技术瓶颈、罕见变异分析检验功效低等关键问题开展研究攻关,取得了突破性进展。

  李子林教授

  1 创新发展全基因组测序研究系列方法

  全基因组测序数据规模庞大,数据维度高,这些特点给统计分析带来了巨大挑战。目前,虽然已有一些统计遗传学分析方法,但这类方法大多针对于常见变异和编码区域,对于罕见变异和非编码区域的分析能力仍显不足。

  李子林教授团队发展了全基因组非编码序列关联性分析方法 SCANG,比同类方法显著提高了检验功效;揭示了多组学数据的整合有助于致病性罕见变异的发现,发展了罕见变异关联性检验方法 STAAR;发展了全基因组数据一体化和自动化分析工具 STAAR pipeline,构建了首个全面的非编码基因组分析框架,突破了全基因组测序数据罕见变异分析的运算瓶颈;发展了全基因组测序数据罕见变异荟萃分析方法 MetaSTAAR,突破了测序数据罕见变异汇总统计数据的存储瓶颈,实现了隐私保护下多个大规模全基因组测序研究的整合分析。团队研发的 STAAR 系列方法自发表以来,受到了国际学术界的广泛关注和认可。

  2 推广 STAAR 系列方法用于中国人群基因组大数据分析

  目前,中国有超过 3 亿慢性病患者,他们的病死率占总病死率的 88%,医疗费用占总医疗费用的 70% 以上。研究估计,慢病的预防和治疗投入与产出比可能超过 1:10。在健康中国战略的号召下,李子林教授团队计划发展 STAAR 系列方法应用于中国大队列数据,分析中国人群的基因组大数据,构建疾病和复杂表型的遗传图谱,攻克慢性病预测难关。通过深入分析中国人群的基因组大数据,可以识别慢性病的易感基因,为疾病风险评估和早期筛查提供科学依据,推动精准预防的发展。

  同时,根据患者的遗传特征制定的个性化诊疗方案能够推动精准医疗的进步。此外,通过精准发掘致病基因和位点,还能为药物研发提供更多靶标,促进新的靶向药研发。李子林教授团队与国内医学界展开合作,推广应用 STAAR 系列方法和工具分析中国人群基因组大数据,深入研究中国人群的遗传特性和健康问题,在疾病的预防、诊断和治疗方面发挥关键作用,显著减轻慢性病带来的医疗负担。

  3 创新发展全基因组数据一体化和自动化分析工具

  为了“侦破”罕见变异所带来的其他隐性改变,学界做出了大量研究,同时涉及的测序数据也在激增。面对海量的数字架构数据,一个关键挑战就是缺乏全面、自动化、可扩展和高效的分析软件和工具,另一个挑战则是超过 98% 的遗传变异位于非编码基因组。也就是说,尽管在评估编码罕见变异对复杂性状的影响方面取得了一定的进展,但是目前非编码罕见变异分析仍存在较大的空白。因此,亟须开发针对基因组大数据中非编码罕见变异的统计分析方法和软件,以发现人类疾病和表型的遗传构架,找到导致疾病的遗传变异位点,开发新的药物靶标。

  针对这一难题,在林希虹院士的指导及亲自带队参与下,李子林教授团队开发了一款大规模全基因组测序数据非编码罕见变异关联分析工具 ——STAARpipeline。这是一款一体化关联分析流程,可自动化进行基因型数据与功能注释集成、关联分析及结果汇总和可视化。首先,STAAR pipeline 应用 FAVOR 数据库和FAVOR annotator 工具对全基因组数据进行功能注释。

  其次,STAAR pipeline 自动定义罕见变体集进行分析,对于以基因为中心的分析,STAAR pipeline 可提供基于 8 种非编码功能类别集的罕见变异分析;对于非以基因为中心的分析,STAAR pipeline 则提供了滑动窗口分析和动态窗口分析,提升了检验功效。再次,STAAR pipeline 通过 STAAR 方法引入并整合了多组学功能注释数据,进一步提高了检验功效。最后,STAAR pipeline利用广义线性混合模型控制人群结构和家系结构的混杂影响,适用于包括连续型和离散型表型在内的多种类型的表型数据,同时提供针对常见和低频变异的单体分析,并针对编码基因组提供基于 5 种功能类别集的罕见变异分析。

  目前,李子林教授团队已将 STAAR pipeline 应用于 TOPMed 全基因组测序数据中,高效地分析了 4 万人的 9 种表型。值得注意的是,STAAR pipeline 在以基因为中心的非编码分析中发现了 49 个显着性关联,其中35 个(71.4%)属于 6 个新的非编码功能类别集。动态窗口分析在非编码基因组中检测到 43 个非重叠的显着关联,比滑动窗口分析多了 19.4%。这些结果都表明,STAAR pipeline 是一个强大、资源高效且稳健的非编码罕见变异关联分析工具,可应用于大规模全基因组数据和生物库样本库数据。

  专家简介

  李子林(1988— ),东北师范大学数学与统计学院教授,主要研究方向为高维数据中的统计方法理论和统计遗传学。以第一作者或通信作者在 Journal of American Statistical Association、 Nature Methods和 Nature Genetics 等国际学术期刊发表相关研究成果。2023年当选为国际统计学会(International Statistical Institute)推选会员(Elected Member)。



  免责声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。对文章事实有疑问,请与有关方核实或与本网联系。文章观点非本网观点,仅供读者参考。

责编:孙海燕


审签:黄勇

相关推荐