基因组由DNA组成,它不仅包含蛋白质的编码序列,还包含大量不编码蛋白质调控序列。这两类序列协同作用,共同决定生物体的复杂表型特征,讲述着生物体的古老遗传语言。
读懂海量基因背后的调控密码,是科学家们一直致力于攀登的科学高峰。
浙江大学郭国骥教授团队在具有完全自主知识产权的超高通量超灵敏单核ATAC测序技术(UUATAC-seq)基础上,开发多任务深度学习模型女娲CE(NvwaCE),实现了从基因组序列到单细胞水平调控序列图谱的直接预测。该成果以“Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning”为题,于北京时间7月8日,发表在《细胞》上。
2003年起,人类基因组计划集全球顶尖科学家之力,绘制出人类基因图谱。但时至今日,科学家对其中的遗传信息破译了不足10%。如何快速、系统性理解复杂生命系统?近年来涌现的人工智能(AI)模型崭露锋芒。
AI模型要学得好,训练用的“教材”,即数据的质量至关重要。
“我们认为,与结构AI模型相比,基因组AI模型所面临的瓶颈在于发表数据质量参差不齐,批次效应大。”深耕单细胞组学技术的郭国骥团队,曾基于自主研发的Microwell-seq高通量单细胞测序平台,发布了世界首个小鼠细胞图谱和人类细胞图谱。经过多年积累,团队迭代建立起了超高通量、超灵敏单核ATAC测序技术:UUATAC-seq。
“调控序列就像基因中的‘功能开关’,处于开放、舒展的状态。”郭国骥介绍说,不同细胞处于开放状态的染色质区域不一样,构建染色质可及性图谱,相当于为基因组绘制“功能地图”,建立了深度学习遗传“语言”的数据基础。
以UUATAC-seq技术为基础,研究团队构建了覆盖小鼠、鸡、守宫、蝾螈和斑马鱼这五种代表性脊椎动物的全身单细胞染色质可及性图谱,并由此鉴定出数百万个候选顺式调控序列(cCREs),系统性地揭示了贯穿脊椎动物演化的细胞类型特异性调控程序。
“我们发现,脊椎动物调控语法的保守性明显强于核苷酸序列本身,且该语法将脊椎动物调控原件序列在高维分类为不同的功能模块。”郭国骥说,这进一步揭示了细胞类型特异性基因表达的序列基础。
有了这套“教材”,深度学习模型“女娲CE”顺势诞生,成为了团队拓展研究深度的得力助手。
通过学习UUATAC-seq技术获得的大量高质量数据,“女娲”读懂了脊椎动物的调控序列编码规则,能够基于一维DNA序列,预测其在任意脊椎动物单细胞中的染色质可及性水平。
值得一提的是,“女娲”的高泛化能力能够从基因组序列出发预测未经训练物种的染色质可及性图谱,其对于人类调控元件可及性水平的预测值与实验测量值显示出较好的相关性。
“‘女娲’模型在多项指标上,超越现有的基因组AI模型,并能精准预测合成突变对谱系特异性调控序列功能的影响。”郭国骥介绍,“女娲”不仅能够预测出细胞各个位置发生突变之后带来的表型变化,也能结合疾病的表型,设计出相应的治疗位点。
那在实战演练中“女娲”表现如何?
HBG1-68:A>G是“女娲”在功能实验中预测出的一个镰刀型贫血症治疗性基因位点。“经过对该点位的基因治疗,胎儿血红蛋白表达量的显著提升,这将能弥补镰刀型贫血症β血红蛋白的功能缺失。”郭国骥说,这是世界上首例验证的由人工智能设计的人类疾病治疗性位点,为未来全面解读基因组语言和建立数字生命模型奠定了坚实的基础。
与国外同行相比,“女娲”基于迄今为止最高质量的单细胞图谱数据,并对几乎所有的细胞类型实现了AUROC>0.90的预测准确率,这是其他基因组AI模型暂时无法企及的。
“这项研究不仅提供了宝贵的跨物种单细胞数据资源,更创造了强大的基因组AI预测工具。”郭国骥表示,“女娲”模型在解读调控规则、理解遗传病发病机制以及设计合成调控序列等方面的能力,将为生命科学、医学和农学研究提供强大的支撑。
文字记者:查蒙
摄影记者:哲映
视频摄制:哲映
素材来源:医学院
采访联络:杨可
责任编辑:王作强
初审 :董承臻
终审 :刘春香 邓永军
版权与免责声明:(1)本网转载内容仅为信息传递,并非商业用途,(2)本网所转载文章内容,并不代表本网观点。 (3)本网转载文章如涉及作品内容、版权等相关问题,请在壹周内通过电子邮件与本网站联系,邮箱:zy91370786qq.com 我们将在第一时间对内容进行删除
Copyright @ 2020 www.zgjyjdw.cn All Rights Reserved
《教育新闻报》官方网站:http://www.zgjyxwb.com
教育监督网 官方网站:http://www.zgjyjdw.cn
广播电视节目制作经营许可证:(京)字第15763号
工信部备案许可证编号:京ICP备15045263号-4
地址:北京石景山区新华社第二工作区