3月28日消息,中科院旗下基因组蛋白质组与生物信息学报公布了2024年度“中国生物信息学十大进展”,阿里云、中山大学联合研究成果入选。据介绍,该研究团队使用AI算法,发现了180个病毒超群和16万余种全新RNA病毒,将已知病毒种类扩充了近30倍,大幅提升了业界对RNA病毒多样性和病毒演化历史的认知。

阿里云、中山大学联合研究成果入选2024年度“中国生物信息学十大进展”
基因组蛋白质组与生物信息学报(简称GPB)是由中国科学院主管、中国科学院北京基因组研究所(国家生物信息中心)与中国遗传学会共同主办的英文学术期刊,其评选的“中国生物信息学十大进展”,代表了中国研究团队在基因组学、蛋白质组学、生物信息学等领域的重大成果。
在本次入选的研究成果“Using artificial intelligence to document the hidden RNA virosphere”中,阿里云和中山大学研究团队创新性将AI应用于病毒发现领域,提出了全新的深度学习模型"LucaProt",该模型基于Transformer架构,在病毒发现的准确率、效率及检测病毒多样性上均优于传统方法,有效解决了缺乏同源性或同源性极低的“暗物质病毒”发现效率低的难题。
资料显示,该研究团队对来自全球生物环境样本的10,487份数据进行病毒挖掘,发现了513,134条病毒基因组,代表161,979个潜在病毒种及180个RNA病毒超群。实验结果使RNA病毒超群数量扩容约9倍,病毒种类增加约30倍,其中23个超群是无法通过序列同源方法识别病毒圈“暗物质”。凭借在病毒学领域取得的多项突破,该成果还登上国际顶级学术期刊《Cell》封面。

目前,LucaProt核心代码及成果均已开源,全球研究机构和高校都可以直接使用该技术进行科学研究。阿里云研究团队表示,该研究不仅适用于RNA病毒的发现,未来还可以应用于其它类型蛋白质的鉴定和功能发现任务。
据介绍,阿里云在生命科学领域已发表核酸和蛋白质统一基础模型-LucaOne、RNA病毒发现-LucaProt、磷循环蛋白家族识别-LucaPCycle等多项研究成果。
(责任编辑:张紫祎)