首页 > 农业生物基因研究中心 > 科研工作

基因中心参与构建轻量型猪基因组语言模型家族Porcine MutBERT

时间:2026-07-01 09:51 来源:本网 【字体:

  近日,国际生物信息学权威期刊《Briefings in Bioinformatics》(中科院数学与计算生物学一区,IF=7.7)发表“Porcine MutBERT: A Family of Lightweight Genomic Foundation Models for Functional Element Prediction in Pigs”研究论文,成功构建轻量型猪基因组语言模型家族Porcine MutBERT。由香港科技大学、中国农业科学院深圳农业基因组研究所和北京畜牧兽医研究所、广东省农科院基因中心联合完成。广东省农科院基因中心王子帅副研究员为通讯作者。

  猪不仅是重要的肉类来源,也是与人类生理高度相似的模式动物,在疾病研究与异种器官移植中具有重要价值。功能元件的精准注释是解析猪基因组调控规律、推动智能育种的关键基础。然而,现有基因语言模型大多基于人类数据训练,对猪基因组的驯化选择特征缺乏适配性,且模型参数庞大、部署成本高,难以满足农业领域实际需求。

  为此,研究团队创新构建了轻量型猪基因组语言模型家族Porcine MutBERT,该模型仅含86M参数,并首次引入“突变优先学习”策略,优先关注猪群中真实存在的SNP突变和进化保守位点,显著提升了对调控元件、非编码功能区域及驯化选择信号的捕捉能力。同时,团队构建了猪领域首个多任务功能基因组学评测平台PorcineBench,涵盖染色质开放性、CTCF结合位点及多种组蛋白修饰预测任务,为模型性能提供了标准化评估体系。实验结果表明,Porcine MutBERT在多项任务上整体性能接近甚至超过部分超大参数模型,并显著优于跨物种通用模型。

  该研究不仅为猪功能基因组学研究提供了精准、低成本的底层解析工具,也为构建其他农业动物的专属基因语言模型体系奠定了方法学基础,有望推动精准育种和农业人工智能的发展。

  本研究得到生物育种国家科技重大专项(2023ZD04076)、广东省科技计划项目(2024QN11N085)、猪禽育种产业国家重点实验室基金(GDNKY-ZQQZ-K6和GDNKY-ZQQZ-K19)和省乡村振兴战略专项资金种业振兴行动项目(2024-XPY-00-015)等项目支持。

  原文链接:https://doi.org/10.1093/bib/bbag319

20260630-4.png


地址:广州市天河区金颖路20号创新大楼西裙楼1楼    邮编:510640

粤公网安备44010602013764号粤公网安备44010602013764号 粤ICP备16101361号