请输入关键字
搜索

太初资讯

跨越技术壁垒,打破固有模式,用智慧重新链接关系。

智算未来·科创共建 | 太初元碁携手湖南大学,共建计算基因组学新生态



在全球科技竞争日益激烈的今天,自主算力已成为国家科研创新的关键基础设施。在此背景下,高校和科研机构作为基础创新研究的策源地,正发挥着不可替代的作用。

太初元碁携手湖南大学生物学院计算基因组学团队,基于太初全国产AI算力和全流程软件栈,共同解锁生命的终极密码,共建计算基因组学新生态。


基于太初AI加速卡,自研 DNA 语言模型 MxDNAPro


MxDNAPro 模型是一个专门阅读理解DNA语言的人工智能大模型,能够深度解读 DNA:快速精准地找出 DNA 最可能导致疾病的遗传变异、预测出哪些DNA区域或分子可能成为治疗疾病的新靶点。

该自研 MxDNAPro 模型在多项基因功能预测任务中表现优异,超越主流模型,并能够显著提升计算效率,为复杂基因序列精准建模和DNA语言潜在规律探索开辟了新范式。

MxDNAPro 模型首创自主学习划分token策略,通过可变形卷积与稀疏专家模块,让模型自行识别生物学意义片段;并引入交叉注意力(Cross-Attention)机制,实现任意输入/输出长度的精准对齐;同时基于八张太初AI加速卡的多卡并行训练和 FlashAttention 算子库,提升训练吞吐量、缩短训练时间。

MxDNAPro 模型的平均性能,相较 DNABERT-2 模型,AUC 提高约 1.9%;组蛋白标记预测,相较 DNABERT-2 模型,AUC 提高约 3.4%;并形成一套可复用、可加速、可解释的 DNA 语言模型训练框架。


基于太初AI加速卡,自研遗传变异模型 SNPBERT


SNP 是基因组中最普遍且与复杂遗传疾病关联最紧密的变异类型。SNPBERT 模型开创性地借鉴自然语言处理思想,将 DNA 序列视作“语言”,利用 Transformer 架构精准捕捉单碱基的复杂上下文关系。

该自研 SNPBERT 模型实现了高精度的基因型填充(imputation),大幅提升了下游疾病关联研究与功能预测的准确性,为解锁疾病机制和推动个性化健康管理提供关键洞见。

SNPBERT 模型通过 Byte Pair Encoding 的 token 词汇本进行编码,并在此基础上采用 RoPE(Rotary Position Embedding)对 token 位置进行编码;基于 Transformer 框架,创新性地引入父系/母系双掩码自监督预训练,实现等位基因级的并行碱基预测;并分别编码父系与母系两条单倍型序列,在同一位置同步掩码并预测碱基,解码后形成精准的基因型推断;同时基于八张太初AI加速卡的多卡并行训练和 FlashAttention 算子库,提升模型训练速度。

SNPBERT 模型训练时间缩短 50%;整体吞吐量提升 80%;并借助太初元碁的 FP16/FP8 混合精度训练,GPU 显存占用降低约 30%;batch size 从 128 增大至 256。


基于太初AI加速卡,复现核糖体图谱预测模型 Translatomer


基因表达调控涉及转录和翻译,当前疾病遗传研究更多关注遗传变异对转录过程的影响,而忽视对翻译过程的影响。Translatomer 模型通过基因序列和转录组数据,能够精准预测核糖体图谱,并挖掘影响翻译过程的疾病相关遗传变异,显著降低高昂的核糖体印记测序成本,提高研究效率,进而加速疾病遗传机制研究成果的转化与应用。



基于TecoPyTorch的高度兼容性和太初元碁已适配的PyTorch Lightning框架,团队成员在《TecoPyTorch迁移手册》的指引下,3小时即完成Translatomer 模型在太初AI加速卡上的复现。并进一步,在TecoPyTorch上开启了DDP 分布式训练,将训练时长缩短为单卡A100的1/3。最终,复现后模型的预测准确度较传统方法提升了62%。

合作感受


本次合作,湖南大学的合作者均表示:

● 国产卡体验好,算子深度适配:在高性能计算方面的知识得到了显著积累,之前一直是使用 Nvidia 的计算卡,现在体验到国产卡也非常不错。太初AI加速卡同样支持 flash-attention 的加速训练算子,这点非常给力。

● 性能强劲,迁移成本低:太初AI加速卡性能强劲,多卡并行训练 Translatomer 模型,极大地缩短了训练时长。同时核糖体图谱预测模型中主要使用的 PyTorch Lightning 库,太初AI加速卡也均支持,复现效率高。

● 教程详细、易于上手:太初元碁提供的教程详尽且易于上手。这些教程不仅系统地介绍了 SDAA 的基本概念,还通过实例引导我快速实践,极大地降低了学习门槛,使我在短时间内能掌握核心知识。

● 工程师专业素养过硬,响应迅速:代码开发过程中遇到的问题,太初元碁的工程师们能够在生态支持群中快速响应,第一时间给出解决方案,非常高效。


从驱散病魔的第一颗火种到抗生素革命再到基因组解码,医疗创新的每次跃迁都在重构人类文明的坐标。当前中国科技的版图在加速扩张,太初元碁正在做的,不是简单地提供算力资源,更是为科学技术埋下创新的种子。

太初元碁将持续向高校青年教师、博士、研究生团队提供国产AI算力资源,并提供丰富的学习资源、专业的技术支持团队,同时优秀的科研项目会通过太初元碁官网、行业峰会、媒体渠道进行案例宣传,对具备商业化潜力的成果,优先提供产业资源对接,加速从实验室到市场的跨越。

如果您的研究方向涵盖AI基础算法、垂直行业应用,可提交研究计划(涵盖所需模型、数据量、项目时间)至邮箱 [ tecodeveloper@tecorigin.com ],期待与您的合作。




湖南大学生物学院计算基因组学课题组的罗宵教授带领团队与太初元碁开展深度合作,强化国产AI算力在生物信息学领域的应用效能,推动构建自主可控的生物信息学硬件生态,打破国外技术垄断,为我国生命科学研究的独立创新发展筑牢根基:

● 罗宵教授:湖南大学生物学院博士生教授,博士生导师。长期从事计算基因组学与生物信息学研究。近五年开发了多个生物信息学算法软件及人工智能模型,用于基因组测序纠错、组装及表型预测等。主要研究方向:单倍型(端到端)基因组组装、图泛基因组、人工智能与大模型驱动的生物表型预测与解读(该团队长期招聘博士研究生和博士后,有意者可联系罗宵教授 xluo@hnu.edu.cn)。

● 杨城:湖南大学信息科学与工程学院博一在读,主要方向:基因组大语言模型的预训练。以第一/共一作者身份在国际权威期刊发表4篇论文,曾荣获研究生国家奖学金(2022)、省人工智能创新大赛三等奖(2021)。

● 凌雷:湖南大学生物学院博一在读,研究方向:多组学整合、全基因组预测。曾任职于国内头部蛋白质组学企业杭州景杰生物,担任高级生物信息工程师,研发落地多项前沿生信AI产品;在生物信息学高水平期刊Genomics, Proteomics & Bioinformatics  (IF = 11.5) 发表论文;此外,将AI应用于生态地理学相关研究,发表2篇SCI论文。