神碁智慧·算领未来 | 太初2024优秀开发者故事
2024年,太初举办了多场精彩纷呈的开发者生态活动,例如:元碁智汇·定义未来-模型复现赛、SDAA C算子挑战赛、开放原子大赛-Tecorigin挑战赛等,吸引了数百位开发者参加。伴随着SDAA生态的孕育,开发者们在各个活动中大放异彩。

张栋旭表示:
通过参加本场赛事,在高性能计算方面的知识得到了显著积累,加深了对算子性能优化方法的理解与应用。将复杂问题中的前处理与计算任务有效分离,这不仅提高了代码的执行效率,还使得代码结构更加清晰,易于维护和扩展。比赛所提供的教程详尽且易于上手。这些教程不仅系统地介绍了SDAA C的基本概念,还通过实例引导我快速实践,极大地降低了学习门槛,使我在短时间内能掌握核心知识。感谢大赛官方提供的机会,也感谢团队的努力与支持。
考虑到全连接网络(FCN)在人工智能领域的基础性地位,王涛首先复现了基于FCN的人体姿态后处理算法SmoothNet。得益于TecoPyTorch框架优秀的接口适配,王涛仅更改了几行代码就将基于CUDA设备的代码迁移到了SDAA设备上,完成了SmoothNet pipeline的复现。进一步,他在TecoPyTorch上开启了混合精度训练,成功将模型训练速度提升了40%。最终,复现模型不仅达到了官方基准性能,更在部分指标上超越了原论文报告的结果,充分展现了太初AI加速卡在硬件和软件层面的卓越计算精度。
在第二个模型的选择上,王涛着眼于当前主导大语言模型领域的Transformer架构,探索太初AI加速卡的广泛适用性。他选取了基于Transformer的人体动作预测网络MRT作为研究对象,通过规范化官方开源代码,使其能够兼容CPU、CUDA和SDAA等多种设备,为用户提供了灵活的设备选择空间。随后,他深入探索了TecoPyTorch的多卡训练能力,通过三种不同的启动方式实现多卡并行训练,并结合混合精度技术进一步优化了MRT的训练效率。这种训练策略具有广泛的适用性,能够满足大多数科研工作者的需求。最终,复现模型完全达到了官方性能标准,这充分证明了TecoPyTorch对Transformer架构的良好支持。

王涛表示:
回顾整个参赛历程,我不仅深化了对混合精度训练和多卡并行技术的理解,更在评委们严谨的评审标准下提升了代码接口规范化的意识。太初软件生态的卓越适配性给我留下了深刻印象:仅需一条简单命令即可完成模型设备的迁移,极大降低了科研人员的迁移成本。TecoPyTorch提供的教程文档内容丰富、易于理解,显著降低了学习曲线。特别值得一提的是,太初AI加速卡在显著提升训练速度的同时,其超低功耗特性也为降低训练过程中的碳排放做出了重要贡献。我十分期待在未来的科研工作中继续使用太初AI加速卡,为推动AI技术的发展贡献自己的力量。


苏仪表示:
本次活动中我获得了十分难得的多机多卡训练机会,在64卡上完成了自研模型的训练。使用 torch2.0 以上版本 + 太初开发的 torch_sdaa 后端,可以在用户层面实现太初AI加速卡和友商加速卡的无缝切换。通过这次活动,还学习了分布式系统下的debug技巧,以及如何在分布式训练的场景下通过调整超参提升模型的训练效率,这对我以后的训练经验是非常重要。

总结与展望
