神碁智慧·算领未来 | 太初2024优秀开发者故事

发布时间：2025-01-23

2024年，太初举办了多场精彩纷呈的开发者生态活动，例如：元碁智汇·定义未来-模型复现赛、SDAA C算子挑战赛、开放原子大赛-Tecorigin挑战赛等，吸引了数百位开发者参加。伴随着SDAA生态的孕育，开发者们在各个活动中大放异彩。

西安交通大学张栋旭：

优化算子性能，提升计算效率

张栋旭同学是西安交通大学软件工程专业的在读研究生，曾获得计算机能力挑战赛C++组国家二等奖，以及计算机网络对战赛西北赛区一等奖，并发表了三篇学术论文。2024年Q4，他与香港中文大学和北京师范大学的两名队友一起，在开放原子大赛-Tecorigin算子开发任务挑战赛中，荣获一等奖。

在比赛中，张栋旭基于太初 AI 加速卡，对 Conv_forward 这一 CNN 卷积前向传播的关键操作进行了深度优化。他通过将预处理逻辑从设备端转移到 CPU 端，避免了设备端计算资源的浪费；手动调整初始分块参数，实现了线程负载的均衡，有效减少了性能瓶颈；同时运用 SIMD 加速，替换了原有的数据写回方式，大幅降低了开销。经过一系列优化，性能得到了显著提升，从优化前的 18.25 ms降低至优化后的 8.41 ms，充分展现了太初AI加速卡在性能优化方面的强大潜力。

张栋旭表示：

通过参加本场赛事，在高性能计算方面的知识得到了显著积累，加深了对算子性能优化方法的理解与应用。将复杂问题中的前处理与计算任务有效分离，这不仅提高了代码的执行效率，还使得代码结构更加清晰，易于维护和扩展。比赛所提供的教程详尽且易于上手。这些教程不仅系统地介绍了SDAA C的基本概念，还通过实例引导我快速实践，极大地降低了学习门槛，使我在短时间内能掌握核心知识。感谢大赛官方提供的机会，也感谢团队的努力与支持。

北京邮电大学王涛：

复现开源视觉模型，超越官方指标

王涛同学是北京邮电大学电子科学与技术专业的在读博士，研究方向涵盖人体姿态估计、后处理和生成等领域，曾以第一作者身份在 AI 顶会 ACM MM、CVPR 上发表两篇论文。2024年Q2，王涛参加了太初的小模型复现比赛，基于太初AI加速卡对开源模型进行适配优化，获得了元碁开物初级认证。

考虑到全连接网络（FCN）在人工智能领域的基础性地位，王涛首先复现了基于FCN的人体姿态后处理算法SmoothNet。得益于TecoPyTorch框架优秀的接口适配，王涛仅更改了几行代码就将基于CUDA设备的代码迁移到了SDAA设备上，完成了SmoothNet pipeline的复现。进一步，他在TecoPyTorch上开启了混合精度训练，成功将模型训练速度提升了40%。最终，复现模型不仅达到了官方基准性能，更在部分指标上超越了原论文报告的结果，充分展现了太初AI加速卡在硬件和软件层面的卓越计算精度。

在第二个模型的选择上，王涛着眼于当前主导大语言模型领域的Transformer架构，探索太初AI加速卡的广泛适用性。他选取了基于Transformer的人体动作预测网络MRT作为研究对象，通过规范化官方开源代码，使其能够兼容CPU、CUDA和SDAA等多种设备，为用户提供了灵活的设备选择空间。随后，他深入探索了TecoPyTorch的多卡训练能力，通过三种不同的启动方式实现多卡并行训练，并结合混合精度技术进一步优化了MRT的训练效率。这种训练策略具有广泛的适用性，能够满足大多数科研工作者的需求。最终，复现模型完全达到了官方性能标准，这充分证明了TecoPyTorch对Transformer架构的良好支持。

王涛表示：

回顾整个参赛历程，我不仅深化了对混合精度训练和多卡并行技术的理解，更在评委们严谨的评审标准下提升了代码接口规范化的意识。太初软件生态的卓越适配性给我留下了深刻印象：仅需一条简单命令即可完成模型设备的迁移，极大降低了科研人员的迁移成本。TecoPyTorch提供的教程文档内容丰富、易于理解，显著降低了学习曲线。特别值得一提的是，太初AI加速卡在显著提升训练速度的同时，其超低功耗特性也为降低训练过程中的碳排放做出了重要贡献。我十分期待在未来的科研工作中继续使用太初AI加速卡，为推动AI技术的发展贡献自己的力量。

苏州大学苏仪：

适配自研大模型，拓展应用边界

苏仪是苏州大学计算机科学与技术专业的在读研究生，主要研究方向为大语言模型的预训练和推理加速。他曾以第一/共一作者身份在顶会 ACL、EMNLP 上发表了三篇论文。苏仪基于太初 AI 加速卡，对苏大自研的大语言模型 OpenBA-V2 进行了适配和指令微调，取得了显著成果。

在适配过程中，苏仪修改了 cross-attention API，使其支持 OpenBA-V2 的 encoder-decoder 类型；在将文本转换成tokens的过程中，增加了 SentencePieceTokenizer；针对optimized-ul2预训练任务，添加数据预处理代码。微调过程中，他针对 optimized-ul2 预训练任务，添加了数据预处理代码，并搜集处理了 1 亿条中英指令数据；针对 8 机 64 卡与实际模型结构，调整了分布式策略，修改 TP、DP、PP 参数，以获得最优的硬件利用率；同时，在多机多卡的训练过程中进行了精度排查，提升了模型的可靠性。最终，微调后的 OpenBA-V2 在 C-Eval、MMLU、CMMLU 数据集上的评测准确率分别提升了 13%、13%、12%。

苏仪表示：

本次活动中我获得了十分难得的多机多卡训练机会，在64卡上完成了自研模型的训练。使用 torch2.0 以上版本 + 太初开发的 torch_sdaa 后端，可以在用户层面实现太初AI加速卡和友商加速卡的无缝切换。通过这次活动，还学习了分布式系统下的debug技巧，以及如何在分布式训练的场景下通过调整超参提升模型的训练效率，这对我以后的训练经验是非常重要。

总结与展望

2024年，太初生态活动不仅为开发者提供了强大的算力和易用的软件，还通过丰富的教程和文档，帮助开发者快速上手，轻松完成模型运行、应用开发/运行、模型迁移、算子开发、自研模型开发等任务。

通过参加太初生态活动，开发者们不仅提升了自身的技术水平，还加深了对算子优化、混合精度训练、多机多卡训练、分布式系统调试等方面的理解。开发者们对太初AI加速卡强大的计算能力及软件优秀的适配性给予了高度评价。

展望未来，我们将为开发者提供更多精彩的生态活动，希望更多的开发者能够加入到这一充满活力的社区中，共同探索 AI 技术的无限可能，为构建未来智能世界贡献自己的力量。

太初资讯

神碁智慧·算领未来 | 太初2024优秀开发者故事