请输入关键字
搜索

太初资讯

跨越技术壁垒,打破固有模式,用智慧重新链接关系。

神碁智慧·算领未来 | 太初2024优秀开发者故事

2024年,太初举办了多场精彩纷呈的开发者生态活动,例如:元碁智汇·定义未来-模型复现赛、SDAA C算子挑战赛、开放原子大赛-Tecorigin挑战赛等,吸引了数百位开发者参加。伴随着SDAA生态的孕育,开发者们在各个活动中大放异彩。

西安交通大学张栋旭:
优化算子性能,提升计算效率
张栋旭同学是西安交通大学软件工程专业的在读研究生,曾获得计算机能力挑战赛C++组国家二等奖,以及计算机网络对战赛西北赛区一等奖,并发表了三篇学术论文。2024年Q4,他与香港中文大学和北京师范大学的两名队友一起,在开放原子大赛-Tecorigin算子开发任务挑战赛中,荣获一等奖。
在比赛中,张栋旭基于太初 AI 加速卡,对 Conv_forward 这一 CNN 卷积前向传播的关键操作进行了深度优化。他通过将预处理逻辑从设备端转移到 CPU 端,避免了设备端计算资源的浪费;手动调整初始分块参数,实现了线程负载的均衡,有效减少了性能瓶颈;同时运用 SIMD 加速,替换了原有的数据写回方式,大幅降低了开销。经过一系列优化,性能得到了显著提升,从优化前的 18.25 ms降低至优化后的 8.41 ms,充分展现了太初AI加速卡在性能优化方面的强大潜力。

张栋旭表示:

通过参加本场赛事,在高性能计算方面的知识得到了显著积累,加深了对算子性能优化方法的理解与应用。将复杂问题中的前处理与计算任务有效分离,这不仅提高了代码的执行效率,还使得代码结构更加清晰,易于维护和扩展。比赛所提供的教程详尽且易于上手。这些教程不仅系统地介绍了SDAA C的基本概念,还通过实例引导我快速实践,极大地降低了学习门槛,使我在短时间内能掌握核心知识。感谢大赛官方提供的机会,也感谢团队的努力与支持。


北京邮电大学王涛:
复现开源视觉模型,超越官方指标
王涛同学是北京邮电大学电子科学与技术专业的在读博士,研究方向涵盖人体姿态估计、后处理和生成等领域,曾以第一作者身份在 AI 顶会 ACM MM、CVPR 上发表两篇论文。2024年Q2,王涛参加了太初的小模型复现比赛,基于太初AI加速卡对开源模型进行适配优化,获得了元碁开物初级认证。

考虑到全连接网络(FCN)在人工智能领域的基础性地位,王涛首先复现了基于FCN的人体姿态后处理算法SmoothNet。得益于TecoPyTorch框架优秀的接口适配,王涛仅更改了几行代码就将基于CUDA设备的代码迁移到了SDAA设备上,完成了SmoothNet pipeline的复现。进一步,他在TecoPyTorch上开启了混合精度训练,成功将模型训练速度提升了40%。最终,复现模型不仅达到了官方基准性能,更在部分指标上超越了原论文报告的结果,充分展现了太初AI加速卡在硬件和软件层面的卓越计算精度。

在第二个模型的选择上,王涛着眼于当前主导大语言模型领域的Transformer架构,探索太初AI加速卡的广泛适用性。他选取了基于Transformer的人体动作预测网络MRT作为研究对象,通过规范化官方开源代码,使其能够兼容CPU、CUDA和SDAA等多种设备,为用户提供了灵活的设备选择空间。随后,他深入探索了TecoPyTorch的多卡训练能力,通过三种不同的启动方式实现多卡并行训练,并结合混合精度技术进一步优化了MRT的训练效率。这种训练策略具有广泛的适用性,能够满足大多数科研工作者的需求。最终,复现模型完全达到了官方性能标准,这充分证明了TecoPyTorch对Transformer架构的良好支持。

王涛表示:

回顾整个参赛历程,我不仅深化了对混合精度训练和多卡并行技术的理解,更在评委们严谨的评审标准下提升了代码接口规范化的意识。太初软件生态的卓越适配性给我留下了深刻印象:仅需一条简单命令即可完成模型设备的迁移,极大降低了科研人员的迁移成本。TecoPyTorch提供的教程文档内容丰富、易于理解,显著降低了学习曲线。特别值得一提的是,太初AI加速卡在显著提升训练速度的同时,其超低功耗特性也为降低训练过程中的碳排放做出了重要贡献。我十分期待在未来的科研工作中继续使用太初AI加速卡,为推动AI技术的发展贡献自己的力量。


苏州大学苏仪:
适配自研大模型,拓展应用边界
苏仪是苏州大学计算机科学与技术专业的在读研究生,主要研究方向为大语言模型的预训练和推理加速。他曾以第一/共一作者身份在顶会 ACL、EMNLP 上发表了三篇论文。苏仪基于太初 AI 加速卡,对苏大自研的大语言模型 OpenBA-V2 进行了适配和指令微调,取得了显著成果。
在适配过程中,苏仪修改了 cross-attention API,使其支持 OpenBA-V2 的 encoder-decoder 类型;在将文本转换成tokens的过程中,增加了 SentencePieceTokenizer;针对optimized-ul2预训练任务,添加数据预处理代码。微调过程中,他针对 optimized-ul2 预训练任务,添加了数据预处理代码,并搜集处理了 1 亿条中英指令数据;针对 8 机 64 卡与实际模型结构,调整了分布式策略,修改 TP、DP、PP 参数,以获得最优的硬件利用率;同时,在多机多卡的训练过程中进行了精度排查,提升了模型的可靠性。最终,微调后的 OpenBA-V2 在 C-Eval、MMLU、CMMLU 数据集上的评测准确率分别提升了 13%、13%、12%。

苏仪表示:

本次活动中我获得了十分难得的多机多卡训练机会,在64卡上完成了自研模型的训练。使用 torch2.0 以上版本 + 太初开发的 torch_sdaa 后端,可以在用户层面实现太初AI加速卡和友商加速卡的无缝切换。通过这次活动,还学习了分布式系统下的debug技巧,以及如何在分布式训练的场景下通过调整超参提升模型的训练效率,这对我以后的训练经验是非常重要。

总结与展望

2024年,太初生态活动不仅为开发者提供了强大的算力和易用的软件,还通过丰富的教程和文档,帮助开发者快速上手,轻松完成模型运行、应用开发/运行、模型迁移、算子开发、自研模型开发等任务。
通过参加太初生态活动,开发者们不仅提升了自身的技术水平,还加深了对算子优化、混合精度训练、多机多卡训练、分布式系统调试等方面的理解。开发者们对太初AI加速卡强大的计算能力及软件优秀的适配性给予了高度评价。
展望未来,我们将为开发者提供更多精彩的生态活动,希望更多的开发者能够加入到这一充满活力的社区中,共同探索 AI 技术的无限可能,为构建未来智能世界贡献自己的力量。