请输入关键字
搜索

太初资讯

跨越技术壁垒,打破固有模式,用智慧重新链接关系。

强化模型训推效能,太初元碁发布新版本的TecoPyTorch深度学习框架


近日,太初元碁发布基于PyTorch 2.7.1打造的深度学习框架——TecoPyTorch v2.3.0!新版本在上游框架兼容、模型覆盖、分布式训练及编译优化等多个维度实现全方位升级,显著增强对大规模深度学习模型训练与推理的全流程支持,助力PyTorch开发者无缝迁移至太初AI加速卡,高效完成模型开发与应用部署。

神碁智慧,算领未来。现在,让我们一同探索TecoPyTorch v2.3.0的核心功能与特性。

整体介绍


TecoPyTorch是太初元碁为拥抱PyTorch生态并结合太初AI加速卡特性所开发的深度学习框架。依托PrivateUse1机制,本框架无缝兼容PyTorch原生API,并通过高效整合太初元碁的底层组件,极致释放太初AI加速卡的算力潜能,为用户提供流畅、高效的PyTorch开发与部署体验。


产品亮点


1.兼容PyTorch生态,支持CUDA代码一键迁移

  • 多版本PyTorch适配:适配多个PyTorch主流版本,如:PyTorch 2.7.1、PyTorch 2.4.0、PyTorch 2.0.1等,与社区同步更新,兼容性强。

  • 支持原生API,实现CUDA代码一键迁移:提供与torch.cuda模块一致的API接口,支持CUDA代码一键迁移,简化开发流程。

  • 兼容PyTorch官方库:支持torchvision、torchaudio、torchdata等PyTorch官方库,扩展功能丰富,提升开发效率。

  • 支持框架管理功能:支持Stream、Event管理及存储序列化,提升数据处理效率。


    2.支持全栈AI模型,兼容多个三方库与国产化平台

    • 支持多种经典CV模型:支持ResNet50、YOLO、Swin Transformer、Mask R-CNN等经典计算机视觉模型。

    • 支持多种经典NLP模型:支持GPT-2、BERT、Seq2SeqTransformer等典型NLP模型。

    • 支持主流大模型的微调和预训练:支持DeepSeek、Qwen、LLaMA、LLaVA等主流大模型的微调和预训练。

    • 适配多个主流三方库:支持MMCV、Diffusers、Transformers、FastChat等10+三方库。

    • 支持国产化部署:支持部署在申威、海光、龙芯、珠峰等国产CPU及国产操作系统。


      3.支持多种训练策略与方法,训练高效稳定

      • 支持多种高效训练方法:支持同步、异步训练与自动混合精度训练(含BFloat16)等训练方法,训练稳定高效。

      • 支持多种分布式训练策略:支持DDP、FSDP、张量并行、流水并行、Offload等分布式训练策略,满足不同规模模型的训练需求。

      • 支持多种性能优化技术:支持torch.compile、SDAA Graph等性能优化技术,提升训练性能。

      • 算子优化与自定义算子扩展:深度优化高频算子,如:FlashAttention、RotaryEmbedding等,充分发挥硬件性能,同时支持开发与接入自定义算子,满足特定开发需求。


        4.支持多种性能优化工具

        • 性能分析与定位:支持PyTorch原生Profiler,快速定位性能瓶颈,提升模型训练效率。

        • 显存管理机制:提供多策略显存管理与优化机制,智能管理分配资源,降低显存占用。

        • 显存可视化:提供显存快照、可视化及历史记录接口,支持PyTorch可视化工具memory_viz。


          v2.3.0新增特性


          TecoPyTorch v2.3.0在原生PyTorch框架兼容、分布式训练、编译优化、模型与算子覆盖等多个维度实现全方位升级,助力PyTorch开发者,高效完成模型开发与应用部署。

          • 多版本PyTorch支持:同时适配原生Pytorch2.4.0和2.7.1,并具备兼容PyTorch 2.5、PyTorch 2.6的能力。

          • FSDP2分布式训练支持:在DDP基础上新增FSDP、FSDP2等原生并行方案,并加强对Megatron-LM、DeepSpeed、vLLM等大模型训推框架的支持。

          • 引入SDAA Graph加速技术:新增SDAA Graph技术支持,降低主机开销,实现端到端的计算加速。

          • 模型与算子支持:新增数百个算子及开源模型适配支持,深度优化LLaMA、DeepSeek等主流大模型,对PyTorch算子综合覆盖率超80%。


            主要历史版本迭代


            TecoPyTorch的主要历史迭代版本如下:

            • v0.7.0(2022.11)

            适配PyTorch 1.10版本,构建自动混合精度训练(AMP)、数据并行(DDP)等基础能力。

            • v0.15.0(2023.11)

            适配Pytorch 2.0.1,完善DDP与Profiler功能,扩展算子支持。

            • v2.0.0(2025.01)

            适配PyTorch 2.4.0,基于PrivateUse1机制适配torch,支持torch compile、autoload、自动迁移、自定义算子扩展等功能,同时支持更多PyTorch算子。

            • v2.3.0(2025.09)

            适配PyTorch 2.7.1,大幅增强算子和模型支持,强化torch compile、自定义算子扩展与分布式训练(FSDP/FSDP2)等功能,兼容PyTorch 2.5/2.6。


            行业落地


            在教育和科研等领域,TecoPyTorch持续助力用户高效实现国产AI框架适配与智能化应用落地:某省属重点大学依托太初元碁的TecoPyTorch + Teco-vLLM框架,构建“教学-科研-产业”三位一体的国产化AI平台,实现全栈国产化软硬件的无缝适配和训推一体能力部署,打通从教学到应用的闭环。某科研所基于太初元碁TecoPyTorch开展前沿算法研究,通过动态图优化与混合精度训练技术,将大规模模型实验周期缩减50%,大幅提升国产芯片利用率。

            这些实践标志着TecoPyTorch正成为连接前沿研究与产业实践的重要桥梁,未来,TecoPyTorch将持续深化技术迭代,以更贴合行业需求的能力,为教育科研创新与国产AI生态落地注入持久动力。


            学习资源

            更多详细信息,可以登录太初官方文档中心(http://docs.tecorigin.com/),快速获取TecoPyTorch的海量学习资源。