DeepSeek-R1 RL训练优化实践分享

华为云开发者联盟

20人浏览 · 2025-10-30 14:39:33

华为云开发者联盟 · 2025-10-30 14:39:33 发布

1、介绍cann-recipes-train仓开源的内容及规划，介绍Qwen2.5-1.5B模型RL训练入门样例。

2、介绍DeepSeek-R1-671B模型的RL训练全流程优化实践样例，包含推理、训练、训推调度等各阶段。

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

cover

【openGauss】谈谈openGauss中的raw类型

华为开发者空间

cover

【openGauss】谈一谈PostgreSQL及openGauss中的package

华为开发者空间

cover

华为开发者名校行携手南开大学，深耕 AI 时代人才培养

华为开发者空间

所有评论(0)

查看更多评论