1、介绍cann-recipes-train仓开源的内容及规划,介绍Qwen2.5-1.5B模型RL训练入门样例。

2、介绍DeepSeek-R1-671B模型的RL训练全流程优化实践样例,包含推理、训练、训推调度等各阶段。

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐