[Dygraph]Add group sharded api #40129

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Merged

Baibaifan merged 1 commit into PaddlePaddle:develop from Baibaifan:add_sharding_api

Mar 9, 2022

Contributor

Baibaifan commented Mar 3, 2022 •

edited

Loading

PR types

New features

PR changes

APIs

Describe

Add group sharded api

group_sharded_parallel
save_group_sharded_model

import paddle from paddle.fluid.dygraph.nn import Linear from paddle.distributed import fleet from paddle.distributed.sharding import group_sharded_parallel, save_group_sharded_model fleet.init(is_collective=True) group = paddle.distributed.new_group([0, 1]) model = Linear(1000, 1000) clip = paddle.nn.ClipGradByGlobalNorm(clip_norm=1.0) optimizer = paddle.optimizer.AdamW(learning_rate=0.001, parameters=model.parameters(), weight_decay=0.00001, grad_clip=clip) # wrap sharding model, optimizer and scaler model, optimizer, scaler = group_sharded_parallel(model, optimizer, "p_g", scaler=scaler) img, label = data label.stop_gradient = True img.stop_gradient = True out = model(img) loss = paddle.nn.functional.cross_entropy(input=out, label=label) loss.backward() optimizer.step() optimizer.clear_grad() # save model and optimizer state_dict save_group_sharded_model(model, output=output_dir, optimizer=optimizer)

paddle-bot-old bot commented Mar 3, 2022

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

Baibaifan force-pushed the add_sharding_api branch from 7da90c1 to 644c5fe Compare

March 3, 2022 09:53

Baibaifan force-pushed the add_sharding_api branch from 644c5fe to fea2316 Compare

March 3, 2022 11:36

Baibaifan force-pushed the add_sharding_api branch from fea2316 to 75de31e Compare

March 3, 2022 11:50

Baibaifan requested review from ForFishes and gongweibao

March 3, 2022 11:52

Baibaifan force-pushed the add_sharding_api branch from 75de31e to 979330b Compare

March 3, 2022 12:59

Baibaifan closed this

Baibaifan reopened this

Baibaifan force-pushed the add_sharding_api branch from 979330b to d89d3bc Compare

March 4, 2022 07:07

Baibaifan force-pushed the add_sharding_api branch from d89d3bc to 9ccd0bc Compare

March 4, 2022 07:11

Baibaifan force-pushed the add_sharding_api branch from 9ccd0bc to a91b2ce Compare

March 4, 2022 08:16

Baibaifan force-pushed the add_sharding_api branch from a91b2ce to 23574a9 Compare

March 4, 2022 17:11

Baibaifan force-pushed the add_sharding_api branch from 23574a9 to d62832f Compare

March 7, 2022 05:23

XiaoguangHu01 reviewed

View reviewed changes

python/paddle/distributed/fleet/meta_optimizers/dygraph_optimizer/sharding_optimizer_stage2.py Outdated

Contributor

XiaoguangHu01 Mar 8, 2022

这里引入fluid的原因是什么？fluid下的api会被废弃。

Contributor Author

Baibaifan Mar 8, 2022

已经修改为paddle.autograd.no_grad()

python/paddle/distributed/sharding/group_sharded.py Outdated

Contributor

XiaoguangHu01 Mar 8, 2022

建议去掉这个对象，不需要为参数定义单独增加一个对象

直接在group_sharded_parallel函数里使用level='os'或者直接使用level=1，参考amp的level定义，一般理解level对应一个整数，类似verbose之类的
os, os_g, p_g_os是什么的缩写？可读性较差，是否有更好的表示方式？

Contributor Author

Baibaifan Mar 8, 2022 •

edited

Loading

经过讨论，去掉ShardedLevel，采用字符串名字"os", "os_g", "p_g_os"作为level，level名字和论文对齐。

python/paddle/distributed/sharding/group_sharded.py Outdated

Contributor

XiaoguangHu01 Mar 8, 2022

shard_level -> level
因为api名称已经包含sharded了，这里的参数默认都是针对shard的参数

Contributor Author

Baibaifan Mar 8, 2022

已修改

python/paddle/distributed/sharding/group_sharded.py Outdated

Contributor

XiaoguangHu01 Mar 8, 2022

除了group_sharded以外，是否还有其他的sharded方式？

Contributor Author

Baibaifan Mar 8, 2022

目前采用group_sharded的意思是分组参数切片，是和数据并行并列的一种分布式方式，所以定义为group_sharded。目前还未有其他sharded方式。

python/paddle/distributed/sharding/group_sharded.py Outdated

Contributor

XiaoguangHu01 Mar 8, 2022

这里不需要用__all__公开api，通过__init__.py公开就行
paddle.distributed.sharding.group_sharded_parallel
而不是
paddle.distributed.sharding.group_sharded.group_sharded_parallel

Contributor Author

Baibaifan Mar 8, 2022

已修改

python/paddle/distributed/sharding/group_sharded.py Outdated

Contributor

XiaoguangHu01 Mar 8, 2022

除了group外，是否还有其他的参数形式？
save_for_group_sharded -> save_sharded_model ? 或者save_group_sharded_model呢？
类似save_inference_model

Contributor Author

Baibaifan Mar 8, 2022

经讨论修改为save_group_sharded_model

Baibaifan force-pushed the add_sharding_api branch from d62832f to 5e1a31a Compare

March 8, 2022 11:37

Baibaifan force-pushed the add_sharding_api branch from 5e1a31a to 5a138c3 Compare

March 8, 2022 11:48

add_sharding_api

5c4621a

Baibaifan force-pushed the add_sharding_api branch from 5a138c3 to 5c4621a Compare

March 8, 2022 14:01

XiaoguangHu01 approved these changes

View reviewed changes

Contributor

XiaoguangHu01 left a comment

LGTM

dingjiaweiww approved these changes

View reviewed changes

XieYunshen approved these changes

View reviewed changes

Contributor

XieYunshen left a comment

LGTM for set_tests_properties(test_dygraph_group_sharded_api PROPERTIES TIMEOUT 120)

Baibaifan closed this

Baibaifan reopened this

Baibaifan merged commit f40ed5f into PaddlePaddle:develop

gongweibao reviewed

View reviewed changes

python/paddle/distributed/__init__.py

      from . import cloud_utils # noqa: F401  
    from . import utils # noqa: F401  
    
    from .sharding import * # noqa: F401

Contributor

gongweibao Mar 10, 2022 •

edited

Loading

Why import *?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment