[FlashMask] Add FlashMask for Qwen2 #9264

DrownFish19 · 2024-10-14T06:39:37Z

PR types

New features

PR changes

Others

Description

Add FlashMask for Qwen2.

对齐验证步骤：

修改shuffle为False

PaddleNLP/paddlenlp/trainer/trainer.py

Lines 1326 to 1345 in 0e96b0f

     def _get_train_sampler(self) -> Optional[paddle.io.Sampler]:  
   if self.train_dataset is None or not has_length(self.train_dataset):  
   return None  
    
   if self.args.world_size <= 1:  
   return paddle.io.BatchSampler(  
   dataset=self.train_dataset,  
   shuffle=True,  
   batch_size=self.args.per_device_train_batch_size,  
   drop_last=self.args.dataloader_drop_last,  
   )  
    
   return DistributedBatchSampler(  
   self.train_dataset,  
   batch_size=self.args.per_device_train_batch_size,  
   shuffle=True,  
   num_replicas=self.args.dataset_world_size,  
   rank=self.args.dataset_rank,  
   drop_last=self.args.dataloader_drop_last,  
   )  
 

验证指令

2.1 验证单卡与流水线并行的一致性

# pipeline parallel python -m paddle.distributed.launch \ --devices 6,7 \ run_finetune.py \ config/qwen/sft_argument.json \ --model_name_or_path Qwen/Qwen2-0.5B \ --gradient_accumulation_steps 1 \ --zero_padding true \ --flash_mask true \ --pipeline_parallel_degree 2

# data parallel python -m paddle.distributed.launch \ --devices 7 \ run_finetune.py \ config/qwen/sft_argument.json \ --model_name_or_path Qwen/Qwen2-0.5B \ --gradient_accumulation_steps 1 \ --zero_padding true \ --flash_mask true \ --pipeline_parallel_degree 1

对齐验证结果：

modeling + flashmask vs. modeling_pp + flashmask 前4步训练loss无diff，后续逐渐出现随机误差，误差范围在1e-3，符合bf16精度。

2.2 验证flashmask开关前后正确性
验证指令

# pipeline parallel python -m paddle.distributed.launch \ --devices 6,7 \ run_finetune.py \ config/qwen/sft_argument.json \ --model_name_or_path Qwen/Qwen2-0.5B \ --gradient_accumulation_steps 1 \ --zero_padding true \ --flash_mask true \ --pad_to_max_length true --pipeline_parallel_degree 2

数据类型为bf16时，训练loss误差范围为1e-3
数据类型为fp16时，训练loss误差范围为1e-4

…en2_add_flashmask

paddle-bot · 2024-10-14T06:39:42Z

Thanks for your contribution!

codecov · 2024-10-14T07:12:02Z

Codecov Report

Attention: Patch coverage is 20.37037% with 43 lines in your changes missing coverage. Please review.

Project coverage is 52.62%. Comparing base (220cc95) to head (b4a0ba5).
Report is 263 commits behind head on develop.

Files with missing lines	Patch %	Lines
paddlenlp/transformers/qwen2/modeling_pp.py	9.52%	38 Missing ⚠️
paddlenlp/transformers/qwen2/modeling.py	58.33%	5 Missing ⚠️

Additional details and impacted files

@@ Coverage Diff @@ ## develop #9264 +/- ## =========================================== - Coverage 52.84% 52.62% -0.22%  =========================================== Files 661 661 Lines 107783 107365 -418 =========================================== - Hits 56955 56501 -454  - Misses 50828 50864 +36

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

lugimzzz · 2024-10-16T03:54:15Z

后续验证flashmask和fa2，可以直接用加上,能够所有loss逐位对齐即可
export FLAGS_cudnn_deterministic=1
export FLAGS_embedding_deterministic=1

lugimzzz

LGTM

…mask

ZHUI · 2024-10-18T03:36:34Z

paddlenlp/transformers/qwen2/modeling_pp.py

+ @classmethod
+ def _prepare_pipeline_inputs_func(cls, inputs):
+
+ first_stage_keys = ["input_ids", "attention_mask", "attn_mask_startend_row_indices", "position_ids"]


todo：attn_mask_startend_row_indices 这个参数可以加内置函数里面吧

ZHUI · 2024-10-18T04:02:24Z

paddlenlp/transformers/qwen2/modeling_pp.py

+ last_stage_keys = ["labels"]
+
+ def get_expected_keys(inputs, keys):
+ ret = tuple([inputs.pop(k) if k in inputs else None for k in keys])


PaddleNLP/paddlenlp/trainer/trainer.py

Line 1978 in 2b975b1

ret = tuple([inputs.pop(k) for k in keys if k in inputs])

会有None是不是？

…mask

lugimzzz

LGTM

…mask

DrownFish19 and others added 3 commits October 7, 2024 08:16

add flashmask

ed3f12c

Merge remote-tracking branch 'paddlenlp/develop' into dev_20241007_qw…

450a280

…en2_add_flashmask

update

90f1c66

DrownFish19 requested review from ZHUI and lugimzzz October 14, 2024 07:24

add flashmask in modeling_pp

0d872f1

DrownFish19 force-pushed the dev_20241007_qwen2_add_flashmask branch from 4c38433 to 0d872f1 Compare October 14, 2024 08:44

lugimzzz previously approved these changes Oct 16, 2024

View reviewed changes

DrownFish19 dismissed lugimzzz’s stale review via b810626 October 16, 2024 08:12

DrownFish19 force-pushed the dev_20241007_qwen2_add_flashmask branch 2 times, most recently from 336c241 to 0d872f1 Compare October 16, 2024 09:07

DrownFish19 mentioned this pull request Oct 16, 2024

[Tokenizer] Unify tokenizer _pad #9280

Merged

DrownFish19 force-pushed the dev_20241007_qwen2_add_flashmask branch from d34af01 to 0d872f1 Compare October 18, 2024 02:19

Merge branch 'PaddlePaddle:develop' into dev_20241007_qwen2_add_flash…

f209df3

…mask

ZHUI approved these changes Oct 18, 2024

View reviewed changes

ZHUI reviewed Oct 18, 2024

View reviewed changes

Merge branch 'PaddlePaddle:develop' into dev_20241007_qwen2_add_flash…

05ec1ba

…mask

lugimzzz approved these changes Oct 18, 2024

View reviewed changes

Merge branch 'PaddlePaddle:develop' into dev_20241007_qwen2_add_flash…

b4a0ba5

…mask

ZHUI merged commit 76a118b into PaddlePaddle:develop Oct 21, 2024
2 of 4 checks passed

DrownFish19 deleted the dev_20241007_qwen2_add_flashmask branch October 21, 2024 07:05

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[FlashMask] Add FlashMask for Qwen2 #9264

[FlashMask] Add FlashMask for Qwen2 #9264

Uh oh!

DrownFish19 commented Oct 14, 2024 •

edited

Loading

paddle-bot bot commented Oct 14, 2024

codecov bot commented Oct 14, 2024 •

edited

Loading

lugimzzz commented Oct 16, 2024 •

edited

Loading

lugimzzz left a comment

ZHUI Oct 18, 2024

ZHUI Oct 18, 2024

lugimzzz left a comment

Uh oh!

Labels

3 participants

	def _get_train_sampler(self) -> Optional[paddle.io.Sampler]:
	if self.train_dataset is None or not has_length(self.train_dataset):
	return None

	if self.args.world_size <= 1:
	return paddle.io.BatchSampler(
	dataset=self.train_dataset,
	shuffle=True,
	batch_size=self.args.per_device_train_batch_size,
	drop_last=self.args.dataloader_drop_last,
	)

	return DistributedBatchSampler(
	self.train_dataset,
	batch_size=self.args.per_device_train_batch_size,
	shuffle=True,
	num_replicas=self.args.dataset_world_size,
	rank=self.args.dataset_rank,
	drop_last=self.args.dataloader_drop_last,
	)

[FlashMask] Add FlashMask for Qwen2 #9264

[FlashMask] Add FlashMask for Qwen2 #9264

Uh oh!

Conversation

DrownFish19 commented Oct 14, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

PR types

PR changes

Description

paddle-bot bot commented Oct 14, 2024

codecov bot commented Oct 14, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Codecov Report

lugimzzz commented Oct 16, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

lugimzzz left a comment

Choose a reason for hiding this comment

ZHUI Oct 18, 2024

Choose a reason for hiding this comment

ZHUI Oct 18, 2024

Choose a reason for hiding this comment

lugimzzz left a comment

Choose a reason for hiding this comment

Uh oh!

Labels

3 participants

DrownFish19 commented Oct 14, 2024 •

edited

Loading

codecov bot commented Oct 14, 2024 •

edited

Loading

lugimzzz commented Oct 16, 2024 •

edited

Loading