[Tokenizer] Support for loading added_tokens_decoder #8997

DrownFish19 · 2024-08-23T06:50:12Z

PR types

Bug fixes

PR changes

Others

Description

The new tokenizer_config.json now includes the added_tokens_decoder, and we load them in the PretrainedTokenizer _pre_init.

解决llama、gemma、mamba无法添加token的问题。
当前添加的token和原始的added_token_decoder最后都会保存在added_token_decoder:dict中，可下次加载并且序号不变。
当前added_token_decoder可被from_pretrained加载，保证tokenizer_config.json中序号不变。

paddle-bot · 2024-08-23T06:50:17Z

Thanks for your contribution!

…x_added_tokens_decoder_load

codecov · 2024-08-28T06:58:26Z

Codecov Report

Attention: Patch coverage is 94.87179% with 2 lines in your changes missing coverage. Please review.

Project coverage is 53.89%. Comparing base (9f6b486) to head (d6f2f38).
Report is 239 commits behind head on develop.

Files with missing lines	Patch %	Lines
paddlenlp/transformers/gemma/tokenizer.py	81.81%	2 Missing ⚠️

Additional details and impacted files

@@ Coverage Diff @@ ## develop #8997 +/- ## =========================================== - Coverage 54.51% 53.89% -0.63%  =========================================== Files 648 652 +4 Lines 103473 104388 +915 =========================================== - Hits 56406 56255 -151  - Misses 47067 48133 +1066

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

DrownFish19 · 2024-08-28T07:18:31Z

paddlenlp/transformers/mamba/tokenizer.py

 """
 return len(self.encoder)

+ def __len__(self):


mamba tokenizer的added_tokens_decoder中包含 [0,1]两个重复tokens，之前的计算方式会重复计算这两个token

DrownFish19 · 2024-08-28T07:18:54Z

paddlenlp/transformers/llama/tokenizer.py

 """Returns vocab size"""
 return self.sp_model.get_piece_size()

+ def __len__(self):


解决无法添加token的问题

DrownFish19 · 2024-08-28T07:19:11Z

paddlenlp/transformers/gemma/tokenizer.py

 """Returns vocab size"""
 return self.sp_model.get_piece_size()

+ def __len__(self):


解决无法添加token的问题

JunnYu

Mamba OK

* fix added_tokens_decoder load * fix decode * fix saving and loading added_token_decoder * fix mamba * fix special_tokens_map_file load * fix gemma tokenizer * fix llama tokenzier * revert llama tokenizer * fix _decode

fix added_tokens_decoder load

f8d0347

DrownFish19 changed the title ~~[tokenizer] fix added_tokens_decoder load~~ [Tokenizer] fix added_tokens_decoder load Aug 23, 2024

DrownFish19 added 9 commits August 23, 2024 09:57

fix decode

8af6aeb

Merge remote-tracking branch 'paddlenlp/develop' into dev_20240823_fi…

5c0d201

…x_added_tokens_decoder_load

fix saving and loading added_token_decoder

c2e8689

fix mamba

f669c10

fix special_tokens_map_file load

a0efe46

fix gemma tokenizer

228f9ed

fix llama tokenzier

45925e2

revert llama tokenizer

8388aec

fix _decode

d6f2f38

DrownFish19 commented Aug 28, 2024

View reviewed changes

DrownFish19 changed the title ~~[Tokenizer] fix added_tokens_decoder load~~ [Tokenizer] support added_tokens_decoder load Aug 28, 2024

DrownFish19 changed the title ~~[Tokenizer] support added_tokens_decoder load~~ [Tokenizer] Support for loading added_tokens_decoder Aug 28, 2024

JunnYu approved these changes Aug 28, 2024

View reviewed changes

ZHUI approved these changes Aug 28, 2024

View reviewed changes

DrownFish19 merged commit 3e7c5ca into PaddlePaddle:develop Aug 28, 2024

DrownFish19 deleted the dev_20240823_fix_added_tokens_decoder_load branch August 28, 2024 12:38

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Tokenizer] Support for loading added_tokens_decoder #8997

[Tokenizer] Support for loading added_tokens_decoder #8997

Uh oh!

DrownFish19 commented Aug 23, 2024 •

edited

Loading

paddle-bot bot commented Aug 23, 2024

codecov bot commented Aug 28, 2024 •

edited

Loading

DrownFish19 Aug 28, 2024

DrownFish19 Aug 28, 2024

DrownFish19 Aug 28, 2024

JunnYu left a comment

Labels

3 participants

[Tokenizer] Support for loading added_tokens_decoder #8997

[Tokenizer] Support for loading added_tokens_decoder #8997

Uh oh!

Conversation

DrownFish19 commented Aug 23, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

PR types

PR changes

Description

paddle-bot bot commented Aug 23, 2024

codecov bot commented Aug 28, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Codecov Report

DrownFish19 Aug 28, 2024

Choose a reason for hiding this comment

DrownFish19 Aug 28, 2024

Choose a reason for hiding this comment

DrownFish19 Aug 28, 2024

Choose a reason for hiding this comment

JunnYu left a comment

Choose a reason for hiding this comment

Labels

3 participants

DrownFish19 commented Aug 23, 2024 •

edited

Loading

codecov bot commented Aug 28, 2024 •

edited

Loading