[Tokenizer] Add Fast Tokenizer #8832

DrownFish19 · 2024-07-30T03:50:24Z

PR types

New features

PR changes

APIs

Description

Add Fast Tokenizer.

Take the tokenizers as the backend of new fast tokenziers.
Compatible with the current tokenizers and new fast tokenizers.
LLaMA3.1 and LLaMA3 can use PretrainedTokenizerFast to achieve better performance. LLaMA 1 and LLaMA 2 also can use LlamaTokenizerFast to improve tokenization performance.

paddle-bot · 2024-07-30T03:50:29Z

Thanks for your contribution!

paddlenlp/utils/versions.py

codecov · 2024-08-02T12:07:45Z

Codecov Report

Attention: Patch coverage is 49.03537% with 317 lines in your changes missing coverage. Please review.

Project coverage is 54.81%. Comparing base (e0d2809) to head (e63092e).
Report is 225 commits behind head on develop.

Files with missing lines	Patch %	Lines
paddlenlp/transformers/convert_slow_tokenizer.py	21.73%	126 Missing ⚠️
paddlenlp/transformers/tokenizer_utils_fast.py	60.93%	125 Missing ⚠️
paddlenlp/transformers/llama/tokenizer_fast.py	43.58%	44 Missing ⚠️
paddlenlp/transformers/tokenizer_utils_base.py	58.69%	19 Missing ⚠️
paddlenlp/transformers/tokenizer_utils.py	70.00%	3 Missing ⚠️

Additional details and impacted files

@@ Coverage Diff @@ ## develop #8832 +/- ## =========================================== + Coverage 54.79% 54.81% +0.01%  =========================================== Files 636 639 +3 Lines 99876 100475 +599 =========================================== + Hits 54732 55079 +347  - Misses 45144 45396 +252

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

…eNLP into dev_add_tokenizer_fast

* add fast tokenizer * add convert slow tokenizer method

add fast tokenizer

4ab5392

add convert slow tokenizer method

433e547

ZHUI reviewed Jul 31, 2024

View reviewed changes

paddlenlp/utils/versions.py Outdated Show resolved Hide resolved

Merge branch 'PaddlePaddle:develop' into dev_add_tokenizer_fast

5355615

DrownFish19 force-pushed the dev_add_tokenizer_fast branch 3 times, most recently from 5b8dc52 to 5355615 Compare August 2, 2024 12:06

revert tokenizer_utils_base.py

3d84fd1

DrownFish19 and others added 12 commits August 3, 2024 09:23

fix

f232d99

fix tokenizer_fast

09be883

add test cases

f7d4d12

Merge branch 'develop' into dev_add_tokenizer_fast

9594034

update

2a7baba

update

df0c035

fix

75c0152

Merge branch 'PaddlePaddle:develop' into dev_add_tokenizer_fast

6ad771e

update requirement

a64539a

Merge branch 'dev_add_tokenizer_fast' of github.com:DrownFish19/Paddl…

5868d88

…eNLP into dev_add_tokenizer_fast

Merge branch 'PaddlePaddle:develop' into dev_add_tokenizer_fast

9113069

Merge branch 'PaddlePaddle:develop' into dev_add_tokenizer_fast

e63092e

ZHUI merged commit d2d4d92 into PaddlePaddle:develop Aug 19, 2024

DrownFish19 deleted the dev_add_tokenizer_fast branch August 19, 2024 03:12

Mangodadada pushed a commit to Mangodadada/PaddleNLP that referenced this pull request Sep 10, 2024

[Tokenizer] Add Fast Tokenizer (PaddlePaddle#8832)

77cb825

* add fast tokenizer * add convert slow tokenizer method

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Tokenizer] Add Fast Tokenizer #8832

[Tokenizer] Add Fast Tokenizer #8832

Uh oh!

DrownFish19 commented Jul 30, 2024

paddle-bot bot commented Jul 30, 2024

Uh oh!

codecov bot commented Aug 2, 2024 •

edited

Loading

Labels

2 participants

[Tokenizer] Add Fast Tokenizer #8832

[Tokenizer] Add Fast Tokenizer #8832

Uh oh!

Conversation

DrownFish19 commented Jul 30, 2024

PR types

PR changes

Description

paddle-bot bot commented Jul 30, 2024

Uh oh!

codecov bot commented Aug 2, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Codecov Report

Labels

2 participants

codecov bot commented Aug 2, 2024 •

edited

Loading