intel
diff --git a/‎intel_extension_for_transformers/neural_chat/examples/finetuning/ppo_pipeline/README.md‎
Lines changed: 22 additions & 0 deletions b/‎intel_extension_for_transformers/neural_chat/examples/finetuning/ppo_pipeline/README.md‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/examples/finetuning/ppo_pipeline/requirements.txt‎
Lines changed: 2 additions & 0 deletions b/‎intel_extension_for_transformers/neural_chat/examples/finetuning/ppo_pipeline/requirements.txt‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎intel_extension_for_transformers/neural_chat/examples/finetuning/ppo_pipeline/reward_modeling.py‎
Lines changed: 4 additions & 4 deletions b/‎intel_extension_for_transformers/neural_chat/examples/finetuning/ppo_pipeline/reward_modeling.py‎
Lines changed: 4 additions & 4 deletions
@@ -43,3 +43,25 @@ multi card finetunes
 ```
 python ../instruction/gaudi_spawn.py --world_size 8 --use_mpi reward_modeling.py --model_name_or_path meta-llama/Llama-2-7b-hf --output_dir <output> --log_level info --num_train_epochs 1 --use_habana --use_lazy_mode --hf_access_token xxxxxx --ddp_find_unused_parameters True
 ```
+
+## 5. Reinforcement Fine-tuning
+
+### Training on CUDA
+```
+accelerate launch --multi_gpu --num_machines 1 --num_processes 8 rl_training.py --log_with=wandb --model_name=meta-llama/Llama-2-7b-hf --reward_model_name=output_se --adafactor=False --tokenizer_name=meta-llama/Llama-2-7b-hf --save_freq=100 --output_max_length=128 --batch_size=8 --gradient_accumulation_steps=8 --batched_gen=True --ppo_epochs=4 --seed=0 --learning_rate=1.4e-5 --early_stopping=True --output_dir=llama-se-rl-finetune-128-8-8-1.4e-5_adam --hf_access_token xxxxxx
+```
+
+### Training on Habana
+
+Follow install guidance in [optimum-habana](https://github.com/huggingface/optimum-habana)
+
+single card finetune
+
+```
+python3 rl_training.py --model_name=meta-llama/Llama-2-7b-hf --reward_model_name=<output_rm> --adafactor=False --tokenizer_name=meta-llama/Llama-2-7b-hf --save_freq=100 --output_max_length=128 --batch_size=8 --mini_batch_size=1 --gradient_accumulation_steps=8 --batched_gen=True --ppo_epochs=4 --seed=0 --learning_rate=1.4e-5 --early_stopping=True --output_dir=llama-se-rl-finetune-128-8-8-1.4e-5_adam --hf_access_token xxxxxx --use_habana
+```
+
+multi card finetunes
+```
+python3 ../instruction/gaudi_spawn.py --world_size 8 --use_mpi rl_training.py --model_name=meta-llama/Llama-2-7b-hf --reward_model_name=<output_rm> --adafactor=False --tokenizer_name=meta-llama/Llama-2-7b-hf --save_freq=100 --output_max_length=128 --batch_size=8 --mini_batch_size=1 --gradient_accumulation_steps=8 --batched_gen=True --ppo_epochs=4 --seed=0 --learning_rate=1.4e-5 --early_stopping=True --output_dir=llama-se-rl-finetune-128-8-8-1.4e-5_adam --hf_access_token xxxxxx --use_habana
+```
@@ -5,3 +5,5 @@ datasets
 bitsandbytes
 evaluate
 scikit-learn
+intel-extension-for-transformers
+tyro
@@ -199,14 +199,14 @@ def preprocess_function(examples):
  "input_ids_k": [],
  "attention_mask_k": [],
  }
- for question, response_j, response_k in zip(
- examples["question"], examples["chatgpt"], examples["llama2-13b-chat"]
+ for system, question, response_j, response_k in zip(
+ examples["system"], examples["question"], examples["chatgpt"], examples["llama2-13b-chat"]
  ):
  tokenized_j = tokenizer(
- "Question: " + question + "\n\nAnswer: " + response_j, truncation=True
+ system + question + response_j, truncation=True
  )
  tokenized_k = tokenizer(
- "Question: " + question + "\n\nAnswer: " + response_k, truncation=True
+ system + question + response_k, truncation=True
  )
 
  new_examples["input_ids_j"].append(tokenized_j["input_ids"])
Original file line number	Diff line number	Diff line change
`@@ -199,14 +199,14 @@ def preprocess_function(examples):`
`199`	`199`	`"input_ids_k": [],`
`200`	`200`	`"attention_mask_k": [],`
`201`	`201`	`}`
`202`		`- for question, response_j, response_k in zip(`
`203`		`- examples["question"], examples["chatgpt"], examples["llama2-13b-chat"]`
	`202`	`+ for system, question, response_j, response_k in zip(`
	`203`	`+ examples["system"], examples["question"], examples["chatgpt"], examples["llama2-13b-chat"]`
`204`	`204`	`):`
`205`	`205`	`tokenized_j = tokenizer(`
`206`		`- "Question: " + question + "\n\nAnswer: " + response_j, truncation=True`
	`206`	`+ system + question + response_j, truncation=True`
`207`	`207`	`)`
`208`	`208`	`tokenized_k = tokenizer(`
`209`		`- "Question: " + question + "\n\nAnswer: " + response_k, truncation=True`
	`209`	`+ system + question + response_k, truncation=True`
`210`	`210`	`)`
`211`	`211`
`212`	`212`	`new_examples["input_ids_j"].append(tokenized_j["input_ids"])`