FederatedAI · xinwenhh · Nov 15, 2024 · Nov 19, 2024 · Nov 21, 2024 · Nov 22, 2024
diff --git a/examples/fdkt/__init__.py b/examples/fdkt/__init__.py
diff --git a/examples/fdkt/fdkt.py b/examples/fdkt/fdkt.py
@@ -0,0 +1,164 @@
+import yaml
+from fate_client.pipeline.components.fate.homo_nn import HomoNN, get_config_of_fdkt_runner
+from fate_client.pipeline.components.fate.nn.algo_params import FDKTTrainingArguments
+from fate_client.pipeline.components.fate.nn.loader import LLMModelLoader, LLMDatasetLoader, LLMDataFuncLoader
+from fate_client.pipeline import FateFlowPipeline
+from fate_client.pipeline.components.fate.reader import Reader
+from fate_client.pipeline.components.fate.nn.torch import nn, optim
+from typing import Union, Dict
+import argparse
+
+def main(config="../../config.yaml", param: Union[Dict, str] = None, namespace=""):
+ if isinstance(config, str):
+ config = test_utils.load_job_config(config)
+ if isinstance(param, str):
+ param = yaml.safe_load(param)
+ # Load the configuration file
+ parties = config.parties
+ guest = parties.guest[0]
+ arbiter = parties.arbiter[0]
+
+ pipeline = FateFlowPipeline().set_parties(guest=guest, arbiter=arbiter)
+ pipeline.bind_local_path(path=param["datasets"]["slm_data_path"], namespace=param["data"]["guest"]["namespace"], 
+ name=param["data"]["guest"]["name"])
+
+ def get_llm_conf():
+ embedding_model = LLMModelLoader(
+ "embedding_transformer.st_model",
+ "SentenceTransformerModel",
+ model_name_or_path=param['llm']['embedding_model_path']
+ )
+
+ dataset = LLMDatasetLoader(
+ "flex_dataset",
+ "FlexDataset",
+ tokenizer_name_or_path=param['llm']['pretrained_path'],
+ need_preprocess=True,
+ dataset_name="yelp_review",
+ data_part="train.json",
+ load_from="json",
+ few_shot_num_per_label=1,
+ )
+
+ training_args = FDKTTrainingArguments(
+ sample_num_per_cluster=4,
+ filter_prompt_max_length=2 ** 14,
+ filter_generation_config=dict(
+ max_tokens=3000,
+ ),
+ use_cpu=param['slm']['training_args']['use_cpu'],
+ aug_generation_config=dict(
+ max_tokens=3000,
+ temperature=0.8,
+ top_p=0.9,
+ ),
+ aug_prompt_num=200,
+ )
+
+ inference_inst_conf = dict(
+ module_name="fate_llm.algo.fdkt.inference_inst",
+ item_name="api_init",
+ kwargs=dict(
+ api_url=param['client']['api_url'],
+ model_name=param['llm']['pretrained_path'],
+ api_key=param['client']['api_key']
+ )
+ )
+
+ return get_config_of_fdkt_runner(
+ training_args=training_args,
+ embedding_model=embedding_model,
+ dataset=dataset,
+ inference_inst_conf=inference_inst_conf,
+ )
+
+
+ def get_slm_conf():
+ slm_model = LLMModelLoader(
+ "hf_model",
+ "HFAutoModelForCausalLM",
+ pretrained_model_name_or_path=param['slm']['pretrained_path'],
+ torch_dtype="bfloat16",
+ )
+
+ tokenizer = LLMDataFuncLoader(
+ "tokenizers.cust_tokenizer",
+ "get_tokenizer",
+ tokenizer_name_or_path=param['slm']['pretrained_path'],
+ pad_token_id=50256
+ )
+
+ training_args = FDKTTrainingArguments(
+ use_cpu=param['slm']['training_args']['use_cpu'],
+ device_id=1,
+ num_train_epochs=param['slm']['training_args']['num_train_epochs'],
+ per_device_train_batch_size=param['slm']['training_args']['per_device_train_batch_size'],
+ slm_generation_batch_size=param['slm']['training_args']['slm_generation_batch_size'],
+ seq_num_for_single_category=param['slm']['training_args']['seq_num_for_single_category'],
+ slm_generation_config=param['slm']['training_args']['slm_generation_config'],
+ )
+
+ dataset = LLMDatasetLoader(
+ "flex_dataset",
+ "FlexDataset",
+ tokenizer_name_or_path=param['slm']['pretrained_path'],
+ need_preprocess=True,
+ dataset_name="yelp_review",
+ data_part="train",
+ load_from="json",
+ select_num=2000,
+ few_shot_num_per_label=1,
+ )
+
+ optimizer = optim.Adam(lr=0.01)
+
+ return get_config_of_fdkt_runner(
+ model=slm_model,
+ tokenizer=tokenizer,
+ training_args=training_args,
+ dataset=dataset,
+ optimizer=optimizer,
+ data_collator=LLMDataFuncLoader(
+ "data_collator.cust_data_collator",
+ "get_seq2seq_data_collator",
+ label_pad_token_id=50256,
+ tokenizer_name_or_path=param['slm']['pretrained_path'],
+ pad_token_id=50256,
+ ),
+ )
+
+
+
+ reader_0 = Reader("reader_0", runtime_parties=dict(guest=guest))
+ reader_0.guest.task_parameters(
+ namespace=param["data"]["guest"]["namespace"],
+ name=param["data"]["guest"]["name"]
+ )
+
+ homo_nn_0 = HomoNN(
+ 'homo_nn_0',
+ train_data=reader_0.outputs["output_data"],
+ runner_module="fdkt_runner",
+ runner_class="FDKTRunner",
+ )
+
+ homo_nn_0.arbiter.task_parameters(
+ runner_conf=get_llm_conf()
+ )
+
+ homo_nn_0.guest.task_parameters(
+ runner_conf=get_slm_conf()
+ )
+
+ pipeline.add_tasks([reader_0, homo_nn_0])
+ pipeline.conf.set("task", dict(engine_run={"cores": 1}))
+
+ pipeline.compile()
+ pipeline.fit()
+
+if __name__ == "__main__":
+ parser = argparse.ArgumentParser("FDKT JOB")
+ parser.add_argument("-c", "--config", type=str, help="Path to config file", default="./config.yaml")
+ parser.add_argument("-p", "--param", type=str, help="Path to parameter file", default="./fdkt_config.yaml")
+ args = parser.parse_args()
+ main(args.config, args.param)
diff --git a/examples/fdkt/fdkt_config.yaml b/examples/fdkt/fdkt_config.yaml
@@ -0,0 +1,97 @@
+data:
+ guest:
+ namespace: experiment
+ name: slm_train
+ host:
+ namespace: experiment
+ name: slm_train
+
+
+datasets:
+ slm_data_path: "train.json" # should be absolute path
+
+# Inference initialization configuration
+
+client:
+ api_url: "http://127.0.0.1:9999/v1"
+ api_key: "demo"
+
+# LLM Configuration
+llm:
+ pretrained_path: "Sheared-LLaMa-1.3B" # Please add your model path
+ embedding_model_path: "all-mpnet-base-v2" # Please add your model path
+
+ dataset:
+ tokenizer_name_or_path: "Sheared-LLaMa-1.3B" # Please add your model path
+ need_preprocess: true
+ dataset_name: "yelp_review"
+ data_part: "train.json"
+ load_from: "json"
+ few_shot_num_per_label: 1
+
+ training_args:
+ sample_num_per_cluster: 4
+ filter_prompt_max_length: 16384
+ filter_generation_config:
+ max_tokens: 3000
+ use_cpu: false
+ aug_generation_config:
+ max_tokens: 3000
+ temperature: 0.8
+ top_p: 0.9
+ aug_prompt_num: 200
+
+ inference_inst_conf:
+ module_name: "fate_llm.algo.fdkt.inference_inst"
+ item_name: "api_init"
+ kwargs:
+ api_url: "http://127.0.0.1:9999/v1/"
+ model_name: "Sheared-LLaMa-1.3B"
+ api_key: "demo"
+
+# SLM Configuration
+slm:
+ pretrained_path: "gpt2" # Please add your model path
+ data_path: "train.json" # Please add your datasets path
+
+ model:
+ torch_dtype: "bfloat16"
+
+ tokenizer:
+ tokenizer_name_or_path: "gpt2" # Please add your model path
+ pad_token_id: 50256
+
+ training_args:
+ use_cpu: false
+ device_id: 1
+ num_train_epochs: 1
+ per_device_train_batch_size: 2
+ slm_generation_batch_size: 32
+ seq_num_for_single_category: 200
+ slm_generation_config:
+ max_new_tokens: 256
+ do_sample: true
+ temperature: 1.0
+ top_k: 50
+ top_p: 0.9
+ repetition_penalty: 1.0
+ pad_token_id: 50256
+
+ dataset:
+ tokenizer_name_or_path: "gpt2" # Please add your model path
+ need_preprocess: true
+ dataset_name: "yelp_review"
+ data_part: "train"
+ load_from: "json"
+ select_num: 2000
+ few_shot_num_per_label: 1
+
+ optimizer:
+ type: "Adam"
+ params:
+ lr: 0.01
+
+ data_collator:
+ label_pad_token_id: 50256
+ tokenizer_name_or_path: "gpt2" # Please add your model path
+ pad_token_id: 50256