Reward Modeling Finetuning Example #10827

Uxito-Ada · 2024-04-22T01:17:24Z

Description

This is an example of TRL reward modeling, a kind of RLHF, where uses dataset Anthropic/hh-rlhf that on our whitelist.

1. Why the change?

Enable RM on Intel GPU with IPEX LLM.

2. User API changes

no

3. Summary of the change

Reward Modeling Finetuning Example

4. How to test?

python/llm/example/GPU/LLM-Finetuning/RewardModeling/reward_modeling_finetuning.py

qiyuangong · 2024-04-22T04:48:18Z

python/llm/example/GPU/LLM-Finetuning/RewardModeling/reward_modeling_finetuning.py

+    model = AutoModelForSequenceClassification.from_pretrained(
+        model_config.model_name_or_path, num_labels=1, **model_kwargs
+    )
+    model = optimize_model(model, low_bit="fp4")


Add comments about what we are doing

python/llm/example/GPU/LLM-Finetuning/RewardModeling/README.md

qiyuangong

LGTM

Reward Modeling Finetuning Example

88681d7

Uxito-Ada requested review from qiyuangong, glorysdj and jason-dai April 22, 2024 01:17

Uxito-Ada added 2 commits April 22, 2024 10:14

Update README.md

30754d9

Update README.md

a4e0cd4

qiyuangong reviewed Apr 22, 2024

View reviewed changes

python/llm/example/GPU/LLM-Finetuning/RewardModeling/reward_modeling_finetuning.py Show resolved Hide resolved

qiyuangong reviewed Apr 22, 2024

View reviewed changes

python/llm/example/GPU/LLM-Finetuning/RewardModeling/README.md Show resolved Hide resolved

qiyuangong reviewed Apr 22, 2024

View reviewed changes

python/llm/example/GPU/LLM-Finetuning/RewardModeling/README.md Show resolved Hide resolved

Uxito-Ada added 2 commits April 22, 2024 13:58

modify license

44151d6

Update README.md

2deec94

qiyuangong approved these changes Apr 22, 2024

View reviewed changes

Update reward_modeling_finetuning.py

756cdb4

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Reward Modeling Finetuning Example #10827

Reward Modeling Finetuning Example #10827

Uxito-Ada commented Apr 22, 2024

qiyuangong Apr 22, 2024

qiyuangong left a comment

Reward Modeling Finetuning Example #10827

Are you sure you want to change the base?

Reward Modeling Finetuning Example #10827

Conversation

Uxito-Ada commented Apr 22, 2024

Description

1. Why the change?

2. User API changes

3. Summary of the change

4. How to test?

qiyuangong Apr 22, 2024

Choose a reason for hiding this comment

qiyuangong left a comment

Choose a reason for hiding this comment