究竟怎么做dpo呀 #3395

XuanRen4470 · 2024-04-23T11:24:18Z

Reminder

I have read the README and searched the existing issues.

Reproduction

我已经严格按照example里dpo的流程做了(lora)

train sft model
把sft adapter的路径给adapter_name_or_path，把mistral 7b 的路径（没merge）给model_name_or_path
推理时把mistral 7b 的路径（没merge）给model_name_or_path，然后adapter_name_or_path 给sft adapter路径，dpo adapter路径

我发现dpo训练完后从来没超过sft过（我在9个数据集上测试）

还有是我读别人的问题，发现好多人说merge lora model。可是我读dpo的readme并没有提到merge。

create_new_adapter，overwrite_cache，这两个我全程在用，虽说也不知道它们什么意思。感觉需要一些更加详细的readme文档。

还有是train完之后具体要怎么inference呢？根据read me 我在inference时需要给adapter_name_or_path 给sft adapter路径，dpo adapter路径。可是如果merge weight的话原则上来说我认为不需要这些东西呀（我之前的实验都没merge因为readme没说要merge lora)

总结：
第一个问题：究竟具体应该怎么train，要不要merge lora weight
第二个问题：具体怎么inference（假如merge 了 lora wright那么readme没有讲这种情况如何inference）

Expected behavior

No response

System Info

No response

Others

No response

hiyouga · 2024-04-23T15:18:55Z

DPO 不是用来刷数据集准确率的

XuanRen4470 · 2024-04-24T00:29:10Z

DPO 不是用来刷数据集准确率的

但是我记得dpo是可以拿来提高模型能力的呀？还有dpo具体的流程究竟是什么呀？我现在加了一个merge sft lora的操作好像准确率有提高。可是readme的dpo example里没有提到merge lora。我现在inference和train的流程和readme里全都不一样但是准确率好像高了一些。

Felixgithub2017 · 2024-04-25T08:36:46Z

example 在哪里呢？

AlexYoung757 · 2024-04-29T08:41:35Z

DPO 不是用来刷数据集准确率的

但是我记得dpo是可以拿来提高模型能力的呀？还有dpo具体的流程究竟是什么呀？我现在加了一个merge sft lora的操作好像准确率有提高。可是readme的dpo example里没有提到merge lora。我现在inference和train的流程和readme里全都不一样但是准确率好像高了一些。

推理的时候可以先把dpo训练的数据merge后再进行推理：
（1）把dpo训练的模型进行merge

MODEL_PATH=/your path/Qwen1.5-32B-Chat
OUTPUT_PATH=/your path/qwen-32b-dpo
EXPORT_PATH=/your path/qwen-32b-dpo-merge

python ../src/export_model.py \
    --model_name_or_path $MODEL_PATH  \
    --adapter_name_or_path $OUTPUT_PATH  \
    --template qwen \
    --finetuning_type lora \
    --export_dir $EXPORT_PATH  \
    --export_size 2 \
    --export_legacy_format False \

（2）模型推理

MODEL_PATH=/you path/qwen-32b-dpo-merge

python ../src/cli_demo.py \
    --model_name_or_path $MODEL_PATH  \
    --template qwen \
    --finetuning_type lora  \
    --pure_bf16  \
    --flash_attn

hiyouga added the pending This problem is yet to be addressed. label Apr 23, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

究竟怎么做dpo呀 #3395

究竟怎么做dpo呀 #3395

XuanRen4470 commented Apr 23, 2024 •

edited

hiyouga commented Apr 23, 2024

XuanRen4470 commented Apr 24, 2024

Felixgithub2017 commented Apr 25, 2024

AlexYoung757 commented Apr 29, 2024

究竟怎么做dpo呀 #3395

究竟怎么做dpo呀 #3395

Comments

XuanRen4470 commented Apr 23, 2024 • edited

Reminder

Reproduction

Expected behavior

System Info

Others

hiyouga commented Apr 23, 2024

XuanRen4470 commented Apr 24, 2024

Felixgithub2017 commented Apr 25, 2024

AlexYoung757 commented Apr 29, 2024

XuanRen4470 commented Apr 23, 2024 •

edited