Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【模型训练】我想请问模型输出的文件应该怎么看,每个文件都是什么作用呢? #538

Open
zzisbeauty opened this issue Oct 10, 2023 · 0 comments

Comments

@zzisbeauty
Copy link

zzisbeauty commented Oct 10, 2023

  • 【训练方式】由于我的计算资源有限,我使用LoRA without 8bit with deepspeed 的方案执行了一次 SFT训练;

  • 【问题描述】模型训练完毕后,得到如下图所示文件,图中红框好像是三个检查点:

    image

    image

  • 但是我readme中说明关于lora的训练输出是如下格式:

    image

  • 【我的问题】因此我想请教我的训练输出为什么和readme中的说明不一样。请问我的训练输出应该怎么看,每个文件都代表什么意思呢? 另外我的输出文件夹中好像了三个检查点,我的哪个检查点是最好的模型呢? 因为我在merge_lora的时候需要执行一个检查点信息。


希望得到老师的帮助,感恩!

@zzisbeauty zzisbeauty changed the title 【模型训练】我想请问这些模型输出是什么意思 【模型训练】我想请问模型输出的文件应该怎么看,每个文件都是什么作用呢? Oct 10, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant