Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

1.5最大窗口长度只有2048吗?可不可以设置的更长比如4096 #180

Open
sunzx8 opened this issue May 19, 2024 · 5 comments
Open

Comments

@sunzx8
Copy link

sunzx8 commented May 19, 2024

No description provided.

@czczup
Copy link
Member

czczup commented May 19, 2024

训练的最大窗口是4096,推理时可以扩大到10k,测试过没问题。
如果是在demo上,可以通过调整Max output tokens来控制:
image

@sunzx8
Copy link
Author

sunzx8 commented May 19, 2024

请问如果想把训练的长度扩的更大应该怎么办?比如我想扩到8192,应该从预训练开始重新做吗?

@czczup
Copy link
Member

czczup commented May 30, 2024

我觉得不需要重头预训练,4k训练的模型直接扩大到8k-10k没有大问题,如果想扩大到更大的长度,可能需要再用长数据做一下微调。

另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5Mini-InternVL-Chat-4B-V1-5,这两个模型都是在8k长度下做的SFT。

@sunzx8
Copy link
Author

sunzx8 commented May 31, 2024

我觉得不需要重头预训练,4k训练的模型直接扩大到8k-10k没有大问题,如果想扩大到更大的长度,可能需要再用长数据做一下微调。

另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5Mini-InternVL-Chat-4B-V1-5,这两个模型都是在8k长度下做的SFT。

谢谢,请问长度为4096做sft大约需要多少资源?不配置slurm集群可以用16*48G卡来做吗

@sunzx8
Copy link
Author

sunzx8 commented May 31, 2024

我觉得不需要重头预训练,4k训练的模型直接扩大到8k-10k没有大问题,如果想扩大到更大的长度,可能需要再用长数据做一下微调。

另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5Mini-InternVL-Chat-4B-V1-5,这两个模型都是在8k长度下做的SFT。

简单测试了一下4B的
image

这是原图片
3577300715

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants