SFT zero2 zero3下loss不一致 #3442

wsdmanonymous · 2024-04-25T09:28:21Z

训练qwen1时保持除deepspeed zero2/zero3外其他超参配置不变的情况下，loss差异特别大。请教下之前有做过此类的实验么，这样是否是符合预期的？

No response

No response

No response

Egber1t · 2024-04-28T02:49:45Z

佬，请问这个图是llama factory自带框架出来的图吗？

xielinzhen · 2024-04-29T07:42:02Z

您好！请问zero3通信成本高吗，我sft llama3-8B 20个steps zero2只要17秒， zero3要20分钟，是不是有点不正常

wsdmanonymous · 2024-04-29T08:23:23Z

佬，请问这个图是llama factory自带框架出来的图吗？

佬，不是哈

wsdmanonymous · 2024-04-29T08:36:43Z

您好！请问zero3通信成本高吗，我sft llama3-8B 20个steps zero2只要17秒， zero3要20分钟，是不是有点不正常

是高不少，特别是多机器时候，性能瓶颈基本就在通信上。但是具体差异多少应该跟机型关系挺大的，我在2块A800上开IB网络时没有差异那么大，大概4-5倍差异

hiyouga added the pending This problem is yet to be addressed. label Apr 25, 2024

Provide feedback