[QUESTION] Why is expert parallelism not supported during fp16 training? #810

yutian-mt · 2024-05-07T08:39:21Z

assert not args.model_parallel.fp16, \
            "Expert parallelism is not supported with fp16 training."

from

Megatron-LM/megatron/training/arguments.py

Line 508 in db3a3f7

"Expert parallelism is not supported with fp16 training."

compared to the case when ep=1, the difference when ep>1 is that it introduces additional all-to-all communication operation. I'm a bit confused about why this setup does not support fp16 training.

The text was updated successfully, but these errors were encountered:

felipeliliti · 2024-05-07T12:09:09Z

razão pela qual o paralelismo especializado pode não ser suportado durante o treinamento FP16 pode ser devido às limitações do próprio FP16. FP16, ou formato de ponto flutuante de meia precisão, usa menos memória e permite que o modelo treine mais rápido. No entanto, nem todas as equações suportam FP16, o que pode limitar seu uso em certos cenários.
No contexto dos modelos MoE, os requisitos de memória podem ser bastante altos. Por exemplo, a saída da rede conjunta no transdutor é um tensor de 4 dimensões que ocupa quantidades significativas de memória. Usar FP16 poderia potencialmente aliviar alguns dos problemas de uso de memória, mas pode não ser suficiente ou compatível com todos os aspectos do processo de treinamento.
Também vale a pena notar que a documentação do Megatron-LM da NVIDIA menciona que ao usar MoE com paralelismo especializado e paralelismo tensorial, o paralelismo de sequência deve ser usado. Isso pode ser outro fator a considerar ao tentar entender as limitações do uso de paralelismo especializado durante o treinamento FP16.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[QUESTION] Why is expert parallelism not supported during fp16 training? #810

[QUESTION] Why is expert parallelism not supported during fp16 training? #810

yutian-mt commented May 7, 2024

felipeliliti commented May 7, 2024

[QUESTION] Why is expert parallelism not supported during fp16 training? #810

[QUESTION] Why is expert parallelism not supported during fp16 training? #810

Comments

yutian-mt commented May 7, 2024

felipeliliti commented May 7, 2024