data_set 报错 #498

wangyiyang · 2023-08-25T09:46:23Z

参数：

torchrun --nproc_per_node 8 src/entry_point/sft_train.py \
    --ddp_timeout 36000 \
    --model_name_or_path ${model_name_or_path} \
    --llama \
    --use_lora \
    --deepspeed configs/deepspeed_config_stage3.json \
    --lora_config configs/lora_config_llama.json \
    --train_file ${train_file} \
    --validation_file ${validation_file} \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 1 \
    --num_train_epochs 10 \
    --model_max_length ${cutoff_len} \
    --save_strategy "steps" \
    --save_total_limit 3 \
    --learning_rate 3e-4 \
    --weight_decay 0.00001 \
    --warmup_ratio 0.01 \
    --lr_scheduler_type "cosine" \
    --logging_steps 10 \
    --evaluation_strategy "steps" \
    --torch_dtype "bfloat16" \
    --bf16 False --fp16 True  --seed 1234 --gradient_checkpointing --cache_dir ${cache_dir}     --output_dir  ${output_dir}\
   # --use_flash_attention
   # --resume_from_checkpoint ...

GPU：V100s
docker 启动指令：docker run --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --network host -it --name dtm -v /data/BELLE:/data/BELLE -v data/Llama-2-7b-hf:/data/Llama-2-7b-hf tothemoon/belle:latest /bin/bash

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data_set 报错 #498

data_set 报错 #498

wangyiyang commented Aug 25, 2023 •

edited

data_set 报错 #498

data_set 报错 #498

Comments

wangyiyang commented Aug 25, 2023 • edited

wangyiyang commented Aug 25, 2023 •

edited