长上文的微调之后还会出教程吗？比如100k的指令微调语料大概需要多少显存，训练策略要选择什么？[QA] #664

Labmem009 · 2024-01-25T12:17:38Z

Labmem009
Jan 25, 2024

Describe the question.

我看到文档中Xtuner里有配套的微调组件，但如果想要做长上文的指令微调，比如100k以上，请问大概的显存需求是多少？需要使用什么训练策略？

00INDEX · 2024-01-25T15:12:09Z

00INDEX
Jan 25, 2024

Hi @Labmem009 , 根据测试，7B和20B均可以使用8张A100成功进行100k长度上下文的微调，具体配置如下：

ZeRO1	tensor parallelism	pipeline parallelism	gradient checkpointing
1	4	2	True

2 replies

Labmem009 Jan 29, 2024
Author

您好，目前我是根据项目给出的XTuner脚本改动为全量FT后进行微调，目前2k的上文需要8*A100加上ZeRO3进行微调，并且显存基本已经用满。但是我没有找到tensor parallelism，pipeline parallelism，gradient checkpointing这些参数，请问是使用了其它组件进行微调了，还是需要修改XTuner的训练配置？
我使用的命令是：
NPROC_PER_NODE=8 xtuner train internlm2_chat_20b_full_alpaca_e3.py --deepspeed deepspeed_zero3
以下是我改动后的脚本，期待您的解答：

# Copyright (c) OpenMMLab. All rights reserved.
import torch
from datasets import load_dataset
from mmengine.dataset import DefaultSampler
from mmengine.hooks import (CheckpointHook, DistSamplerSeedHook, IterTimerHook,
                            LoggerHook, ParamSchedulerHook)
from mmengine.optim import AmpOptimWrapper, CosineAnnealingLR, LinearLR
from peft import LoraConfig
from torch.optim import AdamW
from transformers import (AutoModelForCausalLM, AutoTokenizer,
                          BitsAndBytesConfig)

from xtuner.dataset import process_hf_dataset
from xtuner.dataset.collate_fns import default_collate_fn
from xtuner.dataset.map_fns import alpaca_map_fn, template_map_fn_factory
from xtuner.engine import DatasetInfoHook, EvaluateChatHook
from xtuner.model import SupervisedFinetune
from xtuner.utils import PROMPT_TEMPLATE, SYSTEM_TEMPLATE

#######################################################################
#                          PART 1  Settings                           
#######################################################################
# Model
pretrained_model_name_or_path = './internlm2-chat-20b'

# Data
alpaca_en_path = 'tatsu-lab/alpaca'
prompt_template = PROMPT_TEMPLATE.internlm2_chat
max_length = 2048
pack_to_max_length = True

# Scheduler & Optimizer
batch_size = 1  # per_device
accumulative_counts = 1
dataloader_num_workers = 0
max_epochs = 3
optim_type = AdamW
lr = 2e-4
betas = (0.9, 0.999)
weight_decay = 0
max_norm = 1  # grad clip
warmup_ratio = 0.03

# Evaluate the generation performance during the training
evaluation_freq = 500
SYSTEM = SYSTEM_TEMPLATE.alpaca
evaluation_inputs = [
    '请给我介绍五个上海的景点', 'Please tell me five scenic spots in Shanghai'
]

#######################################################################
#                      PART 2  Model & Tokenizer                      #
#######################################################################
tokenizer = dict(
    type=AutoTokenizer.from_pretrained,
    pretrained_model_name_or_path=pretrained_model_name_or_path,
    trust_remote_code=True,
    padding_side='right')

model = dict(
    type=SupervisedFinetune,
    llm=dict(
        type=AutoModelForCausalLM.from_pretrained,
        pretrained_model_name_or_path=pretrained_model_name_or_path,
        trust_remote_code=True,
        torch_dtype=torch.float16,
        # quantization_config=dict(
        #     type=BitsAndBytesConfig,
        #     load_in_4bit=True,
        #     load_in_8bit=False,
        #     llm_int8_threshold=6.0,
        #     llm_int8_has_fp16_weight=False,
        #     bnb_4bit_compute_dtype=torch.float16,
        #     bnb_4bit_use_double_quant=True,
        #     bnb_4bit_quant_type='nf4')),
    # lora=dict(
    #     type=LoraConfig,
    #     r=64,
    #     lora_alpha=16,
    #     lora_dropout=0.1,
    #     bias='none',
    #     task_type='CAUSAL_LM')
    ))

#######################################################################
#                      PART 3  Dataset & Dataloader                   #
#######################################################################
alpaca_en = dict(
    type=process_hf_dataset,
    dataset=dict(type=load_dataset, path=alpaca_en_path),
    tokenizer=tokenizer,
    max_length=max_length,
    dataset_map_fn=alpaca_map_fn,
    template_map_fn=dict(
        type=template_map_fn_factory, template=prompt_template),
    remove_unused_columns=True,
    shuffle_before_pack=True,
    pack_to_max_length=pack_to_max_length)

train_dataloader = dict(
    batch_size=batch_size,
    num_workers=dataloader_num_workers,
    dataset=alpaca_en,
    sampler=dict(type=DefaultSampler, shuffle=True),
    collate_fn=dict(type=default_collate_fn))

#######################################################################
#                    PART 4  Scheduler & Optimizer                    #
#######################################################################
# optimizer
optim_wrapper = dict(
    type=AmpOptimWrapper,
    optimizer=dict(
        type=optim_type, lr=lr, betas=betas, weight_decay=weight_decay),
    clip_grad=dict(max_norm=max_norm, error_if_nonfinite=False),
    accumulative_counts=accumulative_counts,
    loss_scale='dynamic',
    dtype='float16')

# learning policy
# More information: https://github.com/open-mmlab/mmengine/blob/main/docs/en/tutorials/param_scheduler.md  # noqa: E501
param_scheduler = [
    dict(
        type=LinearLR,
        start_factor=1e-5,
        by_epoch=True,
        begin=0,
        end=warmup_ratio * max_epochs,
        convert_to_iter_based=True),
    dict(
        type=CosineAnnealingLR,
        eta_min=0.0,
        by_epoch=True,
        begin=warmup_ratio * max_epochs,
        T_max=max_epochs,
        convert_to_iter_based=True)
]

# train, val, test setting
train_cfg = dict(by_epoch=True, max_epochs=max_epochs, val_interval=1)

#######################################################################
#                           PART 5  Runtime                           #
#######################################################################
# Log the dialogue periodically during the training process, optional
custom_hooks = [
    dict(type=DatasetInfoHook, tokenizer=tokenizer),
    dict(
        type=EvaluateChatHook,
        tokenizer=tokenizer,
        every_n_iters=evaluation_freq,
        evaluation_inputs=evaluation_inputs,
        system=SYSTEM,
        prompt_template=prompt_template)
]

# configure default hooks
default_hooks = dict(
    # record the time of every iteration.
    timer=dict(type=IterTimerHook),
    # print log every 100 iterations.
    logger=dict(type=LoggerHook, interval=10),
    # enable the parameter scheduler.
    param_scheduler=dict(type=ParamSchedulerHook),
    # save checkpoint per epoch.
    checkpoint=dict(type=CheckpointHook, interval=1),
    # set sampler seed in distributed evrionment.
    sampler_seed=dict(type=DistSamplerSeedHook),
)

# configure environment
env_cfg = dict(
    # whether to enable cudnn benchmark
    cudnn_benchmark=False,
    # set multi process parameters
    mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0),
    # set distributed parameters
    dist_cfg=dict(backend='nccl'),
)

# set visualizer
visualizer = None

# set log level
log_level = 'INFO'

# load from which checkpoint
load_from = None

# whether to resume training from the loaded checkpoint
resume = False

# Defaults to use random seed and disable `deterministic`
randomness = dict(seed=None, deterministic=False)

Labmem009 Feb 20, 2024
Author

请问您提出的tensor parallelism，pipeline parallelism，gradient checkpointing这些参数，请问是在internEVO中可以使用吗？我暂时没有发现怎么在xtuner中使用。应该是我选择的微调方法不对？期待您的解答

Labmem009 · 2024-01-26T02:15:54Z

Labmem009
Jan 26, 2024
Author

感谢您的解答！但我还想请问一下推理和微调时显存的消耗是和上文是近似成线性关系吗？如果我使用平均长度8k，最长120k的上文进行微调，是否会损害模型200k的长上文能力？

0 replies

yhcc · 2024-01-26T07:02:26Z

yhcc
Jan 26, 2024
Maintainer

应该不会，现在的200k更多是依靠外推进行扩展的，所以不包含200k的语料并不会让模型变得更差。

1 reply

Labmem009 Feb 20, 2024
Author

您好，目前我是根据项目给出的XTuner脚本改动为全量FT后进行微调，目前2k的上文需要8*A100加上ZeRO3进行微调，并且显存基本已经用满。但是我没有找到之前解答中告诉我需要设置的tensor parallelism，pipeline parallelism，gradient checkpointing这些参数，请问是使用了其它方法进行微调了，还是需要修改XTuner的训练配置？具体xtuner配置是在之前的回复中

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

长上文的微调之后还会出教程吗？比如100k的指令微调语料大概需要多少显存，训练策略要选择什么？[QA] #664

{{title}}

Replies: 3 comments 3 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

长上文的微调之后还会出教程吗？比如100k的指令微调语料大概需要多少显存，训练策略要选择什么？[QA] #664

Labmem009 Jan 25, 2024

Describe the question.

Replies: 3 comments · 3 replies

00INDEX Jan 25, 2024

Labmem009 Jan 29, 2024 Author

Labmem009 Feb 20, 2024 Author

Labmem009 Jan 26, 2024 Author

yhcc Jan 26, 2024 Maintainer

Labmem009 Feb 20, 2024 Author

Labmem009
Jan 25, 2024

Replies: 3 comments 3 replies

00INDEX
Jan 25, 2024

Labmem009 Jan 29, 2024
Author

Labmem009 Feb 20, 2024
Author

Labmem009
Jan 26, 2024
Author

yhcc
Jan 26, 2024
Maintainer

Labmem009 Feb 20, 2024
Author