Skip to content

v2.8.0

Latest
Compare
Choose a tag to compare
@w5688414 w5688414 released this 24 Apr 10:04
· 7 commits to release/2.8 since this release

很高兴地通知大家,飞桨大模型套件发布v2.8.0版本。这个版本中,我们深度优化套件的大模型精调对齐的能力,提升大模型套件在国产计算硬件训推能力,具体工作如下:

  • 特色精调和高效对齐:提供自研极致收敛的RsLoRA+算法,大幅提升PEFT训练收敛速度以及训练效果;引入高性能生成加速到RLHF PPO算法,打破 PPO 训练中生成速度瓶颈,PPO训练性能大幅领先。
  • 大模型训练提速:通用化支持 FastFNN、FusedQKV等多个大模型训练性能优化方式,大模型训练更快、更稳定。

大模型精调对齐训推优化

  • 精调
    • PEFT
      • 新增QLoRA pipeline parallel支持 #7801
      • 自定义python算子,优化LoRA的前反向计算 #8106
      • 新增 rslora,lora+,pissa 算法 #8111
    • 长序列
      • 新增长序列方案和模型解耦。RotaryEmbedding,LinearScalingRotaryEmbedding,NTKScalingRotaryEmbedding,DynamicNTKScalingRotaryEmbedding等。#8076
    • Alignment
      • 新增PPO 对齐算法 #7305
    • 训练策略
      • 新增LLaMA sequence parallel #7746
      • 新增LLaMa master_grad #7658
      • GPT新增auto_parallel的支持。 #8160
    • 新增算子
      • 新增GQA 算子支持 #7906
      • 新增gqa fuse attention qkv #7890
      • 新增SwiGLU 算子 #8038
  • 推理
    • 新增QWenVL 的静态图推理 #7808
      模型新增
  • 新增Deberta,Debertav2模型 #8227
    • deepset/deberta-v3-large-squad2
    • microsoft/deberta-v2-xlarge
    • microsoft/deberta-v3-base
    • microsoft/deberta-v3-large
    • microsoft/deberta-base
  • 新增mixtral-of-experts #7803
    • mistralai/Mixtral-8x7B-Instruct-v0.1
    • mistralai/Mixtral-8x7B-v0.1
  • 新增LLama3 #8315
    • meta-llama/Meta-llama-3-8b
    • meta-llama/Meta-Llama-3-8B-Instruct
    • meta-llama/Meta-llama-3-70b
    • meta-llama/Meta-Llama-3-70B-Instruct

基础框架升级

  • Trainer升级
    • Trainer新增 ignore_save_lr_and_optim 参数,可以忽略保存lr scheduler以及optimizer权重 #7978
    • Trainer新增 Wandb 和 Tensorboard 支持。#7863
    • Trainer支持同时解析命令行与json文件参数 #7768
    • trainer新增gradient_sync_after_accumulate支持。#8045
    • dataloader新增cuda编译检查 #8099
  • AutoParallel升级
    • llama 自动并行支持bf16损失 #7874
    • 增加refined-recompute机制#7349
    • 在AMP-O2策略下支持master_grad#7658
    • 进一步完善动静统一自动并行分布式训练基本功能#7985 #8114
    • 新增Llama2模型基于AutoTrainer的半自动训练 #7851 #7885
    • 新增llama的hybrid_parallel_topo_order策略。#8011
    • llama模型组网动静统一 #8127
  • 其他
    • 重构download下载逻辑,支持从bos、hf hub、aistudio、model scope下载模型 #7608 #8020 #8088
    • 新增分布式训练的pipeline parallel #8051
    • 适配npu的FA #8171 #8210
    • llama新增block_attention/cachekv quant #7649

其他支持

  • 新增俄罗斯套娃(matryoshka representation learning)检索策略,节省计算和存储资源。#8165

问题修复

  1. 日志级别修改,并增加timelog计时日志,兼容不同设备。#8261
  2. 修复pipeline并行中随机初始化的shared weights不一致的问题,覆盖GPT/OPT等模型。#7772
  3. 关闭CI及单测中从huggingface hub下载的逻辑 #7798 #8198
  4. 修复llm的gradio开启chat template时候重复拼接query 和 history的问题。#7992
  5. 修复GPT模型下载key error问题。#8253
  6. 修复LlamaRotaryEmbedding #7882
  7. 修复allreduce dtype的问题 #7876
  8. 修复框架侧dev分支清理 paddle.jit.dy2static.utils_helperAPI的问题 #7989
  9. 修复read-data timer在ignore_data_skip=False and skip_profile_timer=False 的问题。#8177
  10. 修复Wandb单测问题 #8066 #8056
  11. 修复Trainer同时解析json与命令行列表参数报错问题#7860
  12. 修复Gradio UI 中的推理问题 #7740 #7788
  13. 修复 Tokenizer 相关的基础问题 #7797 7870
  14. 修复 custom devices上loading rng state的问题。#7894
  15. 修复自动并行打印BF16的loss编码错乱的问题#7874
  16. 采用float初始化模型,修复静态图自动并行AMP报错问题#8033#8199
  17. 修复ShardDataloader接口在PipeLine Parallelism下使用错误问题#8014
  18. 修复llama在custom devices的精度问题。#7895
  19. 修复NPU AICPU算子问题 #7976
  20. 修复FusedLinearWithGradAdd少传参数的问题。#8178

What's Changed

New Contributors

Full Changelog: v2.7.2...v2.8.0