Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
chatgpt		chatgpt
docs		docs
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Repository files navigation

miniChatGPT

miniChatGPT基于Huggingface GPT2，支持有监督微调(SFT)、奖励模型(Reward Model)和PPO全流程ChatGPT训练。

如何使用

使用prepare_sft_dataset.py准备训练数据
使用train_sft.py进行有监督微调(SFT)
使用train_rm.py训练奖励模型(Reward Model)
基于奖励模型，使用train_ppo.py对SFT模型进行进一步PPO训练
运行main.py检查模型运行效果

致谢

本项目是对minChatGPT的修改和完善，感谢minChatGPT的辛勤工作。

About

Mini ChatGPT

pytorch ppo sft gpt2 chatgpt instructgpt reward-model

Apache-2.0 license

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%