ChatGPTBook

本项目为书籍《ChatGPT原理与实战：大型语言模型的算法、技术和私有化》实战部分代码汇总。

项目介绍

第3章: 基于夸夸闲聊数据的UniLM模型实战
第4章: 待补充
第5章: 基于Prompt的文本情感分析实战
第6章: 基于大型语言模型的预训练实战 & 基于大型语言模型的信息抽取实战
第7章: 基于GPT2模型的文本摘要实战
第8章: 基于PPO的正向情感倾向性生成项目实战
第9章: 基于文档生成问题任务的类ChatGPT实战

增补内容

由于大模型技术发展迅速，一些新的前言内容书本无法快速更新，笔者会在此增补一些大模型相关知识内容，以补充书中的缺失。

勘误

该部分主要记录《ChatGPT原理与实战》的勘误内容，主要对错别字、笔误部分、歧义部分进行修改，也欢迎大家在issue里进行反馈。

序号	页数	原始内容	修改后内容
1	前言	SOTA（Stafe Of The Art）	SOTA（State Of The Art）
2	2	2019年，OpenAI发布GPT-2，这是一个更强大的模型，具有1.5亿个参数，可以应用于自动生成文章、摘要、对话等任务。	2019年，OpenAI发布GPT-2，这是一个更强大的模型，具有15亿个参数，可以应用于自动生成文章、摘要、对话等任务。
3	2	2020年，OpenAI发布GPT-3，这是目前最强大的自然语言处理模型，具有1.75万亿个参数。	2020年，OpenAI发布GPT-3，这是目前最强大的自然语言处理模型，具有1750亿个参数。
4	14	由于BERT模型主要采用了解码层作为模型框架	由于BERT模型主要采用了编码层作为模型框架
5	18	UniLM并不是唯一想要统一上述任务的模型，谷歌发布的T5（Text-to-Text Transfer Transformer）模型也是一个优秀的模型。	UniLM并不是唯一想要统一上述任务的模型，谷歌发布编码-解码结构的模型—T5（Text-to-Text Transfer Transformer）也是一个优秀的模型。
6	18	GPT模型和T5模型的出现改变了大家认为解码类模型不能做语义分析任务的误区。在ChatGPT各项任务表现特别优异的当下，编码类模型变成最为火热的模型，将有更多从业者投入到相关模型的设计优化中。	GPT模型和T5模型的出现改变了大家认为生成类模型不能做语义分析任务的误区。在ChatGPT各项任务表现特别优异的当下，基于解码器结构的模型变成最为火热的模型，将有更多从业者投入到相关模型的设计优化中。
7	137	Unigram分词应用十分广泛，很多模型都采用这种分词方式作为分词器，如应用十分广泛的RoBERTa模型，它是由Facebook AI Research团队在2019年发布的一种基于预训练的模型，采用的是Transformer架构。这里我们采用由在Hugging Face上公布的一个基于RoBERTa模型架构提供的Unigram分词的模型。	Unigram分词应用十分广泛，很多模型都采用这种分词方式作为分词器。这里我们采用由在Hugging Face上发布的一个使用Unigram分词的模型作为样例。
8	194	并具有3H特性，即Helpful（有用的，可能帮助用户解决他们的任务）、Harmless（真实的，不应该编造信息误导用户）和Harmless（无害的，不应该对人或环境造成身体、心理或社会伤害）	并具有3H特性，即Helpful（有用的，可能帮助用户解决他们的任务）、Honest（真实的，不应该编造信息误导用户）和Harmless（无害的，不应该对人或环境造成身体、心理或社会伤害）
9	240	在RM阶段中，针对文档数据集，通过强化学习中的 PPO算法对 SFT 阶段的文档生成问题模型进行优化，以提高原始模型效果。	在RL阶段中，针对文档数据集，通过强化学习中的 PPO算法对 SFT 阶段的文档生成问题模型进行优化，以提高原始模型效果。

Citing

待补充

联系作者

e-mail：logcongcong@gmail.com

知乎：刘聪NLP

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
GPT2Proj		GPT2Proj
LLMFTProj		LLMFTProj
LLMPreProj		LLMPreProj
PPOProj		PPOProj
PromptProj		PromptProj
RLHFProj		RLHFProj
UniLMProj		UniLMProj
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

GPT2Proj

GPT2Proj

LLMFTProj

LLMFTProj

LLMPreProj

LLMPreProj

PPOProj

PPOProj

PromptProj

PromptProj

RLHFProj

RLHFProj

UniLMProj

UniLMProj

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

Repository files navigation

ChatGPTBook

项目介绍

增补内容

勘误

Citing

联系作者

About

Releases

Packages

Languages

License

liucongg/ChatGPTBook

Folders and files

Latest commit

History

Repository files navigation

ChatGPTBook

项目介绍

增补内容

勘误

Citing

联系作者

About

Resources

License

Stars

Watchers

Forks

Languages