首页 > > 股市闲谈 > 第39章关于ChatGPT的一些解读中

第39章关于ChatGPT的一些解读中（2/5）

GPT 引入新的模型训练方法，AI 行业发展有望加速GPT通过Transformer为基础的预训练语言模型，此前已公布GPT-1、GPT-2、GPT-3 三个模型，ChatGPT 是对 GPT-3 模型（又称为 GPT-3.5）微调后开发出来的对话机器人。ChatGPT 引入了 RLHF（基于人类反馈的强化学习）方法，

方法分为三个步骤： 1）有监督地调优：预训练的语言模型在少量已标注的数据上进行调优，以学习从给定的 prompt 列表生成输出的有监督的策略（SFT 模型）；2）模拟人类偏好：标注者们对相对大量的 SFT 模型输出进行投票，创建一个由比较数据组成的新数据集，训练建立模型（RM）；

3）近端策略优化（PPO）：使用 RM 作为强化学习的优化目标，利用 PPO算法微调 SFT 模型。我们认为，ChatGPT 的成功展示出 AI 大模型的应用潜力，新方法的引入有望加速 NLP 算法及 AI 行业发展。

本章未完，下一页继续

好书推荐：命运之界：平行生死狐妖：不负相思平凡的精灵训练家开局没了师尊，大师兄开始称霸一觉醒来，千金她变了！穿剧后，我把剧情带歪了都市：姐姐们太爱我了位面盲盒被曝光，老外哭求入华夏猛鬼故事情怀篇清穿之绝色美人

第39章 关于ChatGPT的一些解读中（2/5）

第39章关于ChatGPT的一些解读中（2/5）