第39章 关于ChatGPT的一些解读中(2/5)
GPT 引入新的模型训练方法,AI 行业发展有望加速GPT通过Transformer为基础的预训练语言模型,此前已公布GPT-1、GPT-2、GPT-3 三个模型,ChatGPT 是对 GPT-3 模型(又称为 GPT-3.5)微调后开发出来的对话机器人。ChatGPT 引入了 RLHF(基于人类反馈的强化学习)方法,
方法分为三个步骤: 1)有监督地调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的 prompt 列表生成输出的有监督的策略(SFT 模型);2)模拟人类偏好:标注者们对相对大量的 SFT 模型输出进行投票,创建一个由比较数据组成的新数据集,训练建立模型(RM);
3)近端策略优化(PPO):使用 RM 作为强化学习的优化目标,利用 PPO算法微调 SFT 模型。我们认为,ChatGPT 的成功展示出 AI 大模型的应用潜力,新方法的引入有望加速 NLP 算法及 AI 行业发展。
本章未完,下一页继续