首页 > > 股市闲谈 > 第39章 关于ChatGPT的一些解读中

第39章 关于ChatGPT的一些解读中(2/5)

目录

GPT 引入新的模型训练方法,AI 行业发展有望加速GPT通过Transformer为基础的预训练语言模型,此前已公布GPT-1、GPT-2、GPT-3 三个模型,ChatGPT 是对 GPT-3 模型(又称为 GPT-3.5)微调后开发出来的对话机器人。ChatGPT 引入了 RLHF(基于人类反馈的强化学习)方法,

方法分为三个步骤: 1)有监督地调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的 prompt 列表生成输出的有监督的策略(SFT 模型);2)模拟人类偏好:标注者们对相对大量的 SFT 模型输出进行投票,创建一个由比较数据组成的新数据集,训练建立模型(RM);

3)近端策略优化(PPO):使用 RM 作为强化学习的优化目标,利用 PPO算法微调 SFT 模型。我们认为,ChatGPT 的成功展示出 AI 大模型的应用潜力,新方法的引入有望加速 NLP 算法及 AI 行业发展。

本章未完,下一页继续

书页 目录
好书推荐: 命运之界:平行生死 狐妖:不负相思 平凡的精灵训练家 开局没了师尊,大师兄开始称霸 一觉醒来,千金她变了! 穿剧后,我把剧情带歪了 都市:姐姐们太爱我了 位面盲盒被曝光,老外哭求入华夏 猛鬼故事情怀篇 清穿之绝色美人