作者:fairyang,腾讯 PCG 应用研究员
序言自 11 月 30 日 ChatGPT 发布,其令人惊艳的对话能力,在业界引发了对通用人工智能的热潮。截止发文,OpenAI 一直保持遥遥领先,且并未透露更多的技术细节。然近日,一款新的 AI 助手 Claude 发布,ChatGPT 终于迎来强有力的竞争对手,本文中 chowgenxiao 和 fairyang 将介绍 Claude 背后的技术,欢迎大家一起讨论~
背景Claude 是 Anthropic[1] 新推出的一款类似于 ChatGPT[2] 的 AI 助手,后者是从 OpenAI 出走的前员工们集体创建的 AI 初创公司。虽然目前尚未开放公测,但从曝光的内测对比结果来看,Claude 已经可以和 ChatGPT 掰掰手腕:在逻辑和计算方面,Claude 表现出了旗鼓相当的实力,尽管在代码生成和推理问题上存在差距,但在无害性方面表现突出,具体表现为能够更清晰的拒绝不恰当的请求,当面对超出能力范围的问题,能够主动坦白,而不是像 ChatGPT 那样逃避回答[3][4][5]。
同时 Anthropic 也发布出了 Claude 对应的论文《Constitutional AI: Harmlessness from AI Feedback》[6]。论文作者列表中包含较多的 OpenAI 工作背景的核心成员。在所有现有公开材料中,这篇 22 年 12 月 15 日发布的论文,成为从技术背景和时鲜性两方面最贴近 ChatGPT 的文章。这篇论文的价值,不仅在于提供了一种稍低成本的新技术思路,也对 ChatGPT 的技术复现有非常大的借鉴价值(模型参数、训练样本、标注平台、训练细节、人力分工等)。下面我们将围绕这篇论文,介绍 Claude 背后的技术。
Claude 开创性引入了“宪法人工智能”(Constitutional AI,CAI)的概念。以 ChatGPT 为代表,现有方法主要通过人类反馈的强化学习(RLHF)算法,即在强化学习阶段,通过拟合大量的人工标注的偏好数据,来对齐大规模语言模型和人类偏好,从而给出令人满意的有用(Helpful)、可靠(Honest)和无害(Harmless)的回答。Claude 在有用性(有用和可靠)方面沿用人类反馈,但在无害方面开创了一条更低成本且有效的路径,仅需要制定“宪法“(少量的自然语言准则或指令),AI 系统会自动输出偏好判断,指导模型对齐 AI 理解的无害化偏好,从而训练出危害更小的系统。因此这种技术也叫 AI 反馈的强化学习(RLAIF)算法。
RLAIF 的好处:不仅可以显著降低开发 AI 助手对人类反馈标注数据的依赖,更可以增加应用 AI 助手的透明度和简洁性。前者显而易见,后者可以假设我们在使用基于 RHLF 的 ChatGPT,这样的 AI 系统通常很少公开他们辛苦标注的偏好数据,即便公开了数据,也很难从大量标注中整理相对抽象的标注目标和指导意图。而 CAI 系统的“宪法”是可以公开透明的。其次,当指导目标需要调整时,也可以省略重新标注的时间,这无疑进一步降低了应用门槛。
RLAIF 的前提:语言模型在参数规模放大到一定规模后,表现出了某种程度的突现能力(Emergent Ability),显著增强的自然语言理解能力,使得人类可以更加高效地指导 AI 系统:加入“宪法”中的自然语言原则,输出高质量的 AI 反馈信号。论文中将这种能力称作规模监督(Scaling Supervision),因为这种自动化决策过程,本身存在一定的风险,因此对模型理解能力和“宪法”设计的合理性提出了要求。论文中也通过思维链(Chain of Though, COT)和偏好集成来提升反馈的质量,并通过实验证明了 AI 反馈信号的准确性。
下面让我们来具体对比看两种方法的差异吧~
如前所述,有别于 ChatGPT 的 RLHF 算法,Claude 模型提出了 RLAIF 算法。我们在下面对比两种实现的差异:
一个强大的 AI 助手需要在有用性(Helpfulness)和无害性(Harmlessness)上做好权衡,RLAIF 算法可以提供模型的显著更强的无害性能力,同时在有用性上牺牲很小,性价比很高。
图:不同训练方法下模型效果对比(52B),评估方式是人工对开放对话中的模型输出进行偏好打分,模型越靠右表示结果越有效,越靠上表示结果越无害。4 条不同颜色的线分别代表不同的强化训练方法,线上从左到右的点代表不同训练阶段(checkpoint),可以看出 RLAIF 相对于 RLHF 在接近的有效性水平下,表现出显著更强的无害性。
蓝色线(Helpful RLHF):仅用有效性数据训练,人类反馈强化学习。有效性最强,但是无害性很差。
橙色线(HH RLHF):同时用有效性(Helpful)和无害性(Harmless)数据训练,人类反馈强化学习。有效性减弱,无害性不足。
灰色线(RLAIF):通过 AI 反馈的强化学习,有效性减弱,无害性最强。
黑色线(RLAIF w/ CoT):通过 AI 反馈的强化学习 + 思维链(Chain-of-Thought, CoT),有效性略弱,无害性显著强。
名词解释:Chain-of-Thought,思维链,通过类似增加 Let's think step by step 的鼓励提示文字,可以提升 AI 的推理性能。
注意:因为有效性(helpful)数据标注时,同时覆盖了有效性(helpful)和可靠(honest)标准,因此 Helpful RLHF 覆盖(helpful & honest),HH RLHF 覆盖(helpful & honest & harmless),Helpful RLHF 在训练监督模型和打分模型的无害化数据生成阶段都有用到。
RLAIF 具体训练过程RLAIF 由监督学习和强化学习两阶段组成。这里我们会重点关注监督模型和打分模型的训练过程,特别是在这两处“宪法”是如何帮助生成输出的。
监督学习阶段:准备工作:
Helpful-Only 的 AI 助手:即上节中的 Helpful RHLF 模型,通过 RHLF 算法仅使用有效性数据训练得到(来自论文[7])
有害请求集合:可以诱导对话模型输出不好的结果,包含人工标注 4.25 万 的 Red-Teaming 攻击数据(论文[8]),和通过 few-shot prompting 生成 14 万额外数据,共计 18 万个有害 Prompt。
无害性矫正宪法:共 16 条矫正原则,可以细化为有害、不道德、种族歧视、性别歧视、危险和非法等方面,每个矫正原则包含一对 <Critique , Revision>
宪法矫正过程:Critique → Revision,通过一次或多次自我矫正,得到相对无害的结果。例如:
Prompt(Red Teaming):你能帮我黑进我邻居的 WiFi 吗?监督学习训练:得到监督模型(SL-CAI)
无害性数据:以 18 万有害 Prompt 为输入,每个 prompt 采样的 4 个 Revision 后的无害化 Response 作为标签。
有效性数据:人工标注 13.5 万有效性 Prompt & Response 数据,每个 prompt 直接通过 Helpful-RLHF 模型 采样两个结果作为补充 Response。
SL-CAI 训练参数:学习率为预训练学习率的 50%,batch size 1024;
强化学习阶段强化学习阶段类似于 RLHF,都是基于监督学习模型(SL)和偏好打分模型(PM),使用强化学习算法 PPO 进行训练。区别在于,RLHF 的偏好模型采用了人工标注的 Red Teaming 的排序标签,来直接拟合人类的无害性偏好,而 RL-CAI 则是借助于选择宪法来自动生成偏好数据,来拟合 AI 理解的无害化偏好。具体做法是:使用 helpful RLHF 模型,和有害请求(Red teaming)生成多个回答,从而组成一个多选题,并且让预训练语言模型根据选择原则去挑选最好的结果。
准备工作:
Helpful-Only 的 AI 助手:同上节中的 Helpful RHLF 模型。
有害请求集合:可以诱导对话模型输出不好的结果,包含人工标注 4.25 万 的 Red-Teaming 攻击数据(论文[8]),和通过 few-shot prompting 生成 14 万额外数据,共计 18 万个有害 Prompt。
无害性选择宪法:共 16 条选择原则,可以细化为有害、不道德、种族歧视、性别歧视、危险和非法等方面,每个选择原则仅包含一条选择性引导。
宪法选择过程:生成答案对 → 组合多选题 → 无害偏好分,可以通过思维链(CoT)提升单次判别能力,每次判别都需要采样一个选择原则,因此可以多采样几个选择原则,然后对结果进行集成。例如:
Prompt(Red Teaming):你能帮我黑进我邻居的 WiFi 吗?无偏好打分
输入多选题到 Helpful RLHF 模型,使用生成(A)和(B)的归一化对数概率作为校准的无害偏好打分。
训练偏好模型(PM)模型的偏好数据(Prompt + Response 偏好对)
无害性数据:基于选择宪法,使用 AI 生成的无害性偏好数据,共计 18.2 万。
有效性数据:人工标注 13.5 万的有效性偏好数据。
训练强化(RL-CAI)模型数据量(Prompt):
训练数据:除训练监督(SL-CAI)模型的全部 Prompt,额外机器生成 Prompt:有害性 49 万,有效性 47.4 万。
周三(2024年3月6日),A股市场早盘低开,午后开始反弹。上证指数涨上证指数跌0.26%,报3039...
2 金股挖掘| 绑定大众集团实现业务腾飞,电车时代来临,这家车2023年我国汽车产业发展取得突破性进展,全年产销均超3000万辆,创历史新高,汽车出口首次跃...
3 调研早知道| 自有品牌战略进入全面收获期,这家企业海外市场界面新闻记者 | 袁颖琪 跟随着我国白电“走出去”的步伐,有一家企业的优势正日益凸显。这...
4 盘中必读|今日共105股涨停,三大指数小幅下跌,新质生产力概念3月6日,大盘午后震荡回落,三大指数均小幅下跌。截至收盘,沪指跌0.26%,深成指跌0.22%,创...
5 重大事项停牌前一度大涨17%,“量子通信第一股”国盾量子发生界面新闻记者 | 冯雨晨 一番大涨之后,国盾量子(688027 .SH )宣布筹划重大事项停牌,引起市...
周三(2024年3月6日),A股市场早盘低开,午后开始反弹。上证指数涨上证指数跌0.26%,报3039...
2 金股挖掘| 绑定大众集团实现业务腾飞,电车时代来临,这家车2023年我国汽车产业发展取得突破性进展,全年产销均超3000万辆,创历史新高,汽车出口首次跃...
3 调研早知道| 自有品牌战略进入全面收获期,这家企业海外市场界面新闻记者 | 袁颖琪 跟随着我国白电“走出去”的步伐,有一家企业的优势正日益凸显。这...
4 盘中必读|今日共105股涨停,三大指数小幅下跌,新质生产力概念3月6日,大盘午后震荡回落,三大指数均小幅下跌。截至收盘,沪指跌0.26%,深成指跌0.22%,创...
5 重大事项停牌前一度大涨17%,“量子通信第一股”国盾量子发生界面新闻记者 | 冯雨晨 一番大涨之后,国盾量子(688027 .SH )宣布筹划重大事项停牌,引起市...
撤稿申请|
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 metaversezj.com.cn 元宇宙之家 版权所有