最新 | OpenAI发布CriticGPT：用AI训练AI - 新鲜讯息

6月28日凌晨，OpenAI在其官网发布了最新模型CriticGPT。该模型基于GPT-4训练，旨在捕捉ChatGPT代码输出中的错误。OpenAI正在应用该模型于基于人类反馈的强化学习（RLHF）对齐管道中，以帮助人类监督AI完成复杂任务。

为什么需要CriticGPT？

人类反馈强化学习（RLHF）是一种机器学习技术，利用人类的直接反馈来训练“奖励模型”，然后利用该模型通过强化学习来优化人工智能的性能。例如，用算法以数学公式来定义“有趣”有些不切实际的，但对人类来说，评判人工智能生成的笑话是否有趣却很简单，而这一行为就属于RLHF。

然而随着OpenAI在推理和行为建模方面的进步，ChatGPT正在变得越来越准确，错误也会变得越来越微妙。这样一来，人工智能训练员就很难在错误发生时发现错误，从而使RLHF的比较任务变得更加困难。这是RLHF的基本局限，随着模型逐渐变得比任何可以提供反馈的人都更博学，这可能会使模型之间的比对变得越来越困难。

于是CriticGPT应运而生，通过CriticGPT来对ChatGPT给出答案中的进行反馈。

CriticGPT的性能表现

OpenAI表示，虽然CriticGPT对其他GPT的建议并不总是正确的，但与没有人工智能的帮助相比，这些建议可以辅助AI训练员通过模型编写的答案发现更多的问题。CriticGPT作为一种辅助工具增强AI训练员的技能，从而产生比人们单独工作时更全面的理解能力，以及比模型单独工作时更少的幻觉错误。

下图为综合表现，从上至下分别为“人类”“CriticGPT”“人类+CriticGPT”：

下图为幻觉错误发生数，从上至下分别为“人类”“CriticGPT”“人类+CriticGPT”（越少越好）：

CriticGPT的训练路径

大模型的训练都离不开RLHF，辅助进行RLHF的CriticGPT亦是如此，CriticGPT也使用RLHF进行训练。

但与ChatGPT不同的是，CriticGPT会进行大量包含错误的输入，然后对这些错误进行批判。AI训练师会在ChatGPT编写的代码中手动插入错误，然后写出反馈示例，对修改后的代码进行多次批判比较，让AI学习从而让AI更容易地分辨出批判何时抓住了他们插入的错误。

根据OpenAI的实验结果，在63%的自然出现的错误案例反馈中，CriticGPT相比于ChatGPT的表现更好。AI训练师认为提出的 CriticGPT产生的小问题更少，产生幻觉的问题也更少。

局限性

CriticGPT仍然有很多局限性：

目前OpenAI仅在简短的ChatGPT答案上训练了CriticGPT。为了监督未来的代理，仍然需要开发能帮助训练者理解冗长复杂任务的方法。
CriticGPT仍然会产生幻觉错误，有时训练员在看到这些幻觉后会出现标记错误。
有时错误会分散在答案的多个部分。OpenAI的工作重点是可以在一个地方指出的错误，但将来也需要解决分散的错误。
CriticGPT所能提供的帮助有限：如果一项任务或回答极其复杂，即使是有模型帮助的专家也可能无法正确评估。

来源|OpenAI官网

赛博研究院简介

上海赛博网络安全产业创新研究院（简称赛博研究院），是上海市级民办非企业机构，成立至今，赛博研究院秉持战略、管理和技术的综合服务模式、致力于成为面向数字经济时代的战略科技智库、服务数据要素市场的专业咨询机构和汇聚数智安全技术的协同创新平台。赛博研究院立足上海服务全国，是包括上海市委网信办、上海市通管局、上海市经信委、上海市数据局等单位的专业支撑机构，同时承担上海人工智能产业安全专家委员会秘书长单位、上海“浦江护航”数据安全工作委员会秘书长单位、上海数据安全协同创新实验室发起单位等重要功能，并组织“浦江护航”数据安全上海论坛、世界人工智能大会安全高端对话等一系列重要专业会议。

欢迎联络咨询：邮件:[email protected]；电话：021-61432693。