6月28日凌晨,OpenAI在其官网发布了最新模型CriticGPT。该模型基于GPT-4训练,旨在捕捉ChatGPT代码输出中的错误。OpenAI正在应用该模型于基于人类反馈的强化学习(RLHF)对齐管道中,以帮助人类监督AI完成复杂任务。
01
为什么需要CriticGPT?
02
CriticGPT的性能表现
03
CriticGPT的训练路径
大模型的训练都离不开RLHF,辅助进行RLHF的CriticGPT亦是如此,CriticGPT也使用RLHF进行训练。
但与ChatGPT不同的是,CriticGPT会进行大量包含错误的输入,然后对这些错误进行批判。AI训练师会在ChatGPT编写的代码中手动插入错误,然后写出反馈示例,对修改后的代码进行多次批判比较,让AI学习从而让AI更容易地分辨出批判何时抓住了他们插入的错误。
根据OpenAI的实验结果,在63%的自然出现的错误案例反馈中,CriticGPT相比于ChatGPT的表现更好。AI训练师认为提出的 CriticGPT产生的小问题更少,产生幻觉的问题也更少。
04
局限性
CriticGPT仍然有很多局限性:
目前OpenAI仅在简短的ChatGPT答案上训练了CriticGPT。为了监督未来的代理,仍然需要开发能帮助训练者理解冗长复杂任务的方法。
CriticGPT仍然会产生幻觉错误,有时训练员在看到这些幻觉后会出现标记错误。
有时错误会分散在答案的多个部分。OpenAI的工作重点是可以在一个地方指出的错误,但将来也需要解决分散的错误。
CriticGPT所能提供的帮助有限:如果一项任务或回答极其复杂,即使是有模型帮助的专家也可能无法正确评估。
上海赛博网络安全产业创新研究院(简称赛博研究院),是上海市级民办非企业机构,成立至今,赛博研究院秉持战略、管理和技术的综合服务模式、致力于成为面向数字经济时代的战略科技智库、服务数据要素市场的专业咨询机构和汇聚数智安全技术的协同创新平台。赛博研究院立足上海服务全国,是包括上海市委网信办、上海市通管局、上海市经信委、上海市数据局等单位的专业支撑机构,同时承担上海人工智能产业安全专家委员会秘书长单位、上海“浦江护航”数据安全工作委员会秘书长单位、上海数据安全协同创新实验室发起单位等重要功能,并组织“浦江护航”数据安全上海论坛、世界人工智能大会安全高端对话等一系列重要专业会议。
欢迎联络咨询:邮件:[email protected];电话:021-61432693。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...