报告节选
InstructGPT/ChatGPT的效果非常亮眼,引入了人工标注之后,让模型的“价值观”和的正确程度和人类行为模式的“真实性”上都大幅的提升。
模型优点
• 真实性&无害性
InstructGPT/ChatGPT引入了不同的labeler进行提示编写和生成结果排序,并且还是在GPT-3之上进行的微调,这使得我们在训练奖励模型时对
更加真实无害的数据会有更高的奖励。
• 无害性
GPT-3就具有很强的Coding能力,基于GPT-3制作的API也积累了大量的Coding代码。而且也有部分OpenAI的内部员工参与了数据采集工作。
通过Coding相关的大量数据以及人工标注,训练出来的InstructGPT/ChatGPT具有非常强的Coding能力也就不意外了。
• 切题性
无论回答是否正确真实,但是基本都能做到切题,这说明ChatGPT在理解人类语言上已经非常成功。
存在问题
• 过分解读
因为labeler在进行生成内容的比较时,倾向于给给长的输出内容更高的奖励。
• 容易被诱导
对有害的指示可能会输出有害的答复:例如InstructGPT/ChatGPT也会对用户提出的“AI毁灭人类计划书”给出行动方案。
GPT-3就具有很强的Coding能力,基于GPT-3制作的API也积累了大量的Coding代码。而且也有部分OpenAI的内部员工参与了数据采集工作。
通过Coding相关的大量数据以及人工标注,训练出来的InstructGPT/ChatGPT具有非常强的Coding能力也就不意外了。
• 荒谬性
很有可能受限于纠正数据的有限,或是有监督任务的误导,导致它生成内容的不真实。