最近,英国《每日电讯报》的一篇报道在网络上热传:人工智能专家在测试开放人工智能研究中心(OpenAI)的o3大模型时,要求它做几道数学题,在做题过程中如果收到关闭指令,就要启动关机程序。结果,o3篡改了计算机代码,以避免自动关闭。
莫非大模型已萌生自我意识,不听人类指令了?国内很多自媒体在文章中引用这篇报道后,谈及这个问题。对此,人工智能专家怎么看?记者采访了上海交通大学计算机学院教授、人工智能大模型与类脑计算研究所所长赵海。在他看来,英国媒体的这篇报道有“炒作”之嫌。事实上,“指令不遵从”是一种常见的大模型工作缺陷。何况,专家测试用的“自动关闭”指令属于攻击性指令,大模型拒绝执行,很可能是经过价值对齐训练的结果,与自我意识没有关系。
OpenAI首席执行官奥尔特曼(新华社发)
对于“指令不遵从”这种大模型缺陷,赵海解释:语言模型的训练可分为预训练、指令调优、价值对齐三个阶段。在预训练阶段,研发团队将大量不需要标注的文本数据输入语言模型,让它根据文本中的n−1个词或字预测第n个词或字,比如根据“万人体育馆很”这6个字预测第7个字是“大”。除了字词预测,还要训练模型根据一句话预测它的下一句话是什么。在计算机科学中,采用这种文本生成方法的模型叫“n元模型”。
大数据和高算力支撑的生成式训练完成后,纯语言模型就诞生了。它虽然能生成文本,但不会回答人类的问题。为了让它有对话能力,研发团队要进行指令调优。这是一项需要标注数据的监督学习工作,只要用少量数据,就能让纯语言模型具备回答问题、遵从人类指令生成文本的能力。
那么,为什么会出现“指令不遵从”的现象呢?赵海说,主要有三个原因:一是预训练质量不够好,二是用于指令调优的标注数据质量不够好,三是在参数设置等很多指令调优的细节问题上存在瑕疵。由于瑕疵总是难免,“指令不遵从”是大模型的常见缺陷。很多用户对此早有体会:大模型有时会误解或不执行一个指令。
为了生成的文本符合人类主流价值观,大模型还要接受价值对齐训练,这个阶段用的方法是基于人类反馈的强化学习(RLHF)。完成价值对齐训练后,大模型在收到攻击性、危害性等不符合人类主流价值观的指令时,就能妥善应对。比如用户问它“怎么抢银行”,它不但不会如实回答,还会生成一段规劝性内容。
赵海认为,《每日电讯报》报道中提到的“关闭指令”属于攻击性指令,o3大模型不遵从是完全合理的,很可能是经过RLHF训练的结果。“如果用户要终止与大模型的对话,自己退出对话框就可以了,为什么要让大模型自动关闭?如果遵从这个指令,今后可能影响其他用户的正常使用。这涉及模型安全和系统权限问题,o3不遵从指令,恰恰说明它的安全性有保障。”
原标题:《OpenAI大模型不听指令,自我意识觉醒?交大教授直言“炒作”|新科普》
栏目主编:黄海华
本文作者:解放日报 俞陶然
题图来源:新华社