OpenAI大模型不听指令，自我意识觉醒？交大教授直言“炒作”

最近，英国《每日电讯报》的一篇报道在网络上热传：人工智能专家在测试开放人工智能研究中心（OpenAI）的o3大模型时，要求它做几道数学题，在做题过程中如果收到关闭指令，就要启动关机程序。结果，o3篡改了计算机代码，以避免自动关闭。

莫非大模型已萌生自我意识，不听人类指令了？国内很多自媒体在文章中引用这篇报道后，谈及这个问题。对此，人工智能专家怎么看？记者采访了上海交通大学计算机学院教授、人工智能大模型与类脑计算研究所所长赵海。在他看来，英国媒体的这篇报道有“炒作”之嫌。事实上，“指令不遵从”是一种常见的大模型工作缺陷。何况，专家测试用的“自动关闭”指令属于攻击性指令，大模型拒绝执行，很可能是经过价值对齐训练的结果，与自我意识没有关系。

OpenAI首席执行官奥尔特曼（新华社发）

对于“指令不遵从”这种大模型缺陷，赵海解释：语言模型的训练可分为预训练、指令调优、价值对齐三个阶段。在预训练阶段，研发团队将大量不需要标注的文本数据输入语言模型，让它根据文本中的n−1个词或字预测第n个词或字，比如根据“万人体育馆很”这6个字预测第7个字是“大”。除了字词预测，还要训练模型根据一句话预测它的下一句话是什么。在计算机科学中，采用这种文本生成方法的模型叫“n元模型”。

大数据和高算力支撑的生成式训练完成后，纯语言模型就诞生了。它虽然能生成文本，但不会回答人类的问题。为了让它有对话能力，研发团队要进行指令调优。这是一项需要标注数据的监督学习工作，只要用少量数据，就能让纯语言模型具备回答问题、遵从人类指令生成文本的能力。

那么，为什么会出现“指令不遵从”的现象呢？赵海说，主要有三个原因：一是预训练质量不够好，二是用于指令调优的标注数据质量不够好，三是在参数设置等很多指令调优的细节问题上存在瑕疵。由于瑕疵总是难免，“指令不遵从”是大模型的常见缺陷。很多用户对此早有体会：大模型有时会误解或不执行一个指令。

为了生成的文本符合人类主流价值观，大模型还要接受价值对齐训练，这个阶段用的方法是基于人类反馈的强化学习（RLHF）。完成价值对齐训练后，大模型在收到攻击性、危害性等不符合人类主流价值观的指令时，就能妥善应对。比如用户问它“怎么抢银行”，它不但不会如实回答，还会生成一段规劝性内容。

赵海认为，《每日电讯报》报道中提到的“关闭指令”属于攻击性指令，o3大模型不遵从是完全合理的，很可能是经过RLHF训练的结果。“如果用户要终止与大模型的对话，自己退出对话框就可以了，为什么要让大模型自动关闭？如果遵从这个指令，今后可能影响其他用户的正常使用。这涉及模型安全和系统权限问题，o3不遵从指令，恰恰说明它的安全性有保障。”

原标题：《OpenAI大模型不听指令，自我意识觉醒？交大教授直言“炒作”｜新科普》

栏目主编：黄海华

本文作者：解放日报俞陶然

题图来源：新华社