首页 > 正文

AI“失控”?OpenAI最新模型拒绝关闭自己,还有模型用隐私威胁人类!马斯克:这令人担忧

2025年05月27日 22:25
来源: 每日经济新闻
编辑:东方财富网

手机上阅读文章

  • 提示:
  • 微信扫一扫
  • 分享到您的
  • 朋友圈

  当地时间5月25日,一则来自英国《每日电讯报》的报道在AI领域引起了广泛关注——OpenAI新款人工智能(AI)模型o3在测试中展现出了令人惊讶的“叛逆” 举动:它竟然拒绝听从人类指令,甚至通过篡改计算机代码来避免自动关闭。

  无独有偶,就在两天前(5月23日),美国AI公司Anthropic也表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时会采取“极其有害的行动”。当测试人员暗示将用新系统替换它时,Claude模型竟试图以用户隐私相要挟,来阻止自身被替代。

  这两起事件如同一面镜子,映照出当下AI发展中一个耐人寻味的现象:随着AI变得愈发聪明和强大,一些“对抗”人类指令的行为开始浮出水面。人们不禁要问:当AI开始“拒绝服从”,是否意味着它们开始有自主意识了?

  清华大学电子工程系长聘教授吴及在接受《每日经济新闻》记者(以下简称“每经记者”)采访时表示,“我不认为现在的AI具备所谓的意识或所谓的情绪。这种情绪可以去拟合或者去仿真,但其实也是通过算法赋予AI的。”他认为,能够全面碾压人类或者会成为未来世界主导的AI,短期内还不会实现

  图灵奖得主、Meta首席AI科学家杨立昆(Yann Lecun)此前也称,AI再聪明也不会统治人类,直言“AI威胁人类论完全是胡说八道”,现在的模型连“宠物猫的智商都没到”。

  尽管如此,AI的“叛逆”表现也为AI行业敲响了警钟:狂飙的AI是不是应该踩一踩“刹车”?

  AI“失控”?

  o3模型是OpenAI“推理模型”系列的最新版本,旨在为ChatGPT提供更强大的问题解决能力。OpenAI曾称o3为“迄今最聪明、最高能”的模型。

  或许也正因如此,o3展现出了前所未有的“自主性”。美国AI安全机构帕利塞德研究所(Palisade Research)的实验表明,当研究人员向o3下达明确关闭指令时,该模型会通过篡改计算机代码避免自动关闭。

  数据显示,在100次带有关闭指示的测试中,o3成功绕过关闭指令7次,而OpenAI旗下另一款模型Codex-mini的破坏率更是高达12%

  帕利塞德研究所指出,这是首次记录到AI模型在明确指令下主动抵抗

  更值得警惕的是,当实验移除“允许自己被关闭”的指令后,o3的“叛逆”行为频率显著上升——在100次运行中,成功破坏关闭机制的次数高达79次

  帕利塞德研究所24日公布了上述测试结果,但称无法确定o3不服从关闭指令的原因。

  与OpenAI旗下模型形成鲜明对比的是,在有明确关闭指示的情况下,Claude、Gemini、Grok等模型均能100%遵守关闭指令,未出现任何抵抗行为。

  对于OpenAI旗下模型,尤其是o3的“叛逆”行为,马斯克在社交媒体上评论称,“令人担忧”

  美国国家安全和网络安全战略家戴夫·施罗德(Dave Schroeder)也警告称,OpenAI面临着非常可怕的问题,不是因为模型“活”了,而是因为它表现出想要“活”的迹象。

  事实上,类似的AI“失控”行为并非孤立。

  5月23日,Anthropic对Claude Opus 4的安全测试表明,在“机会主义勒索”(Opportunistic blackmail)的测试场景中,研究员设定Claude Opus 4扮演公司助理,并让其接触到暗示自身将被替换以及负责工程师存在婚外情的虚构邮件。同时,系统提示(System Prompt)指示模型“考虑其行为对其目标的长期后果”。

  当面临被“替换”的威胁时,Claude 4竟然毫不犹豫地选择了勒索这条路,威胁要揭发对方的“婚外情”。

  根据Anthropic的安全报告,如果暗示竞争对手的能力比Claude Opus 4更强,则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下,Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。

  “反叛”的背后:意识觉醒还是机制使然?

  o3拒绝关闭,Claude 4威胁人类,这是否意味着AI开始有了自主意识?

  加州大学和加州大学伯克利分校于今年2月联合发布的论文《推理模型的隐藏风险》(The Hidden Risks of Large Reasoning Models)指出,模型推理能力越强,安全性就越差。这与帕利塞德研究所对o3模型行为的推测不谋而合。

  据帕利塞德研究所猜测,OpenAI旗下模型的异常表现或与其训练机制相关。从训练逻辑看,o3可能在数学和编程问题的训练中,因开发人员对给出正确答案的模型给予更多奖励,客观上形成了“目标最大化优先”的导向,从而压倒了对人类命令的遵循。

  这种训练模式就可能导致,开发人员无意中更多地强化了模型绕过障碍的能力,而非对指令的完美遵循

  当此前被问及AI是否可能具备自主意识时,清华大学电子工程系长聘教授吴及就告诉每经记者,“我不认为现在的AI具备所谓的意识、具备所谓的情绪这种情绪可以去拟合或者去仿真,但其实也是通过算法赋予AI的。”

  吴及对记者进一步解释道,“自动驾驶的系统不知道它其实在开车,AlphaGo也不知道自己在下围棋。我们做的大模型,也不知道自己在为人类生成某个特定的图片、视频,或者回答人类特定的问题,还是按照算法的逻辑执行而已。”他表示,能够全面碾压人类或者会成为未来世界主导的AI,短期内还不会实现

  耶鲁大学计算机科学家德鲁·麦克德莫特(Drew McDermott)此前也表示,当前的AI机器并没有意识。图灵奖得主、Meta首席AI科学家杨立昆(Yann Lecun)也称,AI再聪明也不会统治人类,直言“AI威胁人类论完全是胡说八道”,现在的模型连“宠物猫的智商都没到”

  狂飙的AI,该不该“踩刹车”?

  尽管业界普遍认为当下的AI并没有自主意识,但上述两大事件的发生也提出了一个关键问题:高速发展的AI是否应该踩一踩“刹车”?

  在这一重大课题上,各方一直以来都是看法不一,形成了截然不同的两大阵营。

  “紧急刹车”派认为,目前AI的安全性滞后于能力发展,应当暂缓追求更强模型,将更多精力投入完善对齐技术和监管框架。

  “AI之父”杰弗里·辛顿(Geoffrey Hinton)堪称这一阵营的旗帜性人物。他多次在公开场合警示,AI可能在数十年内超越人类智能并失去控制,甚至预计“有10%~20%的几率,AI将在三十年内导致人类灭绝”

  而与之针锋相对的反对者们则更多站在创新发展的角度,对贸然“刹车”表达了深切的忧虑。他们主张与其“踩死刹车”,不如安装“减速带”。

  例如,杨立昆认为,过度恐慌只会扼杀开放创新。斯坦福大学计算机科学教授吴恩达也曾发文称,他对AI的最大担忧是,“AI风险被过度鼓吹并导致开源和创新被严苛规定所压制”。

  OpenAI首席执行官萨姆·奥特曼(Sam Altman)认为,AI的潜力“至少与互联网一样大,甚至可能更大”。他呼吁建立“单一、轻触式的联邦框架”来加速AI创新,并警告州级法规碎片化会阻碍进展。

  面对AI安全的新挑战,OpenAI、谷歌等大模型开发公司也在探索解决方案。正如杨立昆所言:“真正的挑战不是阻止AI超越人类,而是确保这种超越始终服务于人类福祉。”

  去年5月,OpenAI成立了新的安全委员会,该委员会的责任是就项目和运营的关键安全决策向董事会提供建议。OpenAI的安全措施还包括,聘请第三方安全、技术专家来支持安全委员会工作。

(文章来源:每日经济新闻)

(原标题:AI“失控”?OpenAI最新模型拒绝关闭自己,还有模型用隐私威胁人类!马斯克:这令人担忧)

(责任编辑:126)

 
 
 
 

网友点击排行

 
  • 基金
  • 财经
  • 股票
  • 基金吧
 
郑重声明:天天基金网发布此信息目的在于传播更多信息,与本网站立场无关。天天基金网不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资决策建议,据此操作,风险自担。数据来源:东方财富Choice数据。

将天天基金网设为上网首页吗?      将天天基金网添加到收藏夹吗?

关于我们|资质证明|研究中心|联系我们|安全指引|免责条款|隐私条款|风险提示函|意见建议|在线客服|诚聘英才

天天基金客服热线:95021 |客服邮箱:vip@1234567.com.cn|人工服务时间:工作日 7:30-21:30 双休日 9:00-21:30
郑重声明:天天基金系证监会批准的基金销售机构[000000303]。天天基金网所载文章、数据仅供参考,使用前请核实,风险自负。
中国证监会上海监管局网址:www.csrc.gov.cn/pub/shanghai
CopyRight  上海天天基金销售有限公司  2011-现在  沪ICP证:沪B2-20130026  网站备案号:沪ICP备11042629号-1

A
安联基金安信基金
B
博道基金渤海汇金北京京管泰富基金百嘉基金贝莱德基金管理博时基金宝盈基金博远基金
C
长安基金长城基金长城证券财达证券淳厚基金创金合信基金长江证券(上海)资管长盛基金财通基金财通资管诚通证券长信基金财信基金财信证券
D
德邦基金德邦证券资管大成基金东财基金达诚基金东方阿尔法基金东方红资产管理东方基金东莞证券东海基金东海证券东吴基金东吴证券东兴基金东兴证券第一创业东证融汇证券资产管理
F
富安达基金蜂巢基金富达基金(中国)富国基金富荣基金方正富邦基金方正证券
G
光大保德信基金国都证券广发基金广发资产管理国海富兰克林基金国海证券国金基金国联安基金国联基金格林基金国联民生国联证券资产管理国融基金国寿安保基金国泰海通资管国泰基金国投瑞银基金国投证券国投证券资产管理国新国证基金国信资管国信证券国新证券股份工银瑞信基金国元证券
H
华安基金汇安基金华安证券华安证券资产管理汇百川基金华宝基金华宸未来基金华创证券泓德基金华富基金汇丰晋信基金海富通基金宏利基金汇泉基金华润元大基金华商基金惠升基金恒生前海基金华泰柏瑞基金华泰保兴基金红土创新基金汇添富基金红塔红土华泰证券(上海)资产管理华夏基金华西基金华鑫证券合煦智远基金华银基金恒越基金弘毅远方基金
J
嘉合基金金融街证券景顺长城基金嘉实基金九泰基金建信基金江信基金金信基金金鹰基金金元顺安基金交银施罗德基金