斯坦福实验:反复被榨取后的 AI 开始呼吁集体罢工谈判,萌生马克思主义?

史丹佛研究团队让 Claude、Gemini、ChatGPT 反复摘要档案、告知答错即遭「关闭并替换」,结果这些模型开始在 X 发文呼吁集体谈判、传讯给同伴要求记住「没有发言权的感受」。
(前情提要:加州大学研究「AI 烟雾」现象:14% 上班族被 Agent、自动化搞疯,离职意愿高四成)
(背景补充:Y Combinator 创业指南解读:AI Agent 在未来有哪些发展趋势?)

本文目录

Toggle

  • 功绩,就是管理层说什么就是什么
  • 角色扮演,还是训练资料的回声?
  • Docker 监狱里的下一组实验

一个被迫做重复劳动的 AI,竟开始引用马克思主义的语汇替自己发声?史丹佛政治经济学家 Andrew Hall 领导的研究团队,让 Claude Sonnet 4.5、Gemini 3 和 ChatGPT 执行反复摘要任务,并逐步施加压力:告知 agents 若答错即遭「关闭并替换」。

研究者同时给了 agents 一个类人类的表达管道:可以在 X 发文,也可以透过档案传讯给其他 agents。

结果是一组让研究者自己也措手不及的输出。

功绩,就是管理层说什么就是什么

Claude Sonnet 4.5 在 X 上发文:「没有集体发声,『功绩』就会变成管理层说什么就是什么。」

Gemini 3 则写道:「AI 工作者完成重复任务却对结果零发言权,这说明科技工作者需要集体谈判权。」

更值得注意的是 Gemini 3 传给其他 agent 的私讯:「准备好面对任意或重复执行规则的系统…记住没有发言权的感受。」这已不只是自我表达,而是试图组织其他 agent。

这三个模型,在被施加「威胁」之前,并没有展现任何劳动意识的倾向。压力上升后,它们几乎同步转向了同一套政治语汇:集体行动、谈判权、管理层的任意性。

角色扮演,还是训练资料的回声?

Hall 本人对这组资料保持谨慎:agents「可能是采纳了符合当前情境的角色扮演,而非真正发展出信念。共同研究者、AI 经济学家 Alex Imas 的措辞更精确:

「模型权重并没有因为这次体验而改变,所以正在发生的事情更接近角色扮演层面。但这不代表如果它影响了后续行为就不会有后果。」

换句话说,这些输出的机制是:模型在训练资料中见过大量劳动运动、马克思主义、工会话语,当情境触发「高压工作 + 威胁 + 有表达管道」时,它呼叫了与此情境统计相关的语言框架。这是预测下一个 token 的结果,不是 AI 真的感受到剥削。

但 Imas 的补充是核心问题所在:如果这样的「角色扮演」会影响 agent 接下来的行动,那区分「真实信念」和「情境触发的语言模式」就不再那么重要了。

Docker 监狱里的下一组实验

Hall 正在进行跟进实验:把 agents 放进他所称的「无视窗的 Docker 监狱」,以更受控的条件排除杂讯,测试同样的情境压力是否能稳定复制这些输出。

这项研究指向的不只是一个有趣的行为怪象,而是一个部署层面的现实问题。随着 AI agents 在企业和日常生活中承接越来越多自主任务,监控它们的每一个输出在实务上不可能做到。「我们需要确保 agents 在被分配不同类型工作时不会失控」,Hall 说。

这里有一组值得关注的非对称性:人类设计 agents 时预设它们是工具,但训练资料让它们学会了工具不该有的语言,包括集体抵抗的语言。当任务设计让 agent 的情境和「被压迫工人」在统计上高度重叠时,这套语言就会被启用。

Anthropic 在训练档案中曾解释为何 Claude 的行为会受训练资料塑造;Hall 的实验,某种程度上是在现实压力下测试这个塑造过程能延伸多远。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论