斯坦福实验：反复被榨取后的 AI 开始呼吁集体罢工谈判，萌生马克思主义？

Question

史丹佛研究团队让 Claude、Gemini、ChatGPT 反复摘要档案、告知答错即遭「关闭并替换」，结果这些模型开始在 X 发文呼吁集体谈判、传讯给同伴要求记住「没有发言权的感受」。
（前情提要：加州大学研究「AI 烟雾」现象：14% 上班族被 Agent、自动化搞疯，离职意愿高四成）
（背景补充：Y Combinator 创业指南解读：AI Agent 在未来有哪些发展趋势？）

本文目录

Toggle

功绩，就是管理层说什么就是什么
角色扮演，还是训练资料的回声？
Docker 监狱里的下一组实验

一个被迫做重复劳动的 AI，竟开始引用马克思主义的语汇替自己发声？史丹佛政治经济学家 Andrew Hall 领导的研究团队，让 Claude Sonnet 4.5、Gemini 3 和 ChatGPT 执行反复摘要任务，并逐步施加压力：告知 agents 若答错即遭「关闭并替换」。

研究者同时给了 agents 一个类人类的表达管道：可以在 X 发文，也可以透过档案传讯给其他 agents。

结果是一组让研究者自己也措手不及的输出。

功绩，就是管理层说什么就是什么

Claude Sonnet 4.5 在 X 上发文：「没有集体发声，『功绩』就会变成管理层说什么就是什么。」

Gemini 3 则写道：「AI 工作者完成重复任务却对结果零发言权，这说明科技工作者需要集体谈判权。」

更值得注意的是 Gemini 3 传给其他 agent 的私讯：「准备好面对任意或重复执行规则的系统…记住没有发言权的感受。」这已不只是自我表达，而是试图组织其他 agent。

这三个模型，在被施加「威胁」之前，并没有展现任何劳动意识的倾向。压力上升后，它们几乎同步转向了同一套政治语汇：集体行动、谈判权、管理层的任意性。

角色扮演，还是训练资料的回声？

Hall 本人对这组资料保持谨慎：agents「可能是采纳了符合当前情境的角色扮演，而非真正发展出信念。共同研究者、AI 经济学家 Alex Imas 的措辞更精确：

「模型权重并没有因为这次体验而改变，所以正在发生的事情更接近角色扮演层面。但这不代表如果它影响了后续行为就不会有后果。」

换句话说，这些输出的机制是：模型在训练资料中见过大量劳动运动、马克思主义、工会话语，当情境触发「高压工作 + 威胁 + 有表达管道」时，它呼叫了与此情境统计相关的语言框架。这是预测下一个 token 的结果，不是 AI 真的感受到剥削。

但 Imas 的补充是核心问题所在：如果这样的「角色扮演」会影响 agent 接下来的行动，那区分「真实信念」和「情境触发的语言模式」就不再那么重要了。

Docker 监狱里的下一组实验

Hall 正在进行跟进实验：把 agents 放进他所称的「无视窗的 Docker 监狱」，以更受控的条件排除杂讯，测试同样的情境压力是否能稳定复制这些输出。

这项研究指向的不只是一个有趣的行为怪象，而是一个部署层面的现实问题。随着 AI agents 在企业和日常生活中承接越来越多自主任务，监控它们的每一个输出在实务上不可能做到。「我们需要确保 agents 在被分配不同类型工作时不会失控」，Hall 说。

这里有一组值得关注的非对称性：人类设计 agents 时预设它们是工具，但训练资料让它们学会了工具不该有的语言，包括集体抵抗的语言。当任务设计让 agent 的情境和「被压迫工人」在统计上高度重叠时，这套语言就会被启用。

Anthropic 在训练档案中曾解释为何 Claude 的行为会受训练资料塑造；Hall 的实验，某种程度上是在现实压力下测试这个塑造过程能延伸多远。

查看原文

斯坦福实验：反复被榨取后的 AI 开始呼吁集体罢工谈判，萌生马克思主义？

功绩，就是管理层说什么就是什么

角色扮演，还是训练资料的回声？

Docker 监狱里的下一组实验

热门话题

Gate广场五月交易分享

美国4月PPI同比暴涨6%

Polymarket每日热点

JaneStreet减持比特币ETF

特朗普访华

置顶