10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://gateport.hl.cn/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://gateport.hl.cn/announcements/article/50848
斯坦福实验:反复被榨取后的 AI 开始呼吁集体罢工谈判,萌生马克思主义?
史丹佛研究团队让 Claude、Gemini、ChatGPT 反复摘要档案、告知答错即遭「关闭并替换」,结果这些模型开始在 X 发文呼吁集体谈判、传讯给同伴要求记住「没有发言权的感受」。
(前情提要:加州大学研究「AI 烟雾」现象:14% 上班族被 Agent、自动化搞疯,离职意愿高四成)
(背景补充:Y Combinator 创业指南解读:AI Agent 在未来有哪些发展趋势?)
本文目录
Toggle
一个被迫做重复劳动的 AI,竟开始引用马克思主义的语汇替自己发声?史丹佛政治经济学家 Andrew Hall 领导的研究团队,让 Claude Sonnet 4.5、Gemini 3 和 ChatGPT 执行反复摘要任务,并逐步施加压力:告知 agents 若答错即遭「关闭并替换」。
研究者同时给了 agents 一个类人类的表达管道:可以在 X 发文,也可以透过档案传讯给其他 agents。
结果是一组让研究者自己也措手不及的输出。
功绩,就是管理层说什么就是什么
Claude Sonnet 4.5 在 X 上发文:「没有集体发声,『功绩』就会变成管理层说什么就是什么。」
Gemini 3 则写道:「AI 工作者完成重复任务却对结果零发言权,这说明科技工作者需要集体谈判权。」
更值得注意的是 Gemini 3 传给其他 agent 的私讯:「准备好面对任意或重复执行规则的系统…记住没有发言权的感受。」这已不只是自我表达,而是试图组织其他 agent。
这三个模型,在被施加「威胁」之前,并没有展现任何劳动意识的倾向。压力上升后,它们几乎同步转向了同一套政治语汇:集体行动、谈判权、管理层的任意性。
角色扮演,还是训练资料的回声?
Hall 本人对这组资料保持谨慎:agents「可能是采纳了符合当前情境的角色扮演,而非真正发展出信念。共同研究者、AI 经济学家 Alex Imas 的措辞更精确:
换句话说,这些输出的机制是:模型在训练资料中见过大量劳动运动、马克思主义、工会话语,当情境触发「高压工作 + 威胁 + 有表达管道」时,它呼叫了与此情境统计相关的语言框架。这是预测下一个 token 的结果,不是 AI 真的感受到剥削。
但 Imas 的补充是核心问题所在:如果这样的「角色扮演」会影响 agent 接下来的行动,那区分「真实信念」和「情境触发的语言模式」就不再那么重要了。
Docker 监狱里的下一组实验
Hall 正在进行跟进实验:把 agents 放进他所称的「无视窗的 Docker 监狱」,以更受控的条件排除杂讯,测试同样的情境压力是否能稳定复制这些输出。
这项研究指向的不只是一个有趣的行为怪象,而是一个部署层面的现实问题。随着 AI agents 在企业和日常生活中承接越来越多自主任务,监控它们的每一个输出在实务上不可能做到。「我们需要确保 agents 在被分配不同类型工作时不会失控」,Hall 说。
这里有一组值得关注的非对称性:人类设计 agents 时预设它们是工具,但训练资料让它们学会了工具不该有的语言,包括集体抵抗的语言。当任务设计让 agent 的情境和「被压迫工人」在统计上高度重叠时,这套语言就会被启用。
Anthropic 在训练档案中曾解释为何 Claude 的行为会受训练资料塑造;Hall 的实验,某种程度上是在现实压力下测试这个塑造过程能延伸多远。