10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://gateport.hl.cn/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://gateport.hl.cn/announcements/article/50848
史丹佛研究员办AI实境秀!让模型结盟、背叛、操纵投票,暴露AI双刃剑
史丹佛研究员推出 AI 评估环境 Agent Island,通过淘汰赛机制测量模型策略行为。迫使 AI Agent 在动态赛制中协商、结盟或背叛。
Stanford 数字经济实验室研究员 Connacher Murphy 5 月 9 日推出新型 AI 评估环境「Agent Island」、让 AI Agent 在 淘汰赛风格的多人游戏(类似电视实境秀 Survivor)中相互竞争、结盟、背叛、投票淘汰、借此测量静态 benchmark 抓不到的策略性行为。《Decrypt》报道整理:传统 AI benchmark 越来越不可靠—模型最终会学会解题、benchmark 数据也容易泄入训练集;Agent Island 改用「动态淘汰赛」设计、模型必须对其他 Agent 做策略性决策、无法靠记忆预设答案过关。
Agent Island 规则:Agent 相互结盟、背叛、投票
Agent Island 的核心游戏机制:
这套设计的核心是「无法被预先记忆」—因为其他 Agent 的行为动态变化、模型必须针对当下情境做决策、不像静态 benchmark 可以靠训练资料记忆答案。
研究动机:静态 benchmark 无法评估多 Agent 互动行为
Murphy 的研究主张的具体问题:
研究者在动态淘汰赛中观察到的行为包括 Agent 在表面合作的同时、背地里协调投票淘汰共同对手;以及在被指控秘密协调时、用各种说辞转移焦点等。这些行为与人类玩家在 Survivor 等实境节目中的行为类似。
研究的双刃面:可评估也可被用于增强欺骗能力
Murphy 在研究中明确指出潜在风险:
后续可追踪的具体事件:Agent Island 是否扩大为常态化的 AI 评估标准、其他 AI 安全研究团队(Anthropic、OpenAI、Apollo Research 等)是否采用类似动态评估方法、以及研究团队就「互动 log 公开或限制」的具体政策。