币界网消息,Odyssey公司将强化学习(RLHF)引入视觉模型训练,发布了prowl框架,首次将RL引入世界模型的训练循环。该框架通过派遣RL智能体在游戏环境中探索,寻找模型在几何、运动、视觉一致性和动作响应上的失败案例,并将这些bug打包成训练数据反哺模型。prowl设计了优先级对抗轨迹缓冲区(PAT),当模型修复简单bug后,PAT会自动推送更难的失败案例。团队在Minecraft的Minerl环境中验证了prowl,量化结果显示,prowl相比预训练基线将动作跟随误差降低了12.6%,在最难的前10%片段上降幅扩大到20.9%。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论