Oppo 的 Multi-X 团队已发布 X-OmniClaw,这是一款开源的 Android AI 代理框架:它将核心逻辑保留在端上运行,同时仅在进行繁重推理任务时才调用基于云的语言模型。与大多数在云服务器上运行的移动端 AI 系统不同(这些系统会托管虚拟 Android 副本),X-OmniClaw 直接在用户的实体设备上执行,能够持续访问手机的摄像头、照片和本地文件。
根据 Oppo 的技术文档,X-OmniClaw 通过三个相互连接的组件来运行,它们作为一个连续循环共同工作。
全方位感知将摄像头画面、屏幕内容和语音输入整合到一条统一的处理流水线中。视觉-语言模型会在代理采取行动之前先理解画面。例如,如果用户将摄像头对准某个产品并询问价格,代理会先识别自己正在看什么,然后打开对应的购物应用并开始搜索,无需用户进行手动输入。
全方位记忆通过在任务、应用切换和会话之间维持上下文,区别于一次性聊天机器人。代理会从用户的照片图库中构建长期语义记忆,将原始图像转换为关于物体、场景和事件的结构化笔记。据该报告称,“运行时的连续性使得 X-OmniClaw 能作为持续运行的设备代理,而不是一次性响应系统。”
全方位行动通过结合 XML 接口数据、端上视觉模型以及光学字符识别(OCR),来确定究竟要点击哪里——即使在杂乱的屏幕上也同样如此。该框架还包含行为克隆功能:允许用户只录制一次导航路径,然后在未来会话中通过 Android deeplink 快捷方式即时重放,从而绕过多步骤的应用导航。
Oppo 展示了 X-OmniClaw 的多种实际应用:
产品识别与定价:代理通过摄像头识别实体产品,打开 Taobao,浏览搜索结果,并返回价格摘要,无需用户输入文字。
教育辅助:屏幕上的浮动伴侣会逐步帮助用户完成数学练习,能够自主读取屏幕内容、处理每一道题目,并在完成后继续推进。
从相册生成视频:当被要求将以鹦鹉为主题的照片拼成一段亮点视频时,系统会使用语义记忆扫描图库以找到匹配的图片,通过 deeplink 打开 CapCut 的视频编辑器,批量选择文件并生成视频。该报告指出,这个过程此前需要“几分钟或更久”,现在被缩减为仅需一把自动化步骤。
X-OmniClaw 在 OpenClaw 的架构基础上进行了扩展。OpenClaw 是一个开源的代理框架,曾获得超过 373,000 个 GitHub stars,并最终得到了 OpenAI 的支持。Nous Research 的 Hermes Agent 进一步推进了这一概念:通过自我改进的学习循环,能力会随着时间不断累积。两个项目主要都运行在桌面硬件上。X-OmniClaw 则为智能手机适配这一架构:它基于开源的 HermesApp 代码库,并将 OpenClaw 的结构化技能模型作为基础灵感,再针对移动设备的多模态、常在线特性进行定制。
代码已在 GitHub 上提供,Oppo 承诺将发布所有资产,并随着系统的发展持续更新该项目。
相关快讯