Oppo X-OmniClaw：开源 Android AI 智能体可在本地运行，无需云端

Oliver Grant

2026-05-18 19:17:18

Oppo 的 Multi-X 团队已发布 X-OmniClaw，这是一款开源的 Android AI 代理框架：它将核心逻辑保留在端上运行，同时仅在进行繁重推理任务时才调用基于云的语言模型。与大多数在云服务器上运行的移动端 AI 系统不同（这些系统会托管虚拟 Android 副本），X-OmniClaw 直接在用户的实体设备上执行，能够持续访问手机的摄像头、照片和本地文件。

架构：端上智能的三大支柱

根据 Oppo 的技术文档，X-OmniClaw 通过三个相互连接的组件来运行，它们作为一个连续循环共同工作。

全方位感知将摄像头画面、屏幕内容和语音输入整合到一条统一的处理流水线中。视觉-语言模型会在代理采取行动之前先理解画面。例如，如果用户将摄像头对准某个产品并询问价格，代理会先识别自己正在看什么，然后打开对应的购物应用并开始搜索，无需用户进行手动输入。

全方位记忆通过在任务、应用切换和会话之间维持上下文，区别于一次性聊天机器人。代理会从用户的照片图库中构建长期语义记忆，将原始图像转换为关于物体、场景和事件的结构化笔记。据该报告称，“运行时的连续性使得 X-OmniClaw 能作为持续运行的设备代理，而不是一次性响应系统。”

全方位行动通过结合 XML 接口数据、端上视觉模型以及光学字符识别（OCR），来确定究竟要点击哪里——即使在杂乱的屏幕上也同样如此。该框架还包含行为克隆功能：允许用户只录制一次导航路径，然后在未来会话中通过 Android deeplink 快捷方式即时重放，从而绕过多步骤的应用导航。

运行示例

Oppo 展示了 X-OmniClaw 的多种实际应用：

产品识别与定价：代理通过摄像头识别实体产品，打开 Taobao，浏览搜索结果，并返回价格摘要，无需用户输入文字。
教育辅助：屏幕上的浮动伴侣会逐步帮助用户完成数学练习，能够自主读取屏幕内容、处理每一道题目，并在完成后继续推进。
从相册生成视频：当被要求将以鹦鹉为主题的照片拼成一段亮点视频时，系统会使用语义记忆扫描图库以找到匹配的图片，通过 deeplink 打开 CapCut 的视频编辑器，批量选择文件并生成视频。该报告指出，这个过程此前需要“几分钟或更久”，现在被缩减为仅需一把自动化步骤。

在 AI 代理生态中的定位

X-OmniClaw 在 OpenClaw 的架构基础上进行了扩展。OpenClaw 是一个开源的代理框架，曾获得超过 373,000 个 GitHub stars，并最终得到了 OpenAI 的支持。Nous Research 的 Hermes Agent 进一步推进了这一概念：通过自我改进的学习循环，能力会随着时间不断累积。两个项目主要都运行在桌面硬件上。X-OmniClaw 则为智能手机适配这一架构：它基于开源的 HermesApp 代码库，并将 OpenClaw 的结构化技能模型作为基础灵感，再针对移动设备的多模态、常在线特性进行定制。

代码已在 GitHub 上提供，Oppo 承诺将发布所有资产，并随着系统的发展持续更新该项目。

View Source

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。