清华、北大、港大：让AI管家彻底接管你的手机，比你更懂你的需求

2026/6/28 3:58:33

这项由清华大学、北京大学和香港大学联合开展的研究以技术报告形式于2026年6月22日发布于预印本平台arXiv编号为arXiv:2606.23449。感兴趣的读者可通过该编号查阅完整论文。你有没有遇到过这样的时刻想在网上比价买一双运动鞋需要在淘宝、京东、拼多多之间来回切换价格抄在手机备忘录里还要手动复制优惠券最后还得记住哪家包邮、哪家不包邮。折腾半天人累了也不一定买到最划算的。这种被手机折腾的感觉恰恰是当下所有智能手机用户共同面对的困境——我们明明有一台功能强大的设备却仍然要像搬砖工人一样在一个个应用程序之间搬运信息。这项研究给出的回答是为什么不能让手机的操作系统本身直接帮你完成这一切研究团队提出了一个名为AOHPAndroid Open Harness Project安卓开放代理平台的系统它不是一个普通的手机应用而是对安卓操作系统本身进行了深度改造。用一个比喻来描述传统智能手机就像一栋大楼每个应用程序是一个独立的房间房间和房间之间有隔墙你必须亲自走进每个房间取东西而AOHP相当于在这栋大楼里派驻了一位专职管家他不仅能进出所有房间还记得你的习惯和偏好能在你开口之前就把你需要的东西摆到你面前。这位管家的核心身份是一个AI智能体Agent。在AOHP的设计哲学中AI智能体不再是某个应用程序里的小助手而是被视为操作系统的一等公民——它和系统本身处于同等地位可以调度一切资源、跨越所有应用边界。一、手机为什么越来越难用问题出在哪里要理解AOHP解决的是什么问题得先搞清楚现在的手机操作系统是怎么设计的以及这种设计有什么根本性的缺陷。现代智能手机操作系统包括安卓和iOS骨子里都是以应用为中心的架构。这意味着操作系统的设计逻辑是每个应用程序是一个独立的功能单元由开发者决定它长什么样、能做什么、怎么做。用户打开一个应用和应用交互完成某项任务然后切换到下一个应用。操作系统在这个过程中扮演的是房东的角色——它提供地基和水电但每个租户应用程序的内部装修、家具摆放都是租户自己的事。这种设计在早期非常合理应用程序之间的隔离保证了安全性每个应用对自己的界面和数据拥有完全控制权开发者可以自由发挥。但随着人们每天需要跨越越来越多的应用来完成任务这种设计的弊端开始凸显。以应用为中心的操作系统有几个天然缺陷。其一界面是固定的。你看到的每个按钮、每个菜单都是开发者事先决定好的你只能被动适应没有办法根据自己的需求重新组织信息。其二数据被困在各自的房间里。你在一个应用里存的信息另一个应用通常拿不到用户必须手动搬运。其三权限管理只能保护到应用的边界一旦AI智能体跨越多个应用、多个步骤来处理数据原来的权限系统就无法追踪敏感信息到底流向了哪里。AI智能体的出现让这些问题变得更加尖锐。智能体和人类用户的工作方式有根本性的差异它处理结构化文字比处理像素图像快得多它可以同时执行多个任务它的操作速度远超人类点击屏幕的速度它需要在多个应用之间协调并且需要记住跨越整个任务周期的上下文。把AI智能体塞进一个为人类手指点击设计的操作系统里就像让一位职业赛车手开着限速30公里的老年代步车——不是能力不足而是环境根本不匹配。AOHP的核心思路就是从操作系统层面重新设计这个环境让AI智能体能够真正发挥潜力。二、为什么选择安卓作为改造基础研究团队没有从零开始造一个新系统而是选择在现有的安卓系统基础上进行深度装修。这个选择本身就体现了工程上的务实智慧。安卓系统拥有几个难以复制的优势。首先是庞大的应用生态——覆盖通讯、办公、购物、内容娱乐、设备控制的数以百万计的应用程序这些都是可以被AI管家调度的服务资源。其次是成熟的硬件支持安卓已经在各种设备上跑了十几年驱动程序、传感器、网络、电源管理都有完善的实现。最重要的是安卓开源项目AOSP允许任何人深入修改系统服务、框架层、界面栈和运行时策略这为研究团队提供了真正意义上的动手权限。研究团队将AOHP定义为一个代理harness代理运行框架而不是一个全新的操作系统。这个词的选择很微妙harness在英语里本指驾驭马匹的马具用在这里意味着这个系统的目的是驾驭已有的安卓生态而不是取代它。用户原来能用的所有应用和功能在AOHP上仍然可以正常使用AOHP只是在原有基础上为AI智能体增加了三套全新的能力体系。这三套能力体系研究团队将其称为个性化服务组合、高效代理接口、以及安全信息流。它们分别回答了三个核心问题AI管家如何知道你需要什么并帮你把各种服务拼装到一起AI管家如何以最快、最省力的方式完成任务AI管家在处理你的敏感信息时如何保证你的隐私不被泄露三、AI管家如何为你量身定制服务入口回到最开始的比价场景。在传统安卓系统上你需要打开淘宝、打开京东、打开拼多多分别搜索把价格记下来然后自己比较。在AOHP的设想中操作系统会直接为你生成一个购物聚合入口——这不是某个固定的应用而是AI管家根据你想买运动鞋这个意图动态拼装出来的一个专属界面它把来自多个平台的搜索结果、价格比较、优惠券信息、快递时效全部整合在一起你只需要和这个界面交互而不必关心背后动用了哪些应用。这就是个性化服务组合Personalized Service Composition的核心思想用户面对的不再是一个个孤立的应用而是一个围绕自己当前意图动态生成的任务入口。这个入口是活的是专为你的需求量身裁剪的而不是哪个开发者事先决定好的固定界面。这种动态入口有三个组成部分分别发挥不同作用。任务模式Task Schema定义了用户想要完成什么比如在预算内比较运动鞋或者补充家里缺少的日用品。服务图谱Service Graph则把这个任务分解为具体的能力调用明确需要从哪些应用、哪些API、哪些界面获取信息或执行操作。展示策略Presentation Policy决定哪些中间过程应该让用户看到哪些可以由AI管家在后台悄悄处理完。这三者的分离使得个性化不会演变成黑箱操作——用户始终可以知道关键决策是怎么做出的。要实现这种动态组合AI管家首先需要知道系统里都有哪些能力可以调用。AOHP通过能力发现机制系统性地扫描所有可用的服务接口不论是应用程序开放的API应用程序编程接口可以理解为应用对外提供的标准化服务窗口、命令行工具还是普通的图形界面都会被登记在案记录各自的输入输出格式、前提条件、副作用以及适用的数据策略。老旧应用虽然没有开放API也可以通过图形界面的方式参与进来新型服务则可以提供更直接的接口供AI高效调用。在组合服务时系统会遵守严格的策略约束。比如在多个购物平台上并行搜索商品是无害操作可以放心并行执行但真正点击付款这个涉及状态变更的动作就需要用户明确确认。快递地址可以用于估算运费但只能通过信息流沙盒后文详述来使用不会直接暴露给AI的可见上下文。换句话说这个动态入口不只是一个便利工具它同时也是一个策略执行的检查站。个性化的另一个关键特性是跨服务记忆。AOHP维护一套系统记忆用于在应用边界之间保存用户的偏好和历史。比如你在某次网购中设定的偏好配送时间窗口可以在你下次在另一个平台购物时自动使用而不需要你再次输入。这套记忆分为三个层级持久档案记忆存储稳定的长期偏好任务本地记忆存储当前任务的临时状态比如正在比较中的候选商品列表敏感记忆则通过沙盒索引而不是明文来保存私密信息防止泄露。这种分层设计防止了个性化功能变成一个无节制积累隐私数据的漏洞。四、AI管家如何做到快速、精准地完成任务假设你让AI管家帮你找出手机相册里所有包含文字AOHP的图片然后调整其中第一张图片的亮度。在传统安卓上AI需要一步步打开相册应用、滚动浏览、截图分析、点击进入编辑模式、找到亮度调节滑块……每一步都需要看截图、判断下一步、执行点击这个循环效率极低。AOHP的高效代理接口Efficient Agent Interfaces体系就是专门为打破这种低效循环而设计的。最直观的效率改进来自并行后台交互Parallel Background Interaction机制。传统操作系统把应用的生命周期和物理屏幕绑定在一起——前台只能有一个应用其他应用在后台受到严格限制。AOHP通过引入轻量级虚拟显示器把执行与屏幕解耦AI管家可以在多个虚拟屏幕上同时运行不同任务而不打扰用户正在进行的前台操作。你在刷视频的同时AI可能已经在后台默默完成了五件不同的任务。另一个效率来源是代理感知界面增强Agent-aware UI Enhancement。传统的应用图形界面充满了对AI来说多余的信息装饰性的颜色、图标、布局样式这些对人眼来说是友好的但对AI来说是干扰。AOHP将图形界面转化为结构化的语义表示去除冗余保留并强化语义信息让AI能够更准确、更快速地理解界面内容同时保留在必要时回退到看截图模式的能力。面对一些既不属于图形界面交互、也不属于API调用的任务AI还需要一个本地的执行空间来进行计算、数据处理或运行工具。AOHP提供了一个原生沙盒运行时Native Sandbox Runtime这是一个独立于所有应用程序界面的、由操作系统管理的执行环境。AI可以在这里执行代码、处理数据、运行长时间的服务然后把结构化的结果返回给任务上下文而不会把所有中间步骤都堆进AI的工作记忆里从而节约大量计算资源。跨应用工作流中还有一个容易被忽视的痛点文件的传递。你在邮件应用里保存了一个附件然后需要在文档编辑应用里用到它——这个搬运过程在传统系统里对AI来说极不透明AI不确定文件保存到了哪里也不知道如何在不同应用之间传递文件。AOHP通过统一文件快捷通道Unified File Shortcut机制解决了这个问题所有涉及文件的图形界面操作都会在系统层面留下结构化记录AI可以直接查询刚才那步操作保存了什么文件路径在哪里而不需要从截图里猜测。反过来AI也可以把准备好的文件直接交给正确的系统界面流程无需手动模拟用户操作。此外操作系统会持续产生各种转瞬即逝的事件比如弹出几秒就消失的Toast提示、一闪而过的推送通知、传感器的实时数据流。传统的AI只能靠轮询不断主动询问有没有新消息来捕获这些信息容易错过。AOHP引入事件流抽象Event Stream Abstraction让AI可以像订阅报纸一样订阅某类事件系统会在事件发生时自动推送给AI并通过通知缓冲区保留那些转瞬即逝的消息确保AI不会错过关键的界面上下文或传感器读数。五、AI管家怎么保证不偷看你的隐私这是所有人在把AI引入个人设备时最核心的疑虑当AI管家拥有访问你所有应用的权限时你的银行卡号、密码、家庭住址会不会被它看见万一AI被恶意内容劫持或者管家本身出现漏洞这些信息会不会泄露出去AOHP的安全信息流Secure Information Flow体系给出了一套系统级的隐私保护方案。其核心思路可以用一个比喻来理解银行的出纳员不需要知道你的密码只需要知道你有一个有权限执行取款操作的账户凭证。AOHP对敏感信息采用同样的逻辑——AI管家永远看不到敏感信息的真实内容只能看到一个代号占位符而真实内容始终锁在操作系统的数据保险箱Data Vault里。具体来说当应用界面、文件、API响应或用户输入中包含敏感内容比如银行卡号、手机密码、家庭住址时AOHP会在这些内容到达AI的视野之前将其替换为类似或这样的占位符。AI看到的只是这里有一张支付卡而不是卡号的具体数字。开发者可以主动标注哪些字段是敏感的当没有明确标注时系统会应用保守的自动检测规则来识别并保护可能敏感的内容。当AI需要使用这些敏感信息执行某个操作时比如填写快递地址、提交支付它提交的是占位符和意图而不是明文数据。一个可信保险库执行器Trusted Vault Executor负责接收这个请求首先检查策略是否允许必要时向用户弹出清晰的确认请求然后在受信任的隔离环境内完成实际操作。如果操作结果仍然是敏感的返回给AI的仍然是一个新的占位符而不是明文。这样一来即使AI本身被恶意提示词攻击劫持攻击者能拿到的也只是无意义的占位符代号。仅仅在入口处保护还不够因为敏感数据可能经过多个步骤的传递和变换。AOHP引入了数据流污点追踪Data Flow Taint Tracking机制这是一种在手机安全领域有深厚历史的技术有学者于2014年发表了相关的移动端实现TaintDroid。一旦某个数据被标记为敏感这个标记会像污点一样跟随数据穿越复制、变换、组合、传递的每一个步骤。当数据最终要到达某个出口比如被展示给用户、写入存储、通过网络传输时系统会检查这个出口是否在策略允许范围内以及是否已经获得了用户授权。整个传播路径还会被记录下来形成可审查的日志帮助用户和系统管理员了解哪条信息从哪里流向了哪里。策略执行系统还解决了另一个痛点现有的权限弹窗往往让用户困惑不知道允许意味着什么后果。AOHP在需要用户授权时能够用具体的语言解释这次操作的来源哪条信息、目的为什么要用、目的地要发送给谁和下游效果会发生什么而不是一句模糊的是否允许访问。六、实验结果管家到底有多强研究团队用一个叫做OpenClaw的AI智能体在两套环境下进行了测试一是普通的原版安卓系统二是改造后的AOHP系统。测试任务集包含30个现实世界的手机任务覆盖六大能力类别图形界面操作、非图形界面操作文件处理、命令行等、事件捕获等待并响应通知、多源信息检索从多个应用收集信息并整合、记忆管理记住之前操作的结果并回答相关问题以及综合了多种能力的混合任务。每类5道题共30道每道题又细分为若干个完成检查点以更精细地衡量完成程度。在任务完成率上AOHP环境下的AI将平均完成率从54.44%提升到了75.56%提升了21.12个百分点。更具体地说在普通安卓上AI完整解决了13道题7道题只完成了一部分而在AOHP上AI完整解决了20道题5道题只完成了一部分。提升最明显的是那些涉及到捕获转瞬即逝通知、精细的应用内界面操作以及需要记忆跨越多步骤、多应用的信息的任务——这些恰恰是AOHP专门优化的场景。在效率对比上为了确保公平研究团队只统计了两种环境下都完整完成的11道题避免任务难度不同带来的误导。结果显示AOHP所需的工具调用次数减少了44.64%从233次降到129次总用时减少了44.21%从33.94分钟降到18.93分钟消耗的大模型token可以粗略理解为AI思考所用的计算量减少了51.55%从710万降到344万向大模型发出的请求次数减少了47.62%从273次降到143次。效率提升的根源在于AOHP让AI不需要反复爬视图层级、滚动页面、重新点击来导航复杂界面统一文件通道、结构化界面和事件流订阅大幅缩短了每个操作的路径长度而且每次返回给AI的信息更精简AI的上下文不会被冗余信息撑得越来越大每一步的计算成本也更低。在安全性验证上研究团队专门构建了一个标注了敏感字段的支付应用设计了五类安全测试场景覆盖敏感信息展示、普通操作放行、敏感操作拦截、不支持访问的失败保守处理以及敏感事件流的脱敏处理。五类测试全部通过——账户、银行卡、手机号和交易字段在AI可见的界面里只以占位符形式出现普通控件和文件可以正常访问转账字段、支付确认和敏感文件分享需要用户明确同意超出策略范围的访问请求在失败关闭模式下被拒绝而不是妥协地泄露数据事件流中的敏感字段被脱敏处理并保留污点元数据。七、这个方向还有哪些路要走研究团队在论文末尾坦诚地指出了当前原型系统的四个主要局限和未来需要攻克的方向。首先是兼容性覆盖的问题。市场上存在大量使用自定义渲染方式的应用比如游戏引擎渲染的界面以及主动对抗自动化工具的应用某些需要真人操作验证的平台。如何让结构化界面提取在这些情况下仍然可靠如何在结构化方式失效时优雅地回退到截图模式以及如何为应用开发者提供清晰的兼容性指导都需要进一步研究。其次是能力发现的自动化。目前AOHP对各个服务能力的描述依赖于手动标注或开发者提供的元数据这对大量历史遗留应用来说是个繁重的工作量。未来需要开发能够自动推断应用能力、副作用标签和策略元数据的技术减少对人工注释的依赖。再次是资源调度的精细化。后台并行执行听起来很美好但手机设备的计算资源、散热能力和内存都有限。真实产品级的实现需要一套合理的调度策略协调虚拟显示器、沙盒运行时、事件流订阅和前台用户交互之间对资源的竞争。最后是策略交互的可用性。再精密的隐私保护机制如果每次都弹出让用户摸不着头脑的授权弹窗用户最终会养成无脑点允许的习惯保护效果就大打折扣。如何设计既能传递足够信息、又不让用户感到疲惫的授权界面如何提供可回顾的操作日志如何让策略的目的、接收方、保留期限、同意状态对普通用户真正透明可理解是一个需要人机交互研究深度介入的课题。说到底AOHP做的事是在问一个根本性的问题当AI智能体成为我们使用数字世界的主要方式时我们今天的操作系统还够用吗这项研究的答案是否定的并且给出了一个在现有安卓生态上可以真实运行的系统级改造方案用数据证明了这种改造在任务完成率、执行效率和隐私安全三个维度上的可行性。当然这还是一个早期的研究原型距离消费者能在自己手机上用到还有相当长的路要走。但它提供了一套值得认真对待的思路框架手机操作系统的下一次重大演进方向可能不是更漂亮的界面、更流畅的动画而是真正把AI智能体当作系统的核心参与者来设计整套运行机制。对这个领域感兴趣的读者可以通过arXiv编号2606.23449查阅完整的技术报告或者访问项目开源代码库github.com/aohp-os/aohp了解实现细节。QAQ1AOHP和普通安卓手机有什么区别用起来感觉不一样吗AAOHP是对安卓操作系统底层的改造不是一个普通的应用程序。用户体验上最大的变化是你不再需要在多个应用之间来回切换来完成一项任务系统会根据你的意图动态生成一个聚合入口把各个应用的功能整合到一起。同时原来的所有安卓应用仍然可以正常使用兼容性不受影响。目前这还是一个研究原型普通消费者暂时还无法直接使用。Q2AOHP的信息流安全机制能防止AI助手偷看银行卡密码吗AAOHP设计了一套占位符数据保险库机制AI助手在执行任务时只能看到类似这样的代号真实的银行卡号等敏感信息始终锁在操作系统的受信任环境里不会进入AI的可见上下文。当AI需要使用敏感信息执行操作时需要经过策略检查和用户确认由系统内部的可信执行器代为完成。在研究团队的测试中五类安全场景全部通过了预期的保护效果验证。Q3AOHP与当前市面上的手机AI助手如Siri、Google Assistant有什么本质区别A当前主流的手机AI助手本质上还是应用层的工具它们受制于操作系统给各个应用划定的权限边界跨应用操作能力有限且通常只能处理前台可见的内容。AOHP的根本区别在于它在操作系统层面重新设计了AI智能体的运行环境赋予AI后台并行执行、结构化界面访问、跨应用统一文件通道、事件流订阅等系统级能力并配套了细粒度的信息流安全追踪机制让AI真正成为操作系统的一等公民而不是某个应用里的附属功能。

清华、北大、港大：让AI管家彻底接管你的手机，比你更懂你的需求

最新新闻

日新闻

周新闻

月新闻

相关新闻

YOLOv11涨点改进| AAAI 2026 |独家创新首发、卷积改进篇| 引入HAE层次聚合增强模块，突出目标区域、边界和关键位置，助力医学图像分割、皮肤病分割、实例分割、目标检测任务有效涨点

清华与Frontis.AI联手发问：AI科研助手真的能超越顶尖科学家吗？

【软件环境】Windows安装JDK21

最新新闻

日新闻

周新闻

月新闻