电影《钢铁侠》中,托尼 · 斯塔克的助手贾维斯(J.A.R.V.I.S.)能帮他适度多样系统并自动完成任务自拍 偷拍,曾让无数不雅众惊奇不已。
目下,这么的超等智能助手,终于变成实验了!
跟着多模态谣言语模子的爆发式进化,OS Agents横空出世,它们能无缝操控电脑和手机,为你自动惩处繁琐任务。
从 Anthropic 的 Computer Use,到苹果的 Apple Intelligence,再到智谱 AI 的 AutoGLM,以及 Google DeepMind 的 Project Mariner,科技巨头们的无餍都指向了并吞个目的:打造真确酷好上的操作系统智能助手。
OS Agents 一经不单是是"助手",它们正在改写"东说念主机交互"的游戏律例。
最近,浙江大学联手OPPO、零一万物等十个机构共同梳理了一篇综述著述《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》,不仅翔实解读了 OS Agents 的硬核技艺构造,还清点了它们的评估顺次和异日挑战。
科技行业的下一个新风口,会是 OS Agents 吗?
OS Agents 交易学术同期迸发
像贾维斯这么的超等 AI 助手,一般被称为OS Agents,它们概况通过操作系统(OS)提供的环境和接口(如图形用户界面,GUI),在诸如电脑或者手机等筹商成立上自动化的完成千般任务。
OS Agents 有弘大的后劲改善全球数十亿用户的生涯,思象一个天下:在线购物、预订差旅等日常行动都不错由这些智能体无缝完成,这将大幅提能手们的生涯遵循和坐褥力。
畴昔,诸如 Siri [ 1 ] 、Cortana [ 2 ] 和 Google Assistant [ 3 ] 等 AI 助手,一经展示了这一后劲。但是,由于模子智商在畴昔较为有限,导致这些居品只可完成有限的任务。
走时的是,跟着多模态谣言语模子的束缚发展,如 Gemini [ 4 ] 、GPT [ 5 ] 、Grok [ 6 ] 、Yi [ 7 ] 和 Claude [ 8 ] 系列模子(排行字据 2024 年 12 月 22 日更新的 Chatbot Arena LLM Leaderboard [ 9 ] ),这一界限迎来了新的可能性。
( M ) LLMs 展现出令东说念主选藏的智商,使得 OS Agents 概况更好地一语气复杂任务并在筹商成立上践诺。
基础模子公司和手机厂商近期在这一界限动作往往,举例最近由 Anthropic 推出的 Computer Use [ 10 ] 、由苹果公司推出的 Apple Intelligence [ 11 ] 、由智谱 AI 推出的 AutoGLM [ 12 ] 和由 Google DeepMind 推出的 Project Mariner [ 13 ] 。
其中,Computer Use 诳骗 Claude [ 14 ] 与用户的筹商机径直互动,不错终了无缝的任务自动化。
与此同期,学术界一经提议了多样顺次来构建基于 ( M ) LLM 的 OS Agents。
举例,OS-Atlas [ 15 ] 提议一种 GUI 基础模子,通过跨多个平台笼统 GUI 操作数据,大幅革命了模子对 GUI 的操作智商,擢升 OOD 任务的发扬。
而 OS-Copilot [ 16 ] 则是一种 OS Agents 框架,概况使智能体在少监督情况下终了平日的筹商机任务自动化,并展示了其在多种应用中的泛化智商和自我革命智商。
△OS Agents 的部分代表性交易居品与学术研究
本文是对 OS Agents 进行的一次全面综述。
领先敷陈 OS Agents 的基础,探讨了其要道因素,包括环境、不雅察空间和动作空间,并概述了一语气、规划和践诺操作等中枢智商。
接着,凝视了构建 OS Agents 的顺次,重心热心 OS Agents 界限特定的基础模子和智能体框架的开采。
随后,著述翔实回归了评估契约和基准测试,展示了 OS Agents 在多种任务中的评估形态。
终末,著述贪图了现时的挑战并指出异日研究的潜在目的,包括安全与隐痛、个性化与自我进化。
本文旨在梳理 OS Agents 研究的近况,为学术研究和工业开采提供匡助。
为了进一步鼓吹该界限的创新,团队还转念了一个开源的 GitHub 仓库,包含 250+ 研讨 OS Agents 的论文以相配他研讨资源,况兼仍在不息更新中。(贯串在著述末尾~)
△OS Agents 基础:要道因素和中枢智商 OS Agents 基础要道因素 ( Key Component )
要终了 OS Agents 对筹商成立的通用适度,需要通过与操作系统提供的环境、输入和输出接口进行交互来完成目的。
为闲散这种交互需求,现存的 OS Agents 依赖三个要道因素:
环境(Environment):智能体操作的系统或平台,举例电脑、手机和浏览器。环境是智能体完成任务的舞台,扶助检朴单的信息检索到复杂的多圭表操作。
不雅察空间(Observation Space):智能体可获得的系数信息界限。这些信息诸如屏幕截图、文本姿首或 GUI 界面结构,是智能体一语气环境和任务的基础。举例,网页的 HTML 代码或手机的屏幕截图。
动作空间(Action Space):智能体与环境交互的动作连结。它界说了可践诺的操作,如点击、输入文本、导航操作以致调用外部器具。这使得智能体概况自动化完成任务并优化责任流。
中枢智商 ( Capability )
在 OS Agents 的这些要道因素后,若何与操作系统正确、灵验的交互,这就需要考验 OS Agents 本人各方面的智商。
OS Agents 必须掌合手的中枢智商不错总结为如下三点:
一语气(Understanding):OS Agents 领先需要一语气复杂的操作环境。无论是 HTML 代码、屏幕截图,照旧屏幕界面中密集的图标和文本信息,智能体都需要通过一语气智商索要要道内容,构建对任务和环境的全面证实。这种一语气智商是处理信息检索等任务的前提。
规划(Planning):在职务践诺中,OS Agents 的规划智商至关紧迫。规划智商条件 OS Agents 将复杂任务拆解为多个子任务,并制定操作序列来终了目的。同期,它们最佳还要概况据环境变化动态调养计划,以适应复杂的操作系统环境,举例动态网页和实时更新的用户屏幕界面。
操作(Grounding):OS Agents 最终需要将规划迁徙为具体的、可践诺的操作,举例点击按钮、输入文本或调用 API。这种将规划"落地"的智商使得它们概况在确实环境中高效完成任务,并终了从翰墨姿首到操作践诺的精确转念。
OS Agents 的构建基础模子 ( Foundation Model )
要构建概况高效践诺任务的 OS Agents ,其中枢在于开采适配的基础模子。
这些模子不仅需要一语气复杂的屏幕界面,还要在多模态场景下践诺任务。
底下是对基础模子的架构与锻真金不怕火计谋的翔实归纳与总结:
自拍 偷拍
△OS Agents 基础模子:架构、预锻真金不怕火、监督微转圜强化学习
架构(Architecture):咱们将主要的模子架构分为四个类别:1、Existing LLMs:径直采用开源的谣言语模子架构,将结构化的屏幕界面信息以文本式样输入给 LLMs,从而使得模子不错感知环境;2、Existing MLLMs:径直采用开源的多模态谣言语模子架构,整合文本和视觉处忠良商,擢升对 GUI 的一语气智商,减少文本化视觉信息而形成的特征蚀本;3、 Concatenated MLLMs:由 LLM 与视觉编码器桥接而成,活泼性更高,不错字据任务需求聘请不同的话语模子和视觉模子进行组合;4、Modified MLLMs:对现存 MLLM 架构进行优化调养,以解决特定场景的挑战,如:添加稀疏模块(高差异率视觉编码器或图像分割模块等),以更细致地感知和一语气屏幕界面细节。
预锻真金不怕火(Pre-training):预锻真金不怕火为模子构建打下基础,通过海量数据擢升对屏幕界面的一语气智商。数据源包括群众数据集、合成数据集;预锻真金不怕火任务隐蔽屏幕定位(Screen Grounding)、屏幕一语气(Screen Understanding)与光学字符识别(OCR)等。
监督微调(Supervised Fine-tuning):监督微调让模子更贴合 GUI 场景,是擢升 OS Agents 规划智商和践诺智商的紧迫技能。举例,通过记载任务践诺轨迹生成锻真金不怕火数据,或诳骗 HTML 渲染屏幕界面细节,擢升模子对不同 GUI 的泛化智商。
强化学习(Reinforcement Learning):现阶段的强化学习终理会用 ( M ) LLMs 看成特征索要到 ( M ) LLM-as-Agent 的范式篡改,匡助了 OS Agents 在动态环境中交互,字据奖励反映,束缚优化决策。这种顺次不仅擢升了智能体的对皆进程,还为视觉和多模态智能体提供了更强的泛化智商与任务适配性。
近期 OS Agents 基础模子的研斟酌文总结如下:
△OS Agents 基础模子近期研究责任总结智能体框架 ( Agent Framework )
OS Agents 除了需要刚劲的基础模子,还需要搭配上 Agent 框架来增强感知、规划、牵挂和行动智商。
这些模块协同责任,使 OS Agents 概况高效应文牍杂的任务和环境。
以下是 OS Agents 框架中四大约道模块的总结归纳:
△OS Agents 框架:感知、规划、牵挂和行动
感知(Perception):感知看成 OS Agents 的"眼睛",通过输入的多模态数据(如屏幕截图、HTML 文档)不雅察环境。咱们将感知细分为:1、文本感知:将操作系统的情状迁徙为结构化文本姿首,如 DOM 树或 HTML 文献;2、屏幕界面感知:使用视觉编码器对屏幕界面截图进行一语气,通过视觉定位(如按钮、菜单)和语义联接(如 HTML 标识)精确识别要道元素。
规划(Planning):规划看成 OS Agents 的"大脑",隆重制定任务的践诺计谋,不错分为:1、全局规划:一次生成完好计划并践诺;2、迭代规划:跟着环境变化动态调养计划,使智能体概况适应实时更新的屏幕界面和任务需求。
牵挂(Memory):OS Agents 框架的"牵挂"部分不错匡助存储任务数据、操作历史和环境情状。牵挂分为三个类型:1、里面牵挂(Internal Memory):存储操作历史、屏幕截图、情状数据和动态环境信息,扶助任务践诺的曲折文一语气和轨迹优化。举例,借助截图解析屏幕界面布局或字据历史操作生成决策;2、外部牵挂(External Memory):提供永久学问扶助,举例通过调用外部器具(如 API)或学问库获得界限配景学问,辅助复杂任务的决策;3、特定牵挂(Specific Memory):聚焦于特定任务的学问和用户需求,举例存储子任务证实顺次、用户偏好或屏幕界面交互功能,提供高度针对性的操作扶助。此外,咱们还总结了多种牵挂优化计谋。
行动(Action):咱们将 OS Agents 的行动界限界说为动作空间,这包含操作系统交互的形态,咱们将其细分为三个类别:1、输入操作:输入是 OS Agents 与数字屏幕界面交互的基础,主要包括鼠标操作、触控操作和键盘操作;2、导航操作:使 OS Agents 概况探索和挪动于目的平台,获得践诺任务所需的信息;3、膨胀操作:冲破了传统屏幕界面交互的限制,为智能体提供更活泼的任务践诺智商,举例:代码践诺与 API 调用。
近期研讨 OS Agents 框架的论文总结如下:
△OS Agents 框架近期研究责任总结 OS Agents 的评估
在 OS Agents 的发展中,科学的评估起到了要道作用,匡助开采者臆度智能体在多样场景中的性能。
底下的表格总结了近期研讨OS Agents 评估基准的论文:
△OS Agents Benchmark 近期研究责任总结评估契约 ( Evaluation Protocol )
操作系统智能体评估的中枢可总结为两个要道问题:评估经过应若何进行与需要对哪些方面进行评估。
底下本文将围绕这两个问题,敷陈操作系统智能体的评估原则和目的。
评估原则(Evaluation Principle):OS Agents 的评估结合了多维度的技艺顺次,提供对其智商与局限性的全面细察,主要分为两种类型:1、客不雅评估(Objective Evaluation):通过圭臬化的数值目的,评估智能体在特定任务中的性能。举例,操作的准确性、任务的奏凯率以及语义匹配的精确度。这么的评估顺次能快速且圭臬化地臆度智能体的性能;2、主不雅评估(Subjective Evaluation):基于东说念主类用户的主不雅感受,评估智能体的输出质料,包括其研讨性、当然性、连贯性和全体赶走。越来越多的研究也诳骗 ( M ) LLM-as-Judge 来进行评估,从而提高遵循和一致性。
评估目的(Evaluation Metric):评估目的聚焦于 OS Agents 的一语气、规划和操作智商,臆度其在不同任务中的发扬。主要包括以下两个方面:1、圭表级目的:评估智能体在每一步操作中的准确性,如任务践诺中动作的语义匹配进程、操作准确性等;2、任务级目的:聚焦于通盘任务完成情况,包括任务的奏凯率和完成任务的遵循。
评估基准 ( Evaluation Benchmark )
为了全面评估 OS Agents 的性能,研究者开采了多种评估基准,涵盖不同平台、环境成立和任务类别。
这些基准测试为臆度智能体的跨平台适应性、动态任务践诺智商提供了科学依据。
评估平台(Evaluation Platform):评估平台构建了集成的评估环境,不同平台具有独到的挑战和评估重心,咱们将其主要分为三类:挪动平台(Mobile)、桌面平台(Desktop)与网页平台(Web)。
基准成立(Benchmark Setting):该部分将 OS Agents 的评估环境分为两大类:静态(Static)环境和交互式(Interactive)环境,并进一步将交互式环境细分为模拟(Simulated)环境和确实天下(Real-World)环境。静态环境适用于基础任务的离线评估,而交互式环境(尤其是确实天下环境)更能全面测试 OS Agents 在复杂动态场景中的本体智商。确实天下环境强调泛化智商和动态适应性,是异日评估的紧迫目的。
任务(Task):为了全面评估 OS Agents 的智商,现时的基准测试整合了多样专科化任务,涵盖从系统级任务(如装置和卸载应用圭表)到日常应用任务(如发送电子邮件和在线购物)。主要不错分为以下三类:1、GUI 定位(GUI Grounding):评估 OS Agents 将指示转念为屏幕界面操作的智商,即如安在操作系统中与指定的可操作元故人互;2、信息处理(Information Processing):评估 OS Agents 高效处理和总结信息的智商,尤其在动态和复杂环境中,从多数数据中索要有用信息;3、智能体任务(Agentic Tasks):评估 OS Agents 的中枢智商,如规划和践诺复杂任务的智商。这类任务为智能体提供目的或指示,条件其在莫得显式率领的情况下完成任务。
挑战与异日
本部分贪图了 OS Agents 面对的主要挑战及异日发展的目的,重心聚焦于安全与隐痛(Safety & Privacy)以及个性化与自我进化(Personalization & Self-Evolution)两个方面。
安全与隐痛
安全与隐痛是 OS Agents 开采中必须爱好的界限。
OS Agents 面对多种报复形态,包括转折领导注入报复、坏心弹出窗口和扞拒性指示生成,这些恫吓可能导致系统践诺诞妄操作或知道敏锐信息。
尽管目下已有适用于 LLMs 的安全框架,但针对 OS Agents 的驻防机制仍显不及。
现时研究主要聚拢于想象有益应答注入报复和后门报复等极度恫吓的驻防决策,急待开采全面的且可膨胀驻防框架,以擢升 OS Agents 的全体安全性和可靠性。
为评估 OS Agents 在不同场景下的鲁棒性,还引入了一些智能体安全基准测试,用于全面测试和革命系统的安全发扬,举例 ST-WebAgentBench [ 17 ] 和 MobileSafetyBench [ 18 ] 。
个性化与自我进化
个性化 OS Agents 需要字据用户偏好束缚调养步履和功能。
多模态谣言语模子正冉冉扶助一语气用户历史记载和动态适应用户需求,OpenAI 的 Memory 功能 [ 19 ] 在这一方朝上一经取得了一定进展。
让智能体通过用户交互和任务践诺经过不息学习和优化,从而擢升个性化进程和性能。
异日将牵挂机制膨胀到更复杂的式样,如音频、视频、传感器数据等,从而提供更高等的预测智商和决策扶助。
同期,扶助用户数据运行的自我优化,增强用户体验。
总结
多模态谣言语模子的发展为操作系统智能体(OS Agents)创造了新的机遇,使得终了先进 AI 助手的思法愈加接近实验。
本综述旨在概述 OS Agents 的基础,包括其要道构成部分和智商。
此外,著述还回归了构建 OS Agents 的多种顺次,绝顶热心界限特定的基础模子和智能体框架。
在评估契约和基准测试中,团队成员细致分析了千般评估目的,况兼将基准测试从环境、设定与任务进行分类。
瞻望异日,团队明确了需要不息研究和热心的挑战,举例安全与隐痛、个性化与自我进化等。这些界限是进一步研究的重心。
本综述总结了该界限确现时情状,并指出了异日责任的潜在目的,旨在为 OS Agents 的不息发展孝敬力量,并增强其在学术界和工业界的应用价值与本体酷好。
如有诞妄,迎接巨匠月旦指正,作家也示意,期待列位同业一又友换取贪图!
论文贯串:https://github.com/OS-Agent-Survey/OS-Agent-Survey
面目主页:https://os-agent-survey.github.io/
参考文献:
[ 1 ] Apple Inc. Siri - apple, 2024. https://www.apple.com/siri/
[ 2 ] Microsoft Research. Cortana research - microsoft research, 2024. https://www.microsoft.com/en-us/research/group/cortana-research/
[ 3 ] Google. Google assistant, 2024. https://assistant.google.com/
[ 4 ] Google. Gemini - google. https://gemini.google.com/
[ 5 ] OpenAI. Home - openai. https://openai.com/
[ 6 ] xAI. x.ai. https://x.ai/
[ 7 ] 01.AI. 01.ai. https://www.lingyiwanwu.com/
[ 8 ] Anthropic. Anthropic. https://www.anthropic.com/
[ 9 ] Chatbot arena: An open platform for evaluating llms by human preference, 2024. https://arxiv.org/abs/2403.04132
[ 10 ] Anthropic. 3.5 models and computer use - anthropic, 2024a. https://www.anthropic.com/news/3-5-models-and-computer-use
[ 11 ] Apple. Apple intelligence, 2024. https://www.apple.com/apple-intelligence/
[ 12 ] Autoglm: Autonomous foundation agents for guis. https://arxiv.org/abs/2411.00820
[ 13 ] Google DeepMind. Project mariner, 2024. https://deepmind.google/technologies/project-mariner/
[ 14 ] Anthropic. Claude model - anthropic, 2024b. https://www.anthropic.com/claude
[ 15 ] Os-atlas: A foundation action model for generalist gui agents. https://arxiv.org/abs/2410.23218
[ 16 ] Os-copilot: Towards generalist computer agents with self-improvement. https://arxiv.org/abs/2402.07456
[ 17 ] St-webagentbench: A benchmark for evaluating safety and trustworthiness in web agents, 2024. http://arxiv.org/abs/2410.06703
[ 18 ] Mobilesafetybench: Evaluating safety of autonomous agents in mobile device control, 2024. https://arxiv.org/abs/2410.17520^Memory and new controls for ChatGPT. https://openai.com/index/memory-and-new-controls-for-chatgpt/
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
11ABCD附上论文 / 面目主页贯串,以及研讨形态哦
咱们会(尽量)实时文牍你
点这里� � 热心我,牢记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再见 ~