Google DeepMind将计算机使用能力原生集成到Gemini 3.5 Flash

首页 / AI资讯 / 大模型

计算机使用能力原生集成:Gemini 3.5 Flash的结构性突破

2026年6月24日,Google DeepMind在官方博客中宣布了一项里程碑式的技术突破——将"计算机使用"(Computer Use)能力原生集成到Gemini 3.5 Flash模型中。与以往的AI工具调用不同,Gemini 3.5 Flash现在能够像人类一样"看到"屏幕内容、"理解"界面布局,并自主执行点击、输入、拖拽等操作,实现与计算机环境的完整交互。

这一能力的实现基于Google DeepMind在视觉-语言模型领域的最新研究成果。Gemini 3.5 Flash的"计算机使用"功能并非通过外部的API接口或插件实现,而是作为模型的原生能力被内建在架构中。模型能够接收屏幕截图作为输入,通过视觉编码器解析界面元素的位置和语义,然后利用强化学习引擎生成精确的操作指令序列。

在效率方面,Gemini 3.5 Flash的"计算机使用"表现出了令人印象深刻的性能。在内部测试中,该模型完成常见的办公自动化任务(如数据录入、文件整理、邮件处理等)的平均速度达到了人类熟练员工的60%-80%,而在一些标准化流程任务中的准确率甚至超过了人类。这一能力特别适合批量处理重复性、规则明确的桌面操作任务。

安全第一:企业级防护措施的设计哲学

赋予AI原生计算机操作能力无疑带来了重大的安全挑战,Google DeepMind对此采取了非常审慎的态度。Gemini 3.5 Flash的"计算机使用"功能内置了多层安全防护机制,形成了一套完整的企业级安全体系。

第一层防护是"用户确认"(User Confirmation)机制。对于任何涉及敏感操作(如文件删除、数据修改、系统设置变更、网络请求发送等)的指令,模型会自动停下并等待用户的明确确认。这类似于自动驾驶中的"人机共驾"模式——AI负责执行,但关键决策权始终掌握在人类手中。

第二层防护是"自动任务终止"(Auto Task Termination)系统。当模型检测到操作异常(如重复执行同一个操作超过限制次数、访问越权资源、执行时间超过预设期限等)时,系统会自动终止任务执行并回滚到安全状态。这一机制防止了AI在出现偏差时持续造成损害。

第三层防护是"细粒度权限控制"(Granular Permission Control)框架。企业管理员可以对模型在计算机上的操作范围进行精确限制——例如,允许模型打开浏览器和处理文档,但禁止访问系统设置和敏感数据目录。权限可以在任务级别、应用级别和目录级别进行配置,满足不同安全等级场景的需求。

应用场景与商业价值:从办公自动化到企业流程再造

Gemini 3.5 Flash的"计算机使用"能力开启了全新的AI应用场景。在办公自动化领域,AI可以替代人类完成大量重复性的桌面操作任务,如批量处理表单、跨系统数据迁移、定期报告生成等。初步测试表明,引入AI操作的团队在特定流程上的效率提升可达300%-500%。

在企业级场景中,这一能力可以用于遗留系统的智能化改造。许多大型企业仍然依赖老旧的桌面应用程序,这些系统没有现代API接口,难以通过传统方式进行集成。Gemini 3.5 Flash的计算机操作能力提供了一种非侵入式的改造方案——AI可以像一个训练有素的员工一样操作这些遗留系统,实现跨系统的数据流转和业务流程自动化。

在开发者工具领域,AI的计算机操作能力可以用于自动化测试、UI验证和部署管理等场景。开发团队可以让AI模拟用户行为完成端到端测试,大幅降低测试成本和周期。Google内部已经在多个研发团队中部署了这一功能,反馈显示测试效率提升了约4-5倍。

行业影响与竞争格局:AI从"大脑"到"手"的进化

Google DeepMind将计算机使用能力集成到大模型中的举措,代表了AI从"单纯的大脑"向"大脑+手"的进化方向。这一方向正在成为行业共识——微软通过Windows Copilot实现了AI对操作系统操作的深度集成,Anthropic的Claude也已经支持基本的计算机操作功能,而国内的智谱、百度等也在探索类似能力。

这种进化意味着AI大模型的竞争维度正在发生根本性变化。过去,模型之间的竞争主要围绕"对话质量"展开——谁能生成更流畅、更准确的文本回答。而现在,竞争维度扩展到了"行动能力"——谁能更可靠、更安全地执行实际任务。这一转变对模型架构、训练方式和安全机制都提出了全新的要求。

行业分析师指出,AI的"计算机使用"能力将是2026年下半年最热门的AI技术趋势之一。这一能力的成熟和普及,有望催生一批新的AI应用场景和商业模式,同时也将对现有的软件行业、IT服务行业和业务流程外包行业产生深远的颠覆性影响。

来源:Google DeepMind官方博客、The Verge、Ars Technica、36氪、9to5Google

发布时间:2026-06-26