Google DeepMind将计算机使用能力原生集成到Gemini 3.5 Flash-AI资讯-广州文趣文化传播有限公司

全部 AI大厂大模型 AI智能体 AI绘画 AI视频 AI音乐 AI硬件泛AI领域

计算机使用能力原生集成：Gemini 3.5 Flash的结构性突破

2026年6月24日，Google DeepMind在官方博客中宣布了一项里程碑式的技术突破——将"计算机使用"（Computer Use）能力原生集成到Gemini 3.5 Flash模型中。与以往的AI工具调用不同，Gemini 3.5 Flash现在能够像人类一样"看到"屏幕内容、"理解"界面布局，并自主执行点击、输入、拖拽等操作，实现与计算机环境的完整交互。

这一能力的实现基于Google DeepMind在视觉-语言模型领域的最新研究成果。Gemini 3.5 Flash的"计算机使用"功能并非通过外部的API接口或插件实现，而是作为模型的原生能力被内建在架构中。模型能够接收屏幕截图作为输入，通过视觉编码器解析界面元素的位置和语义，然后利用强化学习引擎生成精确的操作指令序列。

在效率方面，Gemini 3.5 Flash的"计算机使用"表现出了令人印象深刻的性能。在内部测试中，该模型完成常见的办公自动化任务（如数据录入、文件整理、邮件处理等）的平均速度达到了人类熟练员工的60%-80%，而在一些标准化流程任务中的准确率甚至超过了人类。这一能力特别适合批量处理重复性、规则明确的桌面操作任务。

安全第一：企业级防护措施的设计哲学

赋予AI原生计算机操作能力无疑带来了重大的安全挑战，Google DeepMind对此采取了非常审慎的态度。Gemini 3.5 Flash的"计算机使用"功能内置了多层安全防护机制，形成了一套完整的企业级安全体系。

第一层防护是"用户确认"（User Confirmation）机制。对于任何涉及敏感操作（如文件删除、数据修改、系统设置变更、网络请求发送等）的指令，模型会自动停下并等待用户的明确确认。这类似于自动驾驶中的"人机共驾"模式——AI负责执行，但关键决策权始终掌握在人类手中。

第二层防护是"自动任务终止"（Auto Task Termination）系统。当模型检测到操作异常（如重复执行同一个操作超过限制次数、访问越权资源、执行时间超过预设期限等）时，系统会自动终止任务执行并回滚到安全状态。这一机制防止了AI在出现偏差时持续造成损害。

第三层防护是"细粒度权限控制"（Granular Permission Control）框架。企业管理员可以对模型在计算机上的操作范围进行精确限制——例如，允许模型打开浏览器和处理文档，但禁止访问系统设置和敏感数据目录。权限可以在任务级别、应用级别和目录级别进行配置，满足不同安全等级场景的需求。

应用场景与商业价值：从办公自动化到企业流程再造

Gemini 3.5 Flash的"计算机使用"能力开启了全新的AI应用场景。在办公自动化领域，AI可以替代人类完成大量重复性的桌面操作任务，如批量处理表单、跨系统数据迁移、定期报告生成等。初步测试表明，引入AI操作的团队在特定流程上的效率提升可达300%-500%。

在企业级场景中，这一能力可以用于遗留系统的智能化改造。许多大型企业仍然依赖老旧的桌面应用程序，这些系统没有现代API接口，难以通过传统方式进行集成。Gemini 3.5 Flash的计算机操作能力提供了一种非侵入式的改造方案——AI可以像一个训练有素的员工一样操作这些遗留系统，实现跨系统的数据流转和业务流程自动化。

在开发者工具领域，AI的计算机操作能力可以用于自动化测试、UI验证和部署管理等场景。开发团队可以让AI模拟用户行为完成端到端测试，大幅降低测试成本和周期。Google内部已经在多个研发团队中部署了这一功能，反馈显示测试效率提升了约4-5倍。

行业影响与竞争格局：AI从"大脑"到"手"的进化

Google DeepMind将计算机使用能力集成到大模型中的举措，代表了AI从"单纯的大脑"向"大脑+手"的进化方向。这一方向正在成为行业共识——微软通过Windows Copilot实现了AI对操作系统操作的深度集成，Anthropic的Claude也已经支持基本的计算机操作功能，而国内的智谱、百度等也在探索类似能力。

这种进化意味着AI大模型的竞争维度正在发生根本性变化。过去，模型之间的竞争主要围绕"对话质量"展开——谁能生成更流畅、更准确的文本回答。而现在，竞争维度扩展到了"行动能力"——谁能更可靠、更安全地执行实际任务。这一转变对模型架构、训练方式和安全机制都提出了全新的要求。

行业分析师指出，AI的"计算机使用"能力将是2026年下半年最热门的AI技术趋势之一。这一能力的成熟和普及，有望催生一批新的AI应用场景和商业模式，同时也将对现有的软件行业、IT服务行业和业务流程外包行业产生深远的颠覆性影响。

来源：Google DeepMind官方博客、The Verge、Ars Technica、36氪、9to5Google

发布时间：2026-06-26

←美团LongCat发布General 365推理基准：主流大模型及格率不足六成

商汤秘密开发U1Pro设计多模态大模型：8K分辨率挑战GPT-Image2霸主地位→