Google lança Gemini 2.5 Computer Use, modelo para agentes que operam interfaces com segurança

8/outubro/2025

O que é o Gemini 2.5 Computer Use e por que isso importa

O Google DeepMind apresentou o Gemini 2.5 Computer Use, um modelo especializado, derivado do Gemini 2.5 Pro, criado para que agentes de IA vejam, entendam e operem interfaces de computador com foco em segurança e controle. Em public preview no Gemini API via Google AI Studio e no Vertex AI, a novidade habilita uma classe de automações que vai além de “falar com apps”: o agente realmente interage com a tela, navega menus, clica em botões, preenche formulários e executa fluxos complexos, sempre dentro de políticas definidas pelo desenvolvedor.

Na prática, “computer use” descreve a capacidade de um modelo multimodal de perceber a interface (visão), planejar passos e agir com mouse e teclado. Em vez de depender apenas de integrações via API, o agente consegue operar aplicações web e desktop como um usuário humano — o que reduz atritos de integração e amplia o alcance para sistemas legados ou sem APIs públicas.

Disponibilidade e ecossistema: onde construir

Segundo o anúncio, o Gemini 2.5 Computer Use está disponível em acesso público de prévia por meio do Google AI Studio (para protótipos e testes) e do Vertex AI (para cenários empresariais, com governança corporativa). Isso facilita começar pequeno, validar casos de uso e, depois, escalar para produção com observabilidade, segurança e compliance.

Para equipes de produto e inovação, o movimento alinha o Google com a tendência de agentes capazes de executar trabalho real em interfaces gráficas, conectando modelos de linguagem a tarefas do mundo prático em SaaS, ERPs, CRMs, navegadores e ferramentas internas.

Como funciona: visão + planejamento + ação

Compreensão da interface: o modelo interpreta telas, componentes e estados da UI, reconhecendo elementos como campos, botões, tabelas e diálogos.
Planejamento passo a passo: a IA decompõe a meta em ações, checando contexto e instruções, e decide a próxima interação com base no que “vê” na tela.
Execução com segurança: o agente aciona cliques, digitações e navegação, obedecendo limites e políticas definidas pelo desenvolvedor e pela organização.

O Google destaca controles de segurança e governança como pilares do lançamento, além de desempenho consistente em benchmarks, o que indica maturidade para aplicações reais. Embora números detalhados não sejam citados no anúncio, o posicionamento aponta que a base Gemini 2.5 Pro fornece o raciocínio necessário para lidar com fluxos de UI variados.

Segurança e governança: uso responsável no centro

Em agentes que operam interfaces, a segurança é Tudo ou Nada. O anúncio enfatiza controles de permissão e mecanismos de proteção para limitar ou revisar as ações do agente, além de fluxos de aprovação. Na prática, isso significa definir o que o agente pode fazer (escopo), quando e onde, incluindo restrições a domínios, janelas e operações sensíveis. Para ambientes corporativos, auditoria e rastreabilidade são essenciais, e a oferta no Vertex AI tende a alinhar-se a essas exigências.

Outro ponto crucial é a observabilidade: equipes precisam inspecionar os passos do agente, entender decisões e ajustar políticas rapidamente caso a UI mude. Essa visibilidade acelera o ciclo de melhoria contínua, reduz erros e ajuda a manter conformidade.

Principais casos de uso

Automação de tarefas em SaaS: emissão de relatórios, configurações em painéis, atualização de cadastros e reconciliação de dados.
Atendimento e suporte: agentes que acompanham fluxos em sistemas internos, abrem tickets, verificam status e registram evidências.
Operações e backoffice: preenchimento de formulários, uploads, padronização de processos entre ferramentas sem API.
QA e testes de UI: execução de cenários de validação em ambiente real, com registro dos passos e resultados.
Produtividade pessoal: organização de tarefas, preenchimento de planilhas, e ações repetitivas no navegador.

Em todos os casos, o diferencial está em generalizar via linguagem e visão de interface, reduzindo dependência de scripts frágeis. Em ambientes dinâmicos, onde UIs mudam com frequência, essa adaptabilidade é um ganho significativo.

Como se posiciona frente a RPA tradicional

Ferramentas clássicas de RPA exigem mapeamentos manuais, XPaths ou seletores específicos, e costumam quebrar quando a UI muda. Já um agente de “computer use” guiado por um LLM tende a compreender a intenção e replanejar caminhos. Isso não elimina o RPA — especialmente para fluxos estáveis e de alto volume —, mas introduz uma camada cognitiva que torna a automação mais resiliente e mais rápida de configurar para casos variados.

Desafios práticos: confiabilidade, custo e UX

Confiabilidade: mesmo com bons benchmarks, cada ambiente é único. Políticas, testes e monitoramento contínuos seguem indispensáveis.
Custo e latência: percepção visual e ações passo a passo têm custo computacional. É preciso balancear frequência, granularidade e metas de ROI.
Experiência do usuário: agentes que operam “na frente” do usuário devem ser previsíveis, explicáveis e não intrusivos.

Desenvolvedores devem combinar prompting robusto, checs de segurança e fallbacks (como confirmações humanas em passos críticos) para equilibrar autonomia e controle.

Para começar: caminhos no Google AI Studio e Vertex AI

Como está em public preview, o fluxo recomendado é iniciar no Google AI Studio para prototipar, validar prompts e interações com UI, e migrar para o Vertex AI ao escalar, aproveitando recursos empresariais. Documentar escopos, registrar políticas de permissão, planejar observabilidade e testes de regressão visual ajuda a reduzir riscos.

Equipes podem ainda incorporar metadados de compliance, delimitar listas de permissões por domínio/janela e criar trilhas de auditoria para cada ação executada pelo agente.

O que observar a seguir

Avanços de segurança: novas camadas de aprovação, controles contextuais e melhores explicações das ações do agente.
Integrações: templates para apps populares e conectores que acelerem fluxos comuns sem engenharia adicional.
Métricas e benchmarks: resultados públicos comparáveis que ajudem a medir maturidade por tarefa e domínio.
Rotas para GA: evolução do status de prévia para disponibilidade geral, com SLAs e suporte ampliado.

O lançamento do Gemini 2.5 Computer Use sinaliza a próxima fase dos agentes: da conversa para a execução. Ao unir compreensão de linguagem, visão de interface e ação operacional, o Google inaugura um ciclo em que a IA se torna coprotagonista na realização de tarefas digitais — com segurança e governança como fundamentos.

Fonte: https://blog.google/technology/google-deepmind/gemini-computer-use-model/