Gemini 2.5 Computer Use: modelo da Google DeepMind para agentes que operam interfaces da web

8/outubro/2025

O que é o Gemini 2.5 Computer Use

A Google DeepMind apresentou o Gemini 2.5 Computer Use, um modelo especializado, baseado no Gemini 2.5 Pro, que capacita agentes a operar interfaces gráficas como um humano faria: clicando, digitando, rolando e até arrastando elementos na tela. Em vez de depender de integrações ou plugins por aplicativo, o modelo observa a interface (por exemplo, via captura de tela e contexto de URL) e decide as próximas ações em uma sequência de passos. Essa abordagem abre caminho para automações de uso geral no navegador e, progressivamente, em dispositivos móveis.

Como funciona na prática

O fluxo segue um agent loop simples e confiável:

Você fornece uma tarefa (“encontre, consolide e lance os dados de vendas no CRM”), o contexto da interface (URL ou captura de tela) e o histórico recente de ações.
O modelo retorna ações de interface estruturadas, como navegar, clicar, digitar, rolar a página e arrastar/soltar.
O agente executa as ações, atualiza o estado com a nova tela, e faz iterações até concluir a tarefa ou pedir confirmação do usuário.

O Gemini 2.5 Computer Use também pode solicitar confirmação para etapas sensíveis, como compras, exclusões de dados ou envio de formulários críticos. Isso permite inserir a supervisão humana apenas quando necessário, mantendo velocidade e segurança.

Alcance e escopo atual

O modelo está otimizado hoje para interfaces web no navegador. Os resultados iniciais em interfaces móveis são promissores, mas o foco atual é a web. Não se trata, neste momento, de controle amplo em nível de sistema operacional desktop: o objetivo é usar a camada visual de aplicativos acessados via navegador, onde há padronização suficiente para generalizar comportamentos.

Casos de uso demonstrados

Automação em CRM e planilhas: extrair dados de diferentes páginas, consolidá-los e agendar tarefas ou reuniões diretamente no navegador.
Organização visual: reorganizar quadros de notas adesivas com comandos de arrastar e soltar, seguindo instruções complexas do usuário.
Pesquisa e análise: navegar por múltiplas fontes, filtrar resultados e estruturar informações sem depender de APIs específicas.
Onboarding e suporte: guiar usuários por fluxos complexos em ferramentas SaaS, preenchendo campos e validando formulários com checagens de consistência.

Desempenho em benchmarks

Segundo a Google DeepMind, o Gemini 2.5 Computer Use lidera benchmarks relevantes de controle de UI, incluindo Online‑Mind2Web, WebVoyager e AndroidWorld, e faz isso com menor latência quando comparado a abordagens anteriores. Esses testes avaliam a capacidade de agentes realizarem tarefas em sites reais e ambientes móveis, medindo sucesso, eficiência e robustez da navegação. Embora os números específicos não sejam detalhados no anúncio, a mensagem central é a consistência do modelo em tarefas do mundo real.

Disponibilidade para desenvolvedores

O Gemini 2.5 Computer Use está em prévia pública via Gemini API, acessível pelo Google AI Studio e pelo Vertex AI. Há também uma demonstração hospedada em parceiro de execução de navegador (hosted demo) para experimentar o ciclo de ações sem configurar um ambiente local. Para quem já utiliza o ecossistema Gemini, a adição do computer_use tool simplifica a criação de agentes que interagem com páginas reais, permitindo prototipagem rápida e testes end-to-end.

Segurança e governança

A arquitetura inclui salvaguardas integradas:

Validação por etapa: um serviço de segurança acompanha cada ação proposta, bloqueando ou pedindo confirmação para operações sensíveis.
Políticas configuráveis: desenvolvedores podem definir instruções de sistema para recusar certos comportamentos (por exemplo, contornar logins ou efetuar compras) ou sempre exigir confirmação do usuário.
Transparência: a Google DeepMind disponibiliza um system card contextualizando riscos, limitações e proteções, alinhado às práticas de IA responsável.

Contexto: a evolução de “computer use” em IA

O movimento de “computer use” — IA usando o computador como nós usamos — vem se consolidando como uma alternativa escalável a integrações específicas. Em vez de depender de APIs por aplicativo, um agente robusto de interface consegue generalizar: ler a tela, entender rótulos, lidar com variações e executar sequências de ações. A Google DeepMind já vinha pesquisando essa direção em iniciativas como o Project Mariner, voltadas a agentes especializados em navegador. O Gemini 2.5 Computer Use materializa esses aprendizados em um produto de desenvolvedor com foco em confiabilidade, segurança e latência.

Termos essenciais

Agent loop: ciclo em que o agente observa o estado (tela), planeja a próxima ação, executa e reavalia até concluir a tarefa.
Ferramenta “computer_use”: interface do modelo que retorna ações de UI estruturadas (clicar, digitar, rolar, arrastar) em vez de texto puro.
Benchmarks: conjuntos de tarefas padronizadas em ambientes web e móveis, usados para comparar modelos de controle de interface.
Browserbase (demo hospedada): ambiente de execução de navegador para testar agentes sem configurar infraestrutura.

Implicações para negócios e equipes

Para empresas, o ganho imediato está na automação de processos que hoje exigem passos manuais no navegador: cadastros, extração de relatórios, reconciliações, auditorias de conteúdo e fluxos de suporte. Como o modelo opera a UI diretamente, é possível acelerar tarefas sem aguardar integrações personalizadas. Para equipes de produto, o valor está em prototipar “agentes copilotos” que navegam em aplicativos web, aprendem com feedback humano e mantêm o controle sob políticas claras.

Outro impacto é no ecossistema de produtividade: profissionais de dados, marketing e operações podem delegar rotinas repetitivas a agentes, mantendo-se como supervisores nas etapas críticas (aprovando envios, pagamentos ou alterações sensíveis). Combinado a verificações técnicas (validação de formulários, detecção de anomalias na página) e políticas organizacionais, o resultado é um equilíbrio entre automação e governança.

Limitações e próximos passos

Foco em navegador: a otimização atual é para a web; controle de desktop em nível de sistema operacional não é o objetivo desta versão.
Maturidade em mobile: resultados móveis são promissores, mas ainda em evolução.
Ambientes dinâmicos: páginas que mudam com frequência podem exigir ajustes de prompts, confirmações humanas ou regras específicas para manter a robustez.

Mesmo com essas limitações, o avanço é significativo: um agente com visão de tela, memória de ações recentes e salvaguardas por etapa oferece um caminho pragmático para automações seguras no mundo real.

O que observar a seguir

Melhorias na compreensão visual da UI (componentes dinâmicos, menus, estados de erro).
Expansão do suporte mobile e de padrões acessíveis (ARIA, atalhos, navegação por teclado).
Ferramentas de auditoria e replay para explicar por que o agente escolheu certas ações.
Integrações de segurança corporativa (registro de ações, DLP, controles de aprovação).

Fonte: https://deepmind.google/discover/blog/introducing-the-gemini-2-5-computer-use-model/