O que é o Gemini 2.5 Computer Use
A Google DeepMind apresentou o Gemini 2.5 Computer Use, um modelo especializado, baseado no Gemini 2.5 Pro, que capacita agentes a operar interfaces gráficas como um humano faria: clicando, digitando, rolando e até arrastando elementos na tela. Em vez de depender de integrações ou plugins por aplicativo, o modelo observa a interface (por exemplo, via captura de tela e contexto de URL) e decide as próximas ações em uma sequência de passos. Essa abordagem abre caminho para automações de uso geral no navegador e, progressivamente, em dispositivos móveis.
Como funciona na prática
O fluxo segue um agent loop simples e confiável:
- Você fornece uma tarefa (“encontre, consolide e lance os dados de vendas no CRM”), o contexto da interface (URL ou captura de tela) e o histórico recente de ações.
- O modelo retorna ações de interface estruturadas, como navegar, clicar, digitar, rolar a página e arrastar/soltar.
- O agente executa as ações, atualiza o estado com a nova tela, e faz iterações até concluir a tarefa ou pedir confirmação do usuário.
O Gemini 2.5 Computer Use também pode solicitar confirmação para etapas sensíveis, como compras, exclusões de dados ou envio de formulários críticos. Isso permite inserir a supervisão humana apenas quando necessário, mantendo velocidade e segurança.
Alcance e escopo atual
O modelo está otimizado hoje para interfaces web no navegador. Os resultados iniciais em interfaces móveis são promissores, mas o foco atual é a web. Não se trata, neste momento, de controle amplo em nível de sistema operacional desktop: o objetivo é usar a camada visual de aplicativos acessados via navegador, onde há padronização suficiente para generalizar comportamentos.
Casos de uso demonstrados
- Automação em CRM e planilhas: extrair dados de diferentes páginas, consolidá-los e agendar tarefas ou reuniões diretamente no navegador.
- Organização visual: reorganizar quadros de notas adesivas com comandos de arrastar e soltar, seguindo instruções complexas do usuário.
- Pesquisa e análise: navegar por múltiplas fontes, filtrar resultados e estruturar informações sem depender de APIs específicas.
- Onboarding e suporte: guiar usuários por fluxos complexos em ferramentas SaaS, preenchendo campos e validando formulários com checagens de consistência.
Desempenho em benchmarks
Segundo a Google DeepMind, o Gemini 2.5 Computer Use lidera benchmarks relevantes de controle de UI, incluindo Online‑Mind2Web, WebVoyager e AndroidWorld, e faz isso com menor latência quando comparado a abordagens anteriores. Esses testes avaliam a capacidade de agentes realizarem tarefas em sites reais e ambientes móveis, medindo sucesso, eficiência e robustez da navegação. Embora os números específicos não sejam detalhados no anúncio, a mensagem central é a consistência do modelo em tarefas do mundo real.
Disponibilidade para desenvolvedores
O Gemini 2.5 Computer Use está em prévia pública via Gemini API, acessível pelo Google AI Studio e pelo Vertex AI. Há também uma demonstração hospedada em parceiro de execução de navegador (hosted demo) para experimentar o ciclo de ações sem configurar um ambiente local. Para quem já utiliza o ecossistema Gemini, a adição do computer_use tool simplifica a criação de agentes que interagem com páginas reais, permitindo prototipagem rápida e testes end-to-end.
Segurança e governança
A arquitetura inclui salvaguardas integradas:
- Validação por etapa: um serviço de segurança acompanha cada ação proposta, bloqueando ou pedindo confirmação para operações sensíveis.
- Políticas configuráveis: desenvolvedores podem definir instruções de sistema para recusar certos comportamentos (por exemplo, contornar logins ou efetuar compras) ou sempre exigir confirmação do usuário.
- Transparência: a Google DeepMind disponibiliza um system card contextualizando riscos, limitações e proteções, alinhado às práticas de IA responsável.
Contexto: a evolução de “computer use” em IA
O movimento de “computer use” — IA usando o computador como nós usamos — vem se consolidando como uma alternativa escalável a integrações específicas. Em vez de depender de APIs por aplicativo, um agente robusto de interface consegue generalizar: ler a tela, entender rótulos, lidar com variações e executar sequências de ações. A Google DeepMind já vinha pesquisando essa direção em iniciativas como o Project Mariner, voltadas a agentes especializados em navegador. O Gemini 2.5 Computer Use materializa esses aprendizados em um produto de desenvolvedor com foco em confiabilidade, segurança e latência.
Termos essenciais
- Agent loop: ciclo em que o agente observa o estado (tela), planeja a próxima ação, executa e reavalia até concluir a tarefa.
- Ferramenta “computer_use”: interface do modelo que retorna ações de UI estruturadas (clicar, digitar, rolar, arrastar) em vez de texto puro.
- Benchmarks: conjuntos de tarefas padronizadas em ambientes web e móveis, usados para comparar modelos de controle de interface.
- Browserbase (demo hospedada): ambiente de execução de navegador para testar agentes sem configurar infraestrutura.
Implicações para negócios e equipes
Para empresas, o ganho imediato está na automação de processos que hoje exigem passos manuais no navegador: cadastros, extração de relatórios, reconciliações, auditorias de conteúdo e fluxos de suporte. Como o modelo opera a UI diretamente, é possível acelerar tarefas sem aguardar integrações personalizadas. Para equipes de produto, o valor está em prototipar “agentes copilotos” que navegam em aplicativos web, aprendem com feedback humano e mantêm o controle sob políticas claras.
Outro impacto é no ecossistema de produtividade: profissionais de dados, marketing e operações podem delegar rotinas repetitivas a agentes, mantendo-se como supervisores nas etapas críticas (aprovando envios, pagamentos ou alterações sensíveis). Combinado a verificações técnicas (validação de formulários, detecção de anomalias na página) e políticas organizacionais, o resultado é um equilíbrio entre automação e governança.
Limitações e próximos passos
- Foco em navegador: a otimização atual é para a web; controle de desktop em nível de sistema operacional não é o objetivo desta versão.
- Maturidade em mobile: resultados móveis são promissores, mas ainda em evolução.
- Ambientes dinâmicos: páginas que mudam com frequência podem exigir ajustes de prompts, confirmações humanas ou regras específicas para manter a robustez.
Mesmo com essas limitações, o avanço é significativo: um agente com visão de tela, memória de ações recentes e salvaguardas por etapa oferece um caminho pragmático para automações seguras no mundo real.
O que observar a seguir
- Melhorias na compreensão visual da UI (componentes dinâmicos, menus, estados de erro).
- Expansão do suporte mobile e de padrões acessíveis (ARIA, atalhos, navegação por teclado).
- Ferramentas de auditoria e replay para explicar por que o agente escolheu certas ações.
- Integrações de segurança corporativa (registro de ações, DLP, controles de aprovação).
Fonte: https://deepmind.google/discover/blog/introducing-the-gemini-2-5-computer-use-model/


