ReasoningBank: novo framework de memória torna agentes de IA mais adaptáveis ao mundo real

Uma nova proposta de memória para agentes de IA, chamada ReasoningBank, foi apresentada como um caminho prático para enfrentar a imprevisibilidade do mundo real. Segundo o VentureBeat, a abordagem — desenvolvida por pesquisadores ligados à Universidade de Illinois (UIUC) em colaboração com Google Cloud AI Research — permite que agentes de IA aprendam estratégias de raciocínio reutilizáveis a partir de sucessos e falhas e as apliquem em tarefas futuras, sem necessidade de re-treinamento do modelo base.

O que é o ReasoningBank e por que importa

O ReasoningBank é um framework de memória em “nível de estratégia”. Em vez de apenas armazenar fatos ou passos brutos, ele extrai padrões táticos do que funcionou (ou não) em tentativas anteriores e indexa essas “unidades de memória” para recuperação em novas situações. Na prática, isso ajuda agentes a:

  • Generalizar melhor para contextos inesperados;
  • Reduzir tentativas redundantes, cortando custos de interação;
  • Melhorar a confiabilidade ao longo do tempo, à medida que o agente “aprende” com a própria experiência.

Para equipes de produto e operações, o benefício direto é a combinação de adaptabilidade e eficiência: agentes que erram menos, agem mais rápido e demandam menos ciclos de API ao realizar tarefas complexas no navegador, em fluxos de engenharia de software e em outros domínios abertos.

Como funciona: memória de estratégias, não apenas de eventos

Pipeline em alto nível

  • Trajetórias de tarefa: o agente executa tentativas (rollouts) em um ambiente, como navegação web ou manutenção de código.
  • Destilação de memórias: das trajetórias, o sistema extrai “itens de memória” que descrevem a estratégia efetiva (ou armadilhas a evitar), em linguagem estruturada.
  • Julgamento automático: um LLM atua como “árbitro” (LLM-as-a-judge) para rotular sucesso/falha, reduzindo a necessidade de anotação humana.
  • Indexação e recuperação: as memórias são indexadas via embeddings; em nova tarefa, o agente recupera as mais relevantes pelo objetivo e pelo contexto.
  • Aplicação em tempo de inferência: as estratégias recuperadas orientam o planejamento do agente, guiando escolhas e evitando erros repetidos.

O diferencial está no nível de abstração: em vez de guardar logs extensos ou “dicas” soltas, o ReasoningBank prioriza estratégias reutilizáveis que sobrevivem à mudança de detalhes superficiais entre tarefas.

MaTTS: escalonamento em tempo de inferência com memória

O trabalho também apresenta o Memory-aware Test-Time Scaling (MaTTS), que potencializa a exploração no momento da inferência. Em termos simples, o agente executa múltiplas tentativas (em paralelo ou sequência) não apenas para aumentar a chance de acerto imediato, mas para produzir experiências diversas e informativas, que alimentam melhores memórias — e, por sua vez, essas memórias guiam novas explorações de maneira mais focada. Essa retroalimentação cria um ciclo virtuoso entre exploração e aprendizado em tempo de execução.

Resultados em benchmarks citados

De acordo com o VentureBeat, a combinação ReasoningBank + MaTTS foi avaliada em cenários desafiadores como:

  • WebArena (tarefas de navegação web): ganhos de até 8,3 pontos percentuais de taxa de sucesso em relação a um agente sem memória.
  • SWE-Bench-Verified (engenharia de software): quando combinada ao MaTTS, a abordagem obteve até 34,2% de melhoria relativa na taxa de sucesso e cerca de 16% menos passos de interação, sinalizando eficiência operacional.

Os testes reportados no artigo utilizaram modelos de ponta como Google Gemini 2.5 Pro e Anthropic Claude 3.7 Sonnet como backbones dos agentes. Em conjunto, os resultados sugerem agentes mais consistentes e menos custosos por tarefa, especialmente em ambientes abertos e ruidosos.

Termos-chave para entender o impacto

  • Agentes de IA: sistemas que percebem um ambiente, planejam e agem para cumprir objetivos, por exemplo, navegar em sites ou corrigir código.
  • Memória em nível de estratégia: representação de padrões de raciocínio (o “como fazer”) extraídos de experiências anteriores, úteis além de um caso específico.
  • Embeddings e recuperação: vetores semânticos que permitem “buscar” memórias relevantes por similaridade ao contexto atual.
  • LLM-as-a-judge: uso de um modelo para avaliar se uma tentativa foi bem-sucedida e por quê, reduzindo a dependência de curadoria humana.
  • Test-Time Scaling: escalar o esforço na inferência (mais tentativas/variantes) para elevar a taxa de acerto; no MaTTS, isso é feito de modo “consciente da memória”.

Como difere de memórias tradicionais de agentes

  • Além de anotações soltas: em muitos agentes, a “memória” é um bloco de notas persistente. O ReasoningBank estrutura o conhecimento em estratégias reutilizáveis.
  • Aprende com falhas: não só os sucessos viram memória; armadilhas recorrentes também são registradas, ajudando o agente a evitá-las.
  • Atualização contínua: não exige re-treinamento do modelo base; o agente melhora “on the job”, em produção.
  • Integração com exploração: com o MaTTS, a exploração não é cega; ela retroalimenta e é guiada pela memória.

Implicações para times de produto, engenharia e dados

  • Confiabilidade: estratégias testadas reduzem variância e tornam resultados mais previsíveis em tarefas abertas.
  • Eficiência de custo: menos passos de interação e menos retrabalho significam menos chamadas de API e menor latência.
  • Velocidade de iteração: times podem liberar agentes em fluxo real e vê-los evoluir com feedback do próprio ambiente.

Para adoção responsável, é crucial instrumentar avaliações contínuas, limites de escopo e políticas de recall/expiração de memórias, garantindo que estratégias datadas ou enviesadas não dominem o comportamento do agente em contextos novos.

Riscos e governança

Aprender em produção exige controles. Como o sistema também “memoriza” falhas, é preciso mitigar o risco de consolidar maus padrões. Boas práticas incluem:

  • Critérios claros de qualidade na formação de memórias;
  • Auditoria de estratégias mais usadas e suas fontes;
  • Sandboxing e avaliações offline antes de promover novas memórias para contextos sensíveis;
  • Monitoramento de regressões e mecanismos de esquecimento seletivo (forgetting).

O que observar a seguir

  • Generalização entre domínios: uma estratégia útil na web é transferível para pipelines de código? Em que condições?
  • Escalabilidade de memória: crescimento do acervo, políticas de deduplicação e resumos.
  • Integração em stacks existentes: como plugar em orquestradores de agentes e vetorizadores já em produção.
  • Impacto em métricas de negócio: taxa de sucesso, custo por tarefa, tempo para conclusão e satisfação do usuário.

O avanço relatado pelo VentureBeat sinaliza uma tendência: agentes que combinam exploração escalada e memória estruturada, aprendendo continuamente com o próprio trabalho. Para organizações, é um passo concreto rumo a agentes mais úteis, rastreáveis e economicamente viáveis no mundo real.

Fonte: https://venturebeat.com/ai/new-memory-framework-builds-ai-agents-that-can-handle-the-real-worlds

Fale com a Lia

Olá 👋, para iniciarmos o atendimento nos informe seu nome e telefone

Ao clicar no botão iniciar conversa, você será direcionado para o nosso Whatsapp e um de nossos atendentes lhe atenderá  em seguida.