ReasoningBank: novo framework de memória torna agentes de IA mais adaptáveis ao mundo real

9/outubro/2025

Uma nova proposta de memória para agentes de IA, chamada ReasoningBank, foi apresentada como um caminho prático para enfrentar a imprevisibilidade do mundo real. Segundo o VentureBeat, a abordagem — desenvolvida por pesquisadores ligados à Universidade de Illinois (UIUC) em colaboração com Google Cloud AI Research — permite que agentes de IA aprendam estratégias de raciocínio reutilizáveis a partir de sucessos e falhas e as apliquem em tarefas futuras, sem necessidade de re-treinamento do modelo base.

O que é o ReasoningBank e por que importa

O ReasoningBank é um framework de memória em “nível de estratégia”. Em vez de apenas armazenar fatos ou passos brutos, ele extrai padrões táticos do que funcionou (ou não) em tentativas anteriores e indexa essas “unidades de memória” para recuperação em novas situações. Na prática, isso ajuda agentes a:

Generalizar melhor para contextos inesperados;
Reduzir tentativas redundantes, cortando custos de interação;
Melhorar a confiabilidade ao longo do tempo, à medida que o agente “aprende” com a própria experiência.

Para equipes de produto e operações, o benefício direto é a combinação de adaptabilidade e eficiência: agentes que erram menos, agem mais rápido e demandam menos ciclos de API ao realizar tarefas complexas no navegador, em fluxos de engenharia de software e em outros domínios abertos.

Como funciona: memória de estratégias, não apenas de eventos

Pipeline em alto nível

Trajetórias de tarefa: o agente executa tentativas (rollouts) em um ambiente, como navegação web ou manutenção de código.
Destilação de memórias: das trajetórias, o sistema extrai “itens de memória” que descrevem a estratégia efetiva (ou armadilhas a evitar), em linguagem estruturada.
Julgamento automático: um LLM atua como “árbitro” (LLM-as-a-judge) para rotular sucesso/falha, reduzindo a necessidade de anotação humana.
Indexação e recuperação: as memórias são indexadas via embeddings; em nova tarefa, o agente recupera as mais relevantes pelo objetivo e pelo contexto.
Aplicação em tempo de inferência: as estratégias recuperadas orientam o planejamento do agente, guiando escolhas e evitando erros repetidos.

O diferencial está no nível de abstração: em vez de guardar logs extensos ou “dicas” soltas, o ReasoningBank prioriza estratégias reutilizáveis que sobrevivem à mudança de detalhes superficiais entre tarefas.

MaTTS: escalonamento em tempo de inferência com memória

O trabalho também apresenta o Memory-aware Test-Time Scaling (MaTTS), que potencializa a exploração no momento da inferência. Em termos simples, o agente executa múltiplas tentativas (em paralelo ou sequência) não apenas para aumentar a chance de acerto imediato, mas para produzir experiências diversas e informativas, que alimentam melhores memórias — e, por sua vez, essas memórias guiam novas explorações de maneira mais focada. Essa retroalimentação cria um ciclo virtuoso entre exploração e aprendizado em tempo de execução.

Resultados em benchmarks citados

De acordo com o VentureBeat, a combinação ReasoningBank + MaTTS foi avaliada em cenários desafiadores como:

WebArena (tarefas de navegação web): ganhos de até 8,3 pontos percentuais de taxa de sucesso em relação a um agente sem memória.
SWE-Bench-Verified (engenharia de software): quando combinada ao MaTTS, a abordagem obteve até 34,2% de melhoria relativa na taxa de sucesso e cerca de 16% menos passos de interação, sinalizando eficiência operacional.

Os testes reportados no artigo utilizaram modelos de ponta como Google Gemini 2.5 Pro e Anthropic Claude 3.7 Sonnet como backbones dos agentes. Em conjunto, os resultados sugerem agentes mais consistentes e menos custosos por tarefa, especialmente em ambientes abertos e ruidosos.

Termos-chave para entender o impacto

Agentes de IA: sistemas que percebem um ambiente, planejam e agem para cumprir objetivos, por exemplo, navegar em sites ou corrigir código.
Memória em nível de estratégia: representação de padrões de raciocínio (o “como fazer”) extraídos de experiências anteriores, úteis além de um caso específico.
Embeddings e recuperação: vetores semânticos que permitem “buscar” memórias relevantes por similaridade ao contexto atual.
LLM-as-a-judge: uso de um modelo para avaliar se uma tentativa foi bem-sucedida e por quê, reduzindo a dependência de curadoria humana.
Test-Time Scaling: escalar o esforço na inferência (mais tentativas/variantes) para elevar a taxa de acerto; no MaTTS, isso é feito de modo “consciente da memória”.

Como difere de memórias tradicionais de agentes

Além de anotações soltas: em muitos agentes, a “memória” é um bloco de notas persistente. O ReasoningBank estrutura o conhecimento em estratégias reutilizáveis.
Aprende com falhas: não só os sucessos viram memória; armadilhas recorrentes também são registradas, ajudando o agente a evitá-las.
Atualização contínua: não exige re-treinamento do modelo base; o agente melhora “on the job”, em produção.
Integração com exploração: com o MaTTS, a exploração não é cega; ela retroalimenta e é guiada pela memória.

Implicações para times de produto, engenharia e dados

Confiabilidade: estratégias testadas reduzem variância e tornam resultados mais previsíveis em tarefas abertas.
Eficiência de custo: menos passos de interação e menos retrabalho significam menos chamadas de API e menor latência.
Velocidade de iteração: times podem liberar agentes em fluxo real e vê-los evoluir com feedback do próprio ambiente.

Para adoção responsável, é crucial instrumentar avaliações contínuas, limites de escopo e políticas de recall/expiração de memórias, garantindo que estratégias datadas ou enviesadas não dominem o comportamento do agente em contextos novos.

Riscos e governança

Aprender em produção exige controles. Como o sistema também “memoriza” falhas, é preciso mitigar o risco de consolidar maus padrões. Boas práticas incluem:

Critérios claros de qualidade na formação de memórias;
Auditoria de estratégias mais usadas e suas fontes;
Sandboxing e avaliações offline antes de promover novas memórias para contextos sensíveis;
Monitoramento de regressões e mecanismos de esquecimento seletivo (forgetting).

O que observar a seguir

Generalização entre domínios: uma estratégia útil na web é transferível para pipelines de código? Em que condições?
Escalabilidade de memória: crescimento do acervo, políticas de deduplicação e resumos.
Integração em stacks existentes: como plugar em orquestradores de agentes e vetorizadores já em produção.
Impacto em métricas de negócio: taxa de sucesso, custo por tarefa, tempo para conclusão e satisfação do usuário.

O avanço relatado pelo VentureBeat sinaliza uma tendência: agentes que combinam exploração escalada e memória estruturada, aprendendo continuamente com o próprio trabalho. Para organizações, é um passo concreto rumo a agentes mais úteis, rastreáveis e economicamente viáveis no mundo real.

Fonte: https://venturebeat.com/ai/new-memory-framework-builds-ai-agents-that-can-handle-the-real-worlds