Uma nova proposta de memória para agentes de IA, chamada ReasoningBank, foi apresentada como um caminho prático para enfrentar a imprevisibilidade do mundo real. Segundo o VentureBeat, a abordagem — desenvolvida por pesquisadores ligados à Universidade de Illinois (UIUC) em colaboração com Google Cloud AI Research — permite que agentes de IA aprendam estratégias de raciocínio reutilizáveis a partir de sucessos e falhas e as apliquem em tarefas futuras, sem necessidade de re-treinamento do modelo base.
O que é o ReasoningBank e por que importa
O ReasoningBank é um framework de memória em “nível de estratégia”. Em vez de apenas armazenar fatos ou passos brutos, ele extrai padrões táticos do que funcionou (ou não) em tentativas anteriores e indexa essas “unidades de memória” para recuperação em novas situações. Na prática, isso ajuda agentes a:
- Generalizar melhor para contextos inesperados;
- Reduzir tentativas redundantes, cortando custos de interação;
- Melhorar a confiabilidade ao longo do tempo, à medida que o agente “aprende” com a própria experiência.
Para equipes de produto e operações, o benefício direto é a combinação de adaptabilidade e eficiência: agentes que erram menos, agem mais rápido e demandam menos ciclos de API ao realizar tarefas complexas no navegador, em fluxos de engenharia de software e em outros domínios abertos.
Como funciona: memória de estratégias, não apenas de eventos
Pipeline em alto nível
- Trajetórias de tarefa: o agente executa tentativas (rollouts) em um ambiente, como navegação web ou manutenção de código.
- Destilação de memórias: das trajetórias, o sistema extrai “itens de memória” que descrevem a estratégia efetiva (ou armadilhas a evitar), em linguagem estruturada.
- Julgamento automático: um LLM atua como “árbitro” (LLM-as-a-judge) para rotular sucesso/falha, reduzindo a necessidade de anotação humana.
- Indexação e recuperação: as memórias são indexadas via embeddings; em nova tarefa, o agente recupera as mais relevantes pelo objetivo e pelo contexto.
- Aplicação em tempo de inferência: as estratégias recuperadas orientam o planejamento do agente, guiando escolhas e evitando erros repetidos.
O diferencial está no nível de abstração: em vez de guardar logs extensos ou “dicas” soltas, o ReasoningBank prioriza estratégias reutilizáveis que sobrevivem à mudança de detalhes superficiais entre tarefas.
MaTTS: escalonamento em tempo de inferência com memória
O trabalho também apresenta o Memory-aware Test-Time Scaling (MaTTS), que potencializa a exploração no momento da inferência. Em termos simples, o agente executa múltiplas tentativas (em paralelo ou sequência) não apenas para aumentar a chance de acerto imediato, mas para produzir experiências diversas e informativas, que alimentam melhores memórias — e, por sua vez, essas memórias guiam novas explorações de maneira mais focada. Essa retroalimentação cria um ciclo virtuoso entre exploração e aprendizado em tempo de execução.
Resultados em benchmarks citados
De acordo com o VentureBeat, a combinação ReasoningBank + MaTTS foi avaliada em cenários desafiadores como:
- WebArena (tarefas de navegação web): ganhos de até 8,3 pontos percentuais de taxa de sucesso em relação a um agente sem memória.
- SWE-Bench-Verified (engenharia de software): quando combinada ao MaTTS, a abordagem obteve até 34,2% de melhoria relativa na taxa de sucesso e cerca de 16% menos passos de interação, sinalizando eficiência operacional.
Os testes reportados no artigo utilizaram modelos de ponta como Google Gemini 2.5 Pro e Anthropic Claude 3.7 Sonnet como backbones dos agentes. Em conjunto, os resultados sugerem agentes mais consistentes e menos custosos por tarefa, especialmente em ambientes abertos e ruidosos.
Termos-chave para entender o impacto
- Agentes de IA: sistemas que percebem um ambiente, planejam e agem para cumprir objetivos, por exemplo, navegar em sites ou corrigir código.
- Memória em nível de estratégia: representação de padrões de raciocínio (o “como fazer”) extraídos de experiências anteriores, úteis além de um caso específico.
- Embeddings e recuperação: vetores semânticos que permitem “buscar” memórias relevantes por similaridade ao contexto atual.
- LLM-as-a-judge: uso de um modelo para avaliar se uma tentativa foi bem-sucedida e por quê, reduzindo a dependência de curadoria humana.
- Test-Time Scaling: escalar o esforço na inferência (mais tentativas/variantes) para elevar a taxa de acerto; no MaTTS, isso é feito de modo “consciente da memória”.
Como difere de memórias tradicionais de agentes
- Além de anotações soltas: em muitos agentes, a “memória” é um bloco de notas persistente. O ReasoningBank estrutura o conhecimento em estratégias reutilizáveis.
- Aprende com falhas: não só os sucessos viram memória; armadilhas recorrentes também são registradas, ajudando o agente a evitá-las.
- Atualização contínua: não exige re-treinamento do modelo base; o agente melhora “on the job”, em produção.
- Integração com exploração: com o MaTTS, a exploração não é cega; ela retroalimenta e é guiada pela memória.
Implicações para times de produto, engenharia e dados
- Confiabilidade: estratégias testadas reduzem variância e tornam resultados mais previsíveis em tarefas abertas.
- Eficiência de custo: menos passos de interação e menos retrabalho significam menos chamadas de API e menor latência.
- Velocidade de iteração: times podem liberar agentes em fluxo real e vê-los evoluir com feedback do próprio ambiente.
Para adoção responsável, é crucial instrumentar avaliações contínuas, limites de escopo e políticas de recall/expiração de memórias, garantindo que estratégias datadas ou enviesadas não dominem o comportamento do agente em contextos novos.
Riscos e governança
Aprender em produção exige controles. Como o sistema também “memoriza” falhas, é preciso mitigar o risco de consolidar maus padrões. Boas práticas incluem:
- Critérios claros de qualidade na formação de memórias;
- Auditoria de estratégias mais usadas e suas fontes;
- Sandboxing e avaliações offline antes de promover novas memórias para contextos sensíveis;
- Monitoramento de regressões e mecanismos de esquecimento seletivo (forgetting).
O que observar a seguir
- Generalização entre domínios: uma estratégia útil na web é transferível para pipelines de código? Em que condições?
- Escalabilidade de memória: crescimento do acervo, políticas de deduplicação e resumos.
- Integração em stacks existentes: como plugar em orquestradores de agentes e vetorizadores já em produção.
- Impacto em métricas de negócio: taxa de sucesso, custo por tarefa, tempo para conclusão e satisfação do usuário.
O avanço relatado pelo VentureBeat sinaliza uma tendência: agentes que combinam exploração escalada e memória estruturada, aprendendo continuamente com o próprio trabalho. Para organizações, é um passo concreto rumo a agentes mais úteis, rastreáveis e economicamente viáveis no mundo real.
Fonte: https://venturebeat.com/ai/new-memory-framework-builds-ai-agents-that-can-handle-the-real-worlds


