Sakana AI apresenta M2N2: algoritmo evolucionário que combina modelos poderosos sem re-treinamento

30/agosto/2025

A Sakana AI apresentou um método que pode mudar a forma como empresas e pesquisadores atualizam e especializam sistemas de inteligência artificial: em vez de re-treinar modelos grandes e caros do zero ou passar por fine-tuning demorado, o novo algoritmo evolucionário M2N2 (Model Merging of Natural Niches) combina modelos já existentes para produzir um terceiro modelo, mais forte e especializado, sem depender de dados de treinamento originais ou de gradientes. O resultado promete acelerar ciclos de inovação, reduzir custos e ampliar casos de uso em cenários reais.

Por que isso importa para IA corporativa e pesquisa

Treinar ou ajustar grandes modelos (como LLMs e difusão) consome tempo, GPU e dados — frequentemente sensíveis ou indisponíveis. O model merging (fusão de modelos) ataca esse gargalo: aproveita o que diferentes modelos já aprenderam, combinando seus parâmetros de forma inteligente. Na visão da Sakana AI, M2N2 usa princípios evolucionários para encontrar “receitas” de fusão que preservam e ampliam competências, tudo com menos custo computacional e sem exigir re-treinamento pesado.

O que é model merging

Model merging é a técnica de unir pesos de redes neurais treinadas separadamente para criar um modelo “filho” que herda habilidades dos “pais”. Em vez de ajustar o modelo via gradiente (como no fine-tuning), a fusão busca uma combinação de parâmetros já aprendidos. Benefícios potenciais incluem:

Velocidade: criar um novo modelo útil em horas, não semanas.
Economia: menos consumo de GPU, sem pipelines complexos de re-treinamento.
Privacidade: dispensa acesso ao conjunto de dados original.
Composição de habilidades: unir especialistas (por exemplo, raciocínio matemático e execução de tarefas) em um único modelo.

Como o M2N2 funciona em alto nível

De acordo com a apresentação da Sakana AI, o M2N2 aplica um processo evolucionário para explorar o espaço de combinações entre modelos. Em vez de uma fusão rígida e global, ele busca pontos de divisão (split points) e razões de mistura (mixing ratios) de forma dinâmica e camada-agnóstica, tratando diferentes regiões da rede de maneira específica. Três ideias se destacam:

Split points e mixing ratios dinâmicos: o algoritmo decide onde e quanto misturar em diferentes camadas, permitindo fusões finas que retêm competências úteis e evitam degradar capacidades sensíveis.
Diversidade por competição de “nichos”: populações de candidatos competem em nichos (tarefas/avaliadores) distintos, preservando diversidade e evitando convergência prematura para uma única solução mediana.
Heurística de atração: o método aprende a parear modelos complementares (atração), aumentando a chance de que a fusão produza ganhos reais, não apenas médias que diluem habilidades.

Esse ciclo evolutivo avalia candidatos (segundo métricas de aptidão compatíveis com cada nicho), seleciona os melhores e aplica “mutações” nas receitas de fusão. Ao longo de gerações, emergem composições mais eficazes, sem que seja necessário re-treinar os modelos com backpropagation.

Casos demonstrados pela equipe

A equipe exemplifica o M2N2 em domínios diferentes:

Classificação simples: evolução de classificadores partindo de modelos básicos, ilustrando como a fusão guiada por avaliação pode recuperar e amplificar sinais úteis mesmo em cenários tradicionais.
LLMs especialistas: combinação de modelos grandes com competências distintas (por exemplo, foco em raciocínio matemático e agentes/ferramentas) para somar habilidades em um único modelo resultante.
Modelos de difusão: fusão de geradores de imagem (incluindo variantes de SDXL/Stable Diffusion), com resultados que sugerem transferência de estilos e até comportamentos emergentes, como melhor compreensão de prompts em múltiplos idiomas.

O ponto-chave: o M2N2 mostra que dá para ir além de “misturar tudo” e torcer para funcionar. Ao explorar o espaço de fusões de maneira estruturada, ele encontra combinações que preservam e combinam competências, e em alguns casos, revela capacidades novas no modelo resultante.

Vantagens práticas para empresas

Para times de dados, produto e TI, o apelo é claro:

Time-to-market: lançar variações especializadas rapidamente, sem depender de ciclos longos de rotulagem e treino.
Custos previsíveis: redução de horas de GPU e complexidade operacional.
Governança de dados: como o processo não requer o dataset original, fica mais simples operar sob restrições de privacidade e compliance.
Experimentação segura: criar protótipos de modelos compostos para validar hipóteses antes de investir em re-treinamentos completos.

Cuidados, limites e governança

Apesar do potencial, há requisitos e atenções importantes:

Compatibilidade arquitetural: fusões funcionam melhor quando os modelos compartilham arquitetura, tamanhos e tokenizadores semelhantes; diferenças grandes podem exigir ajustes.
Avaliação multidimensional: a “aptidão” deve refletir as métricas de negócio e de segurança — qualidade, robustez, custo, viés, privacidade e conformidade.
Riscos de licenciamento: combinar modelos com licenças distintas pode criar restrições de uso e distribuição; é essencial auditoria legal.
Segurança e alinhamento: a fusão pode reintroduzir comportamentos indesejados; é necessário red-teaming, filtros, guardrails e monitoramento contínuo.
Reprodutibilidade: documente semente aleatória, versões e “receitas” de fusão; facilite auditoria e rollback.

Boas práticas para adoção

Equipes que desejam experimentar M2N2 e model merging em geral podem seguir um roteiro:

Mapeie especialistas: identifique modelos base com pontos fortes claros (por domínio, estilo, ferramenta, idioma).
Defina nichos: escolha conjuntos de avaliação que representem as tarefas críticas do seu uso real.
Automatize busca: rode a evolução com limites de custo e tempo, registrando cada candidato e sua “receita”.
Teste de regressão: monitore capacidades herdadas e perdas indesejadas; aplique avaliações adversariais.
Integre MLOps: promova o melhor candidato a um ambiente de canário, validate em produção e só então amplie a cobertura.

O que esperar adiante

O M2N2 coloca o model merging em um patamar mais maduro: em vez de ser um truque de laboratório, ganha um processo racional para compor modelos com custo reduzido. Para setores que precisam de especialização rápida — atendimento, educação, finanças, indústria criativa — a abordagem oferece um novo eixo de otimização entre qualidade e custo. A equipe também disponibiliza código e exemplos para acelerar a adoção e a pesquisa aplicada.

Em síntese, a proposta da Sakana AI é clara: usar princípios evolucionários e noções de nichos naturais para descobrir como e onde combinar modelos, preservando o que cada um tem de melhor. Num cenário em que dados são caros e privacidade é prioridade, criar modelos poderosos sem re-treinamento massivo pode ser a vantagem competitiva que faltava.

Fonte: https://venturebeat.com/ai/how-sakana-ais-new-evolutionary-algorithm-builds-powerful-ai-models-without-expensive-retraining/