Quando os Transformers foram introduzidos, todo o ecossistema de IA passou por uma reforma. Mas houve um problema. Quando um modelo era grande o suficiente e os pesquisadores queriam treinar uma parte específica dele, a única opção era treinar novamente todo o modelo do zero.
Esta foi uma questão crítica. Para resolver isso, pesquisadores do Google, do Instituto Max Planck e da Universidade de Pequim introduziram uma nova abordagem chamada TokenFormer.
A inovação reside em tratar os parâmetros do modelo como tokens, permitindo uma interação dinâmica entre tokens de entrada e parâmetros do modelo através de um mecanismo de atenção em vez de projeções lineares fixas.
A arquitetura tradicional do Transformer enfrenta um desafio significativo durante o dimensionamento: ela exige um retreinamento completo do zero quando são feitas modificações na arquitetura, levando a enormes custos computacionais. O TokenFormer resolve isso introduzindo uma camada de atenção de parâmetro de token (Pattention) que permite escalonamento incremental sem retreinamento completo.
Essa abordagem demonstrou resultados impressionantes, dimensionando com sucesso os parâmetros de 124M para 1,4B, mantendo um desempenho comparável ao dos Transformers treinados do zero.
Explicando a importância desta pesquisa, um usuário do Reddit disse que ela permite um aprendizado incremental. Em outras palavras, alterar o tamanho do modelo e adicionar mais parâmetros não significa que você precise treinar o modelo inteiro do zero.
“Especificamente, nosso modelo requer apenas um décimo dos custos de treinamento associados às linhas de base do Transformer. Para mitigar os efeitos da variação dos dados de treinamento, também incluímos a curva de desempenho de um Transformer treinado do zero usando um orçamento computacional equivalente de 30 bilhões de tokens.
“Sob as mesmas restrições computacionais, nosso modelo em escala progressiva atinge uma perplexidade menor de 11,77 em comparação com 13,34 do Transformer, destacando assim a eficiência e escalabilidade superiores de nossa abordagem”, acrescentou, sugerindo ainda custos drasticamente reduzidos por meio de TokenFormers.
Por que aumentar a eficiência é importante?
Um dos recursos mais atraentes do TokenFormer é sua capacidade de preservar o conhecimento existente enquanto se expande, oferecendo uma nova abordagem para o aprendizado contínuo. Isso se alinha aos esforços da indústria para repensar a eficiência do dimensionamento. Quando novos parâmetros são inicializados para zero, o modelo pode manter a sua distribuição de produção atual, ao mesmo tempo que incorpora capacidade adicional.
Esta característica torna-o particularmente valioso para cenários de aprendizagem contínua, onde os modelos necessitam de se adaptar a novos dados sem perder conhecimentos previamente adquiridos.

Enquanto isso, a arquitetura mostrou notável eficiência em aplicações práticas. Em testes de benchmark, o TokenFormer alcançou desempenho comparável aos Transformers padrão, exigindo apenas um décimo do orçamento computacional.
Esta eficiência estende-se às tarefas de linguagem e visão, com o modelo demonstrando desempenho competitivo em vários benchmarks, incluindo avaliações zero-shot e tarefas de classificação de imagens.
O design do TokenFormer também oferece vantagens para modelagem de contexto longo, um recurso crucial para modelos de linguagem modernos. Ao contrário dos Transformers tradicionais, onde os custos computacionais para interações token-token aumentam com o tamanho do modelo, o TokenFormer mantém esses custos em um nível constante enquanto dimensiona os parâmetros.
Isto o torna particularmente adequado para processar sequências mais longas, uma capacidade cada vez mais importante em aplicações contemporâneas de IA.
Um usuário do Reddit elogiou esta pesquisa, dizendo: “De certa forma, o que eles desenvolveram foi um sistema para armazenar conhecimento e adicionar novos conhecimentos de forma incremental, sem danificar o conhecimento antigo; é potencialmente um grande negócio.”
Enquanto isso, várias conversas têm ocorrido em torno dos avanços técnicos que resolverão o problema de escala, como o TokenFormer.
No Microsoft Ignite 2024, o CEO Satya Nadella destacou a mudança de foco, afirmando: “O que devemos lembrar é que estas não são leis físicas, mas observações empíricas, muito parecidas com a Lei de Moore”.
Ele introduziu “tokens por watt mais dólar” como uma nova métrica para a eficiência da IA, enfatizando a maximização do valor. Jensen Huang, da NVIDIA, ecoou essas preocupações, chamando a inferência de “super difícil” devido à necessidade de alta precisão, baixa latência e alto rendimento.
“Nossas esperanças e sonhos são que, algum dia, o mundo faça muitas inferências”, acrescentou ele, sinalizando a crescente importância de escalar inovações como o TokenFormer no cenário da IA.
Bom demais para ser verdade?
Vários usuários consideraram a ideia boa demais para ser verdade e observaram alguns problemas no artigo de pesquisa. Um usuário disse no Hacker News que é difícil confiar nos números mostrados na pesquisa. “Ao treinar um Transformer para compará-lo, eles replicam o GPT-2 original proposto em 2019. Ao fazer isso, eles ignoram anos de melhorias arquitetônicas, como embeddings posicionais rotativos, SwiGLU e RMSNorm, que culminaram no Transformer++”, ele adicionado.
Por outro lado, usuários do mesmo tópico elogiaram essa abordagem, dizendo que parece um grande negócio. “Acho que isso poderia permitir um novo nível de modularidade e compatibilidade entre conjuntos de pesos disponíveis publicamente, desde que usem dimensões de canal semelhantes. Talvez também forneça um bom formalismo para pensar sobre o ajuste fino, onde você poderia adotar certas heurísticas para adicionar/remover pares de valores-chave das camadas de Pattenção”, acrescentou.
O usuário mencionou ainda que, de acordo com este artigo, o modelo pode crescer ou escalar dinamicamente simplesmente adicionando novas linhas (pares de valores-chave) a certas matrizes (como K e V nas camadas de atenção). As linhas iniciais podem conter as informações mais críticas ou fundamentais, enquanto as linhas posteriores adicionam detalhes mais específicos ou menos essenciais.
Embora a abordagem pareça promissora no papel, teremos que esperar que os desenvolvedores a implementem em modelos reais.
Esse artigo é uma releitura de: analyticsindiamag.com