A batalha pela velocidade do token está se intensificando à medida que SambaNova, Cerebras e Groq ultrapassam os limites do desempenho de inferência. Com SambaNova estabelecendo recordes no Llama 3.1 405B, Cerebras entregando velocidades inigualáveis com seu WSE-3 e a LPU da Groq desafiando os fabricantes de GPU tradicionais, a corrida para dominar o hardware de inferência está esquentando.
Recentemente, a OpenAI lançou uma série de modelos com habilidades de raciocínio e capacidade de “pensar”.
OpenAI o1 é um exemplo perfeito provando que o raciocínio não requer modelos grandes. Hoje, muitos parâmetros em modelos atuais são dedicados a memorizar fatos para benchmarks do tipo trivial. Em vez disso, o raciocínio pode ser gerenciado por um ‘núcleo de raciocínio‘ menor que interage com ferramentas externas, como navegadores ou verificadores de código
Isso marca uma mudança significativa em direção ao dimensionamento de tempo de inferência na produção, um conceito focado em aprimorar o raciocínio por meio de pesquisa em vez de puramente por meio do aprendizado. “Essa abordagem reduz a necessidade de computação massiva de pré-treinamento e uma parte significativa da computação agora é alocada para inferência em vez de pré ou pós-treinamento”, disse Jim Fan, da NVIDIA.
Esta é uma boa notícia para empresas como Groq, Cerebras e Sambanova, que atualmente estão construindo hardware de inferência.
“Um paradigma que move a computação do tempo de treinamento para o tempo de inferência beneficiará o hardware de inferência estilo Groq”, postou um usuário no X. Outro usuário comentou: “Se a Meta puder lançar uma implementação aberta do o1, a avaliação de empresas como a Groq pode disparar”.


Fonte: X
Batalha de Tokens Velocidade
A guerra de velocidade de inferência do LLM está esquentando. O SambaNova lançou recentemente sua plataforma de inferência em nuvem, dando aos desenvolvedores acesso aos modelos Llama 3.1, incluindo as versões 8B, 70B e 405B, em seus chips de IA personalizados. A plataforma estabeleceu um novo recorde de inferência no Meta’s Ligue para 3.1 405B, servindo o modelo com precisão nativa de 16 bits e alcançando 132 fichas de saída por segundo.
A Lhama 3.1 70B modelo é executado em 461 t/s. O serviço agora está aberto a todos os desenvolvedores (não é necessária lista de espera).
Notavelmente, entre os três — Groq, Cerebras e SambaNova — é a única plataforma que oferece Llama 3.1 405B. “O ecossistema em torno do Llama continua a forçar os limites. O SambaNova Cloud está definindo um novo padrão para inferência em 405B e está disponível para desenvolvedores começarem a construir hoje”, postou AI no Meta no X.
“A inferência rápida não é mais uma demonstração bacana, ela será a força motriz por trás dos futuros modelos de fronteira. Hora de mudar para hardware de IA personalizado e, em breve, NVIDIA”, disse Zoltan Csaki, engenheiro de Machine Learning na SambaNova.
A oferta de inferência de API é alimentada pelo chip de IA personalizado SN40L da SambaNova, que apresenta sua arquitetura Reconfigurable Dataflow Unit. Fabricado no processo de 5 nm da TSMC, o SN40L combina DRAM, HBM3 e SRAM em cada chip.
A arquitetura da RDU é construída em torno do fluxo de dados de streaming, o que permite que múltiplas operações sejam combinadas em um processo, removendo a necessidade de programação manual. Isso proporciona desempenho mais rápido usando uma mistura de diferentes técnicas de paralelismo, como pipeline, dados e paralelismo tensor, todos suportados pelo hardware.
Cerebras entra na briga
A Cerebras Inference anunciou recentemente que entrega 1.800 tokens por segundo para a lhama 3.1 8B modelo e 450 fichas por segundo para o Chama 3.1 70B modelo, tornando-o 20 vezes mais rápido que as nuvens de hiperescala baseadas em GPU NVIDIA.
De acordo com a análise artificial Ligue para 3.1-8B modelos executados em sistemas NVIDIA H100 em hiperescaladores e provedores de nuvem especializados forneceram velocidades que variam de 72 a 257 fichas por segundo, com a AWS relatando 93 tokens por segundo para a mesma carga de trabalho.
O Cerebras Inference é alimentado pelo sistema Cerebras CS-3 e seu processador de IA avançado, o Wafer Scale Engine 3 (WSE-3). Diferentemente das GPUs tradicionais, que exigem compensações entre velocidade e capacidade, o CS-3 oferece desempenho de primeira linha para usuários individuais, mantendo alto rendimento.
O tamanho massivo do WSE-3 permite que ele suporte muitos usuários simultaneamente, proporcionando uma velocidade impressionante. Com 7.000 vezes mais largura de banda de memória do que o H100 da NVIDIA, o WSE-3 aborda o principal desafio técnico da IA generativa, a largura de banda de memória.
O Cerebras aborda as limitações inerentes de largura de banda de memória das GPUs, que exigem que os modelos sejam movidos da memória para núcleos de computação para cada token de saída. Esse processo resulta em velocidades de inferência lentas, particularmente para modelos de linguagem grandes como o Llama 3.1-70B, que tem 70 bilhões de parâmetros e requer 140 GB de memória.
O Cerebras Inference suporta modelos de bilhões a trilhões de parâmetros. Para modelos que excedem a capacidade de memória de um único wafer, o Cerebras os divide em limites de camada e os mapeia para vários sistemas CS-3. Espera-se que modelos maiores, como Llama3-405B e Mistral Large, sejam suportados nas próximas semanas.
Nada como Groq
A Groq atingiu recentemente uma velocidade de 544 tokens por segundo no modelo Llama 3.1 70B e 752 tokens por segundo no modelo Llama 3.1 8B, de acordo com a Artificial Analysis.
Fundada em 2016 por Ross, a Groq se distingue por evitar GPUs em favor de seu hardware proprietário, o LPU. A empresa recentemente levantou US$ 640 milhões em uma rodada de financiamento da Série D, elevando sua avaliação para US$ 2,8 bilhões. Mais recentemente, anunciou uma parceria com a Aramco Digital para estabelecer o maior data center de inferência do mundo na Arábia Saudita.
A LPU da Groq desafia os fabricantes de GPU tradicionais como NVIDIA, AMD e Intel, com seu processador de streaming tensor construído exclusivamente para computações de aprendizado profundo mais rápidas. A LPU é projetada para superar os dois gargalos do LLM: densidade de computação e largura de banda de memória.
Em termos de LLMs, uma LPU tem maior capacidade de computação do que uma GPU e CPU. Isso reduz a quantidade de tempo por palavra calculada, permitindo que sequências de texto sejam geradas muito mais rápido.
Além disso, a eliminação de gargalos de memória externa permite que o mecanismo de inferência de LPU ofereça um desempenho muito melhor em LLMs em comparação com GPUs.
A LPU é projetada para priorizar o processamento sequencial de dados, que é inerente às tarefas de linguagem. Isso contrasta com as GPUs, que são otimizadas para tarefas de processamento paralelo, como renderização gráfica.
Esse artigo é uma releitura de: analyticsindiamag.com