HOME > blog

Startup: AssemblyAI representa reconhecimento de fala de nova geração
5 de maio de 2025

Startup: AssemblyAI representa reconhecimento de fala de nova geração

Os avanços na IA por detrás do reconhecimento de voz estão a impulsionar o crescimento do mercado, atraindo capital de risco e financiando startups, colocando desafios aos intervenientes estabelecidos.

A crescente aceitação e uso de dispositivos de reconhecimento de fala estão impulsionando o mercado, que, segundo uma estimativa da Meticulous Research, deverá atingir US$ 26,8 bilhões globalmente até 2025, de acordo com um relato recente no Informações analíticas. Melhor velocidade e precisão estão entre os benefícios da tecnologia em evolução.

Dylan Fox, CEO e fundador, AssemblyAI

Uma empresa no meio desse novo crescimento, a AssemblyAI de São Francisco, está oferecendo uma API para reconhecimento de fala capaz de transcrever vídeos, podcasts, chamadas telefônicas e reuniões remotas. A empresa foi fundada pelo CEO Dylan Fox em 2017 e recebeu apoio da Y Combinator, uma aceleradora de startups, bem como da NVIDIA.

Fox tem uma formação incomum para um empreendedor de alta tecnologia. Ele se formou na George Washington University em administração de empresas, economia empresarial e políticas públicas. Ele conseguiu um emprego como engenheiro de software para aprendizado de máquina no laboratório de produtos emergentes da Cisco em São Francisco, trabalhando em redes neurais profundas e aprendizado de máquina. Ele teve a ideia da AssemblyAi e atraiu capital da Y Combinator, o que lhe permitiu contratar cientistas e engenheiros de dados para lançar a tecnologia.

Questionado em entrevista Tendências de IA como ele fez essa transição da graduação em administração de empresas e economia para empresário de alta tecnologia, Fox disse: “Aprendi sozinho a programar, o que me levou ao caminho do aprendizado de máquina. Eu estava procurando um desafio de software mais difícil, que levou ao processamento de linguagem natural, o que me levou à Cisco.” Eles estavam trabalhando no Siri for the Enterprise for Apple na época,

Para acelerar o trabalho, a Cisco pretendia adquirir um software de reconhecimento de voz; Fox estava no lugar do gato durante a busca. “Olhamos para a Nuance”, por exemplo, reconhecida como líder de mercado e proprietária de mais software de reconhecimento de voz do que seus concorrentes. (A aquisição da Nuance pela Microsoft por 19,6 mil milhões de dólares deverá ser finalizada até ao final do ano.) O jovem empreendedor em ascensão não ficou impressionado. “Foi uma loucura como todas as opções eram ruins do ponto de vista da precisão e do desenvolvedor”, afirmou ele.

Ele ficou impressionado com a Twilio, uma empresa com sede em São Francisco fundada em 2008, que naquele ano lançou a API Twilio Voice para fazer e receber chamadas hospedadas na nuvem. Desde então, a empresa levantou US$ 103 milhões em capital de risco. “Eles estavam estabelecendo novos padrões para uma boa API para desenvolvedores”, disse Fox.

A ideia da Fox era usar IA e aprendizado de máquina para obter “resultados superprecisos e tornar mais fácil para os desenvolvedores incorporarem a API em seus produtos. Um cliente é CallRail, que oferece software de rastreamento de chamadas e análise de marketing, que planeja incorporar a API da AssembyAI para obter informações sobre por que as pessoas estão ligando. Outros clientes incluem a NBC e o Wall Street Journal, que usam o produto para transcrever conteúdo e entrevistas e fornecer legendas ocultas.

“Temos trabalhado para construir a qualidade mais próxima possível do reconhecimento de fala humana. Tem sido muito trabalhoso”, disse Fox. Ele espera atingir esse patamar em 2022.

Ele tem como alvo empresas que incorporam reconhecimento de fala em seus produtos e facilita a compra. Os clientes pagam com base no uso; para cada segundo de áudio transcrito, a AssemblyAI cobra uma fração de centavo. Os clientes são cobrados mensalmente. Se um cliente usa 10 horas por mês, custa cerca de nove dólares. Se um cliente usa um milhão de horas por mês, isso custa cerca de US$ 900.000.

O reconhecimento de voz é um mercado aquecido. “Muitas novas startups estão sendo lançadas”, disse Fox, oferecendo oportunidades. “Muitos novos negócios interessantes estão sendo construídos com base em dados de voz.”

O produto da AssemblyAI pode detectar tópicos delicados, como discurso de ódio e palavrões, para que os clientes possam economizar na moderação de conteúdo humano.

Solicitado a descrever o que diferencia sua tecnologia, Fox disse: “Somos uma equipe experiente de pesquisadores de aprendizagem profunda”, com experiência em empresas como BMW, Apple e Facebook. “Construímos modelos de aprendizado profundo muito grandes e precisos que apresentam resultados de reconhecimento muito mais precisos do que uma abordagem tradicional de aprendizado de máquina. Construímos modelos realmente grandes usando tecnologias avançadas de redes neurais.” Ele comparou a abordagem com a que a OpenAI usa para desenvolver seu modelo de linguagem grande GPT-3.

Além disso, eles criam recursos de IA sobre as transcrições, para fornecer resumos de conteúdo de áudio e vídeo, que podem ser pesquisados ​​e indexados. “Isso vai além da simples transcrição”, disse Fox.

A empresa conta atualmente com 25 funcionários e espera dobrar em cerca de quatro meses. Os negócios têm sido bons. “Há uma explosão de dados de áudio e vídeo online e os clientes querem tirar vantagem disso, por isso vemos muita demanda”, disse Fox.

Saiba mais em AssembleiaAI.

Esse artigo é uma releitura de: www.aitrends.com

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Primeiros passos

com inteligência artificial, para compreender conceitos e utilização pratica no dia a dia com foco no marketing da sua empresa e relacionamento social!