Close-up de um chip com estruturas geométricas e linhas de código ao fundo, simbolizando a complexidade da IA de voz e infraestrutura

Voz IA: Startup promete derrubar custos e latência em 50%

Por Miguel Viana • 6 min de leitura

A inteligência artificial de voz, que prometia revolucionar o atendimento ao cliente e a interação máquina-humano, pode estar pesando demais no bolso das empresas. Pelo menos é o que aponta a SLNG, uma startup britânica que garante que as companhias de IA de voz vêm inflando os custos há tempos e que uma correção de preço é inevitável. E eles querem liderar essa mudança.

Luke Miller, CEO da SLNG, não poupa palavras ao criticar o sistema atual. "O mercado foi moldado por laboratórios de voz cujo modelo de negócios depende de maximizar o poder computacional em cada etapa de cada chamada", dispara Miller. Segundo ele, cada sílaba passa pelo motor mais caro de Texto-para-Fala (TTS), cada pausa é analisada por um LLM completo e cada transcrição usa o motor de maior custo. "Queremos reprecificar todo o mercado de agentes de voz", afirma o executivo.

A SLNG, que captou € 3,3 milhões em financiamento pré-seed de fundos como Earlybird, StepFunction e a16z scouts no final de 2025, está construindo o que Miller descreve como a "Vercel para agentes de voz". Para quem não conhece, Vercel é uma plataforma que simplifica o desenvolvimento e deploy de aplicações web, tirando a complexidade da infraestrutura. A ideia da SLNG é similar: criar uma camada de execução que se posicione entre o orquestrador de agente de voz de uma equipe e os modelos de IA subjacentes.

Isso significa que as empresas podem manter seus agentes (construídos em LiveKit, Pipecat ou outra estrutura) e conectá-los à SLNG. A plataforma, então, assume a responsabilidade pela seleção de modelos, roteamento por região, recuperação de falhas e conformidade em 11 regiões soberanas. Miller, antes de fundar a SLNG, foi parceiro de risco na Earlybird VC e o primeiro vendedor da Vercel, onde construiu o negócio internacional da companhia.

A camada de execução: a peça que faltava nos agentes de voz?

Miller traça um paralelo entre o que a Vercel fez para o desenvolvimento web e o que a SLNG pretende fazer para os agentes de voz. "Antes da Vercel, implantar um aplicativo web em escala significava juntar CDNs, pipelines de build, edge functions e camadas de cache por conta própria", explica ele. "Cada equipe reinventava a mesma infraestrutura. Os agentes de voz estão exatamente nesse ponto de inflexão — os modelos são poderosos, os orquestradores funcionam, mas não há uma camada de plataforma entre eles e a produção.

Ferramentas como LiveKit e Pipecat tornaram possível que praticamente qualquer um construa um agente de voz. No entanto, a abordagem predominante, que Miller chama de "otimização de tokens", é rotear cada etapa de cada interação da chamada através dos modelos de ponta mais caros disponíveis. Cada transcrição, cada resposta, cada vocalização recebe o tratamento completo. O problema é que a receita dos laboratórios de voz cresce com o consumo de computação, então o incentivo é maximizar o número de chamadas de modelo por conversa, em vez de otimizá-las.

E o problema, de acordo com Miller, não se resume apenas ao custo. Ele se estende aos resultados. A repetibilidade e a confiabilidade são muito mais importantes em escala do que o poder bruto do modelo em uma única interação. Um agente de voz que lida com milhares de chamadas por dia precisa de consistência. Chamadas desnecessárias a modelos de ponta, por sua vez, introduzem latência, variabilidade e custo que trabalham ativamente contra essa necessidade.

É nesse vácuo que a SLNG se insere, coordenando fala-para-texto, texto-para-fala e grandes modelos de linguagem (LLMs) em tempo real, roteando inteligentemente a cada etapa da chamada. A plataforma ainda acionará os melhores modelos quando necessário – uma questão complexa de consultoria financeira, por exemplo, receberá um tratamento diferente de uma simples confirmação de agendamento. No entanto, os maiores ganhos, segundo Miller, vêm de saber quando uma resposta determinística ou um modelo mais leve entregará um resultado superior para o cliente do que um LLM de ponta.

Os resultados, ainda segundo a startup, são notáveis. Equipes que se conectam à SLNG estão vendo os custos do modelo em seus agentes de voz caírem mais de 50%, a latência por interação da chamada sendo reduzida em mais da metade, e os resultados — sejam agendamentos, taxas de resolução ou conversão — aumentando de fato como consequência. Para equipes que já utilizam orquestradores como LiveKit ou Pipecat, a integração é descomplicada: basta manter o agente, conectar-se à SLNG, e a camada de execução se encarrega do roteamento do modelo, recuperação de falhas, conformidade e otimização de custos em cada parte da chamada.

Projetado para ser global, não apenas escalar globalmente

Grande parte do crescimento da SLNG tem sido impulsionado pelos setores de serviços financeiros, bancário, seguros e saúde — áreas onde a soberania dos dados é um requisito legal, e não uma mera preferência. No Brasil, temas como a Lei Geral de Proteção de Dados (LGPD) reforçam essa necessidade, tornando a capacidade de processar dados dentro do próprio país um diferencial competitivo e um imperativo legal.

Miller argumenta que a abordagem da empresa não poderia ter nascido no Vale do Silício, onde a abundância de capacidade computacional incentiva as equipes a "jogar GPUs em todo problema". No entanto, em mercados onde grande parte da demanda corporativa do mundo está — como Sudeste Asiático, Oriente Médio, América Latina e Índia — o suprimento de GPUs é limitado e as estruturas de custo praticadas na Virgínia do Norte (um polo de data centers nos EUA) não se aplicam. Essa restrição, por sua vez, forçou uma disciplina diferente.

Ismael Ordaz, co-fundador e CPO, explica que a equipe desenvolveu abordagens que utilizam CPUs e memória para lidar com cargas de trabalho que os concorrentes roteiam através de aceleradores de GPU caríssimos. "Quando você não tem GPUs abundantes de reserva, você precisa ser criativo", comenta Ordaz, e enfatiza que essa disciplina, uma vez estabelecida, permeia tudo o que eles constroem.

A necessidade de lidar com a soberania de dados é mais do que uma tecnicalidade para a SLNG, é um pilar estratégico. "Um agente de voz lidando com um pedido de hipoteca na Austrália não pode ter seu áudio processado na Virgínia", exemplifica Miller. Ele completa que um sistema de triagem de pacientes na Suíça não pode enviar gravações para um modelo hospedado nos EUA. "Esses não são casos excepcionais — é aqui que está a demanda empresarial de fato", concluiu Miller.

Tags: inteligência artificial IA de voz startup custo IA SLNG

Perguntas Frequentes

O que é a SLNG?

A SLNG é uma startup britânica que visa revolucionar o mercado de inteligência artificial de voz, propondo uma correção de preços e otimização de custos e latência para agentes de voz.

Como a SLNG planeja reduzir os custos de IA de voz?

A SLNG atua como uma 'camada de execução' que otimiza a seleção de modelos de IA, roteando inteligentemente as chamadas para os modelos mais eficientes e adequados, evitando o uso de modelos caros de ponta em todas as interações.

Qual a principal crítica da SLNG ao modelo atual de IA de voz?

A SLNG critica os 'laboratórios de voz' por maximizarem o consumo computacional em cada etapa da chamada, utilizando os modelos mais caros desnecessariamente, o que eleva os custos para as empresas.

Quais os benefícios esperados para as empresas que usarem a SLNG?

As empresas podem ver uma redução de mais de 50% nos custos de modelos, uma diminuição pela metade da latência por interação da chamada e um aumento nos resultados como agendamentos e taxas de resolução.

Por que a soberania de dados é importante para a SLNG?

A SLNG foi projetada para lidar com a soberania de dados, um requisito legal em muitos setores como finanças e saúde. Isso significa que dados sensíveis são processados na região correta, garantindo conformidade e segurança.