A revolução da Inteligência Artificial (IA) tem impulsionado investimentos e capturado a imaginação do público, em grande parte, devido ao avanço dos Large Language Models (LLMs). Ferramentas transformadoras como o ChatGPT são exemplos claros do poder desses modelos em simular sequências de tokens que representam palavras ou partes delas. O mais surpreendente é como a compreensão estrutural emerge da previsão do próximo token, permitindo que essas IAs realizem tarefas como tradução, resposta a perguntas e geração de prosa com uma qualidade quase humana, tudo a partir de simples comandos.
Aplicações de LLMs no Mercado Financeiro: Uma Fronteira em Aberto
Não é surpresa que traders quantitativos e desenvolvedores tenham se perguntado: podemos transformar esses modelos na próxima grande ferramenta de previsão de preços ou de negociações? A questão aqui se desloca de modelar sequências de palavras para modelar sequências de preços ou operações. Esta linha de investigação tem se mostrado fascinante, revelando muito tanto sobre a IA generativa quanto sobre a modelagem de séries temporais financeiras. Preparar-se, pois a jornada é técnica!
LLMs são conhecidos como aprendizes autorregressivos, ou seja, utilizam tokens ou elementos anteriores em uma sequência para prever o próximo. No trading quantitativo, por exemplo, em estratégias como arbitragem estatística em ações, grande parte da pesquisa foca em identificar estruturas autorregressivas. Isso significa encontrar sequências de notícias, ordens ou mudanças fundamentais que melhor prevejam preços futuros. Para explorar mais sobre as capacidades de LLMs, veja também nosso artigo sobre Claude AI: 5 Funções Essenciais para Devs e Automação.
Dados: A Grande Barreira para Previsões Financeiras
Onde as coisas ficam mais desafiadoras é na quantidade e no conteúdo informacional dos dados disponíveis para treinar esses modelos. Na conferência NeurIPS de 2023, a Hudson River Trading (HRT), uma empresa de high frequency trading, apresentou uma comparação impressionante. Eles estimaram que, com 3.000 ações negociáveis, 10 pontos de dados por ação por dia, 252 dias de negociação por ano e 23.400 segundos em um dia de negociação, há 177 bilhões de "tokens" do mercado de ações disponíveis como dados por ano. Isso se aproxima dos 500 bilhões de tokens nos quais o GPT-3 foi treinado, o que parece promissor.

Dados cortesia da apresentação da HRT na NeuRIPS 2023
Detalhes Técnicos: Linguagem vs. Finanças
A diferença crucial reside na natureza dos tokens. Em finanças, os tokens seriam preços, retornos ou negociações, que são inerentemente muito mais difíceis de prever do que sílabas ou palavras. A linguagem possui uma estrutura linguística subjacente (como a gramática), tornando a previsão da próxima palavra em uma frase um desafio menor para humanos. Já prever o próximo retorno dado uma sequência de negociações anteriores é uma tarefa extremamente complexa, razão pela qual não vemos bilionários day traders em cada esquina. Para entender mais sobre as vulnerabilidades de LLMs, confira nosso artigo sobre como Poesia 'Engana' IAs: Falhas em Recursos de Segurança.
O desafio maior é a constante competição de mentes brilhantes no mercado, que rapidamente anulam qualquer sinal de previsibilidade, tornando-o quase eficiente (ou "eficientemente ineficiente", nas palavras do economista Lasse Pedersen) e, portanto, imprevisível. Ninguém ativamente tenta tornar as frases mais difíceis de prever; na verdade, autores buscam clareza. No mercado, a situação é oposta: cada participante busca extrair e esconder sinais.
Olhando por outro ângulo, os dados financeiros contêm muito mais ruído do que sinal. Indivíduos e instituições negociam por motivos que nem sempre são racionais ou vinculados a mudanças fundamentais de um negócio – o episódio GameStop em 2021 é um exemplo clássico. As séries temporais financeiras também mudam constantemente com novas informações fundamentais, alterações regulatórias e grandes mudanças macroeconômicas, como desvalorizações monetárias. A linguagem, por outro lado, evolui em um ritmo muito mais lento e em horizontes de tempo mais longos.
O Promissor Campo da Aprendizagem Multimodal
Apesar dos desafios, há razões para acreditar que conceitos da IA terão sucesso nos mercados financeiros. Uma área emergente da pesquisa em IA com aplicações promissoras para finanças é a aprendizagem multimodal, que busca utilizar diferentes modalidades de dados — por exemplo, tanto imagens quanto entradas textuais — para construir um modelo unificado. Com modelos como o DALL-E 2 da OpenAI, um usuário pode inserir texto e o modelo gera uma imagem.
No setor financeiro, os esforços multimodais poderiam ser úteis para combinar informações de fontes clássicas, como dados de séries temporais técnicas (preços, negociações, volumes, etc.), com dados alternativos em diferentes modos, como sentimento de mídias sociais (interações gráficas no X, antigo Twitter), notícias em linguagem natural e muito mais. A sinergia entre diferentes tipos de dados pode, potencialmente, revelar padrões ocultos e oferecer uma vantagem analítica valiosa para os desenvolvedores e analistas do mercado.