A Matemática no Machine Learning: Uma Redefinição de Papel

A última década testemunhou uma transformação significativa na forma como o progresso é alcançado no Machine Learning. Observamos uma mudança em que pesquisas focadas em arquiteturas meticulosamente projetadas e matematicamente fundamentadas resultam em melhorias apenas marginais. Em contraste, esforços intensivos em computação e com foco na engenharia, que escalam para conjuntos de dados e contagens de parâmetros de modelo cada vez maiores, entregam capacidades notáveis e imprevisíveis pela teoria existente.
A matemática e a estatística, que antes eram os principais guias da pesquisa em Machine Learning, agora enfrentam o desafio de fornecer insights imediatos sobre as mais recentes inovações. Não é a primeira vez que o avanço empírico no Machine Learning supera abordagens mais motivadas pela teoria. No entanto, a magnitude dos avanços recentes nos forçou a "engolir a pílula amarga" da "Lição Amarga" mais uma vez [1].
Essa guinada tem provocado especulações sobre um possível papel diminuído da matemática na pesquisa de Machine Learning no futuro. Já é evidente que a matemática terá de partilhar o palco com uma gama mais vasta de perspetivas – por exemplo, a biologia, com sua profunda experiência em tirar conclusões sobre sistemas irredutivelmente complexos, ou as ciências sociais, à medida que a IA se integra cada vez mais na sociedade. A natureza crescentemente interdisciplinar do Machine Learning deve ser vista como um desenvolvimento positivo por todos os pesquisadores.
No entanto, defendemos que a matemática permanece tão relevante quanto sempre; seu papel está simplesmente evoluindo. Por exemplo, enquanto a matemática outrora fornecia principalmente garantias teóricas sobre o desempenho de modelos, em breve poderá ser mais comumente usada para explicações post-hoc de fenômenos empíricos observados no treinamento e desempenho de modelos – um papel análogo ao que desempenha na física. Da mesma forma, enquanto a intuição matemática poderia ter guiado o design de características ou detalhes arquitetônicos em um nível granular, seu uso pode se deslocar para escolhas de design de nível superior, como a correspondência da arquitetura com a estrutura da tarefa subjacente ou as simetrias dos dados.
Nada disso é totalmente novo. A matemática sempre serviu a múltiplos propósitos no Machine Learning. Afinal, a rede neural convolucional equivariante à translação, que exemplifica a ideia de arquitetura que corresponde às simetrias dos dados mencionada acima, já tem mais de 40 anos. O que está mudando são os tipos de problemas onde a matemática terá o maior impacto e as formas como será mais comumente aplicada.
Uma consequência intrigante da mudança para a escala é que ela ampliou o escopo dos campos da matemática aplicáveis ao Machine Learning. Domínios matemáticos "puros", como topologia, álgebra e geometria, estão agora se juntando aos campos mais tradicionalmente aplicados da teoria da probabilidade, análise e álgebra linear. Esses campos puros cresceram e se desenvolveram ao longo do último século para lidar com altos níveis de abstração e complexidade, ajudando os matemáticos a fazerem descobertas sobre espaços, objetos algébricos e processos combinatórios que, à primeira vista, parecem ir além da intuição humana. Essas capacidades prometem abordar muitos dos maiores desafios no Deep Learning moderno.
Neste artigo, exploraremos várias áreas de pesquisa atuais que demonstram a capacidade duradoura da matemática de guiar o processo de descoberta e compreensão no Machine Learning.
Figura 1: A matemática pode iluminar as maneiras pelas quais as redes neurais baseadas em ReLU fragmentam o espaço de entrada em inúmeras regiões poligonais, em cada uma das quais o modelo se comporta como um mapa linear [2, 3, 4]. Essas decomposições criam padrões belos. (Figura feita com SplineCam [5]).
Descrevendo um Elefante a Partir de um Furo de Agulha
Suponha que você receba uma rede neural de 7 bilhões de parâmetros com 50 camadas e seja solicitado a analisá-la; como você começaria? O procedimento padrão seria calcular estatísticas de desempenho relevantes. Por exemplo, a precisão em um conjunto de benchmarks de avaliação. Em certas situações, isso pode ser suficiente. No entanto, o deep learning m...