A Apple acaba de abrir o jogo sobre uma parte crucial de sua estratégia de inteligência artificial. A empresa revelou que sua nova arquitetura de IA, o MM1, é construída sobre os modelos multimodais Gemini do Google. Essa revelação foi feita em um artigo de pesquisa que detalha os avanços da companhia no campo da IA.
O MM1, descrito como uma "família de modelos multimodais de poucos-bilhões de parâmetros", é o cerne das capacidades de IA da Apple. O artigo mostra que o desenvolvimento levou à criação de modelos multimodais que conseguem entender e gerar conteúdo a partir de diferentes tipos de dados, como texto e imagens. A equipe de pesquisa da Apple destacou a importância de equilibrar a pré-treinamento com dados de imagem e texto, além de ajustar o projeto da arquitetura e a seleção de dados para otimizar o desempenho.
O que o MM1 realmente faz?
Os modelos do MM1 demonstraram habilidades impressionantes. Eles são capazes de realizar raciocínio em contexto, o que significa que podem entender a intenção por trás de uma solicitação e responder de forma relevante. Além disso, fazem referência a imagens, ou seja, são capazes de analisar um contexto visual e utilizar essa informação para gerar respostas. Também são proficientes em raciocínio encadeado, seguindo uma série de passos lógicos para chegar a uma conclusão.
Um ponto crucial do trabalho da Apple é a busca pela eficiência. O artigo enfatiza a necessidade de modelos de IA que não apenas sejam poderosos, mas também eficientes o suficiente para rodar diretamente nos dispositivos, como iPhones e iPads. Isso sugere um foco em IA no dispositivo, que pode oferecer maior privacidade e tempos de resposta mais rápidos, já que os dados não precisariam ser enviados para a nuvem.
"Nós mostramos que um pré-treinamento cuidadoso e o projeto da arquitetura são cruciais para o desenvolvimento de modelos visuais e de linguagem multimodais de ponta," afirma o artigo de pesquisa da Apple.
Essa colaboração e a escolha dos modelos Gemini não são uma surpresa total para quem acompanha o setor. Há rumores de que a Apple estaria negociando com o Google para licenciar a tecnologia Gemini para uso no iPhone. Essa parceria permitiria à Apple integrar recursos avançados de IA diretamente em seus dispositivos, possivelmente evitando a necessidade de desenvolver modelos de grande escala do zero, uma tarefa que exige vastos recursos computacionais e financeiros.
A revelação da arquitetura MM1 chega em um momento chave, pouco antes da Worldwide Developers Conference (WWDC) da Apple, programada para junho. É amplamente esperado que a empresa use o evento para apresentar suas novas funcionalidades de inteligência artificial para iOS 18 e macOS 15, e o MM1, com sua base nos modelos Gemini, deve ser uma peça central dessa estratégia. A expectativa é que a Apple detalhe como esses modelos vão aprimorar a experiência do usuário em seus sistemas operacionais e dispositivos.