Close-up de um olho com elementos de interface digital sobrepostos, simbolizando a capacidade de visão e percepção de uma inteligência artificial.

DeepSeek Vision: um novo gigante em IA multimodal?

Por Pedro W. • 3 min de leitura

A DeepSeek, uma empresa de inteligência artificial conhecida por seus modelos de linguagem, acaba de dar um salto significativo no campo da IA multimodal. A novidade é o lançamento do DeepSeek Vision, um modelo que, segundo a companhia, estabelece novos patamares na compreensão visual em comparação a outros nomes de peso como GPT-4v e Gemini.

O DeepSeek Vision chega com a promessa de ser mais eficaz na captação de detalhes finos em imagens, destacando-se na compreensão de elementos complexos como gráficos e diagramas. A empresa divulgou que seus modelos superam os concorrentes em uma série de benchmarks, incluindo MME, MMMU e MathVista, consolidando sua posição entre os líderes em percepção visual.

Um dos pontos fortes do Vision é sua capacidade de processar informações visuais com uma resolução impressionante de 1024x1024, além de suportar entradas de imagem com até 2048x2048 pixels. Isso permite que o modelo interprete detalhes minuciosos que seriam desafiadores para outras IAs.

“Nossos modelos DeepSeek Vision estabelecem um novo padrão em compreensão visual e multimodality, superando o GPT-4V e o Gemini em uma variedade de benchmarks,” afirma a DeepSeek em seu anúncio.

A arquitetura do Vision é baseada nos modelos de linguagem DeepSeek LLM, como o DeepSeek-V2, que é um modelo de 236 bilhões de parâmetros. Essa base permite que o Vision combine a capacidade de compreensão visual com as habilidades de raciocínio lógico e geração de texto do LLM. O modelo consegue, por exemplo, analisar a complexidade de um gráfico financeiro e gerar uma análise textual detalhada.

Modelos de código aberto e API

A DeepSeek não apenas lançou o Vision, mas também abriu o acesso a seus modelos menores, o DeepSeek-VLM e o DeepSeek-Math, como código aberto. O DeepSeek-VLM possui 7 bilhões de parâmetros e é um modelo visual-linguístico de propósito geral, enquanto o DeepSeek-Math, com 7 bilhões e 16 bilhões de parâmetros, é especializado em resolver problemas matemáticos baseados em imagens.

Para desenvolvedores e empresas interessadas em integrar as capacidades do Vision, a DeepSeek disponibilizou o modelo via API. Isso significa que é possível acessar o DeepSeek Vision, DeepSeek-VLM e DeepSeek-Math para incorporar a inteligência visual avançada em diversas aplicações, desde análise de dados até sistemas de educação.

A empresa destacou que o DeepSeek Vision não é apenas um avanço tecnológico, mas também uma ferramenta para fomentar a inovação na comunidade de IA. A disponibilização de modelos de código aberto e o acesso via API visam acelerar o desenvolvimento de novas aplicações que se beneficiem da interação multimodal.

As demonstrações mostram que o Vision pode ir além da simples identificação de objetos, conseguindo entender contextos complexos e nuances em documentos, diagramas científicos e até mesmo em representações abstratas. Essa capacidade de “ver” e “entender” de forma mais profunda abre portas para diversas aplicações práticas, desde a automação de análises de dados até o suporte em diagnósticos médicos.

A estratégia da DeepSeek de lançar um modelo superior e, ao mesmo tempo, oferecer versões de código aberto, busca equilibrar a inovação de ponta com a acessibilidade para a comunidade de desenvolvedores. O impacto dessa abordagem ainda será visto, mas a promessa é de um futuro onde a interação com a IA será cada vez mais natural e eficiente.

Tags: inteligência artificial deepseek vision multimodal ia generativa