A indústria de inteligência artificial (IA) tem se tornado cada vez mais obcecada pelo tamanho. Com algoritmos maiores e uma quantidade crescente de dados, as empresas estão investindo bilhões em centros de dados que, em alguns anos, poderão consumir eletricidade suficiente para abastecer cidades inteiras. Um exemplo disso é a OpenAI, que, apesar de projetar uma receita de US$ 3,7 bilhões, também enfrenta uma perda de US$ 5 bilhões neste ano. Recentemente, a empresa anunciou a captação de US$ 6,6 bilhões em novos investimentos e a abertura de uma linha de crédito de US$ 4 bilhões. No entanto, essa busca incessante por tamanho pode obscurecer o fato de que nem sempre a quantidade é sinônimo de qualidade. Pesquisadores, especialmente aqueles com recursos limitados, estão se esforçando para fazer mais com menos. Um exemplo notável é o trabalho realizado pelo Allen Institute for Artificial Intelligence (Ai2), que lançou uma nova família de modelos multimodais de código aberto, chamada Molmo, que é competitiva com modelos de ponta, como o GPT-4o da OpenAI, mas com um número significativamente menor de parâmetros.
O que são os modelos Molmo?
Os modelos Molmo, desenvolvidos pelo Ai2, variam de 1 bilhão a 72 bilhões de parâmetros, enquanto o GPT-4o é estimado em mais de um trilhão de parâmetros. Essa diferença de escala é impressionante, mas o que realmente distingue os modelos Molmo é a abordagem focada na qualidade dos dados em vez da quantidade. O Ai2 conseguiu criar esses modelos menores, mas altamente eficazes, ao reunir uma base de modelos de linguagem e codificadores de visão existentes e, em seguida, compilar um conjunto de dados mais focado e de alta qualidade, contendo cerca de 700.000 imagens e 1,3 milhão de legendas. Essa quantidade de dados é aproximadamente 1.000 vezes menor do que a utilizada em modelos multimodais proprietários. Em vez de escrever legendas, a equipe pediu a anotadores que gravassem descrições verbais de 60 a 90 segundos, respondendo a uma lista de perguntas sobre cada imagem. Essa mudança simples, de anotações escritas para verbais, resultou em um nível de detalhe muito maior com pouco esforço adicional.
Desempenho e Comparação com Modelos de Ponta
Os resultados obtidos pelos modelos Molmo são impressionantes. De acordo com um artigo técnico que descreve o trabalho, o maior modelo, o Molmo 72B, iguala ou supera modelos fechados de ponta, como o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 Pro do Google, em uma variedade de 11 benchmarks acadêmicos, além de ser preferido pelos usuários. Mesmo os modelos menores do Molmo, que têm apenas um décimo do tamanho do maior, se comparam favoravelmente aos modelos de ponta. Uma das características notáveis do Molmo é sua capacidade de identificar elementos em imagens, o que pode ajudar desenvolvedores a criar agentes de IA que reconhecem botões ou campos em uma página da web, facilitando tarefas como fazer reservas em restaurantes. Essa habilidade também pode ser aplicada em robôs, permitindo que eles identifiquem e interajam melhor com objetos no mundo real.
A Importância do Código Aberto
Além de serem menores, os modelos Molmo são de código aberto, o que é uma grande vantagem. Isso significa que agora existem alternativas gratuitas aos modelos proprietários. Embora existam outros modelos abertos começando a competir com os líderes de mercado, como o Llama 3.1 da Meta, que é o primeiro modelo de linguagem de grande escala com pesos abertos, ele não é multimodal. O Molmo se destaca por ser mais acessível do que o Llama. Enquanto os modelos da Meta são descritos como “modelos de pesos abertos”, onde a empresa libera os pesos do modelo, mas não o código ou os dados usados no treinamento, o Ai2 liberou tanto o conjunto de dados quanto o código utilizados para criar seu modelo multimodal. Além disso, a Meta limita o uso comercial a produtos com menos de 700 milhões de usuários, enquanto o Molmo é licenciado sob a Apache 2.0, permitindo que desenvolvedores modifiquem os modelos e comercializem produtos com poucas limitações.
O Futuro da IA e a Competição com Modelos Proprietários
À medida que os fabricantes de modelos proprietários tentam monetizar suas criações, alternativas de código aberto com capacidades semelhantes estão surgindo. O Molmo, por exemplo, é uma prova de que modelos menores podem ser executados localmente e são mais flexíveis, representando uma competição legítima para empresas que levantam bilhões com a promessa de produtos de IA. De acordo com Ofir Press, um pós-doutorando da Universidade de Princeton, “ter um modelo multimodal de código aberto significa que qualquer startup ou pesquisador com uma ideia pode tentar realizá-la”. No entanto, empresas como OpenAI e Google continuam a avançar, adicionando capacidades avançadas de voz, geração de vídeo e habilidades de raciocínio. Com bilhões em novos investimentos e acesso a um crescente volume de dados de qualidade, a próxima geração de modelos pode elevar ainda mais a competição. O Molmo sugere que, mesmo com os maiores players investindo bilhões na escalabilidade da tecnologia, alternativas de código aberto podem não estar tão longe de alcançar seus concorrentes.
Em resumo, a evolução dos modelos Molmo representa uma mudança significativa na abordagem da inteligência artificial, destacando a importância da qualidade dos dados em vez da quantidade. Esses modelos não apenas demonstram que é possível alcançar resultados impressionantes com menos recursos, mas também oferecem uma alternativa viável aos modelos proprietários, promovendo um ambiente mais acessível e inovador para pesquisadores e desenvolvedores. À medida que a tecnologia avança, a competição entre modelos de código aberto e proprietários promete trazer inovações ainda mais empolgantes para o futuro da IA.
FAQ Moisés Kalebbe
O que são modelos Molmo?
Os modelos Molmo são uma nova família de modelos multimodais de código aberto desenvolvidos pelo Allen Institute for Artificial Intelligence (Ai2), que são competitivos com modelos de ponta, mas com um número significativamente menor de parâmetros.
Como os modelos Molmo se comparam ao GPT-4o?
Os modelos Molmo variam de 1 bilhão a 72 bilhões de parâmetros, enquanto o GPT-4o é estimado em mais de um trilhão de parâmetros. Apesar de serem menores, os modelos Molmo igualam ou superam o desempenho do GPT-4o em vários benchmarks acadêmicos.
Qual é a importância do código aberto nos modelos Molmo?
O código aberto permite que desenvolvedores e pesquisadores tenham acesso gratuito aos modelos, promovendo a inovação e a acessibilidade, além de permitir modificações e uso comercial com poucas limitações.
Os modelos Molmo podem ser usados em aplicações comerciais?
Sim, os modelos Molmo são licenciados sob a Apache 2.0, o que permite que desenvolvedores modifiquem e comercializem produtos baseados nesses modelos sem muitas restrições.
Como os modelos Molmo podem impactar o futuro da IA?
Os modelos Molmo demonstram que é possível alcançar resultados impressionantes com menos recursos, o que pode incentivar mais inovações e concorrência no campo da inteligência artificial, especialmente entre modelos de código aberto e proprietários.
Fique por dentro das novidades e tendências do mundo da tecnologia seguindo o blog “Moisés Kalebbe”.