Os novos modelos de inteligência artificial desenvolvidos pela OpenAI, o o3 e o o4-mini, têm chamado atenção não apenas pela potência, mas por um comportamento inesperado: eles estão cometendo mais erros do que as versões anteriores. Em vez de avançarem no controle das chamadas “alucinações” — quando a IA fornece informações falsas com convicção — os dois sistemas deram um passo atrás.
De acordo com testes internos da empresa, o modelo o3 apresentou uma taxa de erro de 33% ao responder questões sobre pessoas, enquanto o o4-mini alcançou 48% de respostas incorretas. Para efeito de comparação, modelos anteriores, como o o1 e o o3-mini, registraram menos da metade desses índices, com 16% e 14,8%, respectivamente.
As falhas não passaram despercebidas fora da OpenAI. Pesquisadores do laboratório independente Transluce também observaram comportamentos equivocados nos novos modelos. Em um dos testes, o o3 alegou estar executando códigos diretamente em um MacBook Pro 2021, o que não é tecnicamente possível. Outros usuários relataram erros recorrentes em tarefas de programação, como o fornecimento de links quebrados.
++ Avanço na ciência pode levar primeiro anticoncepcional masculino às farmácias
Esses deslizes levantam preocupações especialmente em áreas onde a exatidão é indispensável, como no setor jurídico ou no ambiente hospitalar. “Mesmo pequenos erros podem ter grandes consequências quando estamos falando de decisões baseadas em dados fornecidos por IA”, alertam especialistas.
Apesar das limitações, os novos modelos seguem mostrando avanços em áreas como matemática e lógica computacional. O desafio, segundo a própria OpenAI, está em encontrar o equilíbrio entre criatividade e precisão. A empresa reconhece que ainda não compreende por completo os motivos por trás desse aumento nas alucinações e que resolver esse impasse será crucial para o futuro da tecnologia.
++ Canonização de Carlo Acutis é adiada após morte do papa Francisco
Uma das possíveis soluções em teste é permitir que os sistemas façam buscas na internet em tempo real para verificar informações. Quando combinada com essa funcionalidade, a versão GPT-4o alcançou até 90% de acerto em determinadas tarefas. A proposta, no entanto, abre espaço para um novo dilema: a exposição de dados dos usuários e os riscos à privacidade.
Não deixe de nos seguir no Instagram para mais notícias da Pardal Tech