Imagem da matéria: O ChatGPT está ficando burro, mostra novo estudo
Imagem criada pelo Decrypt usando AI

O programa de Inteligência Artificial (AI, na sigla em inglês) ChatGPT explodiu de popularidade no final de 2022, deslumbrando as pessoas com suas habilidades de conversação semelhantes às humanas. O lançamento da versão mais recente gerou até mesmo um rali no preço de algumas criptomoedas. Mas, de acordo com um novo estudo, as habilidades do principal aplicativo de AI podem estão em declínio.

Pesquisadores de Stanford e da UC Berkeley analisaram sistematicamente diferentes versões do ChatGPT. Eles desenvolveram benchmarks rigorosos para avaliar a competência do modelo em tarefas de matemática, codificação e raciocínio visual. Os resultados do desempenho do ChatGPT ao longo do tempo não foram positivos.

Publicidade

Os testes revelaram uma queda surpreendente no desempenho entre as versões. Em um desafio matemático para determinar números primos, o ChatGPT resolveu 488 das 500 questões corretamente em março, uma precisão de 97,6%. No entanto, em junho, o ChatGPT só conseguiu acertar 12 questões, com uma precisão de 2,4%.

O declínio foi especialmente acentuado nas habilidades de codificação de software do chatbot.

“Para o GPT-4, o percentual de gerações de respostas que são diretamente executáveis caiu de 52% em março para 10% em junho”, concluiu a pesquisa. Estes resultados foram obtidos através da utilização da versão pura dos modelos, ou seja, não foram envolvidos plugins de interpretação de código.

Para avaliar o raciocínio, os pesquisadores aproveitaram as instruções visuais do conjunto de dados Abstract Reasoning Corpus (ARC). Mesmo aqui, embora não tão grande, ainda encontraram um declínio. “O GPT-4, em junho, cometeu erros em consultas sobre as quais estava correto em março”, diz o estudo.

Mudanças da OpenAI

O que poderia explicar o aparente rebaixamento do ChatGPT em apenas alguns meses? Os pesquisadores levantam a hipótese de que pode ser um efeito colateral de mudanças feitas pela OpenAI, a empresa criadora da tech.

Publicidade

Uma das causas possíveis são as alterações introduzidas para impedir o ChatGPT de responder a perguntas perigosas. No entanto, este alinhamento de segurança poderia prejudicar a utilidade do ChatGPT para outras tarefas. Os pesquisadores descobriram que o modelo agora tende a dar respostas detalhadas e indiretas em vez de respostas claras.

“O GPT-4 está piorando com o tempo, não melhorando” disse o Especialista em AI, Santiago Valderrama, no Twitter. Valderrama também levantou a possibilidade de que uma mistura de modelos “mais barata e rápida” pudesse ter substituído a arquitetura ChatGPT original.

“Rumores sugerem que eles estão usando vários modelos GPT-4 menores e especializados que agem de forma semelhante a um modelo grande, mas são menos caros de executar”, ele levantou a hipótese, a qual, na visão dele, poderia acelerar as respostas para os usuários, mas reduzir a competência das entregas.

Outro especialista, Dr. JM Fan, também compartilhou suas ideias em uma Thread no Twitter.

“Infelizmente, mais segurança normalmente vem ao custo de menos utilidade”, escreveu ele, dizendo que estava tentando entender os resultados, vinculando-os à maneira como a OpenAI afina seus modelos.

Publicidade

“Meu palpite, (nenhuma evidência, apenas especulação), é que a OpenAI gastou a maioria dos esforços fazendo uma lobotomia de março a junho e não teve tempo de recuperar totalmente as outras capacidades que importam.”

Fan argumenta que outros fatores podem ter entrado em jogo, nomeadamente os esforços de redução de custos, a introdução de advertências e isenções de responsabilidade que podem “emburrecer” o modelo e a falta de feedback mais amplo da comunidade.

Embora se justifiquem testes mais abrangentes, as conclusões alinham-se com as frustrações expressas pelos usuários em relação à diminuição da coerência nos resultados outrora eloquentes do ChatGPT.

Como evitar uma maior deterioração? Alguns entusiastas defenderam modelos de código aberto como o Llama da Meta (que acabou de ser atualizado), que permitem a depuração da comunidade. O benchmarking contínuo para detectar regressões precocemente é crucial.

Por enquanto, parece que os fãs do ChatGPT terão que controlar suas expectativas. Aquela máquina doida e geradora rápida de ideias que muitos encontraram pela primeira vez parece mais domada — e talvez menos brilhante. Parece que o declínio cognitivo relacionado com a idade parece ser inevitável, até mesmo para as inteligências artificiais.

Publicidade

*Traduzido por Gustavo Martins com autorização do Decrypt.