Inteligências Artificiais que aprendem com dados de outras Inteligências Artificiais podem entrar em colapso

O ponto crítico apontado por especialistas é que a AI é tão sedenta por conteúdo que sistema pode gerar uma degeneração em cascata e separar a análise da tecnologia do mundo real
Imagem Decrypt gerada por Inteligência Artificial-Reprodução

Imagem gerada por Inteligência Artificial (Reprodução/Decrypt)

A Inteligência Artificial (AI, na sigla em inglês) tem sido um elemento transformador em diversas áreas como saúde, varejo, entretenimento e arte. No entanto, novas pesquisas sugerem que podemos ter atingido um ponto crítico: a aprendizagem de AI a partir de conteúdos gerados por ela mesma.

Esse “ouroboros” de Inteligência Artificial — o termo remete ao conceito de quem morde a própria cauda — pode ter consequências bastante negativas. Um grupo de pesquisa de diferentes universidades do Reino Unido emitiu um alerta sobre o que chamaram de “colapso do modelo” de AI, um processo degenerativo que pode separar completamente a nova tecnologia da realidade concreta.

Publicidade

Em um artigo intitulado “A Maldição da Recursão: o treinamento com dados gerados que faz com que os modelos esqueçam”, pesquisadores das universidades de Cambridge e Oxford, da Universidade de Toronto e do Imperial College em Londres explicam que o colapso do modelo de AI ocorre quando “dados gerados acabam poluindo o conjunto de treinamento da próxima geração de modelos” de AI.

“Elas [AIs] são treinadas com dados poluídos e, consequentemente, têm uma percepção distorcida da realidade”, escreveram. Em outras palavras, o conteúdo amplamente gerado por uma inteligência artificial e publicado online pode ser absorvido de volta pelos sistemas de AI, levando a distorções e imprecisões.

Esse problema foi identificado em uma variedade de modelos e ferramentas generativas de aprendizado, incluindo o Large Language Models (LLMs), o Variational Autoencoders, e o Gaussian Mixture Models.

Com o tempo, os modelos começam a “esquecer a verdadeira distribuição dos dados subjacentes”, levando a representações imprecisas da realidade, pois as informações originais se tornam tão distorcidas que deixam de se assemelhar ao mundo real.

Publicidade

Já existem casos em que modelos de aprendizado de máquina (machine learning em inglês) são treinados com dados gerados por AI. Por exemplo, os modelos LLMs estão sendo intencionalmente treinados com saídas do GPT-4. Da mesma forma, o DeviantArt, plataforma online para artistas, permite que obras de arte criadas por inteligência artificial sejam publicadas e usadas como dados de treinamento para novos modelos de AI.

Imagem: Devianart

Assim como tentar copiar ou clonar algo indefinidamente, essas práticas, de acordo com os pesquisadores, podem levar a mais casos de colapso de modelo de AI.

Diante das sérias implicações nesse sentido, o acesso à distribuição original dos dados é fundamental. Os modelos de AI precisam de dados reais produzidos por humanos para entender e simular com precisão o nosso mundo.

Como evitar o Colapso de Modelo de Inteligência Artificial

Existem duas principais causas para o colapso do modelo, de acordo com o artigo de pesquisa.

A primeira é o “erro de aproximação estatística”, que está relacionado ao número finito de amostras de dados. A segunda é o “erro de aproximação funcional”, que decorre da margem de erro utilizada durante o treinamento da AI não estar configurada corretamente.

Publicidade

Esses erros podem se acumular ao longo das gerações, causando um efeito cascata de imprecisões cada vez piores.

O artigo menciona uma “vantagem do pioneirismo” no treinamento de modelos de AI. Se conseguirmos manter o acesso à fonte original de dados gerados por humanos, poderemos evitar uma mudança prejudicial na distribuição e, assim, o colapso do modelo.

No entanto, distinguir conteúdo gerado por inteligência artificial em grande escala é um desafio assustador que pode exigir uma coordenação em toda a comunidade.

Em última análise, a importância da integridade dos dados e a influência das informações humanas na AI são tão boas quanto os dados a partir dos quais ela é construída, e a explosão de conteúdo gerado por ela pode se tornar uma faca de dois gumes para a indústria.

É “lixo entra, lixo sai”  — a AI baseada em conteúdo de AI levará a máquinas muito inteligentes, mas “ilusórias”.

O que podemos esperar de uma possível reviravolta? Nossa geração de máquinas, aprendendo mais umas com as outras do que conosco, torna-se “ilusória”. Em seguida, teremos que lidar com um ChatGPT adolescente e ilusório.

Publicidade

*Traduzido com autorização do Decrypt.