A inteligência artificial avança a um ritmo frenético, mas um muro se ergue em seu caminho.
Os grandes modelos de linguagem, que alimentam chatbots e assistentes virtuais, consomem quantidades astronômicas de dados humanos. Ora, essas reservas de conteúdo original se esgotam rapidamente. Sem novos aportes, o aprendizado dessas máquinas pode descarrilar.
Sem novos dados, as IAs começariam a se alimentar de suas próprias produções. Esse ciclo fechado leva a um fenômeno chamado colapso do modelo, em dois estágios distintos. No início, as respostas perdem os detalhes raros e se tornam insípidas, semelhantes a texto genérico. Em seguida, viram puro charabia, tornando a IA inutilizável.
Pesquisadores de várias instituições identificaram uma solução surpreendentemente simples para esse problema. Seu estudo, publicado na
Physical Review Letters, mostra que um único exemplo humano autêntico, inserido em um oceano de dados artificiais, basta para impedir o colapso.
Esse resultado decorre de trabalhos sobre modelos matemáticos chamados famílias exponenciais, que permitem entender por que e como o colapso ocorre.
Para entender esse mecanismo, é preciso saber que, quando se recicla um modelo em suas próprias saídas, as flutuações estatísticas desaparecem gradualmente. Os casos raros e as informações matizadas desaparecem, dando lugar a respostas homogêneas. Um ponto de referência real, devidamente rotulado por um humano, restaura a diversidade perdida.
Os cientistas usaram modelos matemáticos simples para analisar em detalhe esse processo. Munidos dessa compreensão, puderam conceber uma solução teórica. O próximo passo será testar esse método nos gigantescos modelos comerciais para verificar sua eficácia em larga escala. Se o princípio se confirmar, os engenheiros disporão de uma receita simples para evitar um colapso.
Fonte: Physical Review Letters