A OpenAI desafia os limites da criação de imagens e vídeos por IA. Agora, a geração de mídia acontece num piscar de olhos, tornando o tempo de espera quase invisível.
Graças a um novo modelo, a IA produz imagens e vídeos 50 vezes mais rápido, sem comprometer a qualidade. O segredo? Um sistema em duas etapas.
Os modelos de difusão tradicionais, amplamente utilizados para gerar imagens e vídeos, operam com centenas de etapas de remoção progressiva de ruído. Este processo, embora eficaz, exige tempo e recursos computacionais elevados.
Para resolver essa questão, Cheng Lu e Yang Song, da OpenAI, desenvolveram um "modelo de coerência em tempo contínuo" (sCM) que simplifica o processo de criação. Em apenas duas etapas, esse modelo pode gerar amostras de alta qualidade, superando o desempenho dos métodos de difusão clássicos.
Com mais de 1,5 bilhões de parâmetros, o sCM da OpenAI opera em um tempo recorde: 0,11 segundo para produzir uma imagem em um processador A100 (a título de exemplo). Em comparação, os modelos anteriores exigem vários segundos e muito mais poder computacional.
Essa velocidade pode transformar o uso da IA em áreas que exigem geração em tempo real. Os setores de imagem, vídeo e áudio estão, portanto, a caminho de se beneficiar desse avanço.
Testado em conjuntos de dados densos, o sCM mantém uma qualidade de imagem que rivaliza com os modelos de difusão. Sua pontuação FID (Fréchet Inception Distance, métrica usada para avaliar a qualidade das imagens geradas por um modelo) é apenas 10% inferior à dos melhores modelos, o que atesta sua eficiência.
Ao limitar os recursos computacionais necessários, o sCM também se torna uma solução mais ecológica e econômica em comparação aos modelos atuais, embora, ao mesmo tempo, isso possa contribuir para sua democratização e, portanto, para o aumento do consumo energético... A OpenAI espera otimizar ainda mais sua velocidade para aplicações industriais exigentes.
No futuro, o sCM pode fornecer uma base tecnológica para IAs generativas ultrarrápidas. Este avanço aponta para um futuro em que a IA poderá produzir mídia com qualidade e fluidez sem precedentes, e sem dúvida vídeos em tempo real.
Autor do artigo: Cédric DEPOND
Fonte: arXiv