Cédric - Quarta-feira 13 Novembro 2024

Esta nova IA da OpenAI gera imagens e vídeos 50 vezes mais rápido 🎥

A OpenAI desafia os limites da criação de imagens e vídeos por IA. Agora, a geração de mídia acontece num piscar de olhos, tornando o tempo de espera quase invisível.

Graças a um novo modelo, a IA produz imagens e vídeos 50 vezes mais rápido, sem comprometer a qualidade. O segredo? Um sistema em duas etapas.


Os modelos de difusão tradicionais, amplamente utilizados para gerar imagens e vídeos, operam com centenas de etapas de remoção progressiva de ruído. Este processo, embora eficaz, exige tempo e recursos computacionais elevados.

Para resolver essa questão, Cheng Lu e Yang Song, da OpenAI, desenvolveram um "modelo de coerência em tempo contínuo" (sCM) que simplifica o processo de criação. Em apenas duas etapas, esse modelo pode gerar amostras de alta qualidade, superando o desempenho dos métodos de difusão clássicos.


Com mais de 1,5 bilhões de parâmetros, o sCM da OpenAI opera em um tempo recorde: 0,11 segundo para produzir uma imagem em um processador A100 (a título de exemplo). Em comparação, os modelos anteriores exigem vários segundos e muito mais poder computacional.

Essa velocidade pode transformar o uso da IA em áreas que exigem geração em tempo real. Os setores de imagem, vídeo e áudio estão, portanto, a caminho de se beneficiar desse avanço.

Testado em conjuntos de dados densos, o sCM mantém uma qualidade de imagem que rivaliza com os modelos de difusão. Sua pontuação FID (Fréchet Inception Distance, métrica usada para avaliar a qualidade das imagens geradas por um modelo) é apenas 10% inferior à dos melhores modelos, o que atesta sua eficiência.

Ao limitar os recursos computacionais necessários, o sCM também se torna uma solução mais ecológica e econômica em comparação aos modelos atuais, embora, ao mesmo tempo, isso possa contribuir para sua democratização e, portanto, para o aumento do consumo energético... A OpenAI espera otimizar ainda mais sua velocidade para aplicações industriais exigentes.

No futuro, o sCM pode fornecer uma base tecnológica para IAs generativas ultrarrápidas. Este avanço aponta para um futuro em que a IA poderá produzir mídia com qualidade e fluidez sem precedentes, e sem dúvida vídeos em tempo real.

Autor do artigo: Cédric DEPOND
Fonte: arXiv
Ce site fait l'objet d'une déclaration à la CNIL
sous le numéro de dossier 1037632
Informations légales