OpenAI está ampliando los límites de la creación de imágenes y videos mediante IA. Ahora, la generación de medios se realiza en un abrir y cerrar de ojos, haciendo que el tiempo de espera sea casi invisible.
Gracias a un nuevo modelo, la IA produce imágenes y videos 50 veces más rápido, sin comprometer la calidad. ¿La clave? Un sistema de dos etapas.
Los modelos de difusión tradicionales, ampliamente utilizados para generar imágenes y videos, funcionan con cientos de etapas de desruido progresivo. Este proceso, aunque eficaz, requiere tiempo y altos recursos computacionales.
Para solucionarlo, Cheng Lu y Yang Song de OpenAI han desarrollado un "modelo de coherencia en tiempo continuo" (sCM) que simplifica el proceso de creación. Con solo dos etapas, este modelo puede generar muestras de alta calidad, superando el rendimiento de los métodos de difusión clásicos.
Con más de 1,5 mil millones de parámetros, el sCM de OpenAI opera en un tiempo récord: 0,11 segundos para producir una imagen en un procesador A100 (como ejemplo). En comparación, los modelos anteriores requieren varios segundos y una cantidad significativamente mayor de potencia.
Esta rapidez podría transformar el uso de la IA en sectores que requieren generación en tiempo real. Los sectores de la imagen, el video y el audio estarían así a punto de beneficiarse de este avance.
Probado en conjuntos de datos densos, el sCM mantiene una calidad de imagen que rivaliza con los modelos de difusión. Su puntuación FID (Fréchet Inception Distance, una medida utilizada para evaluar la calidad de imágenes creadas por un modelo generativo) es solo un 10 % inferior a la de los mejores modelos, lo que demuestra su eficacia.
Al limitar los recursos computacionales necesarios, el sCM también se convierte en una solución más ecológica y económica que los modelos actuales, aunque, como contrapartida, esto podría contribuir a su democratización y, por lo tanto, aumentar el consumo energético global... OpenAI espera optimizar aún más su velocidad para aplicaciones industriales exigentes.
A largo plazo, el sCM podría ofrecer una base tecnológica para IA generativas ultrarrápidas. Este salto hacia adelante permite entrever un futuro en el que la IA generará medios con una calidad y fluidez sin precedentes, y sin duda también videos en tiempo real.
Autor del artículo: Cédric DEPOND
Fuente: arXiv