Los creadores de TikTok han desarrollado una sorprendente IA para generar vídeos en pocos segundos: así funciona
Escrito por Boris Bueno Camacho el 12 de enero de 2024
Durante una buena parte de 2022 y todo 2023, la inteligencia artificial ha cobrado un gran protagonismo en la industria tecnológica. Herramientas tan disruptivas como ChatGPT, Copilot, Bard y otros chatbots basados en modelos de lenguaje han copado un buen número de titulares. Tampoco olvidemos aquellas herramientas de generación de imágenes mediante IA como DALL-E, Stable Diffusion, Midjourney y otras tantas que nos han dejado con resultados realmente sorprendentes.
Entre todo ello, desde hace un tiempo también hemos comenzado a ver herramientas basadas en IA que son capaces de generar fragmentos de vídeo en unos pocos segundos. Esto hasta hace nada era impensable, pero ya hay firmas que están sumidas en este tipo de proyectos. Una de ellas es ByteDance, creadores de la conocida app TikTok.
Una IA que genera impresionantes vídeos a partir de texto
A través de su página web y un informe detallado del funcionamiento de su herramienta han presentado ‘MagicVideo-V2’, una herramienta de generación de vídeo a través de inteligencia artificial. La idea es que podamos describir en texto lo que queramos que aparezca en el vídeo y la herramienta podrá representarlo en un fragmento de unos pocos segundos.
En la web vemos multitud de ejemplos de alta calidad donde vemos cómo a través de una breve descripción es capaz de generar impresionantes clips de todo tipo. Junto a ello, también vemos comparaciones entre la tecnología de ByteDance y otras existentes en la red como ‘SVD-XT’, creado por los desarrolladores de Stable Diffusion, o Pika 1.0 Gen-2 de Pika Labs.
MagicVideo-V2 es un modelo que consta de cuatro módulos de funcionamiento: texto a imagen (T2I); imagen a video (I2V); vídeo a vídeo (V2V) y un modelo de interpolación de fotogramas. Tal y como aseguran sus creadores, el módulo T2I genera una imagen de 1.024 x 1.024 píxeles en función del prompt introducido. El módulo I2V anima la imagen, generando 32 fotogramas de 600 x 600 píxeles. En tercer lugar, el módulo V2V aumenta la resolución hasta los 1.048 x 1.048 píxeles y, finalmente, el módulo de interpolación agrega más suavidad en el movimiento de la imagen aumentando la tasa a 94 fotogramas.
Si bien no es una tecnología perfecta, sorprende el hecho de que en tan solo unos pocos meses hayamos visto este tipo de ejemplos, dándonos pistas de lo mucho que puede sorprendernos esta tecnología en un futuro.
(Fuente: genbeta.com)