Noticias IBL | Nueva York
Google presentó esta semana Lumiere, un modelo de inteligencia artificial de generación de texto a video diseñado para representar clips realistas. Es uno de los generadores de texto a vídeo más avanzados demostrados hasta ahora, aunque todavía se encuentra en un estado primitivo.
Los modelos de vídeo de IA existentes sintetizan fotogramas clave seguidos de una superresolución temporal. Pero Google utiliza una arquitectura U-Net espacio-temporal que genera toda la duración temporal del vídeo a la vez, a través de un solo paso en el modelo.
“Demostramos resultados de generación de texto a video de última generación y demostramos que nuestro diseño facilita fácilmente una amplia gama de tareas de creación de contenido y aplicaciones de edición de video, incluida la conversión de imagen a video, pintura de video, y estilizada”, afirmó la empresa.
Lumiere hace un buen trabajo creando vídeos de animales lindos en escenarios ridículos, como usar patines, conducir un automóvil o tocar el piano. Vale la pena señalar que las empresas de inteligencia artificial a menudo hacen demostraciones de generadores de video con animales lindos porque actualmente es difícil generar humanos coherentes y no deformados.
En cuanto a los datos de entrenamiento, Google no dice de dónde obtuvo los videos que introdujo en Lumiere y escribe: “Entrenamos nuestro modelo T2V [texto a video] en un conjunto de datos que contiene 30 millones de videos junto con su título de texto. [sic ] Los vídeos tienen una duración de 80 fotogramas a 16 fps (5 segundos). El modelo base está entrenado a 128×128.”
Otros generadores de vídeo son Make-A-Video de Meta, Gen2 de Runway y Stable Video Diffusion, que pueden generar clips cortos a partir de imágenes fijas.
.