Google lanz贸 ‘Lumiere’, que utiliza una arquitectura 煤nica para generar videos con IA

Google lanz贸 ‘Lumiere’, que utiliza una arquitectura 煤nica para generar videos con IA

Noticias IBL | Nueva York

Google present贸 esta semana Lumiere, un modelo de inteligencia artificial de generaci贸n de texto a video dise帽ado para representar clips realistas. Es uno de los generadores de texto a v铆deo m谩s avanzados demostrados hasta ahora, aunque todav铆a se encuentra en un estado primitivo.

Los modelos de v铆deo de IA existentes sintetizan fotogramas clave seguidos de una superresoluci贸n temporal. Pero Google utiliza una arquitectura U-Net espacio-temporal que genera toda la duraci贸n temporal del v铆deo a la vez, a trav茅s de un solo paso en el modelo.

“Demostramos resultados de generaci贸n de texto a video de 煤ltima generaci贸n y demostramos que nuestro dise帽o facilita f谩cilmente una amplia gama de tareas de creaci贸n de contenido y aplicaciones de edici贸n de video, incluida la conversi贸n de imagen a video, pintura de video, y estilizada”, afirm贸 la empresa.

Lumiere hace un buen trabajo creando v铆deos de animales lindos en escenarios rid铆culos, como usar patines, conducir un autom贸vil o tocar el piano. Vale la pena se帽alar que las empresas de inteligencia artificial a menudo hacen demostraciones de generadores de video con animales lindos porque actualmente es dif铆cil generar humanos coherentes y no deformados.

En cuanto a los datos de entrenamiento, Google no dice de d贸nde obtuvo los videos que introdujo en Lumiere y escribe: “Entrenamos nuestro modelo T2V [texto a video] en un conjunto de datos que contiene 30 millones de videos junto con su t铆tulo de texto. [sic ] Los v铆deos tienen una duraci贸n de 80 fotogramas a 16 fps (5 segundos). El modelo base est谩 entrenado a 128脳128.”

Otros generadores de v铆deo son Make-A-Video de Meta, Gen2 de Runway y聽Stable Video Diffusion, que pueden generar clips cortos a partir de im谩genes fijas.
.