Meta/Facebook Open-Sources ‘ImageBind’, un modelo de aprendizaje multimodal y holístico sobre IA generativa

10/05/2023

Noticias IBL | Nueva York

Meta/Facebook anunció un nuevo modelo multisensorial de código abierto que vincula seis tipos de datos (texto, audio, datos visuales, imágenes infrarrojas térmicas y lecturas de movimiento), que apuntan a un futuro de IA generativa que crea experiencias inmersivas al cruzar esta información.

Este modelo es un modelo de investigación, un artículo, sin consumidores inmediatos ni aplicaciones prácticas, y habla a favor de Meta/Facebook ya que OpenAI y Google están desarrollando estos modelos en secreto, según expertos.

Por ejemplo, los generadores de imágenes de IA como DALL-E, Stable Diffusion y Midjourney se basan en sistemas que vinculan texto e imágenes durante la etapa de capacitación, ya que siguen las entradas de texto de los usuarios para generar imágenes. Muchas herramientas de IA generan video o audio de la misma manera.

El modelo subyacente de Meta, llamado ImageBind, es el primero en combinar seis tipos de datos en un único espacio de incrustación .

Recientemente, Meta abrió LLaMA, el modelo de lenguaje que inició un movimiento alternativo a OpenAI y Google. Con ImageBind, continúa con esta estrategia al abrir las compuertas para que los investigadores intenten desarrollar nuevos sistemas de IA holísticos.

• “Cuando los humanos absorben información del mundo, usamos múltiples sentidos de manera innata, como ver una calle concurrida y escuchar los sonidos de los motores de los automóviles. Hoy presentamos un enfoque que lleva a las máquinas un paso más cerca de los humanos”. capacidad de aprender de manera simultánea, holística y directa de muchas formas diferentes de información, sin necesidad de una supervisión explícita (el proceso de organización y etiquetado de datos sin procesar), dijo Meta en una publicación de blog.

• “Por ejemplo, mientras que Make-A-Scene puede generar imágenes usando indicaciones de texto, ImageBind podría actualizarlo para generar imágenes usando sonidos de audio, como risas o lluvia”.

• “Imagínese que alguien pudiera tomar una grabación de video de una puesta de sol en el océano y agregar instantáneamente el clip de audio perfecto para mejorarlo, o cuando un modelo como Make-A-Video produce un video de un carnaval, ImageBind puede sugerir un ruido de fondo para acompañarlo. , creando una experiencia inmersiva”.

• “Todavía queda mucho por descubrir sobre el aprendizaje multimodal. Esperamos que la comunidad de investigación explore ImageBind y el artículo publicado que lo acompaña para encontrar nuevas formas de evaluar los modelos de visión y generar aplicaciones novedosas”.

La Universidad de Boston agrega recortes a su presupuesto operativo y…

El xAI de Elon Musk, “Grok 4”, fue lanzado en respuesta…

La editorial educativa McGraw-Hill presenta una solicitud para una Oferta Pública…

Microsoft proporcionará $4 mil millones a escuelas, colegios comunitarios, colegios técnicos…

El Sindicato de Profesores crea una Academia Nacional para la Instrucción…

EdX amplía su catálogo gratuito de 100 cursos seleccionados para universidades…

Los MOOC se disparan debido a la pandemia: más de 180…

Un curso de MITx sobre edX explora soluciones para la pobreza…

Develop.com agrega una herramienta basada en inteligencia artificial que recomienda cursos…

Las principales noticias del año sobre edX, Coursera y plataformas de…

Anthropic lanza una biblioteca de mensajes optimizados

OpenAI crea una herramienta de inteligencia artificial para clonación de voz,…

La figura AI del robot humanoide StartUp atrajo el apoyo de…

OpenAI muestra ‘Sora’, un modelo de IA que genera vídeos fotorrealistas

NVIDIA lanza una aplicación de demostración que permite a los usuarios…

Meta/Facebook Open-Sources ‘ImageBind’, un modelo de aprendizaje multimodal y holístico sobre IA generativa

Vídeos Actualidad

Nvidia anuncia que planea reanudar las ventas del chip de IA clave ‘H20’ a China

EEUU: La inflación aumentó en junio un 0,3% intermensual y un 2,7% interanual

Los planes de Trump sobre armas en Ucrania son “muy serios”, según el Kremlin

Pamplona da por finalizado San Fermín con el ‘Pobre de mí’

Trump amenaza con “severos aranceles” a Rusia si no hay acuerdo para acabar con la guerra en 50 días

AI y EdTech

Stacey Abrams on her new book and the ethical questions of AI

Layoff fears and AI are reportedly causing people more workplace insecurity

Why AI won’t replace your doctor

AI dating features face rejection from younger people

Meta’s new superintelligence lab is discussing major AI strategy changes