Meta/Facebook Open-Sources ‘ImageBind’, un modelo de aprendizaje multimodal y hol√≠stico sobre IA generativa

Meta/Facebook Open-Sources ‘ImageBind’, un modelo de aprendizaje multimodal y hol√≠stico sobre IA generativa

Noticias IBL | Nueva York

Meta/Facebook anunció un nuevo modelo multisensorial de código abierto que vincula seis tipos de datos (texto, audio, datos visuales, imágenes infrarrojas térmicas y lecturas de movimiento), que apuntan a un futuro de IA generativa que crea experiencias inmersivas al cruzar esta información.

Este modelo es un modelo de investigaci√≥n, un art√≠culo, sin consumidores inmediatos ni aplicaciones pr√°cticas, y habla a favor de Meta/Facebook ya que OpenAI y Google est√°n desarrollando estos modelos en secreto, seg√ļn expertos.

Por ejemplo, los generadores de imágenes de IA como DALL-E, Stable Diffusion y Midjourney se basan en sistemas que vinculan texto e imágenes durante la etapa de capacitación, ya que siguen las entradas de texto de los usuarios para generar imágenes. Muchas herramientas de IA generan video o audio de la misma manera.

El modelo subyacente de Meta, llamado ImageBind, es el primero en combinar seis tipos de datos en un √ļnico espacio de incrustaci√≥n .

Recientemente, Meta abri√≥ LLaMA, el modelo de lenguaje que inici√≥ un movimiento alternativo a OpenAI y Google. Con ImageBind, contin√ļa con esta estrategia al abrir las compuertas para que los investigadores intenten desarrollar nuevos sistemas de IA hol√≠sticos.

‚ÄĘ “Cuando los humanos absorben informaci√≥n del mundo, usamos m√ļltiples sentidos de manera innata, como ver una calle concurrida y escuchar los sonidos de los motores de los autom√≥viles. Hoy presentamos un enfoque que lleva a las m√°quinas un paso m√°s cerca de los humanos”. capacidad de aprender de manera simult√°nea, hol√≠stica y directa de muchas formas diferentes de informaci√≥n, sin necesidad de una supervisi√≥n expl√≠cita (el proceso de organizaci√≥n y etiquetado de datos sin procesar), dijo Meta en una publicaci√≥n de blog.

‚ÄĘ “Por ejemplo, mientras que Make-A-Scene puede generar im√°genes usando indicaciones de texto, ImageBind podr√≠a actualizarlo para generar im√°genes usando sonidos de audio, como risas o lluvia”.

‚ÄĘ “Imag√≠nese que alguien pudiera tomar una grabaci√≥n de video de una puesta de sol en el oc√©ano y agregar instant√°neamente el clip de audio perfecto para mejorarlo, o cuando un modelo como Make-A-Video produce un video de un carnaval, ImageBind puede sugerir un ruido de fondo para acompa√Īarlo. , creando una experiencia inmersiva”.

‚ÄĘ “Todav√≠a queda mucho por descubrir sobre el aprendizaje multimodal. Esperamos que la comunidad de investigaci√≥n explore ImageBind y el art√≠culo publicado que lo acompa√Īa para encontrar nuevas formas de evaluar los modelos de visi√≥n y generar aplicaciones novedosas”.