Meta anunció CM3LEON, un modelo avanzado de IA para texto e imágenes

Meta anunció CM3LEON, un modelo avanzado de IA para texto e imágenes

Noticias IBL | Nueva York

Meta anunció la semana pasada un modelo de IA generativa llamado CM3LEON que, según la empresa, logra un rendimiento de vanguardia para la generación de texto a imagen en alta resolución. La compañía no dijo si, o cuándo, planea lanzar CM3Leon.

CM3LEON también es uno de los primeros generadores de imágenes capaces de generar subtítulos para imágenes, sentando las bases para modelos de comprensión de imágenes más capaces en el futuro, dice Meta.

“Lo que distingue a CM3LEON es su sólida arquitectura multimodal y su capacitación. Al aprovechar conjuntos de datos a gran escala que abarcan diversos datos textuales y visuales, CM3LEON ha adquirido una comprensión profunda de la intrincada relación entre palabras e imágenes. Esta capacitación integral permite a CM3LEON generar y manipular imágenes con una coherencia y fidelidad notables”, agregó la empresa.

Generadores de imágenes como OpenAI DALL-E 2, Google Imagen n, y Stable Diffusion se basan en un proceso llamado difusión para crear arte. En difusión, un modelo aprende a restar gradualmente el ruido de una imagen inicial hecha completamente de ruido, acercándola paso a paso al indicador de destino.

Más allá de la generación y edición de imágenes, CM3LEON tiene la capacidad en tareas de texto de resumen, traducción y análisis de sentimiento para una imagen determinada.

Los expertos pronostican un futuro cercano en el que los sistemas de IA navegarán sin problemas por los reinos de la comprensión, la edición y la generación a través de varios medios, incluidas imágenes, videos y texto.

Generador de imágenes de Meta. Créditos de imagen: Meta

Los resultados de DALL-E 2. Créditos de imagen: DALL-E 2

DALL-E 2