Apple lanz贸 ‘MGIE’, un modelo multimodal de IA de c贸digo abierto para edici贸n de im谩genes

Apple lanz贸 鈥楳GIE鈥, un modelo multimodal de IA de c贸digo abierto para edici贸n de im谩genes

Noticias IBL | Nueva York

Apple lanz贸 la semana pasada MGIE (edici贸n de im谩genes guiada por MLLM), una nueva herramienta de c贸digo abierto. Modelo de IA que edita im谩genes bas谩ndose en instrucciones en lenguaje natural. Aprovecha los modelos de lenguaje grande multimodal (MLLM) para interpretar comandos de usuario y realizar manipulaciones a nivel de p铆xeles.

Los expertos coincidieron en que MGIE representa un gran avance y destacaron que el ritmo del progreso en los sistemas de IA multimodal se est谩 acelerando r谩pidamente.

El modelo puede manejar una amplia gama de escenarios de edici贸n, como ajustes simples de color y brillo, optimizaci贸n de fotograf铆as, manipulaciones de objetos y modificaciones al estilo de Photoshop, como recortar, cambiar el tama帽o, rotar, voltear y agregar filtros.

Por ejemplo, una instrucci贸n puede hacer que el cielo sea m谩s azul y MGIE produce la instrucci贸n para aumentar la saturaci贸n de la regi贸n del cielo en un 20 %.

MGIE, que fue presentado en un art铆culo聽aceptado en la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR) 2024 鈥 es el resultado de una colaboraci贸n entre Apple e investigadores de la Universidad de California, Santa B谩rbara.

MGIE est谩 disponible como un proyecto聽c贸digo abierto en GitHub. El proyecto tambi茅n proporciona un cuaderno de demostraci贸n que muestra c贸mo utilizar MGIE para diversas tareas de edici贸n. Los usuarios tambi茅n pueden probar MGIE en l铆nea a trav茅s de una demostraci贸n web alojada en Hugging Face Spaces.
.