Investigadores de Apple y Columbia lanzaron un LLM multimodal de código abierto

Investigadores de Apple y Columbia lanzaron un LLM multimodal de código abierto

Noticias IBL | Nueva York

En octubre de 2023, investigadores de Apple y la Universidad de Columbia publicaron el código y los pesos de un LLM multimodal (MLLM) de código abierto, únicamente para uso en investigación. Se llamaba Ferret y no recibió mucha atención en ese entonces.

Además, Apple anunció recientemente que logró un gran avance en la implementación de LLM en iPhone y iPad, incluidas nuevas técnicas para avatares 3D y experiencias visuales más inmersivas.

Ferret incluye la selección de “GRIT, un completo conjunto de datos de ajuste de instrucciones de referencia y terreno que incluye 1,1 millones de muestras que contienen un rico conocimiento espacial jerárquico, con 95.000 datos negativos concretos para promover la solidez del modelo”.

“El modelo resultante no sólo logra un rendimiento superior en las tareas clásicas de referencia y conexión a tierra, sino que también supera en gran medida a los MLLM existentes en el chat multimodal basado en regiones y con demanda de localización”, escribieron los creadores de Ferret.

Curiosamente, las noticias sobre el código abierto de Apple y los desarrollos locales de ML se producen cuando Anthropic y OpenAI están negociando nuevos aumentos masivos de financiación para sus esfuerzos de desarrollo de LLM patentados.