Scale AI evaluó el desempeño de los LLM

26/06/2024

Noticias IBL | Nueva York

El proveedor de datos de formación Scale AI Inc., que presta servicios a OpenAI y Nvidia, publicó su tabla de clasificación LLM que clasifica el rendimiento de los modelos de IA y califica sus capacidades en casos de uso comunes. , como codificación de IA generativa, seguimiento de instrucciones, matemáticas y multilingüismo.

La empresa de formación en IA no divulgó la naturaleza de las indicaciones que utilizó para evaluar los LLM.

Los modelos GPT de OpenAI ocupan el primer lugar en tres de los cuatro dominios iniciales, y Claude 3 Opus de Anthropic ocupa el primer lugar en la cuarta categoría. Los modelos Gemini de Google LLC ocupan el primer lugar junto con los modelos GPT en algunos dominios.

Muchos LLM de alto perfil han quedado fuera de las evaluaciones. Por ejemplo, Jurassic y Jamba de AI21 Labs Inc., Aya y Command LLM de Cohere Inc. y Grok de xAI están notablemente ausentes de estas evaluaciones.

OpenAI lanza su suscripción de bajo costo ‘ChatGPT Go’ disponible a…

Una empresa que proporciona cálculo en un entorno aislado para operar…

‘OpenClaw’ se convierte en un marco popular para construir asistentes de…

Anthropic ha lanzado su modelo más inteligente, ‘Claude Opus 4.6’

Google actualiza el navegador Chrome con las capacidades del agente de…

EdX amplía su catálogo gratuito de 100 cursos seleccionados para universidades…

Los MOOC se disparan debido a la pandemia: más de 180…

Un curso de MITx sobre edX explora soluciones para la pobreza…

Develop.com agrega una herramienta basada en inteligencia artificial que recomienda cursos…

Las principales noticias del año sobre edX, Coursera y plataformas de…

Anthropic lanza una biblioteca de mensajes optimizados

OpenAI crea una herramienta de inteligencia artificial para clonación de voz,…

La figura AI del robot humanoide StartUp atrajo el apoyo de…

OpenAI muestra ‘Sora’, un modelo de IA que genera vídeos fotorrealistas

NVIDIA lanza una aplicación de demostración que permite a los usuarios…

Scale AI evaluó el desempeño de los LLM

Vídeos Actualidad

EEUU: Entra en vigor el cierre parcial del gobierno

Marco Rubio advierte a líderes europeos sobre los peligros del declive occidental

Delcy Rodríguez dice que Maduro es “inocente” y “legítimo” líder de Venezuela

Marco Rubio se reúne con líderes mundiales en la Conferencia de Seguridad de Múnich

Trump revoca un fallo científico que establece que los gases de efecto invernadero ponen en peligro la salud pública

AI y EdTech

Fashion’s embrace of AI sparks backlash among models, customers

Viral essay urges people to prepare for rapid advancements in AI

Agentic AI in financial services: What does this look like in reality?

When AI-altered images may be illegal, and what victims can do next

San Diego Police warn families about AI, sextortion targeting children