Scale AI evaluó el desempeño de los LLM

Scale AI evaluó el desempeño de los LLM

Noticias IBL | Nueva York

El proveedor de datos de formación Scale AI Inc., que presta servicios a OpenAI y Nvidia, publicó su tabla de clasificación LLM que clasifica el rendimiento de los modelos de IA y califica sus capacidades en casos de uso comunes. , como codificación de IA generativa, seguimiento de instrucciones, matemáticas y multilingüismo.

La empresa de formación en IA no divulgó la naturaleza de las indicaciones que utilizó para evaluar los LLM.

Los modelos GPT de OpenAI ocupan el primer lugar en tres de los cuatro dominios iniciales, y Claude 3 Opus de Anthropic ocupa el primer lugar en la cuarta categoría. Los modelos Gemini de Google LLC ocupan el primer lugar junto con los modelos GPT en algunos dominios.

Muchos LLM de alto perfil han quedado fuera de las evaluaciones. Por ejemplo, Jurassic y Jamba de AI21 Labs Inc., Aya y Command LLM de Cohere Inc. y Grok de xAI están notablemente ausentes de estas evaluaciones.