Cerebras lanza siete grandes LLM de código abierto con 13 mil millones de parámetros

10/04/2023

Noticias IBL | Nueva York

El fabricante con sede en Silicon Valley de una computadora de IA dedicada y el chip de computadora más grande del mundo, Cerebras Systems lanzó una serie de siete modelos de lenguaje grande (LLM) GPT, metodología, pesos de entrenamiento y una receta para uso abierto a través de la permisiva licencia Apache 2.0 estándar de la industria. Esta solución, llamada Cerebras-GPT, significa que estos modelos se pueden utilizar para proyectos de investigación o comerciales sin regalías.

La empresa utilizó sistemas basados en GPU que no son de Nvidia para entrenar LLM hasta 13 000 millones de parámetros. Los siete modelos fueron entrenados en los dieciséis sistemas CS-2 en la supercomputadora Cerebras Andromeda AI utilizando la fórmula Chinchilla.

“Estos son los modelos de mayor precisión para un presupuesto informático y están disponibles hoy en día como fuente abierta”, dijo la compañía.

Por primera vez entre las empresas de hardware de IA, los investigadores de Cerebras entrenaron una serie de siete modelos GPT con parámetros 111M, 256M, 590M, 1.3B, 2.7B, 6.7B y 13B.

“Por lo general, una tarea de varios meses, este trabajo se completó en unas pocas semanas gracias a la increíble velocidad de los sistemas Cerebras CS-2 que componen Andromeda, y la capacidad de la arquitectura de flujo de peso de Cerebras para eliminar el dolor de informática distribuida. Estos resultados demuestran que los sistemas de Cerebras pueden entrenar las cargas de trabajo de IA más grandes y complejas de la actualidad”.

“Los pesos de entrenamiento proporcionan un modelo preentrenado de alta precisión para el ajuste fino. Al aplicar una cantidad modesta de datos personalizados, cualquiera puede crear aplicaciones potentes y específicas de la industria con un trabajo mínimo”.

“Los diversos tamaños de los modelos y los puntos de control que los acompañan permiten a los investigadores de IA crear y probar nuevas optimizaciones y flujos de trabajo que benefician ampliamente a la comunidad”.

La capacitación LLM tradicional en GPU requiere una amalgama compleja de técnicas de canalización, modelo y paralelismo de datos. La arquitectura de transmisión de peso de Cerebras es un modelo de solo datos en paralelo que no requiere código ni modificación del modelo para escalar a modelos arbitrariamente grandes.

“Hemos trabajado para facilitar esta tarea con lanzamientos como Pile y Eval Harness, y estamos muy emocionados de ver que Cerebras se basa en nuestro trabajo para producir una familia de modelos abiertos que serán útiles para los investigadores de todo el mundo”. el mundo”, dijo Stella Biderman, directora ejecutiva de EleutherAI.

Los siete modelos Cerebras-GPT están disponibles en Hugging Face y Cerebras Model Zoo en GitHub. La supercomputadora Andromeda AI utilizada para entrenar estos modelos está disponible bajo demanda en esta URL.

Cerebras publicó una entrada de blog técnica con los detalles de los siete modelos y las leyes de escala que producen. Próximamente se publicará un trabajo de investigación.

La empresa publicó no solo el código fuente de los programas, en formato Python y TensorFlow, sino también los detalles del régimen de capacitación mediante el cual los programas se llevaron a un estado desarrollado de funcionalidad.

Actualmente, un puñado de empresas tiene las llaves de los LLM. OpenAI está cerrado, con GTP-4 operando como una caja negra para el público. LLAMA de Meta está cerrada a organizaciones con fines de lucro, y Google está cerrado en diversos grados.
Cerebras, haciéndose eco de la comunidad de investigadores, dice que la IA debe ser abierta y reproducible para que beneficie ampliamente a la humanidad.

🎉 ¡Excelentes noticias! Hoy lanzamos Cerebras-GPT, una familia de 7 modelos GPT de parámetros 111M a 13B entrenados con la fórmula Chinchilla. ¡Estos son los modelos de mayor precisión para un presupuesto informático y están disponibles hoy en día como código abierto! (1/5)

Prensa: https://t.co/Ltw02PjDQF

— Cerebras (@CerebrasSystems) March 28, 2023

• ZDNet: El pionero de la IA, Cerebras, abre la IA generativa donde OpenAI se oscurece

¡Ahora puedes clonar ChatGPT!

OpenAI no abrió el código de sus modelos, por lo que no sabemos mucho detrás de escena.

Pero acaba de lanzarse el primer canal de modelo completo de extremo a extremo, y es el proyecto de código abierto más práctico que se parece a ChatGPT.

Aquí están los detalles:

— Santiago (@svpino) March 29, 2023

La Universidad Biola recibirá un regalo de $40 millones para avanzar…

Anthropic’s Claude ahora puede crear archivos PDF, hojas de cálculo de…

Google prueba una herramienta de IA que convierte PDFs en libros…

OpenAI ha lanzado aplicaciones que funcionan dentro de ChatGPT y un…

OpenAI presenta un Programa de Mentoría para Emprendedores en una Etapa…

EdX amplía su catálogo gratuito de 100 cursos seleccionados para universidades…

Los MOOC se disparan debido a la pandemia: más de 180…

Un curso de MITx sobre edX explora soluciones para la pobreza…

Develop.com agrega una herramienta basada en inteligencia artificial que recomienda cursos…

Las principales noticias del año sobre edX, Coursera y plataformas de…

Anthropic lanza una biblioteca de mensajes optimizados

OpenAI crea una herramienta de inteligencia artificial para clonación de voz,…

La figura AI del robot humanoide StartUp atrajo el apoyo de…

OpenAI muestra ‘Sora’, un modelo de IA que genera vídeos fotorrealistas

NVIDIA lanza una aplicación de demostración que permite a los usuarios…

Cerebras lanza siete grandes LLM de código abierto con 13 mil millones de parámetros

Vídeos Actualidad

Autoridades temen que no haya sobrevivientes en la explosión de una planta en Tennessee

Tropas estadounidenses llegan a Israel para supervisar el alto el fuego en Gaza

EEUU lanza un rescate financiero de 20.000 millones de dólares para Argentina

Trump sobre el cierre del gobierno: “Solo estamos recortando los programas demócratas”

La fiscal general de Nueva York, Letitia James, es acusada de fraude hipotecario

AI y EdTech

Long Island college student sues university after AI essay allegations

AI-generated video is sweeping the internet

Helicopters equipped with AI are being made to fight wildfires

There are lot of demand drivers in the AI market right now

Tips on how to navigate AI pitfalls when applying for jobs