Noticias IBL | Nueva York
El fabricante con sede en Silicon Valley de una computadora de IA dedicada y el chip de computadora más grande del mundo, Cerebras Systems lanzó una serie de siete modelos de lenguaje grande (LLM) GPT, metodología, pesos de entrenamiento y una receta para uso abierto a través de la permisiva licencia Apache 2.0 estándar de la industria. Esta solución, llamada Cerebras-GPT, significa que estos modelos se pueden utilizar para proyectos de investigación o comerciales sin regalías.
La empresa utilizó sistemas basados en GPU que no son de Nvidia para entrenar LLM hasta 13 000 millones de parámetros. Los siete modelos fueron entrenados en los dieciséis sistemas CS-2 en la supercomputadora Cerebras Andromeda AI utilizando la fórmula Chinchilla.
“Estos son los modelos de mayor precisión para un presupuesto informático y están disponibles hoy en día como fuente abierta”, dijo la compañía.
Por primera vez entre las empresas de hardware de IA, los investigadores de Cerebras entrenaron una serie de siete modelos GPT con parámetros 111M, 256M, 590M, 1.3B, 2.7B, 6.7B y 13B.
“Por lo general, una tarea de varios meses, este trabajo se completó en unas pocas semanas gracias a la increíble velocidad de los sistemas Cerebras CS-2 que componen Andromeda, y la capacidad de la arquitectura de flujo de peso de Cerebras para eliminar el dolor de informática distribuida. Estos resultados demuestran que los sistemas de Cerebras pueden entrenar las cargas de trabajo de IA más grandes y complejas de la actualidad”.
- “Los pesos de entrenamiento proporcionan un modelo preentrenado de alta precisión para el ajuste fino. Al aplicar una cantidad modesta de datos personalizados, cualquiera puede crear aplicaciones potentes y específicas de la industria con un trabajo mínimo”.
- “Los diversos tamaños de los modelos y los puntos de control que los acompañan permiten a los investigadores de IA crear y probar nuevas optimizaciones y flujos de trabajo que benefician ampliamente a la comunidad”.
La capacitación LLM tradicional en GPU requiere una amalgama compleja de técnicas de canalización, modelo y paralelismo de datos. La arquitectura de transmisión de peso de Cerebras es un modelo de solo datos en paralelo que no requiere código ni modificación del modelo para escalar a modelos arbitrariamente grandes.
“Hemos trabajado para facilitar esta tarea con lanzamientos como Pile y Eval Harness, y estamos muy emocionados de ver que Cerebras se basa en nuestro trabajo para producir una familia de modelos abiertos que serán útiles para los investigadores de todo el mundo”. el mundo”, dijo Stella Biderman, directora ejecutiva de EleutherAI.
Los siete modelos Cerebras-GPT están disponibles en Hugging Face y Cerebras Model Zoo en GitHub. La supercomputadora Andromeda AI utilizada para entrenar estos modelos está disponible bajo demanda en esta URL.
Cerebras publicó una entrada de blog técnica con los detalles de los siete modelos y las leyes de escala que producen. Próximamente se publicará un trabajo de investigación.
La empresa publicó no solo el código fuente de los programas, en formato Python y TensorFlow, sino también los detalles del régimen de capacitación mediante el cual los programas se llevaron a un estado desarrollado de funcionalidad.
Actualmente, un puñado de empresas tiene las llaves de los LLM. OpenAI está cerrado, con GTP-4 operando como una caja negra para el público. LLAMA de Meta está cerrada a organizaciones con fines de lucro, y Google está cerrado en diversos grados.
Cerebras, haciéndose eco de la comunidad de investigadores, dice que la IA debe ser abierta y reproducible para que beneficie ampliamente a la humanidad.
🎉 ¡Excelentes noticias! Hoy lanzamos Cerebras-GPT, una familia de 7 modelos GPT de parámetros 111M a 13B entrenados con la fórmula Chinchilla. ¡Estos son los modelos de mayor precisión para un presupuesto informático y están disponibles hoy en día como código abierto! (1/5)
Prensa: https://t.co/Ltw02PjDQF
— Cerebras (@CerebrasSystems) March 28, 2023
• ZDNet: El pionero de la IA, Cerebras, abre la IA generativa donde OpenAI se oscurece
¡Ahora puedes clonar ChatGPT!
OpenAI no abrió el código de sus modelos, por lo que no sabemos mucho detrás de escena.
Pero acaba de lanzarse el primer canal de modelo completo de extremo a extremo, y es el proyecto de código abierto más práctico que se parece a ChatGPT.
Aquí están los detalles:
— Santiago (@svpino) March 29, 2023
.