Databricks lanza Dolly, un clon LLM de código abierto del modelo Alpaca de Stanford

Databricks lanza Dolly, un clon LLM de código abierto del modelo Alpaca de Stanford

Noticias IBL | Nueva York

La firma de análisis de big data Databricks abrió la semana pasada un nuevo modelo de IA llamado Dolly, junto con todo su código de capacitación e instrucciones sobre como recrearlo.

“Dolly es un LLM (modelo de lenguaje grande) económico de construir que exhibe un grado sorprendente de las capacidades de seguimiento de instrucciones exhibidas por ChatGPT”, anunció la compañía en una publicación de blog.

El modelo subyacente de Dolly tiene solo 6 000 millones de parámetros, en comparación con los 175 000 millones de GPT-3. Solo tiene dos años, “lo que hace que sea particularmente sorprendente que funcione tan bien”.

En febrero de 2023, Meta lanzó las ponderaciones de un conjunto de modelos de lenguaje de alta calidad llamado LLaMA para investigadores académicos.

En marzo de 2023, la Universidad de Stanford construyó el modelo Alpaca  , que se basó en LLaMA, pero ajustado en un pequeño conjunto de datos de 50,000 preguntas y respuestas similares a las de los humanos.

Databricks evaluó a Dolly en las capacidades de seguimiento de instrucciones descritas en el documento InstructGPT en el que se encuentra ChatGPT. basado.

Dolly, que lleva el nombre de Dolly the sheep, el primer mamífero clonado, es un clon de código abierto de una alpaca, inspirado en un LLaMA.

En lugar de crear su propio modelo desde cero o usar LLaMA, Databricks tomó un LLM mucho más antiguo y de código abierto llamado GPT-J, que fue creado por EleutherAI varios años antes.

GTP-J fue la base sobre la que se construyó Dolly.

Databricks pudo tomar el modelo EleutherAI y hacerlo “altamente accesible” simplemente entrenándolo con un pequeño conjunto de datos de 50 000 palabras en menos de tres horas usando una sola máquina.

“Esto demuestra que la magia del seguimiento de instrucciones no radica en entrenar modelos en conjuntos de datos gigantes que usan hardware masivo”, explicó Databricks.

“Más bien, la magia radica en mostrar a estos poderosos modelos de código abierto ejemplos específicos de cómo hablar con humanos, algo que cualquiera puede hacer por cien dólares utilizando este pequeño conjunto de datos de 50 000 ejemplos de preguntas y respuestas”.

 

“Exhibe muchas de las mismas capacidades cualitativas, incluida la generación de texto, lluvia de ideas y preguntas y respuestas abiertas”.

“Creemos que modelos como Dolly ayudarán a democratizar los LLM, transformándolos de algo que muy pocas empresas pueden pagar en un producto básico que todas las empresas pueden poseer y personalizar para mejorar sus productos”, dijo Databricks.