Databricks lanza Dolly, un clon LLM de código abierto del modelo Alpaca de Stanford

Databricks lanza Dolly, un clon LLM de código abierto del modelo Alpaca de Stanford

Noticias IBL | Nueva York

La firma de análisis de big data Databricks abrió la semana pasada un nuevo modelo de IA llamado Dolly, junto con todo su código de capacitación e instrucciones sobre como recrearlo.

“Dolly es un LLM (modelo de lenguaje grande) econ√≥mico de construir que exhibe un grado sorprendente de las capacidades de seguimiento de instrucciones exhibidas por ChatGPT”, anunci√≥ la compa√Ī√≠a¬†en una publicaci√≥n de blog.

El modelo subyacente de Dolly tiene solo 6¬†000 millones de par√°metros, en comparaci√≥n con los 175¬†000 millones de GPT-3. Solo tiene dos a√Īos, ‚Äúlo que hace que sea particularmente sorprendente que funcione tan bien‚ÄĚ.

En febrero de 2023, Meta lanzó las ponderaciones de un conjunto de modelos de lenguaje de alta calidad llamado LLaMA para investigadores académicos.

En marzo de 2023, la Universidad de Stanford construy√≥ el modelo Alpaca¬† , que se bas√≥ en LLaMA, pero ajustado en un peque√Īo conjunto de datos de 50,000 preguntas y respuestas similares a las de los humanos.

Databricks evaluó a Dolly en las capacidades de seguimiento de instrucciones descritas en el documento InstructGPT en el que se encuentra ChatGPT. basado.

Dolly, que lleva el nombre de Dolly the sheep, el primer mamífero clonado, es un clon de código abierto de una alpaca, inspirado en un LLaMA.

En lugar de crear su propio modelo desde cero o usar LLaMA, Databricks tom√≥ un LLM mucho m√°s antiguo y de c√≥digo abierto llamado GPT-J, que fue creado por EleutherAI varios a√Īos antes.

GTP-J fue la base sobre la que se construyó Dolly.

Databricks pudo tomar el modelo EleutherAI y hacerlo “altamente accesible” simplemente entren√°ndolo con un peque√Īo conjunto de datos de 50¬†000 palabras en menos de tres horas usando una sola m√°quina.

‚ÄúEsto demuestra que la magia del seguimiento de instrucciones no radica en entrenar modelos en conjuntos de datos gigantes que usan hardware masivo‚ÄĚ, explic√≥ Databricks.

‚ÄúM√°s bien, la magia radica en mostrar a estos poderosos modelos de c√≥digo abierto ejemplos espec√≠ficos de c√≥mo hablar con humanos, algo que cualquiera puede hacer por cien d√≥lares utilizando este peque√Īo conjunto de datos de 50¬†000 ejemplos de preguntas y respuestas‚ÄĚ.

 

‚ÄúExhibe muchas de las mismas capacidades cualitativas, incluida la generaci√≥n de texto, lluvia de ideas y preguntas y respuestas abiertas‚ÄĚ.

“Creemos que modelos como Dolly ayudar√°n a democratizar los LLM, transform√°ndolos de algo que muy pocas empresas pueden pagar en un producto b√°sico que todas las empresas pueden poseer y personalizar para mejorar sus productos”, dijo Databricks.