Databrick lanza un LLM de código abierto mejorado con licencia para reutilización y uso comercial

Databrick lanza un LLM de código abierto mejorado con licencia para reutilización y uso comercial

Noticias IBL | Nueva York

Databricks lanzó hoy una versión mejorada de su modelo de lenguaje grande (LLM) de código abierto y libre de comercialización con 12 mil millones de parámetros, llamado Dolly 2.0.

Basado en EleutherAI pythia familia de modelos, Dolly 2.0 se ha “afinado exclusivamente en un nuevo conjunto de datos de seguimiento de instrucciones generado por humanos de alta calidad, colaborado entre Databricks 5.000 empleados durante marzo y abril de 2023.”, según la empresa.

“Estamos abriendo todo Dolly 2.0, incluido el código de entrenamiento, el conjunto de datos y las ponderaciones del modelo, todo adecuado para uso comercial. Esto significa que cualquier organización puede crear, poseer y personalizar poderosos LLM que pueden habla con la gente, sin pagar por el acceso a la API ni compartir datos con terceros”.

Según los términos de la licencia (licencia Creative Commons Attribution-ShareAlike 3.0 Unported), cualquier persona puede usar, modificar o ampliar este conjunto de datos para cualquier fin, incluidas las aplicaciones comerciales.

databricks-dolly-15k en GitHub contiene 15 000 pares de mensaje/respuesta de alta calidad generados por humanos y diseñados específicamente para la instrucción que ajusta grandes modelos de lenguaje.

La primera versión de Dolly se entrenó con un conjunto de datos creado por el equipo de Stanford Alpaca creado con la API de OpenAI. Ese conjunto de datos contenía resultados de ChatGPT y eso impedía el uso comercial, ya que competiría con OpenAI.

“Hasta donde sabemos, todos los modelos conocidos de seguimiento de instrucciones existentes (Alpaca KoalaGPT4AllVicuna) sufren esta limitación, que prohíbe el uso comercial. Para sortear este enigma, comenzamos a buscar formas de crear un nuevo conjunto de datos no “contaminado” para uso comercial”.

Databricks dijo que “no espera que Dolly sea lo último en términos de efectividad”.

“Sin embargo, esperamos que Dolly y el conjunto de datos de código abierto actúen como la semilla para una multitud de trabajos posteriores, que pueden servir para impulsar modelos de lenguaje aún más potentes”.

• Descargue los pesos del modelo Dolly 2.0 en la página Databricks Hugging Face
• Dolly repo en databricks-labs con databricks-dolly-15k conjunto de datos.