Databrick lanza un LLM de código abierto mejorado con licencia para reutilización y uso comercial

13/04/2023

Noticias IBL | Nueva York

Databricks lanzó hoy una versión mejorada de su modelo de lenguaje grande (LLM) de código abierto y libre de comercialización con 12 mil millones de parámetros, llamado Dolly 2.0.

Basado en EleutherAI pythia familia de modelos, Dolly 2.0 se ha “afinado exclusivamente en un nuevo conjunto de datos de seguimiento de instrucciones generado por humanos de alta calidad, colaborado entre Databricks 5.000 empleados durante marzo y abril de 2023.”, según la empresa.

“Estamos abriendo todo Dolly 2.0, incluido el código de entrenamiento, el conjunto de datos y las ponderaciones del modelo, todo adecuado para uso comercial. Esto significa que cualquier organización puede crear, poseer y personalizar poderosos LLM que pueden habla con la gente, sin pagar por el acceso a la API ni compartir datos con terceros”.

Según los términos de la licencia (licencia Creative Commons Attribution-ShareAlike 3.0 Unported), cualquier persona puede usar, modificar o ampliar este conjunto de datos para cualquier fin, incluidas las aplicaciones comerciales.

databricks-dolly-15k en GitHub contiene 15 000 pares de mensaje/respuesta de alta calidad generados por humanos y diseñados específicamente para la instrucción que ajusta grandes modelos de lenguaje.

La primera versión de Dolly se entrenó con un conjunto de datos creado por el equipo de Stanford Alpaca creado con la API de OpenAI. Ese conjunto de datos contenía resultados de ChatGPT y eso impedía el uso comercial, ya que competiría con OpenAI.

“Hasta donde sabemos, todos los modelos conocidos de seguimiento de instrucciones existentes (Alpaca, Koala, GPT4All, Vicuna) sufren esta limitación, que prohíbe el uso comercial. Para sortear este enigma, comenzamos a buscar formas de crear un nuevo conjunto de datos no “contaminado” para uso comercial”.

Databricks dijo que “no espera que Dolly sea lo último en términos de efectividad”.

“Sin embargo, esperamos que Dolly y el conjunto de datos de código abierto actúen como la semilla para una multitud de trabajos posteriores, que pueden servir para impulsar modelos de lenguaje aún más potentes”.

• Descargue los pesos del modelo Dolly 2.0 en la página Databricks Hugging Face
• Dolly repo en databricks-labs con databricks-dolly-15k conjunto de datos.

Microsoft Research presenta VASA-1, un marco de inteligencia artificial para generar…

La Fundación Linux atrae a Intel y otros líderes de la…

Anthropic lanza una aplicación iOS gratuita para su Claude Chatbot

La policía tomó un edificio en la Universidad de Columbia y…

EdX amplía su catálogo gratuito de 100 cursos seleccionados para universidades…

Los MOOC se disparan debido a la pandemia: más de 180…

Un curso de MITx sobre edX explora soluciones para la pobreza…

Develop.com agrega una herramienta basada en inteligencia artificial que recomienda cursos…

Las principales noticias del año sobre edX, Coursera y plataformas de…

Anthropic lanza una biblioteca de mensajes optimizados

OpenAI crea una herramienta de inteligencia artificial para clonación de voz,…

La figura AI del robot humanoide StartUp atrajo el apoyo de…

OpenAI muestra ‘Sora’, un modelo de IA que genera vídeos fotorrealistas

NVIDIA lanza una aplicación de demostración que permite a los usuarios…

Databrick lanza un LLM de código abierto mejorado con licencia para reutilización y uso comercial

Vídeos Actualidad

Jueza pospone indefinidamente juicio a Trump por manejo de documentos clasificados

TikTok presenta una demanda por libertad de expresión en EEUU

España: Sánchez defiende el diálogo con empresarios y dice que ha contribuido a la paz social

Stormy Daniels describe supuesto encuentro sexual con Trump

Francisco pide nuevamente que Dios conceda la paz al mundo

AI y EdTech

Apple unveils a new artificial intelligence-focused iPad Pro and a larger iPad Air

Eric Schmidt on AI potential: American businesses will change because of this

Google Pixel unveils new AI features

AI might be a little over-hyped now, but under-hyped long term

How AI and an algorithm is taking beauty standards back to the future