StarCoder, un nuevo modelo gratuito de generación de código alternativo a Copilot de GitHub

StarCoder, un nuevo modelo gratuito de generación de código alternativo a Copilot de GitHub

Noticias IBL | Nueva York

Hugging Face y ServiceNow lanzaron StarCoder, un sistema gratuito de generación de código de IA alternativo a Copilot de GitHub (impulsado por Codex de OpenAI), AlphaCode de DeepMind y CodeWhisperer de Amazon.

StarCoder, que tiene licencia para permitir el uso libre de regalías por parte de cualquier persona, incluidas las corporaciones, recibió capacitación en más de 80 lenguajes de programación, así como en texto de los repositorios de GitHub, incluida la documentación y Cuadernos de programación Jupyter.

También se integra con el editor de código Visual Studio Code de Microsoft y, al igual que ChatGPT de OpenAI, puede seguir instrucciones básicas (por ejemplo, “crear una interfaz de usuario de aplicación”) y responder preguntas sobre el código.

ServiceNow suministró un clúster de cómputo interno de 512 GPU Nvidia V100 para entrenar el modelo StarCoder.

Abrazando a Face y codirector de StarCoder, Leandro von Werra afirmó que StarCoder iguala o supera el modelo de IA de OpenAI que se usó para potenciar las versiones iniciales de Copilot.

A diferencia de Copilot, el StarCoder de 15 mil millones de parámetros se entrenó en el transcurso de varios días en un conjunto de datos de código abierto llamado The Stack, que tiene más de 19 millones de repositorios seleccionados con licencia permisiva y más de seis terabytes. de código en más de 350 lenguajes de programación.

Debido a que tiene una licencia permisiva, el código de The Stack se puede copiar, modificar y redistribuir.

StarCoder no es de código abierto en el sentido más estricto. Más bien, se está lanzando bajo un esquema de licencia, OpenRAIL-M, que incluye restricciones de casos de uso “legalmente exigibles”.

Los repositorios de código de StarCoder, el marco de entrenamiento de modelos, los métodos de filtrado de conjuntos de datos, el conjunto de evaluación de código y los cuadernos de análisis de investigación están disponibles en GitHub a partir de esta semana.

“En el lanzamiento, StarCoder no ofrecerá tantas funciones como GitHub Copilot, pero con su naturaleza de código abierto, la comunidad puede ayudar a mejorarlo en el camino, así como a integrar modelos personalizados”,  Dijo Leandro von Werra en TechCrunch.

La organización sin fines de lucro Software Freedom Conservancy, entre otras, criticó a GitHub y OpenAI por usar código fuente público, no todo el cual está bajo una licencia permisiva, para entrenar y monetizar Codex.

Las herramientas de codificación impulsadas por IA pueden reducir sustancialmente los costos de desarrollo al tiempo que permiten a los programadores concentrarse en tareas más creativas. Un estudio de la Universidad de Cambridge encontró que al menos la mitad de los esfuerzos de los desarrolladores se dedican a la depuración y no a la programación activa, lo que le cuesta a la industria del software un estimado de $ 312 mil millones por año.