Investigadores de Stanford y la Universidad de Washington entrenaron un modelo similar al o1 de OpenAI y al R1 de DeepSeek

25/02/2025

IBL News | Nueva York

Los investigadores de Stanford y la Universidad de Washington afirmaron en un documento publicado este mes que lograron entrenar un modelo de razonamiento AI llamado s1, que tuvo un rendimiento similar al de o1 de OpenAI y R1 de DeepSeek en matemáticas y codificación.

El modelo s1, junto con los datos y el código, está disponible en GitHub. Según los investigadores, el costo de entrenamiento es de menos de $50 en créditos de computación en la nube.

Este equipo comenzó con un modelo base listo para usar y luego lo mejoró a través de la destilación, un proceso para extraer las capacidades de “razonamiento” de otro modelo de AI mediante el entrenamiento en sus respuestas.

El modelo fue destilado de Gemini 2.0 Flash Thinking Experimental, ofrecido de forma gratuita a través de la plataforma Google AI Studio.

La destilación es el mismo enfoque que los investigadores de Berkeley utilizaron para crear un modelo de razonamiento de AI por alrededor de $450 el mes pasado.

OpenAI ha acusado a DeepSeek de cosechar datos de manera inapropiada de su API para la destilación del modelo.

La destilación es un método adecuado para recrear de manera económica las capacidades de un modelo de AI, pero no crea nuevos modelos de AI.

El documento s1 sugirió que los modelos de razonamiento pueden ser destilados con un conjunto de datos relativamente pequeño utilizando el ajuste fino supervisado (SFT), en el cual se instruye explícitamente a un modelo de AI a imitar ciertos comportamientos en un conjunto de datos.

Más específicamente, s1 se basó en un modelo de AI pequeño y gratuito del laboratorio de AI chino propiedad de Alibaba, Qwen. Para entrenar s1, los investigadores crearon un conjunto de datos de solo 1,000 preguntas cuidadosamente seleccionadas emparejadas con respuestas a esas preguntas y el proceso de “pensamiento” detrás de cada respuesta del Gemini 2.0 Flash Thinking Experimental de Google.

Después de entrenar a s1, lo cual tomó menos de 30 minutos utilizando 16 GPU Nvidia H100, s1 logró un buen rendimiento en benchmarks específicos de AI.

Según el documento, los investigadores utilizaron un truco ingenioso para hacer que s1 verificara su trabajo y extendiera su tiempo de “pensamiento”: le dijeron que esperara. Agregar la palabra “esperar” durante el razonamiento de s1 ayudó al modelo a llegar a respuestas ligeramente más precisas.

Los expertos señalaron que s1 plantea preguntas fundamentales sobre la comercialización de los modelos de AI.

Microsoft se prepara para el lanzamiento de un personaje virtual que…

Las universidades enfrentan una crisis existencial a menos que se reinventen,…

Blackboard LMS añade un nuevo conjunto de capacidades de inteligencia artificial…

El despliegue de GPT-5 de OpenAI enfrentó críticas cuando los modelos…

OpenAI introduce su modelo insignia ‘GPT-5’, convirtiéndolo en el nuevo predeterminado…

EdX amplía su catálogo gratuito de 100 cursos seleccionados para universidades…

Los MOOC se disparan debido a la pandemia: más de 180…

Un curso de MITx sobre edX explora soluciones para la pobreza…

Develop.com agrega una herramienta basada en inteligencia artificial que recomienda cursos…

Las principales noticias del año sobre edX, Coursera y plataformas de…

Anthropic lanza una biblioteca de mensajes optimizados

OpenAI crea una herramienta de inteligencia artificial para clonación de voz,…

La figura AI del robot humanoide StartUp atrajo el apoyo de…

OpenAI muestra ‘Sora’, un modelo de IA que genera vídeos fotorrealistas

NVIDIA lanza una aplicación de demostración que permite a los usuarios…

Investigadores de Stanford y la Universidad de Washington entrenaron un modelo similar al o1 de OpenAI y al R1 de DeepSeek

Vídeos Actualidad

Juez dictamina que ICE debe mejorar condiciones en centro de detención de Nueva York

Trump quiere una segunda reunión rápida con Putin y Zelenski

Israel bombardea la ciudad de Gaza antes de tomar el control

León XIV: “Jesús ama incluso cuando conoce la debilidad de sus amigos”

Perplexity ofrece 34.500 millones de dólares por Google Chrome

AI y EdTech

How AI is being used in our schools

AI and language assessment

AI education for internal auditors

Stephen Fry on AI’s power to unlock human creativity

How artificial intelligence is upending the job market for college graduates