Harvard ha publicado un conjunto de datos de un millón de libros que se pueden utilizar para entrenar Modelos de Lenguaje con Grandes Dimensiones (LLMs).

19/12/2024

IBL News | Nueva York

Harvard University anunció el lanzamiento de un conjunto de datos de alta calidad de un millón de libros de dominio público este mes.

Este conjunto de datos incluye libros escaneados como parte del proyecto Google Books, que ya no están protegidos por derechos de autor. Abarca géneros, décadas e idiomas, con clásicos de Shakespeare, Charles Dickens y Dante.

Fue creado por la recién formada Iniciativa de Datos Institucionales de Harvard con financiamiento tanto de Microsoft como de OpenAI.

Cualquiera puede utilizar este conjunto de datos para entrenar LLM y otras herramientas de inteligencia artificial.

Además de la gran cantidad de libros, la Iniciativa de Datos Institucionales también está trabajando con la Biblioteca Pública de Boston para escanear millones de artículos de diferentes periódicos que ahora están en el dominio público, y dice que está abierta a formar colaboraciones similares.

Otros conjuntos de datos de dominio público nuevos, como Common Corpus, también están disponibles en la plataforma de inteligencia artificial de código abierto Hugging Face.

Contiene aproximadamente 3 a 4 millones de libros y colecciones de publicaciones periódicas.

Fue lanzado este año por la startup de IA francesa Pleis, respaldada por el Ministerio de Cultura francés.

Otro se llama Source.Plus. Contiene imágenes de dominio público de Wikimedia Commons, así como una variedad de museos y archivos.

Varias instituciones culturales significativas han ofrecido durante mucho tiempo acceso a sus archivos al público como proyectos independientes, como el Museo Metropolitano de Arte.

Ed Newton-Rex, ex ejecutivo de Stability AI que ahora dirige una organización sin fines de lucro que certifica herramientas de inteligencia artificial entrenadas éticamente, dice que el surgimiento de estos conjuntos de datos muestra que no es necesario robar materiales con derechos de autor para construir modelos de inteligencia artificial de alto rendimiento y calidad.

OpenAI anteriormente les dijo a los legisladores en el Reino Unido que sería “imposible” crear productos como ChatGPT sin usar obras con derechos de autor.

“Grandes conjuntos de datos de dominio público como estos refutan aún más la ‘defensa de necesidad’ que algunas empresas de IA usan para justificar el uso de obras con derechos de autor para entrenar sus modelos,” Newton-Rex dijo a Wired.

OpenAI lanza su suscripción de bajo costo ‘ChatGPT Go’ disponible a…

Una empresa que proporciona cálculo en un entorno aislado para operar…

‘OpenClaw’ se convierte en un marco popular para construir asistentes de…

Anthropic ha lanzado su modelo más inteligente, ‘Claude Opus 4.6’

Google actualiza el navegador Chrome con las capacidades del agente de…

EdX amplía su catálogo gratuito de 100 cursos seleccionados para universidades…

Los MOOC se disparan debido a la pandemia: más de 180…

Un curso de MITx sobre edX explora soluciones para la pobreza…

Develop.com agrega una herramienta basada en inteligencia artificial que recomienda cursos…

Las principales noticias del año sobre edX, Coursera y plataformas de…

Anthropic lanza una biblioteca de mensajes optimizados

OpenAI crea una herramienta de inteligencia artificial para clonación de voz,…

La figura AI del robot humanoide StartUp atrajo el apoyo de…

OpenAI muestra ‘Sora’, un modelo de IA que genera vídeos fotorrealistas

NVIDIA lanza una aplicación de demostración que permite a los usuarios…

Harvard ha publicado un conjunto de datos de un millón de libros que se pueden utilizar para entrenar Modelos de Lenguaje con Grandes Dimensiones (LLMs).

Vídeos Actualidad

EEUU: Entra en vigor el cierre parcial del gobierno

Marco Rubio advierte a líderes europeos sobre los peligros del declive occidental

Delcy Rodríguez dice que Maduro es “inocente” y “legítimo” líder de Venezuela

Marco Rubio se reúne con líderes mundiales en la Conferencia de Seguridad de Múnich

Trump revoca un fallo científico que establece que los gases de efecto invernadero ponen en peligro la salud pública

AI y EdTech

Fashion’s embrace of AI sparks backlash among models, customers

Viral essay urges people to prepare for rapid advancements in AI

Agentic AI in financial services: What does this look like in reality?

When AI-altered images may be illegal, and what victims can do next

San Diego Police warn families about AI, sextortion targeting children