IBL News | Nueva York
Harvard University anunció el lanzamiento de un conjunto de datos de alta calidad de un millón de libros de dominio público este mes.
Este conjunto de datos incluye libros escaneados como parte del proyecto Google Books, que ya no están protegidos por derechos de autor. Abarca géneros, décadas e idiomas, con clásicos de Shakespeare, Charles Dickens y Dante.
Fue creado por la recién formada Iniciativa de Datos Institucionales de Harvard con financiamiento tanto de Microsoft como de OpenAI.
Cualquiera puede utilizar este conjunto de datos para entrenar LLM y otras herramientas de inteligencia artificial.
Además de la gran cantidad de libros, la Iniciativa de Datos Institucionales también está trabajando con la Biblioteca Pública de Boston para escanear millones de artículos de diferentes periódicos que ahora están en el dominio público, y dice que está abierta a formar colaboraciones similares.
Otros conjuntos de datos de dominio público nuevos, como Common Corpus, también están disponibles en la plataforma de inteligencia artificial de código abierto Hugging Face.
Contiene aproximadamente 3 a 4 millones de libros y colecciones de publicaciones periódicas.
Fue lanzado este año por la startup de IA francesa Pleis, respaldada por el Ministerio de Cultura francés.
Otro se llama Source.Plus. Contiene imágenes de dominio público de Wikimedia Commons, así como una variedad de museos y archivos.
Varias instituciones culturales significativas han ofrecido durante mucho tiempo acceso a sus archivos al público como proyectos independientes, como el Museo Metropolitano de Arte.
Ed Newton-Rex, ex ejecutivo de Stability AI que ahora dirige una organización sin fines de lucro que certifica herramientas de inteligencia artificial entrenadas éticamente, dice que el surgimiento de estos conjuntos de datos muestra que no es necesario robar materiales con derechos de autor para construir modelos de inteligencia artificial de alto rendimiento y calidad.
OpenAI anteriormente les dijo a los legisladores en el Reino Unido que sería “imposible” crear productos como ChatGPT sin usar obras con derechos de autor.
“Grandes conjuntos de datos de dominio público como estos refutan aún más la ‘defensa de necesidad’ que algunas empresas de IA usan para justificar el uso de obras con derechos de autor para entrenar sus modelos,” Newton-Rex dijo a Wired.