IBL News | Nueva York
Harvard University anunció el lanzamiento de un conjunto de datos de alta calidad de un millón de libros de dominio público este mes. Este conjunto de datos incluye libros escaneados como parte del proyecto Google Books, que ya no están protegidos por derechos de autor. Abarca géneros, décadas e idiomas, con clásicos de Shakespeare, Charles Dickens y Dante. Fue creado por la recién formada Iniciativa de Datos Institucionales de Harvard con financiamiento tanto de Microsoft como de OpenAI. Cualquiera puede utilizar este conjunto de datos para entrenar LLM y otras herramientas de IA. Además del tesoro de libros, la Iniciativa de Datos Institucionales también está trabajando con la Biblioteca Pública de Boston para escanear millones de artículos de diferentes periódicos que ahora están en el dominio público, y dice que está abierta a formar colaboraciones similares. Otros nuevos conjuntos de datos de dominio público, como Common Corpus, también están disponibles en la plataforma de IA de código abierto Hugging Face. Contiene una estimación de 3 a 4 millones de libros y colecciones de publicaciones periódicas. Fue lanzado este año por la startup de IA francesa Pleis, respaldada por el Ministerio de Cultura de Francia. Otro se llama Source.Plus. Contiene imágenes de dominio público de Wikimedia Commons, así como una variedad de museos y archivos. Varias instituciones culturales significativas han puesto durante mucho tiempo sus archivos accesibles al público como proyectos independientes, como el Museo Metropolitano de Arte.
Ed Newton-Rex, un ex ejecutivo de Stability AI que ahora dirige una organización sin fines de lucro que certifica herramientas de IA entrenadas éticamente, dice que el aumento de estos conjuntos de datos muestra que no es necesario robar materiales con derechos de autor para construir modelos de IA de alto rendimiento y calidad.
OpenAI dijo previamente a legisladores en el Reino Unido que sería “imposible” crear productos como ChatGPT sin usar obras protegidas por derechos de autor. “Grandes conjuntos de datos de dominio público como estos demuestran aún más la ‘defensa de la necesidad’ que algunas compañías de IA utilizan para justificar la extracción de trabajos con derechos de autor para entrenar sus modelos,” Newton-Rex dijo a Wired.