Los generadores de imágenes de IA están siendo capacitados sobre materiales de abuso infantil, según muestra un estudio de Stanford

Los generadores de imágenes de IA están siendo capacitados sobre materiales de abuso infantil, según muestra un estudio de Stanford

Noticias IBL | Nueva York

Se descubrió que un conjunto de datos público masivo llamado ‘LAION-5B’ que sirvió como datos de entrenamiento para generadores de imágenes de IA populares como Stable Diffusion contenía miles de instancias de material de abuso sexual infantil (CSAM), declaró un estudio publicado ayer por el Stanford Internet Observatory (SIO), un grupo de vigilancia con sede en la universidad de California.

Esta organización instó a las empresas a tomar medidas para abordar una falla dañina en la tecnología que construyen. Actualmente se estaba eliminando el material fuente identificado.

El informe encontró más de 3.200 imágenes de presunto abuso sexual infantil en la gigantesca base de datos de IA LAION, un índice de imágenes y leyendas en línea que se ha utilizado para capacitar a los principales creadores de imágenes de IA.

El Observatorio de Internet de Stanford (SIO) trabajó con el Centro Canadiense para la Protección Infantil y otras organizaciones benéficas contra el abuso para identificar el material ilegal e informar los enlaces de las fotografías originales a las autoridades.

Estas entidades examinaron el conjunto de datos LAION-5B utilizando una combinación de coincidencia de hash perceptual de PhotoDNA, coincidencia de hash criptográfica, consultas de k vecinos más cercanos y clasificadores de ML.

“Esta metodología detectó cientos de instancias de CSAM conocidas en el conjunto de capacitación, así como muchos candidatos nuevos que posteriormente fueron verificados por partes externas. También brindamos recomendaciones para mitigar este problema para aquellos que necesitan mantener copias de este conjunto de capacitación. construir conjuntos de entrenamiento futuros, alterar modelos existentes y alojar modelos entrenados en LAION-5B.”

LAION-5B no incluye las imágenes en sí y, en cambio, es una colección de metadatos que incluye un hash del identificador de la imagen, una descripción, datos de idioma, si puede ser inseguro y una URL que apunta a la imagen. Varias de las fotos CSAM encontradas vinculadas en LAION-5B estaban alojadas en sitios web como Reddit, Twitter, Blogspot y WordPress, así como en sitios web para adultos como XHamster y XVideos.

La organización alemana sin fines de lucro LAION dijo que “tiene una política de tolerancia cero para el contenido ilegal” y anunció que sus conjuntos de datos públicos se eliminarían temporalmente, para regresar después del filtrado de actualizaciones. en la segunda quincena de enero.
.