Los sitios web utilizados para entrenar la IA identificados por The Washington Post

Los sitios web utilizados para entrenar la IA identificados por The Washington Post

Noticias IBL | Nueva York

Los chatbots imitan el habla humana porque la IA que los impulsa ha ingerido una gran cantidad de texto, en su mayoría extraído de Internet. Si aprueban el examen de la barra es porque los datos de capacitación incluyen miles de sitios de práctica.

The Washington Post analizó los sitios web utilizados para entrenar la IA , aunque empresas como OpenAI no revelaron qué conjunto de datos utilizó.

El periódico trabajó con investigadores del Instituto Allen para IA y categorizó los sitios web, con datos de la firma de análisis Similarweb. En un mapa de árbol de 11 categorías.

Empezó a buscar dentro del conjunto de datos C4 de Google , que incluye 15 millones de sitios web de periodismo, entretenimiento, desarrollo de software, medicina y creación de contenido, entre otras industrias. LLaMa de Facebook lo usó.

Los tres sitios más grandes fueron patents.google.com (que contiene texto de patentes emitidas en todo el mundo), wikipedia.org y scribd.com (una biblioteca digital solo por suscripción). Además, en la lista: el notorio mercado de libros electrónicos pirateados b-ok.org a, junto con otros 27 sitios identificados por el gobierno de EE. UU. como mercados de piratería y falsificación.

En el área de top business & sitios industriales, estos fueron algunos de los sitios: tonto.com, kickstarter.com, sec.gov, marketwired.com, city-data.com, patreon.com, myemail.constantcontact.com, finance.yahoo. com, prweb.com,enterprise.com, globalresearch.ca.

Sitios de noticias principales: nytimes.com, latimes.com, theguardian.com, forbes.com, huffpost.com, washingtonpost.com, businessinsider.com, chicagotribune.com, theatlantic.com, aljazeera.com , RT.com (el sitio de propaganda respaldado por el estado ruso), breitbart.com y vdare.com (antiinmigración), entre otros.

Sitios religiosos principales: patheos.com, gty.org, jewishworldreview.com, thekingdomcollective.com, biblehub.com, liveprayer.com, lds.org, wacriswell.com, wdtprs.com, bibleforums.org , etc.

Sitios de tecnología superior: instructables.com, ipfs.io, docs.microsoft.com, forums.macrumors.com, medium.com, makeuseof.com, sites.google.com, slideshare.net, s3 .amazonaws.com, pcworld.com, sites.google.com, WordPress, Tumblr, Blogspot, Live Journal, etc.

Los conjuntos de datos utilizados para entrenar la IA no podían acceder a redes sociales como Facebook y Twitter, que prohíben el raspado.

Search Engine Land: Busque los 15,7 millones de sitios web en la base de datos C4 de Google. t