Noticias IBL | Nueva York
Los chatbots imitan el habla humana porque la IA que los impulsa ha ingerido una gran cantidad de texto, en su mayoría extraído de Internet. Si aprueban el examen de la barra es porque los datos de capacitación incluyen miles de sitios de práctica.
The Washington Post analizó los sitios web utilizados para entrenar la IA , aunque empresas como OpenAI no revelaron qué conjunto de datos utilizó.
El periódico trabajó con investigadores del Instituto Allen para IA y categorizó los sitios web, con datos de la firma de análisis Similarweb. En un mapa de árbol de 11 categorías.
Empezó a buscar dentro del conjunto de datos C4 de Google , que incluye 15 millones de sitios web de periodismo, entretenimiento, desarrollo de software, medicina y creación de contenido, entre otras industrias. LLaMa de Facebook lo usó.
Los tres sitios más grandes fueron patents.google.com (que contiene texto de patentes emitidas en todo el mundo), wikipedia.org y scribd.com (una biblioteca digital solo por suscripción). Además, en la lista: el notorio mercado de libros electrónicos pirateados b-ok.org a, junto con otros 27 sitios identificados por el gobierno de EE. UU. como mercados de piratería y falsificación.
En el área de top business & sitios industriales, estos fueron algunos de los sitios: tonto.com, kickstarter.com, sec.gov, marketwired.com, city-data.com, patreon.com, myemail.constantcontact.com, finance.yahoo. com, prweb.com,enterprise.com, globalresearch.ca.
Sitios de noticias principales: nytimes.com, latimes.com, theguardian.com, forbes.com, huffpost.com, washingtonpost.com, businessinsider.com, chicagotribune.com, theatlantic.com, aljazeera.com , RT.com (el sitio de propaganda respaldado por el estado ruso), breitbart.com y vdare.com (antiinmigración), entre otros.
Sitios religiosos principales: patheos.com, gty.org, jewishworldreview.com, thekingdomcollective.com, biblehub.com, liveprayer.com, lds.org, wacriswell.com, wdtprs.com, bibleforums.org , etc.
Sitios de tecnología superior: instructables.com, ipfs.io, docs.microsoft.com, forums.macrumors.com, medium.com, makeuseof.com, sites.google.com, slideshare.net, s3 .amazonaws.com, pcworld.com, sites.google.com, WordPress, Tumblr, Blogspot, Live Journal, etc.
Los conjuntos de datos utilizados para entrenar la IA no podían acceder a redes sociales como Facebook y Twitter, que prohíben el raspado.
@kevinschaul y @dataviz_szuyu hizo todo el trabajo duro y creó esta excelente herramienta de búsqueda de sitios. Algunos de nosotros ya encontramos sus viejos blogs personales. Espero que encuentre las clasificaciones tan fascinantes como yo https://t.co/xckLl15ZaS pic.twitter.com/7Q7zmzDC6w
— Nitasha Tiku @nitashatiku@mastodon.social (@nitashatiku) April 19, 2023
• Search Engine Land: Busque los 15,7 millones de sitios web en la base de datos C4 de Google. t