Los gigantes tecnológicos como
OpenAI,
Google y
Microsoft hacen uso de bots rastreadores diseñados para recolectar contenidos de la WWW, con los que poder entrenar sus cada vez más complejos modelos de IA generadores de texto e imagen.
A diferencia de los tradicionales bots que indexan contenidos para buscadores (y que normalmente respetan las limitaciones impuestas por los webmasters sobre qué contenidos son analizables y cuáles no), estos rastreadores de IA actúan con una voracidad indiscriminada, extrayendo textos, imágenes, vídeos y código fuente sin pedir permiso.
Llegados a este punto, la lucha entre creadores y recolectores de datos parece haberse convertido en una carrera armamentista
Por un lado, los gigantes tecnológicos siguen perfeccionando sus técnicas de scraping para evadir restricciones. Por otro, empresas como
Cloudflare y legisladores internacionales están trazando nuevas líneas de defensa. Y, los nuevos datos de origen humano son cada vez menos.
Así, mientras las grandes tecnológicas cosechan datos para construir modelos multimillonarios, los periodistas temen que sus artículos entrenen IAs que luego produzcan textos similares, restando valor a su labor, y los artistas visuales denuncian el uso de sus obras en generadores de imágenes sin consentimiento.