¿Puede el internet tal como lo conocemos sobrevivir a la era de la IA?
Cloudflare cree que sí, al menos en lo que respecta a la protección de los creadores de contenido. El gigante tecnológico, que ayuda a gestionar y proteger el tráfico del 20% de la web, anunció esta semana que será el primer proveedor de infraestructura de internet en bloquear los rastreadores de IA que rastrean sitios web sin compensación ni permiso.
La medida, que fue bien recibida por gigantes de los medios como The Atlantic , Fortune , TIME y The Associated Press , así como empresas de tecnología como Pinterest y Reddit, es el primer paso hacia la construcción de un mercado de «pago por rastreo», escribió el cofundador y director ejecutivo de Cloudflare, Matthew Prince.
“Cloudflare, junto con la mayoría de los principales editores y empresas de IA del mundo, está cambiando la configuración predeterminada para bloquear los rastreadores de IA a menos que paguen a los creadores por su contenido”, escribió. “Ese contenido es el combustible que impulsa los motores de IA, por lo que es justo que los creadores de contenido reciban una compensación directa por él”.
Pero esto es solo el principio. A continuación, trabajaremos en un mercado donde los creadores de contenido y las empresas de IA, grandes y pequeñas, puedan unirse. El tráfico siempre ha sido un indicador deficiente del valor. Creemos que podemos hacerlo mejor.
El auge de los bots
Con el auge de la IA generativa y la búsqueda por IA impulsada por Anthropic, OpenAI, Meta y Perplexity, la web está viendo un nuevo tipo de visitante: los bots scrapers. Este cambio afecta no solo a los editores de noticias, que dependen del tráfico de referencia para monetizar su periodismo, sino también a los creadores de contenido y a las grandes plataformas tecnológicas. En un caso, Reddit presentó recientemente una demanda contra Anthropic y afirma que sus bots están scrapeando su contenido, algo que Anthropic niega .
“Las empresas tecnológicas también se ven afectadas por los rastreadores de IA”, declaró Will Allen, director de Control de IA, Privacidad y Productos Multimedia de Cloudflare, en una entrevista con IBM Think . “Pinterest, Quora y Reddit son algunos de los sitios tecnológicos de contenido generado por el usuario más populares que se han unido a nuestro enfoque basado en permisos para los rastreadores de IA, junto con empresas del sector como ProRata AI e Hyperscience”.
Los bots se utilizan para entrenamiento, pero también para la generación aumentada de recuperación (RAG), que conecta los modelos de IA generativa con bases de conocimiento externas, como contenido público en internet. Según un informe publicado el mes pasado por la empresa tecnológica TollBit, el tráfico de bots RAG observado en los sitios web de sus socios creció un 49 %, casi 2,5 veces más que el tráfico de bots de entrenamiento, que fue del 18 %. De los 12 bots principales que rastrean sitios web, TollBit descubrió que, en el primer trimestre de 2025, ChatGPT, Meta y Perplexity fueron los más activos, representando aproximadamente el 70 % del promedio mensual de rastreos de bots de IA.
Este nuevo tráfico afecta a los servidores y genera costos crecientes en la infraestructura de los editores. En abril, Wikimedia, la organización sin fines de lucro detrás de Wikipedia, señaló que el 65 % de su tráfico más costoso provenía de bots . «Nuestro contenido es gratuito, nuestra infraestructura no», declaró la organización en una entrada de blog.
Los bots, ávidos de datos, también han afectado las tasas de clics en la página de resultados de búsqueda (SERP), que han sufrido un fuerte descenso en los últimos meses. Un ejemplo de ello son las AI Overviews de Google: un estudio reciente de la empresa de marketing Ahrefs muestra que AI Overview, un producto lanzado por el gigante de las búsquedas para todos los usuarios en mayo pasado, redujo los clics en un 34,5 %. Si bien AI Overviews sigue creciendo (un 116 % desde marzo pasado), los sitios web que aparecen en las SERP se ven afectados.
“Eso significa que si ganas dinero con suscripciones, publicidad o cualquier otra cosa que hacen los creadores de contenido hoy en día, los visitantes no verán esos anuncios”, dijo Prince de Cloudflare durante una entrevista reciente en CNBC . “Ya no comprarán esas suscripciones. Y eso significa que será mucho más difícil para ti ser creador de contenido”.
Las últimas noticias tecnológicas, respaldadas por conocimientos de expertos.
Manténgase al día con las tendencias más importantes e interesantes del sector en IA, automatización, datos y más con el boletín Think.
Buen bot, mal bot
Pero no todos los bots son iguales: con el aumento de los bots de rastreo de IA también viene un aumento de bots bien intencionados (y también de bots desconocidos).
Lucky Gunasekara, cofundador y director ejecutivo de Miso Technologies , lidera el Proyecto Sentinel, que monitorea más de 8300 sitios web de importantes editoriales de noticias y académicas a nivel mundial, como Newsweek , The Guardian , USA Today y la BBC . Según cifras recopiladas para el proyecto, más de 1700 bots están en el radar de 7000 editoriales, según compartió Gunasekara con IBM Think . Esta cifra aumentó un 35 % desde febrero, mientras que la mayoría de las editoriales solo detectan 17 bots.
“Hablamos con muchos editores, y la incógnita es cómo sabemos que esto funciona cuando se trata de pequeños actores maliciosos”, dijo en una entrevista. Entre los bots más grandes que monitoreó, encontró varios que no se pueden vincular a una importante empresa de inteligencia artificial. “¿Qué hacemos cuando un actor malicioso compró 100,000 direcciones IP que son solo un montón de bots?”, preguntó.
Allen también distingue a los «operadores bienintencionados de rastreadores, bots y agentes» que buscan una forma clara de identificar sus bots ante los propietarios de sitios web y los actores maliciosos. «Nuestras propuestas y el apoyo a WebAuthn [autenticación web] siguen recibiendo mucho apoyo y colaboración en todo el ecosistema tecnológico», afirmó.
Cuando los actores maliciosos intentan rastrear sitios web a gran escala, generalmente utilizan herramientas y marcos que podemos identificar. Usamos la red de Cloudflare, con un promedio de más de 57 millones de solicitudes por segundo, para comprender hasta qué punto debemos confiar en la huella digital —añadió—. Calculamos agregados globales a partir de diversas señales y, con base en estas señales, nuestros modelos pueden identificar de forma consistente y adecuada el tráfico procedente de bots de IA evasivos.
¿Una solución parcial?
Cloudflare no es la primera empresa que intenta «negociar» en nombre de los creadores de contenido. El año pasado, surgieron empresas como ScalePost y TollBit, que propusieron soluciones para que los editores monitoricen, vendan o moneticen datos para empresas de IA.
Pero el envidiable mercado de Cloudflare podría hacer que su decisión tenga mayor impacto.
“Si tuviera que describir un grupo mejor posicionado, sería Cloudflare”, afirmó Gunasekara.
“Es importante que estemos viendo uno de los primeros pasos importantes de los editores al plantar cara a las empresas. Lo complicado es que no sabemos si las empresas de IA lo sortearán”, declaró Lily Ray, experta en SEO y vicepresidenta de Amsive, en una entrevista con IBM Think . Muchos creadores de contenido podrían no comprender el impacto del bloqueo predeterminado; después de todo, no todos quieren desaparecer de las búsquedas con IA. “Es un poco peligroso para los sitios web que no comprenden las implicaciones”, añadió.
Cloudflare afirma que los editores tienen la opción de permitir que los rastreadores accedan a su contenido para entrenamiento, búsqueda o inferencia. Los clientes actuales pueden bloquear los rastreadores de IA en cualquier momento con un solo clic en su panel de control de Cloudflare.
Los clientes pueden permitir que Cloudflare cree y administre un archivo robots.txt, que genera las entradas necesarias para que los rastreadores no accedan a su sitio para el entrenamiento de IA, explicó Allen. Los clientes pueden optar por bloquear los bots de IA solo en las secciones de sus sitios que se monetizan mediante anuncios.
Descifrando la IA: Resumen semanal de noticias
Únase a nuestro panel de clase mundial de ingenieros, investigadores, líderes de productos y más mientras eliminan el ruido de la IA para brindarle lo último en noticias y conocimientos sobre IA.
Diferentes tecnologías, mismos dilemas
La cuestión de regular los intercambios entre empresas de IA y editores podría recibir mucha atención ahora que surgen nuevos laboratorios de IA y fluyen las inversiones. Pero no es nueva, observa Eric Goldman, profesor de Derecho en la Facultad de Derecho de la Universidad de Santa Clara en Silicon Valley, quien estudió el modelo «infomediario» durante la década de los noventa, cuando se creó internet.
“La tecnología puede ser diferente o puede haber evolucionado, pero lo que estamos hablando hoy no es nuevo”, dijo a IBM Think .
Este tema se ha debatido durante décadas, y nadie ha logrado construir con éxito un modelo de infomediario, aunque se invirtieron miles de millones de dólares fáciles en este problema en la década de 1990. Así pues, puede que Cloudflare haya descifrado el modelo; puede que lo hagan funcionar, pero el historial en este campo no es muy bueno.
Goldman publicó el año pasado un artículo sobre el tema, «La IA generativa está condenada» . Según él, las respuestas regulatorias y legales vigentes a la IA generativa limitarán o incluso anularán sus beneficios.
El panorama legal aún debe definirse por los resultados de diversas demandas interpuestas por autores y editoriales contra importantes empresas de IA en Estados Unidos y en todo el mundo. «Hasta ahora, tenemos motivos para creer que la regla general es que entrenar un modelo de IA generativa con obras protegidas por derechos de autor no constituye una infracción, pero todas estas cuestiones se presentarán en apelación», declaró Goldman. «Hasta que no tengamos fallos de apelación, estos son solo datos preliminares».
IBM News. A. N. Traducido al español