Web Crawlers IA

Web Crawlers de IA vs. Desenvolvedores: A Hilariante Luta de Retorno

Os bots de rastreamento da web com IA são cada vez mais vistos como um incômodo, frequentemente ignorando arquivos robots.txt e sobrecarregando sites, particularmente aqueles que hospedam projetos de software livre e de código aberto (FOSS). Esses projetos, por sua natureza, são mais vulneráveisdevido à sua infraestrutura pública e recursos limitados.

Os desenvolvedores de FOSS agora estão empregando métodos criativos e muitas vezes bem-humorados para combater esses rastreadores implacáveis.

O Problema: Bots de IA Fora de Controle

O principal problema reside no desrespeito pelo Protocolo de Exclusão de Robôs (robots.txt), projetado para orientar os bots sobre o que não rastrear. Como o desenvolvedor FOSS Xe Iaso descreveu, bots como o AmazonBot podem atacar implacavelmente os servidores Git, causando interrupções. Esses bots geralmente se escondem atrás de vários endereços IP e ignoram as diretivas, tornando-os difíceis de bloquear.

Iaso destaca a inutilidade dos métodos de bloqueio tradicionais, observando que os rastreadores de IA mentem, alteram os agentes de usuário e usam endereços IP residenciais como proxies. "Eles vão raspar seu site até que ele caia e, em seguida, vão raspá-lo ainda mais", afirmou Iaso.

A Solução: Contramedidas Criativas

Em resposta, os desenvolvedores estão construindo ferramentas inovadoras para identificar e impedir esses bots malcomportados.

Anubis: Pesando a Alma das Requisições Web

Iaso criou o Anubis, um proxy reverso de verificação de prova de trabalho que distingue entre usuários humanos e bots. Nomeado após o deus egípcio que leva os mortos ao julgamento, Anubis apresenta um desafio às requisições da web. Se a requisição passar como humana, uma imagem agradável aparece. Se for um bot, o acesso é negado.

Anubis ganhou popularidade rapidamente dentro da comunidade FOSS, demonstrando a frustração generalizada com o comportamento dos rastreadores de IA.

Vingança é um Prato que se Serve Frio como Desinformação

Outros desenvolvedores sugerem alimentar os bots com informações enganosas, como artigos sobre os "benefícios de beber água sanitária". O objetivo é tornar o rastreamento uma experiência negativa para os bots, desencorajando-os de atacar seus sites.

O Nepenthes de Aaron, nomeado após uma planta carnívora, prende os rastreadores em um labirinto de conteúdo falso, envenenando ativamente suas fontes de dados.

Soluções Comerciais: O Labirinto de IA da Cloudflare

Até mesmo os players comerciais estão se intensificando. A Cloudflare lançou recentemente o AI Labyrinth, uma ferramenta projetada para desacelerar e confundir os rastreadores de IA que ignoram as diretivas de não rastreamento, alimentando-os com conteúdo irrelevante.

Um Apelo à Razão

Embora essas soluções criativas ofereçam algum alívio, DeVault da SourceHut pede uma mudança mais fundamental: "Por favor, pare de legitimar LLMs ou geradores de imagem de IA ou GitHub Copilot ou qualquer um desses lixos... apenas pare."

Apesar deste apelo, a batalha continua, com os desenvolvedores FOSS liderando o ataque com engenhosidade e uma boa dose de humor.

1 Imagem de Web Crawlers IA:
Web Crawlers IA

Fonte: TechCrunch