Anthropic acusada de abuso nos bots para treino do seu modelo de IA

Publicado em 27/07/2024 por Pedro Fernandes

Os modelos de IA que existem no mercado, para realizarem as tarefas, necessitam de ser treinados com informação. Esta informação é muitas vezes recolhida de várias fontes na internet, o que se inclui sites diversos.

Os administradores dos sites possuem formas de tentar bloquear a recolha de dados dos mesmos para treino dos modelos de IA, mas algumas empresas parecem estar focadas em tentar contornar estas medidas para, ainda assim, recolherem a informação.

A Anthropic é a mais recente entidade a ser acusada de tal. Vários websites encontram-se a acusar a empresa de ignorar o “robots.txt” dos mesmos, e de continuar a usar bots para recolher dados dos sites. O robots.txt é um ficheiro que, embora seja opcional, permite aos administradores de um site controlarem melhor quais os bots que podem recolher informação do mesmo.

O ficheiro pode não ser seguido por todos os bots, mas é certamente um ponto de partida para dar algum controlo aos gestores dos sites para evitar recolhas massivas de informação.

Matt Barrie, chefe executiva do portal Freelancer, afirma que a Anthropic é uma das piores entidades a nível da recolha de dados nos websites pela internet, ignorando os bloqueios que sejam aplicados aos seus bots, e realizando a recolha massiva de informação – ao ponto de causar mesmo sobrecarga de alguns sistemas devido ao elevado volume de pedidos realizados.

Também Kyle Wiens, CEO do portal iFixIt, afirma que os bots da Anthropic encontram-se a atingir os servidores da entidade, para recolherem dados do portal de reparações de dispositivos eletrónicos. Estes bots acedem na casa das milhares de vezes no espaço de poucas horas.

No caso do portal Freelancer, a entidade terá primeiro tentado limitar os acessos do bot ao site, mas eventualmente, devido ao elevado volume de pedidos, foi necessário bloquear os bots da entidade por completo. Mesmo assim, ainda existem formas que a entidade se encontra a usar para recolher a informação, através de proxies e outros meios.

No caso do iFixit, a entidade afirma que os acessos eram de tal forma abusivos que os servidores acabavam sobrecarregados, e em muitos casos teriam de ser aplicadas medidas de limitação do acesso aos bots.

Para prevenir situações destas, muitas empresas associadas com a criação de modelos de IA procuram criar acordos para poderem aceder e usar os dados de diferentes fontes. No caso da Anthropic, porém, parece que a ideia será a de recolher o máximo de informação possível sem propriamente limitar os acessos realizados.

Adiciona no ecrã inicial!