OpenAI lança novo bot para recolha de dados na internet
Os conteúdos que são usados em plataformas de IA resultam, em muitos casos, de bots que vasculham a internet e os sites à procura de informação relevante. No entanto, isto também abre portas para alguns problemas, sobretudo para quem não pretenda que os seus sites sejam usados no treino destes modelos.
Para resolver esse problema, a OpenAI revelou o novo GPTBot. Este será o bot oficial da OpenAI usado para recolher informação da web, usando essa informação para treino dos modelos da empresa – usados no ChatGPT.
O GPTBot pode navegar por sites na internet e analisar a informação dos mesmos, com vista a melhorar consideravelmente a visibilidade de certos conteúdos e a fornecer informações mais atualizadas.
Segundo a OpenAI, o bot encontra-se focado para recolher apenas informação relevante, e irá descartar possíveis informações privadas ou sensíveis. No entanto, o lançamento deste bot também permite aos administradores dos sites terem mais controlo sobre os dados recolhidos.
Agora é possível dizer ao GPTBot para não recolher informações de um determinado site, usando, por exemplo, o robots.txt. Além disso, todos os pedidos do bot serão feitos dos IPs da empresa, que podem assim ser bloqueados caso se pretenda.
A ideia será permitir que os administradores dos sites possam ter mais controlo sobre se pretendem que os dados sejam usados para treino dos modelos da OpenAI.