Microsoft afirma que conteúdos na internet podem ser usados livremente para treino de IA
Numa altura em que existe uma cerrada discussão na forma como os criadores de modelos de IA recolhem dados para treino dos mesmos, a Microsoft veio deitar ainda mais gasolina na fogueira.
Numa recente entrevista realizada à MSNBC, o presidente da divisão de IA da empresa, Mustafa Suleyman, basicamente afirmou que os conteúdos que se encontram disponíveis gratuitamente na internet podem ser copiados e utilizados para o treino de modelos de IA.
Segundo Suleyman, desde 1990 que existe um acordo geral da internet, que permite o uso livre de conteúdos na mesma desde que seja com a prática de “fair use”, ou seja, de uso justo. O executivo aponta que existem apenas algumas exceções, como sites de notícias e de conteúdos protegidos por direitos de autor, onde devem existir regras na forma como os conteúdos podem ser recolhidos por decisão dos seus autores.
No entanto, em termos gerais, Suleyman considera que os conteúdos que estão na internet devem ser tratados como “freeware”, e que podem ser usados para os mais variados fins. Incluindo a possível recolha para treino de modelos de IA, que será certamente preocupante com declarações feitas por um dos principais executivos de IA da Microsoft.
O fair use é uma forma de se poder usar conteúdos protegidos por direitos de autor, desde que sejam tidas em conta algumas regras e sem que se tenha de pedir permissão para tal. Os conteúdos neste formato podem ser reproduzidos para determinados fins, mas devem manter em conta os direitos de autor originais.
Obviamente, a Microsoft tem interesse direto na recolha de dados da internet, tendo em conta que possui o seu próprio modelo de IA com o Copilot, que necessita de treinar com conteúdos de várias fontes.
Estas declarações rapidamente começaram a causar alguma controvérsia pela internet, ainda mais numa altura em que se encontra a ter em consideração a recolha de dados feita por entidades gestoras de modelos de IA, e a forma como essa recolha é feita sem grande controlo. Ao mesmo tempo, a lei ainda é imprecisa na forma como a recolha dos dados pode ser feita, e não aplica nem formas de limitar nem de remover os conteúdos depois de recolhidos, sendo que as práticas aplicadas pela maioria das empresas baseiam-se apenas no consenso geral para tais práticas – e não em algo legal.