Runway alegadamente usou vídeos do Youtube para treinar modelos de IA
A empresa Runway, criadora de serviços focados em IA generativa, encontra-se agora a ser acusada de usar milhares de vídeos do YouTube e vídeos piratas, sem autorização, para treinar os seus mais recentes modelos de IA.
De acordo com o portal 404 Media, a empresa terá obtido vários conteúdos de vídeos de fontes como o YouTube, e vários sites de pirataria, usando tal material para o treino dos seus modelos mais recentes de IA generativa.
Um funcionário da empresa terá, de forma anónima, obtido uma lista de todas as fontes de onde a entidade recolhe os conteúdos. Esta lista integra vários canais do YouTube, entre os quais encontra-se os canais da Disney, Netflix, Pixar, além de vários canais generalistas e populares da plataforma da Google.
A empresa criava uma lista de vídeos que pretenderia usar para treinar os modelos de IA, e para obter os mesmos, usava diferentes proxies para ocultar a origem da recolha. Os vídeos eram depois usados para o treino dos diferentes modelos da mesma.
Por exemplo, para termos como “super-heróis”, a empresa recolhia conteúdos de vários filmes onde os mesmos estariam presentes, usando essa informação para o treino dos modelos posteriormente.
Basicamente, a empresa usava um sistema para ocultar a sua identidade, enquanto descarregava milhares de vídeos da plataforma da Google. No entanto, a lista poderia ir ainda mais longe, e em certos casos envolvia até sites onde se encontrava conteúdo protegido por direitos de autor, com filmes completos e sites piratas.
A fonte indica que pelo menos 14 sites externos ao YouTube estariam na lista para terem conteúdos recolhidos, incluindo sites de partilha de filmes ilegalmente, e de sites de partilha de conteúdos de anime.
Usando as próprias ferramentas de criação de vídeo da Runway, com o modelo de IA mais recente, quando se pede ao sistema para criar representações de certos criadores de conteúdos ou até mesmo identidades de filmes, o mesmo cria replicações bastante similares com as existentes nesses conteúdos originais.
Esta situação não ocorre quando se usa o modelo antigo da Runway, que adota uma postura mais aleatória, e pedindo para criar conteúdos com semelhanças a determinadas pessoas ou personagens conhecidas de filmes gera conteúdos mais dispersos.
De relembrar que o YouTube já tinha indicado no passado que, usar a sua plataforma e os conteúdos da mesma para treino de modelos de IA, sem autorização da Google, é uma violação clara dos termos da plataforma. Esta ideia continua a aplicar-se atualmente, mas ainda se desconhece se a Google vai iniciar alguma investigação ao caso agora reportado.