Microsoft revela IA capaz de converter fotos em pessoas a falar e cantar

Publicado em 21/04/2024 por Pedro Fernandes

Numa altura em que as ferramentas de IA encontram-se sobre cada vez mais pressão, por serem mais simples de usar para criar deepfakes, a Microsoft Research Asia revelou uma nova tecnologia que pode usar imagens de fotos estáticas para colocar pessoas a falar ou cantar.

A tecnologia, que usa IA como base, usa um ficheiro de áudio como base, que tanto pode ser de uma música como de alguém a falar, para criar uma versão realista da pessoa com uma foto estática a acompanhar a fala.

O sistema pode mesmo criar expressões faciais que seriam tidas em conta durante a fala ou ao cantar, e aplica as mesmas no rosto e na posição da cabeça. Embora os conteúdos sejam todos criados por IA, os exemplos apresentados pelos investigadores demonstram resultados verdadeiramente positivos, que podem enganar os mais desatentos.

No entanto, quando se analisa melhor os exemplos, é possível verificar que ainda existem situações onde a sincronização entre os conteúdos de áudio e os efeitos no rosto ou na boca encontram-se “fora do normal”.

Esta tecnologia poderia ser bastante usada para criar rapidamente deepfakes, algo que os investigadores parecem estar cientes. A tecnologia, embora tenha sido revelada, não teve detalhes a acompanhar, nem acesso a uma API ou ferramentas de exemplo para criação dos conteúdos, sendo que os investigadores afirmam que apenas pretendem fornecer a mesma nesse formato quando existir uma certeza de que os conteúdos não serão usados ilegalmente.

Ao mesmo tempo, os investigadores sublinham que vão aplicar medidas para prevenir o uso abusivo da tecnologia, com formas de identificar conteúdos deepfake criados com formato malicioso.

Adiciona no ecrã inicial!