DeepMind cria modelo de IA capaz de criar sons a partir de vídeos

Publicado em 18/06/2024 por Pedro Fernandes

A divisão de Inteligência Artificial da Google, a DeepMind, acaba de revelar uma nova tecnologia que pode usar as capacidades da IA para criar som, com base em vídeos.

A ideia será usar os modelos de IA da empresa, de forma a produzir sons realistas com base em conteúdos de vídeo que sejam fornecidos.

A equipa de desenvolvimento da entidade revelou que o video-to-audio (V2A) encontra-se ainda numa fase inicial de desenvolvimento, mas a ideia é bastante promissora para plataformas de produção de conteúdos.

Este modelo pode ser adotado em plataformas como o Google Veo e o Sora da OpenAI, permitindo que a IA crie automaticamente sons com base nos vídeos. Ou seja, é possível conjugar este modelo para criar, via IA, não apenas vídeos como também aplicar sons nos mesmos.

O modelo da DeepMind é capaz de analisar os conteúdos dos vídeos, adaptar o contexto, e criar pequenas descrições das cenas, que são depois usadas para criar os sons adaptados a estas.

A DeepMind usou vários conteúdos de vídeo, áudio e criações via IA para treinar o modelo do V2A, sendo que isto permitiu à tecnologia treinar diferentes cenas e adaptar os conteúdos de sons às mesmas.

O modelo pode ainda ser adaptado com descrições feitas pelos utilizadores, para melhorar o processo de criação dos sons. No entanto, na sua base, o sistema pode funcionar de forma totalmente automática apenas com o conteúdo de vídeo original.

Os investigadores apontam que ainda existem algumas limitações da tecnologia, como é o caso de algumas mudanças na qualidade do som caso existam quebras no vídeo, bem como outras falhas. No entanto, a ideia será melhorar esta tecnologia para a conjugar com outros modelos de IA.

Adiciona no ecrã inicial!