Microsoft dévoile un outil d’IA capable de transformer une simple photo en vidéo

Antoine Barsacq , le 20 avril 2024

Microsoft dévoile VASA-1, un nouvel outil d’intelligence artificielle (IA) générative, permettant d’animer la photo d’un portrait en vidéo. Si cette technologie rappellera d’autres prédécesseurs, elle le fait à un niveau de réalisme sans précédent.

IA vidéo Microsoft VASA-1 outil générateur — Crédit : Envato

Après avoir pris le monde d’assaut en 2023 avec les générateurs d’images, l’IA investit désormais le secteur de la vidéo. Dans ce domaine, Microsoft dévoilait cette semaine un nouvel outil expérimental appelé VASA-1. Ce outil est capable de transformer une simple photo d’une personne accompagnée d’audio, pour créer un visage en train de parler ou de chanter.

Cette technologie rappellera Avatarify, l’application qui anime des photos pour les faire chanter. Le nouvel outil de Microsoft propose la même chose, mais de manière bien plus réaliste. Surtout, l’outil est capable de réaliser cette performance en temps réel. Quand Avatarify impose d’uploader une chanson et une photo, Microsoft imagine d’animer les visioconférences de cette manière.

Impressive! A few more months and I won't even need to turn on my webcam for meetings! #Microsoft #AI https://t.co/RzNDRNr18t pic.twitter.com/XKQiYTYXhl
— Rudy Huyn (@RudyHuyn) April 18, 2024

VASA-1 de Microsoft pourrait contribuer à l’essor des deepfakes

L’animation semble encore légèrement artificielle, avec des expression du visage parfois trop marquées ou une grande ouverture des yeux étrange. Toutefois, sans savoir qu’il s’agit d’une IA, il faudra se concentrer pour déterminer avec assurance qu’il ne s’agit pas là d’une véritable personne. Microsoft pourrait encore peaufiner sa copie pour produire un outil bluffant de réalisme.

Tellement bluffant que le danger est présent. En effet, cet outil à de quoi rendre les deepfakes plus compliqués à repérer qu’ils ne le sont déjà. Cette technologie pourrait être utilisée à mauvais escient pour créer facilement de fausses vidéos de personnes réelles. Ainsi les chercheurs ont décidé de ne pas publier “de démo en ligne, d’API, de produit, de détails sur son fonctionnement ou toute autre offre connexe“, avant d’être sûrs que VASA-1 “sera utilisée de manière responsable et conformément aux réglementations en vigueur“.

Cet outil mis au point par Microsoft Research Asia ne devrait donc pas être disponible avant un moment pour le public. Les chercheurs doivent encore mettre en œuvre des mesures de protection pour empêcher notamment la création de deepfakes porno. Mais pas trop non plus, sinon l’IA de Microsoft virera dans les déboires connus par celle Google, Gemini.

Du côté des applications vertueuses, les chercheurs estiment que VASA-1 pourrait notamment être utilisée pour améliorer aider les personnes ayant des difficultés de communication. Ainsi, l’IA leur donnerait accès à un avatar capable de communiquer à leur place. De même, la technologie pourrait contribuer à l’élaboration de compagnons virtuels, de la même manière que Joi dans Blade Runner 2049.

VASA-1 est un outil capable de transformer un portrait photo ou en dessin en vidéo parlante.
La technologie serait capable d’agir en temps réel avec l’audio pour proposer une animation bluffante de réalisme.
La capacité de cet outil à produire des deepfakes extrêmement ressemblants pose question.

Source : Microsoft

Microsoft

Antoine Barsacq

Twitter LinkedIn

Pratiquement né avec une manette de Nintendo64 dans les mains, j’ai rapidement préféré la souris…