Alibaba vient de lever le voile sur son IA générative nommée EMO. Celle-ci a le pouvoir d’animer vos photos avec un réalisme spectaculaire. Votre cliché portrait se transforme en clip dans lequel le sujet entonne la bande-son de votre choix.
Vos photos pourront bientôt bénéficier d’un sacré supplément d’âme. Le groupe chinois Alibaba vient de dévoiler les prouesses de son modèle d’IA nommé EMO. Celui-ci permet de générer une vidéo à partir d’un portrait où le sujet se met à parler ou à chanter avec un réalisme saisissant. Dans un long article paru il y a quelques jours, l’entreprise derrière AliExpress explique en long et en large le fonctionnement de cet outil bluffant.
Les chercheurs se sont concentrés sur “la relation dynamique et nuancée entre les signaux audio et les mouvements des visages”. D’après eux, les méthodes de génération vidéo traditionnelles échouent souvent à “capturer toutes les expressions humaines et l’unicité des styles de visage individuels”. Pour éviter ces écueils, le modèle EMO adopte “une approche novatrice de synthèse audio-vidéo, contournant le besoin de modèles 3D intermédiaires ou de repères faciaux”.
Le modèle d’IA EMO peut faire chanter le sujet d’un portrait
Après le dévoilement de Sora, qui génère des vidéos très réalistes à partir d’un prompt, le modèle EMO montre qu’il a également des arguments à faire valoir. Pour le faire fonctionner, il suffit de lui soumettre un portrait et de choisir une bande-son. EMO se chargera ensuite de fusionner le tout, animant le visage du sujet en conséquence. Voici quelques exemples :
Il est par exemple possible de faire chanter du Jul à votre grand-mère ou encore de faire entonner du Céline Dion à Napoléon. Vous pouvez également faire prononcer un discours d’Emmanuel Macron à Donald Duck ou faire déclamer l’Appel du 18 juin à votre petit frère. Le champ des possibles est très large, d’autant que le modèle fonctionne aussi avec des tableaux ou des dessins.
A lire > Les meilleurs générateurs d’images par intelligence artificielle
“Notre méthode garantit des transitions d’images fluides et une préservation cohérente de l’identité tout au long de la vidéo, aboutissant à des animations hautement expressives et réalistes”, assure Alibaba Cloud Intelligence. L’émergence d’un tel outil illustre à merveille les progrès impressionnants réalisés dans le secteur de l’intelligence artificielle générative. Il suffit d’ailleurs de comparer Emo avec Deep Nostalgia, une IA qui permet de donner vie à des photos, pour se rendre compte du chemin parcouru.
Pour l’instant, le modèle EMO n’est pas encore disponible pour le grand public. En attendant, vous pouvez toujours vous amuser avec DisCo, une IA capable de vous faire danser à partir d’une simple photo.