Après les chatbots, la génération d’images et la création de vidéos, l’intelligence artificielle se dote d’un nouveau système (encore au stade expérimental) capable de générer des images à partir d’un enregistrement audio de lieu.
L’univers de l’intelligence artificielle se développe à toute vitesse. A peine un battement de paupières et des innovations basées sur l’IA sont déjà en cours de développement. Le système de chatbot utilisant des modèles de langages naturels a été l’une des premières utilisations de l’IA à grande échelle. Aujourd’hui, tout le monde se sert de ChatGPT ou Gemini pour répondre à ses questions.
Pour l’image, il en va de même, il est devenu monnaie courante de demander la création d’une image à partir d’une description. Vous pouvez demander la création d’une vidéo, ou bien solliciter l’IA pour résumer une vidéo YouTube, rédiger des articles, traduire et expliquer des textes, retoucher une image, automatiser des tâches sur votre ordinateur…
Bref, l’intelligence artificielle est utilisée dans de nombreux domaines et pour de nombreux usages.
Utilisation de l’audio pour générer des images
Il était déjà possible de converser vocalement avec votre chatbot. Il n’y a qu’un pas à franchir pour générer des images à partir de la voix et un autre pas pour que des systèmes d’IA génèrent des effets sonores correspondant à des images fixes de lieux.
Développé par des professeurs de l’université d’Austin au Texas, un “modèle de diffusion du son vers l’image” a été expérimenté et entraîné sur des clips audiovisuels de 10 secondes représentant des environnements urbains ou des lieux à la campagne.
À l’aide d’algorithmes d’apprentissage profond, le système a appris à reconnaitre les sons correspondaient à quels éléments dans les images, mais aussi quelles qualités sonores correspondaient à quels environnements visuels.
Une fois la phase d’apprentissage terminée, une centaine de sons ambiants lui a été proposée, générant ainsi une image par bande sonore et les correspondances sont plutôt bluffantes.
Pour valider l’expérience, des humains ont été chargés d’associer une image parmi 3 (dont l’une était évidemment générée par l’IA) aux différentes bandes sonores soumises à l’IA. Le taux de correspondance était de 80%.
Dans quels cas ce système pourrait trouver son utilité ? On pense évidemment à une application d’enquête médico-légales pour identifier un environnement à partir d’un enregistrement audio, mais les scientifiques pensent davantage à en tirer profit pour améliorer les aménagements urbains et donc la vie des concitoyens.